在投资领域,除了定性判断外,要用到大量的定量分析,简单如均值的计算,复杂如深度学习,都离不开概率与统计的范畴。在应用统计描述复杂的经济现象时,会有很多近似与取舍,因而很难保证最终使用的指标真能抓住事物的本质,很多时候一些指标还会造成错觉,甚至导致错误判断。
图/视觉中国
作者范华,宏时资本首席投资官,路闻卓立研究院院长,兼中国财富管理50人论坛首席专家、香山财富研究院学术理事。先后在高盛公司11年、中投公司工作10年,从事资产配置和多资产绝对收益的投资,曾任中投公司资产配置部、债券与绝对收益部总监、高盛全球风险模型部主管。2014年,被《亚洲投资者》杂志评为资产管理行业25位最有影响力的女性之一。2015年被“100 Women in Hedge Funds”授予行业领导力奖。2013-15年,带领团队连续在《机构投资者》杂志对冲基金行业主权财富基金类获奖。
正文如下:
概率论起源于中世纪欧洲盛行的掷骰子赌博,并被数学家们发扬光大,揭示随机现象背后隐藏的规律。统计学是在概率论基础上发展出来的具有方法论性质的应用性科学,用以研究如何采集和整理反映事物总体信息的数字资料,并依据这些复杂的数据,也叫样本,对总体的特征和现象背后隐藏的规律进行分析和推断。
现在概率和统计已经发展成为数学领域里一个充满活力的学科,在多个领域应用广泛。《时间机器》(The Time Machine)的作者H.G.Wells很早就预言:“统计思维有一天将和读写能力一样,成为公民的必备技能(Statistical thinking will one day be as necessary a qualification for efficient citizenship as the ability to read and write)。”在数据爆炸的21世纪,这一天已为时不远。在投资领域,除了定性判断外,要用到大量的定量分析,简单如均值的计算,复杂如深度学习,都离不开概率与统计的范畴。在应用统计描述复杂的经济现象时,会有很多近似与取舍,因而很难保证最终使用的指标真能抓住事物的本质,很多时候一些指标还会造成错觉,甚至导致错误判断。本文就来介绍几个投资中常见的统计陷阱。
1.  均值、中位数与分布
对于一个样本来说,最简单的统计指标当属均值。正态分布的均值(Mean)和样本的中位数(Median)、众数(Mode,样本中出现最多的数值)是相同的。但对于其他分布来说就不一定了。例如多数机构的员工薪酬更接近指数分布,多数人工资较低,少数高管或贡献重大的员工薪酬可能是普通员工的数十倍甚至上百倍。这些机构的平均薪酬远高于员工薪酬的中位数。每年华尔街投行公布员工平均收入时,都会让多数人深受打击,日日夜夜的辛苦奋斗还赚不到平均薪酬。
在考虑投资业绩的可持续性时,私募股权(PE)和风险投资(VC)的项目回报分布很重要。大家通常不希望看到一个明星项目异常成功,而大多数项目血本无归,这样的基金虽然组合层面呈现出来的平均回报看起来不错,但可持续性堪忧。Nassim Taleb在《Fooled by Randomness》一书中讲过:持续的小的成功更可能是靠能力,而少数大的成功多半是运气好(“Mild Success is skills while wild success is variance and randomness”)。
另外一个容易出现陷阱的视角是如何看跨时间的回报。采用成立以来的年化平均回报是有可能误导判断的:因为有些基金在成立之初、规模小、风险水平高,业绩优异;但随着规模上升,风险水平降低,或者原有的α策略容量有限,不能复制初期的回报。所以要分析当前的市场环境和当前的基金状况来判断投资策略的可持续性。
2.  投资中的随机性
有这样一个营销策略:每个月初XYZ公司向100万个潜在客户发布这个月股票会涨还是会跌的预测,其中50万个人收到看涨的预测,另外50万个收到看跌的预测。一个月后,如果股票涨了,就继续向之前收到50万个看涨预测的人继续发布预测,对其中25万人说看涨,对另外25万人说看跌。第二个月后,继续向收到正确预测的25万人发…以此类推,10个月后,大概还能有1000个人收到正确预测,而且收到正确预测的人收到的是过去10个月完美的预测记录!他们不知道其他人收到的预测,但如果只是凭他们所获得的预测结果,他们会更愿意相信XYZ公司的能力,尝试委托XYZ公司进行投资。但是如果他们了解预测的过程,了解这个营销策略,就不会相信这样的预测有任何价值了。
与之相似的是,巴菲特(Warren Buffett)在《聪明的投资者》第四版的附录中,描述了一场225亿美国人每人每天拿出1美元来参加的掷硬币比赛。第一天,猜对的方从猜错的一方手中赢得1美元,第二天继续猜,以此类推。10天后,有22万人连续猜对10次,赢了1000美元。“他们可能尽量表現得十分谦虚,但在鸡尾酒会上,为了吸引异性的好感,他们偶尔会吹自己在猜硬币上如何技术高超,天才过人。”又过了10天,连续猜对20次的人减少到215位,每人赢得100万美元。他们很可能会写本名为《我如何每天早上工作30秒就在20天里用1美元赚到100万美元》的书,然后开研讨班卖票。听起来似曾相识吧?
橡树资本董事长Howard Marks在《投资最重要的事》中引用了这个例子并做出评论:“由此可见,很少有人充分意识到随机性对于投资业绩的贡献(或破坏)。因此,迄今为止所有成功策略背后所潜伏的危险常常都被低估了。
3.  累计回报的迷惑性
其实预测是非常困难的,除非我们有水晶球。幻想一下如果我们真的有水晶球,可以每个月正确判断股票是否优于债券,那么假设从1990年我们投资1万块钱,在预测股市会涨时投资股票,否则就投资债券,使用历史数据计算一下,到2017年这1万块钱就可以变成1478万。退一步看,如果我们只是每年都看准,这1万块钱可以变成38万,也就是下图中橙色的曲线。而现实生活中,完美的预测几乎没有人能够做到:不做择时的50%股票/50%债券策略可以赚到6万块钱(灰线),介于股票和债券之间;全球宏观策略管理人做到了14万(黄线)。黄线的最终净值比灰线好那么多,我们是否应该投资全球宏观管理人呢?答案因不同时点进入而不同。
让我们来看看跨越金融危机的十年、危机后和2015-17的三年(见下表),故事是不一样的:宏观基金不仅比完美择时的策略相距甚远,而且比不上不择时的50/50组合!这也说明累计回报图的起始点选择非常重要,可以给人片面的印象。考察组合回报时,使用滚动回报更容易了解全貌。
4.  辛普森悖论
1951年英国统计学家在论文中对于分组占据优势、而在总样本层面失势的现象给予理论解释,后人就把这一现象称为“辛普森悖论(Simpson’s Paradox)”。举例来看,医药公司A和B推出了各自的癌症特效药,通过100人的临床试验对比其疗效,A公司药的治愈率是35%,B公司药是48%。人们是否都应该去买B公司的药呢?不一定,下表是按照有无遗传病史的人群分类后的试验结果统计:可以看出,对于有或没有遗传病史的两类人来说,A公司的药治愈率都高于B公司。所以无论是有遗传病史或无遗传病史的人,都会选择购买A公司的药。
5.  存活偏差
很多机构投资者在选聘管理人时通常从行业数据库出发,根据历史数据决定是否选取管理人。由于这些数据库通常是管理人自主报告的,所以存在着存活偏差(Survivorship Bias)!因为当管理人业绩不好、并遭受大规模赎回时,整个机构很可能持续不下去,也就没有动力继续向数据库报告业绩。这就使得数据库中的基金业绩通常不包含清盘管理人的最后一部分业绩。这一现象可以从基金业绩和组合基金业绩的对比中看出来。以HFRI对冲基金指数为例,HFRI基金指数(HFRI Fund Weighted Composite Index)是所有基金自主申报的行业指数,业绩通常高于HFRI FoF指数(HFRI FoF Composite Index)。这中间有FoF收取管理费的影响,但是按说管理组合基金的都是专业人士,应该比行业平均管理的效果更佳才对。实际情况是他们在具体投资中的涉及清盘的基金时,其业绩反映在组合的整体业绩中,而这些基金的最后几个月的较差回报是没有体现在行业指数中的。我们在下表对比了两个指数2017年之前3年、5年和10年的业绩。10年的周期涵盖2008年大量对冲基金清盘的区间,存活偏差较为明显。这主要是因为,HFRI 基金指数只包含了清盘基金截至其自愿提供回报时点的部分,HFRI FoF 指数包含了这些清盘基金到投资者收回投资时点的实际损失,而这部分损失是投资者不得不承担的(因为清盘需要时间,危机时很多基金设了Gate,延缓了投资者拿回投资的时间)!
6.  抽样陷阱
1)数据采集的偏差
在做抽样调查时,如果数据的采集缺乏代表性,可能导致错误的结论,竞选中的民意调查就是很好的例子。在1936年美国大选中,著名杂志 《文学文摘》发放了1000万份问卷调查,回收了大约230万份,这在当时是很大的样本数量了。依据问卷调查结果,他们预测共和党候选人兰登将以57%对43%的绝对优势大胜罗斯福。但最终大选结果是罗斯福总统以62.5%的得票率获胜连任,击败了共和党候选人兰登。选举后不久,《文学文摘》由于这一重大丑闻就倒闭了。《文学文摘》的预测为什么会失败?问题就出在抽样调查样本的代表性有严重偏差。首先,该杂志寄出了大约一千万份问卷,选择的对象主要来自杂志的订户和一些俱乐部的会员,还有一说是从电话号码筛选出来的,这些人大都相对比较富裕(当年能装电话的人都属于富裕阶层)。当时美国刚从经济大萧条中恢复,富人比较倾向支持兰登,而穷人较多倾向支持罗斯福。
与之形成鲜明对比的是1935年才由美国统计学家Gallup创立的美国民意研究所,只用了5万多个调查问卷,便成功预测了罗斯福会赢得大选(尽管后来实际得票率比预测高了约7%)。Gallup采用的办法就是分层随机抽样。分层随机抽样,可以避免对样本来源集中于某一群体,能够更客观地反映全体投票者的倾向。他本人也被视为大选民调科学化的代表性人物,并留下了这样的名言:“抽样民意调查就是那根给‘民主脉搏’把脉的手指。
时过境迁,2016年Trump-Hilary(特朗普—希拉里)选举时,民调机构又出现了误判。具体什么原因,众说纷纭。一说还是跟电话有关,有人认为有些民调是电话访谈,忽视了只用手机在大城市打拼的年轻人群体。另一说是投票率的问题,2016年选举的投票率低到了惊人的56.4%。被调查样本中支持Hilary的群体没有Trump的铁杆粉丝投票率高。甚至还有人猜测调查对象回答不实,因为不愿意在朋友面前承认支持Trump!这种可能性不好评判,但下面这种方式可以增加获取真实答案的可能性。
2)贝叶斯(Bayes)公式在敏感问题调查上的应用
设想要对公民逃税现象进行社会调查:如果直接就此问题进行问卷调查,也就是要你直说你是否逃税,即使这样的调查是无记名的,也会使被调查者感到尴尬。设计如下方案可使被调查者更愿意做出真实的回答:在一个箱子里放进1个黑球和1个白球。被调查者在摸到球后记住颜色并立刻将球放回,然后根据球的颜色是黑或白分别回答问题:如果是黑球,就回答“你的生日是否在7月1日以前”;如果是白球,就回答“你是否有逃税行为”。回答时只要在一张预备好的白纸上打√或打×,分别表示是或否。这样答题者就没有了因为打√而承认逃税的压力,因为他打√也可能是因为出生在上半年。假定被调查者有20000人,统计出有8000个√。试问,有逃税行为的比率大概是多少?已知黑球和白球出现的概率是P(黑)= P(白)=0.5,摸到黑球的人中出生在上半年的概率P(√|黑)=0.5,全部样本中打√的人的概率P(√)=8000/20000=0.4, 求条件概率 P(√|白),也就是摸到白球的人逃税的概率是多少。用Bayes公式算出的答案是30%[1]
投资中的统计问题还有很多,我们在线下培训中会有更多涉及。印度裔统计学家C.R.Rao说关于世界的评论非常适用于投资:“如果事件完全不可预测的随机发生,我们的生活是无法忍受的;反之,如果每一件事都是确定的、完全可以预测的,那么我们的生活将是无趣的。”如果把数据比喻成21世纪武士手中的剑[2],那么统计就是武功秘籍啦。(完)

[1] P(黑|√)= P(√|黑) * P(黑) / P(√)=0.5*0.5/0.4=0.625,P(白|√)=1- P(黑|√) =1-0.625=0.375,P(√|白)= P(白|√) *P(√)/P(白)=0.375*0.4/0.5=0.3.
[2] 谷歌的Jonathan Rosenberg:“Data is the sword of the 21st century, those who wield it well, the Samurai。
喜欢本文就请点一个在看吧
继续阅读
阅读原文