首发于“人神共奋(ID:tongyipaocha)”微信公众号
每周二原创:职场学习类干货
再谈“贝叶斯算法”
1/4
亲手算一算概率
假设你在新冠抗原测试中发现结果为“二道杠”,你知道自己中招的概率有多高吗?
通过之前的大量的“假阴性和假阳性”的科普报道,你大概已经知道,假阳性的比例还不小,但我建议你还是应该用科学的方法自己亲手算一算,才能更深地理解概率的特点。
这个方法就是我上一篇文章《职场恋情成功的概率有多大?这个算法告诉你》中介绍的“贝叶斯算法”。
在人工智能大数据的时代,无论如何强调这个算法的重要性都不为过,它是一种经验推理,可以评估一个走进商店的人最终购物的概率;也是机器学习方法,可以推测网络那边的人喜欢看什么视频。
它更是一种重要的思维方式,帮助你从一个反直觉的角度认清这个世界,所以我不但把它列为“99种思维模型”的第12种,还写了本文作为第二篇介绍。
为了让没有看过第一篇的同学理解这个算法,我先用这个抗原测试的“假阳性”为例,展示一下这个计算的详细过程——同样只用图解,不用数学符号。
2/4
假阴性与假阳性
“贝叶斯算法”的第一步,首先要知道“先验概率”——你可能已经被感染的概率有多大?
“先验概率”就是凭感觉凭经验先估算一个概率,对于疾病检测试剂而言,就是该病的发病率。
假定你在上海,按照之前的累计人数,加上可能已经自愈的,差不多是4%的感染率,于是得到下图:左侧代表你实际已经感染的概率,为4%,右侧为你实际上并没有感染的概率,为96%:
根据国家标准,假设你使用的抗原敏感性为80%,特异性为97%,这两个指标代表上面两种人群的“条件概率”。
“敏感性80%”的意思是,在100个实际感染的人(左侧人群)中,抗原检测能够检出80个阳性,这就是左上角的概率,很容易计算出“实际感染并测出阳性结果的人”在所有检测人群的概率。
计算公式为:4%*80%=3.3%
但还有10个实际感染的人,抗原检测结果为阴性(即“假阴性”),这就是左下角的概率:
实际感染并测出阴性结果的人,总概率为:4%*20%=0.8%
再来看 “特异性为97%”,意思是,在100个实际为健康人(右侧人群)中,抗原检测能够检出97个阴性,即右下角:
“实际健康并测出阴性结果”的概率为:96%*97%=93.12%
健康人(右侧人群)中还有另外3%的人,抗原却检出阳性,右上角的概率:
“实际健康并测出阳性结果”(即“假阳性”)的概率为:96%*3%=2.88%
四块加起来一共100%,计算结果无误,那么,就可以看一看前面的问题了:
因为结果是“二道杠”,所以,先去掉下面的两类“一道杠”人群,只看上面的两类人。
中招的就是左上角的人,其实际概率为:3.2%/(3.2%+2.88%)=52.6%
为什么高达47.4%的假阳性,仍然要大规模使用呢?因为它的“假阴性”比较低。
按照上面的方法,假阴性就是上图的下面的两个方块的人群中,实际已感染(左下方)人群占比:
0.8%/(0.8%+93.12%)=0.85%
既然抗原假阳性很高,为什么国外基本以抗原测试为主呢?问题就在于那个先验概率——感染率。
国外很多城市的实际感染率很高,假定为30%,同样指标的抗原试剂,其“假阳性”的概率就下降到2.1%/(24%+2.1%)=8%。
不过随之而来的问题是,“假阴性”的概率大大提高到8.1%。
总结一下,同样指标的试剂(包括核酸),实际感染性越高,假阳性就越低,假阴性就越高;实际感染性越低,假阳性就越高,假阴性就越低。
比如说,大部分癌症筛查都要求在高危人群中进行,正是因为癌症的总发病率是一个极低的数字(远远低于新冠感染性),如果用于一般人群,将会发生大量“假阳性”,让人虚惊一场。
概率其实是一个严谨的数学描述:某一随机事件A在所有样本空间S中的比例P。
所以上面的概率,如果完整的叙述,应该是:
如果你在上海,使用的抗原试剂的敏感性80%,特异性97%,结果为“阳性”时,你实际中招的概率仅为52.6%。
语言有模糊性,常常省略了“样本空间”,导致了我们经常把不同样本空间的概率混为一谈,就像总人群和高危人群是两个不同的样本空间,就会造成对概率的误读。
比如说,你是一个股民,有一个人跟你说,我找到一个指标,选涨停股的概率非常高,你只要付出XXX元,就可以得到它。
这里就隐藏着一个概率描述的陷阱。
3/4
涨停指标与ROE
你满怀希望地付了钱,老师告诉你这个指标,并且挑出今天涨停的股票,你发现80%都出现了这个指标,于是你满心欢喜的开始投资……
结果一个星期下来,亏损累累。
为什么老师展示的时候很有效,你用起来就这么别扭呢?让我们用“贝叶斯方法”来描述一下其中的几个概率。
任意一天,涨停股票都是少数,假设现在是大牛市,4000支股票每天有160支涨停,即为4%。
按前面的描述,这些涨停的股票(以左侧为样本空间)前一天出现该信号(事件)的条件概率为80%,则整体概率(以全部股票为样本空间)为
4%*80%=3.2%(左上角)
而问题在于,使用该指标时你才发现,没有涨停的股票(以右侧为样本空间),竟然也有一半出现了这个信号(事件),条件概率为50%,则整体概率为:
96%*50%=48%(右上角)
结果,在所有出现该信号的股票中(以上面两方块为样本空间),涨停(事件)的概率仅为:
3.2%/(3.2%+48%)=6.25%
实际上,这并不是什么“涨停指标”,而是一个常见的判断强弱势指标,所以在涨停的股票中出现的概率异常之高,因此被骗子拿来当成涨停指标。
因为涨停本身是一个小概率事件,导致这个指标并不能有效提高抓涨停板的概率。再加上,涨停股有一个特点,不能继续涨停,就很容易连续下跌,最终反而更容易亏损。
分析技术指标的书,特别喜欢“概率偷换”,利用很多人对概率理解不够严谨的问题,把“样本空间”和“事件”偷偷进行调换,用“上涨的股票(样本空间)中,出现该指标(事件)”的概率,去偷换“出现该指标的股票(样本空间)中,最终上涨(事件)”的概率。
技术指标都是短线,效果容易评估,很容易发现概率被偷换了,但对于长线价值投资而言,很多理念中也有类似的“概率偷换”问题,造成的损害往往难以纠正。
比如巴菲特特别推荐的指标——ROE。
很多人都会告诉你,一些长期走牛的股票(样本空间)几乎都是高ROE(事件)的股票,这一点很容易验证,去年十年涨了十倍的股票,去年平均ROE为20%,80%的公司近几年平均ROE都在15%以上。
但我们的目标是找“能涨的公司”,需要的概率是反过来的——高ROE的股票(样本空间)是否有更高的上涨(事件)概率呢?
有一本经典的复盘数据书《投资策略实战分析》,通过对美股1964-2009年45年数据的回测,分析了大部分经典策略的有效性,其中就包括了ROE指标。
作者选择了每年最高ROE的前10%的公司作为组合,与所有股票的投资进行回报率的比较,结果是“最高ROE组合”的年复合收益率为12.29%,仅仅略高于所有股票组合的11.22%,夏普比率(考虑了回撤因素的收益率)为0.35,仅略高于所有股票的0.33。
回测也显示了“高ROE策略”的很多问题,比如它的最大震幅为-63.88%,高于所有股票的-55%,这种持有体验,很容易让人在低位割肉。究其原因,我认为是高ROE公司都是比较知名的公司,很容易在牛市被过度高估。
很明显,“高ROE公司跑赢大盘”的概率没有“跑赢大盘的公司是高ROE”的概率高,问题出在哪儿呢?
进一步分析,作者把大盘股单拎出来,发现高ROE的大盘股的年复合收益率和夏普比率为9.52%和0.26,低于所有大盘股组合的10.2%和0.32——特别是夏普比率的差距有点大。
原因就很明显了,之所以高ROE策略的收益只是略微好一点,并没有传说的那么神奇,是因为其中的“大盘高ROE股票”表现不佳,反过来说,小盘高ROE是一个有效的选股策略。
基于这个数据,不难猜测其中的原因,大公司总是小公司成长而来,ROE代表企业经营水平,高ROE的小公司更有可能发展成大公司,并保持高ROE,这就让我们产生高ROE出牛股的错觉——这同样是混淆了“样本空间”和“事件”的结果。
而散户熟悉的那些高ROE公司大多是高知名度大盘股,导致这个指标很难让散户赚到钱。
无论是“假阳性”,还是“涨停指标”,概率都依赖于样本空间,而样本空间与我们知道的信息有关,所以概率有一个违反直觉的特点——它并不是一个客观中立的数据。
4/4
一切都是概率
关于概率,我们大概都听过这样的狡辩:没有什么上涨概率,涨了,就是100%,跌了,就是0%。
严格地说,这句话并没有错,你知道的信息越多,概率就会越趋向0%或100%。
比如说,天气预报说“明天我市有70%的降水概率”,这句话的意思说是:100天这样的气象条件里,70天有降雨。
假设第二天早上是个大晴天,而且万里无云,今天的降水概率还是70%吗?
如果你觉得还是,那么如果到晚上11点59分还没有下雨?概率还是70%吗?
概率改变的原因在于“样本空间”,所有你所知道的信息,都会改变样本空间,也就改变了概率。
从一副去掉大小王的扑克中,任意抽取一张,花色为“黑桃”的概率为25%,这没有问题。
但有人看了一眼牌,告诉你,这张牌不是红色的——这个信息改变了样本空间,等于去掉了所有的红牌,概率于是上升到50%。
但你说,不对,这张牌为“黑桃”的概率是0%,因为你还知道一个信息——这个人今天说的每一句都是谎言——这也是一个改变样本空间的信息。
还记得我之前写过的“三门问题”吗?现在你可以从样本空间的角度,用“贝叶斯算法”重新算一遍,为什么选择“换门”,选中车的概率就从1/3上升到2/3?
前面的案例中,一个得了“二道杠”的人,在不同城市,“假阳性”的概率也完全不同,而且无论怎么测,都有误诊的可能,即使是用核酸,二次复核,仍然有极小的误诊概率。
纯粹从客观角度看,你要么正常,要么被感染,不是100%,就是0%,但实际上,没有任何方法可以100%的还原客观情况,结果永远是一个概率。
从哲学的角度想,客观世界存在但无法还原,我们所有的认知都是基于概率。
与“思维模型”相关的文章
人神
共奋
颠覆你对职场的看法
长按识别二维码关注我们
继续阅读
阅读原文