神秘公式 p<0.05 支配了整个硅谷？

涵的硅谷成长笔记

每周原创有趣干货

和我一起进步吧

我过完年回来上班啦！好兴奋！！因为。。终于可以再次见到好基友Tommy了。。。

可我今儿，一打眼就发现他不对，愁眉苦脸的，就问咋滴了呢。

他说：“哎，最近又收到好多人寄来的刀片儿。。。”

原来，这是用户们在抱怨他的产品不好用呢：“这个App是脑残吗...”, “孤儿码农...”

哎，我们搞App真的很难，因为有太多太多的细节，要做决策了。有一丢丢搞不好，用户就会不开心。比如，按钮应该放在上面，还是侧面？让用户手机验证，还是密码验证？等等等等。。。

关键是人们的呼声又不一样！总自相矛盾。。。

比如你问妹子想吃啥，她嘴上说“随便”，其实她心里是想说：

这是一道送命题。。我们也很无奈啊，我们虽然工资低，但是放假少啊，心累。。。

那。。。毕竟产品总要出去，最后到底是根据啥做的决定呢？

还真不是靠产品经理拍脑袋，也不是靠码农和设计师撕逼，更不是靠高层们微信扔骰子定的。。。

其实，好多硅谷企业呢，现在都已经有了一套基于统计学的科学方法啦！

最简单地，总结起来就是一个公式：

这是TM啥？

今天就来给你爆料下，这个不是秘密的公开内幕吧！

案件重现

让你对两方案进行选择，最好方法是啥？很简单，做实验嘛。

没错，先来一个例子。

比如，你知道“颜色”对用户行为，有显著的影响吧。（不知道也不怕，我之前的文章有介绍过“颜色”在产品里的作用和背后的心理学原理，点这里：王者荣耀和LOL：真受不了没素质玩家）

于是，你现在想试试把按钮的颜色从绿色改成红色，想看看是不是有更多的人点击。

然后呢，实验开始了，你让一半儿的人看到绿色按钮，而另外一半儿的人看到的，则是红色：

实验结束后，你得到的结果是这样的：

A组，绿色：100个人看到了这个按钮，没人点击这个按钮

B组，红色：同样有100个人看到，50个人点击。。。

结论很明显，红色有效的促进了用户点击！实验成功！！

但遗憾的是，现实往往不是这样简单。。。

再来看一个例子。

你应该知道，手机的“推送通知”对挽留用户很重要吧。发一个推送，用户没准就会点开好久不用的App了！（我之前的文章也有详细介绍过优化“推送通知”的办法，点这里：网易垃圾推送让我气到围笑）

所以，你又有了一个想法，想试试，个性化通知内容，是不是有效。

于是，你分别给两组人发了不一样的推送通知。

第一组收到的是非个性的：“屠龙宝刀点就送！明星都在玩！”

第二组则有一点点个性化：“{$Name}，屠龙宝刀点就送！明星都在玩！”

好了，结果是，在发出推送的24小时内：

第一组，有95个人看到了，有4个人打开了App，但有1个人删除了你的App （可能是因为太烦了）。

第二组，有107个人看到了，有11个人打开了App，但是有3个人删除了你的App。。。

这结果就很尴尬了，喜忧参半的悖论？于是你打开了知乎，问到：

谢邀。如果只看打开率的话，那可能是第二组更好，可是第二组的删除率又上升了。

这怎么搞！

还好我们有统计学。。。

p值是啥？

这个事情，要是交给统计学家，会怎么处理呢？

他们会计算p值（p Value）。

什么意思呢？

p就是概率Probability，p值就是说：新方案根本没啥卵用的可能性。。。

咋算呢？

为了简单，咱先只看打开率。

那么第一组用户的打开率是：4/95 = 4.21%

现在问题的关键是，我们需要知道，第二组这个打开人数的增长，到底是一个【恰好】出现的偶然结果，还是真的因为“个性化”的通知内容有效而提高的呢？

要知道，很多用户即使不看通知，也会打开App的呀！

统计方法上，我们会先来一个“无效假设（Null Hypothesis）”：也就是假设“个性化”通知根本没啥卵用，于是我们有：

如果“无效假设”成立，第二组的真实打开率，那就是维持4.21%不变嘛，和第一组一样*。（*此处进行了简化，详情见文末）

那么，我们来看看，按照4.21%这个打开率，第二组出现11个人打开App的概率是多少呢？

这是一道高考送分题，答案就是：

这个值，就是p值， p = 0.0037。它代表，“个性化通知”没用任何用处的概率仅为0.0037。

其实，p值就表示了：实验结果纯属巧合的可能性。

所以p值当然是越低越好啦，那么多低是低呢？标准是啥？

硅谷各公司，普遍采用的p值标准线是0.05。

也就是，如果 p < 0.05，就代表数据有统计学显著性（Statistically Significant，口语交流时，简称"Stat-Sig"），实验结果是有意义的，无效假设将被驳回（Reject）。

你看，咱打开率的p值小于0.05，那么就可以说：“个性化”通知，对于促进用户打开App，有效。

（这就是p值小于0.05的感觉）

我们再回过头来，看看两组删除率的p值，经过计算，我们得出p = 0.1795，大于0.05，也就是说，删除率上升，纯属偶然！

这下好啦！！产品决策清晰了！

相比原来的非个性化推送，我们发现个性化的推送打开率有显著性提升，而删除率则没有显著的统计学差异。

于是，你们欢快地决定：上线“个性化推送”功能！！ PM今晚请大家吃鸡！！

A/B测试

上面提到的，整个新产品的验证过程，被称之为“A/B Test”（AB测试）。A和B就是指，实验里的两个组。

AB测试是最最简单的工具啦，实际工作中会遇到更多的奇葩情况，那“A/B Test”可就不够了。比如，涉及到两个用户以上的社交功能，还有涉及到“钱“的情况等等，这些我以后再讲。。。

可以说，硅谷就是由实验驱动着的。无论是一个小小的UI变动，还是推荐算法模型的升级，都会进行一次实验。因为实在是太常用了，很多大型App里，往往同时运行着超级多的实验。

为了提高效率，各厂们都纷纷开发了，专门的实验工具和分析系统，让人们快速使用。

比如：

Google旗下Analytics产品的Content Experiments工具：

他可以快速的通过UI创建一个实验，还能在运行时，利用Multi-armed bandit算法，自动调整并分配流量比例，到不同的用户组，以加快实验速度。结束后，还会自动生成报表。

Uber的实验平台XP：

XP不仅是实验和分析工具，还帮助Uber安全上线和部署新功能，实时观测数据。

Airbnb的实验框架 ERF（Experimentation Reporting Framework）：

ERF的交互设计非常好，还提供了美观的报表系统，p值一目了然：

Netflix的跨平台实验工具ABlaze：

他有着跨平台的优良特性。要知道，其实Netflix的压力非常大。数据发现，如果用户不能在90秒内找到自己喜欢的影片，他们就会关掉App。借助ABlaze，Netflix得以快速迭代产品，以便满足全球超过一亿用户的观影需求。

其实，这里还是要提一句，硅谷各企业的产品决策，绝对不是只考虑“p<0.05”这么简单啦。

这里也仅是出于科普的目的，对实际情况进行了极大的简化。

比如，当年“扁平化设计”刚出的时候，通过数据来看，用户肯定不满意，觉得丑。但是苹果，偏是不听呢～就要上线，就要上线，就要上线～最后你看，用户乃至业界还不都是被成功的教育了。

更进一步

你可能会问，为啥这些硅谷企业都选0.05这个数字呢？

答案就是：

嗯。。。其实这个真的就只是一个约定俗称的数值而已。

Tommy告诉我，提出这个值的人，还是和英国有关。这是几十年前，英国统计学家Ronald Fisher提出来的，后人沿用了而已。

当然，很多产品为了更加可靠，也会使用更低的p值, 比如0.01。

不仅仅是硅谷这样的工业界啦，在学术界，尤其是统计学支撑的学科，比如心理学，生物医学甚至经济学，“p < 0.05”早就被当作常识一样了。

比如，医学领域，有人提出了一种新药。想知道这种新药的效果，那就要进行实验了。简单来讲，他们会找到一些病人，随机的分成两组，比如每组20个人。

双盲测试：医生和患者都不知道分组情况

一组人，作为测试组，会按时吃这种新药。而另一组则是控制组，不会吃这种药。

当然了，也不是啥也不吃。他们会被要求随便吃点啥，比如吃淀粉片，这东西被称为“安慰剂”。

因为心里作用也会影响治疗效果，所以不能让他们知道其实他们吃的东西没啥用嘛。吃安慰剂，就能保证他们不知道自己被分到了控制组。

实验结束之后，会看看哪组人治愈率更高，这个时候就要进行p值的计算来进行检验了。

我也是从身边好多医学生物学博士朋友那里知道的：他们经常说，科研狗奋斗一生，就为了那0.05，其实硅谷的码农们又何尝不是呀～

(妹子，你的p值一定大于0.05，

因为我无法拒绝你)

后记

我告诉Tommy，你看“p < 0.05”对吧，这就意味着，概率上来讲，咱们每上线20个产品，其实就会有一个产品是垃圾。。。所以，别难过了，你可能就。。。恰好是那个垃圾。。。

然后Tommy把我打了一顿 :)

---

*文中p值计算过程并不完全准确哈，而是为了可读性，进行了简化。因为第一组的4.21%也不能代表真实情况。这里其实是在比较两个样本的分布。特此大感谢我的数据科学家同事+朋友Cora帮我Review～实际比较复杂，比如先看成是一个正太分布，然后计算一堆值，再。。不说了，你去看统计学课本吧。。但是告诉你一个小秘密，已经有很多开源在线工具可以帮你计算p值了: （可见对于文中的例子，打开率p值可以为0.0453。）

ref:

https://en.wikipedia.org/wiki/P-value

https://support.google.com/analytics/answer/1745152?hl=en&ref_topic=1745207

https://eng.uber.com/experimentation-platform/

https://medium.com/airbnb-engineering/experiment-reporting-framework-4e3fcd29e6c0

https://taplytics.com/blog/how-to-experiment-like-facebook-and-netflix-by-adopting-the-10000-experiment-rule/

https://abtestguide.com/calc/ (免费计算p值的工具)

涵的硅谷成长笔记

每周原创有趣干货

和我一起进步吧

你可能还喜欢的统计学相关文章

我在facebook刚工作就装x失败...只因不懂统计学？

点击“阅读原文”查看更多历史文章

继续阅读

最新评论

推荐文章

作者最新文章

你可能感兴趣的文章

Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].

版权声明：以上内容为用户推荐收藏至CareerEngine平台，其内容（含文字、图片、视频、音频等）及知识版权均属用户或用户转发自的第三方网站，如涉嫌侵权，请通知[email protected]进行信息删除。如需查看信息来源，请点击“查看原文”。如需洽谈其它事宜，请联系[email protected]。