终于有人把正态分布和二八法则讲明白了

导读：在现实生活中，绝大多数的随机不是均匀分布的。

作者：徐晟

来源：大数据DT（ID：hzdashuju）

如果你是一位程序员，编程时就一定用过随机（random）函数。它的功能是在特定取值范围内随机生成一些数。这个函数在很多编程语言中是预置的，可以直接调用。

例如，要从1到100之间随机生成一个整数，写程序时就要事先定义一个1到100的取值范围，然后调用随机函数，得到一个该取值范围内等概率的随机数，就是说这100个数中出现任何数字的概率都是1/100。

用惯了随机函数的程序员会误以为“随机”就代表了均匀分布的数据，即等概率事件。这是一个误区。在现实生活中，绝大多数的随机不是均匀分布的。

举个例子，我们知道抛硬币正反两面朝上的概率各有一半，但如果你真的抛上10次硬币，就会发现硬币正好有5次正面朝上的概率既不是50%，也不是10%，而是在25%左右。因为在自然界中，最普遍的“随机”是正态分布（也称为高斯分布），其分布曲线呈“钟形”，如图1-1所示。

▲图1-1 正态分布数学函数图

正态分布是一组数据在正常状态下的概率分布。描述这种分布只需要两个参数：一是这组数据的平均值，通常用希腊字母μ来表示，它位于函数图像正中间的坐标位置。二是标准差，通常用希腊字母σ来表示，它代表了这组数据的离散程度。标准差越小，数据就越集中，反之说明数据越分散。

假如一组数据服从正态分布，根据分布特性，其中有68%的数会集中在平均值正负1个标准差区间内，有95%的数会集中在平均值正负2个标准差区间内，有99.7%的数会集中在平均值正负3个标准差区间内。由于3个标准差的区间几乎涵盖了大部分数据，因此它在数学中有着非常广泛的运用，适用于很多场景下的推导和估计。

概括地讲，正态分布说明了“一般的很多，极端的很少”的现象。这种现象生活中很常见。比如，大部分人的身高都在一个区间范围内，太高或太矮的人不多。仔细观察身边的人，可以发现非常聪明或者非常愚笨的人很少。统计全社会范围内的收入，中档次收入的人比较多，特别贫穷和特别富裕的人较少。

人们常说的二八法则（也称帕累托法则），只是换种方式来描述正态分布现象。二八法则告诉我们，20%的富人拥有世界上80%的财富；只要掌握字典中20%的文字就能理解文章80%的内容；20%的超大城市中居住了80%的人口，等等。

正态分布的特性还有其他广泛应用。我们知道，利用多次抽样可以从相对较少的数据中得出令人信服的总体结论。比如只要调研100个人，就能大致了解人类普遍的心理认知。只要抽查100件商品，就能得出这批次商品的质量结论。

这些民意调查、商品抽样，都在运用抽样样本对总体进行估计，其背后的数学原理是中心极限定理。中心极限定理从理论上证明了，无论随机变量总体呈现什么分布，只要抽样次数足够大，样本的平均值将近似服从正态分布。

也就是说，虽然每个人或者每件商品都会受到大量随机因素的影响，这些因素会对最终状态产生一定影响，但我们不必关心这些因素的细节，而只要把人或商品看成一个整体。该整体的统计规律服从正态分布。

而上述这些情况，才是真实世界中的“随机”。

关于作者：徐晟，某商业银行IT技术主管，毕业于上海交通大学，从事IT技术领域工作十余年，对科技发展、人工智能有自己独到的见解，专注于智能运维（AIOps）、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能：一书看透AI的底层运行逻辑》，经出版方授权发布。（ISBN：9787111696193）

《大话机器智能：一书看透AI的底层运行逻辑》

点击上图了解及购买

转载请联系微信：DoctorData

推荐语：AI是什么？机器如何拥有“智能”？“智能”如何起作用？本书以通俗易懂的方式，勾勒人工智能的全貌，展现AI的底层运行逻辑，即AI是如何工作的。

划重点👇

干货直达👇

更多精彩👇

在公众号对话框输入以下关键词

查看更多优质内容！

读书 | 书单 | 干货|讲明白|神操作 | 手把手

大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G|中台 | 用户画像| 数学 | 算法 | 数字孪生

据统计，99%的大咖都关注了这个公众号

👇

继续阅读

阅读原文

关键词

正态分布

数据

函数

标准差

概率