中心极限定理; 伯努利大数定理; 
古典概率; 数学期望; 概率论; 
正态分布; 贝叶斯; 辛钦大数定律; 
随机过程; 非参数统计
概率论源于游戏和赌博,发展过程和数学理论密不可分。
1
概率论的起源
早期的埃及人为了忘记饥饿,经常聚集在一起玩一种叫做 “猎犬与胡狼” 的游戏,实际上就是今天的掷骰子游戏,相对面的数字之和是 7 的骰子大约产生于公元前 1400 年的埃及,骰子就是游戏中常用的随机发生器,这类游戏也叫做机会性游戏。17 世纪中叶,人们开始对机会性游戏的数学规律进行探讨。它的发展与数学史上一些伟大的名字相联系,如帕斯卡、费马、惠更斯、詹姆斯、伯努利、棣莫弗、拉普拉斯等。
1654 年,费马与帕斯卡的通信中关于分赌注问题的讨论被公认为是概率论诞生的标志。问题是这样的:“两个赌徒相约赌若干局,谁先赢 s 局就算赢了,当赌徒 A 赢 a 局 (a < s),而赌徒 B 赢 b 局(b < s) 时,赌博被迫中止,应该怎样分配赌注才合理?” 在三年后,惠根斯亦用自己的方法解决了这一问题,并写成了《论赌博中的计算》一书,这就是概率论最早的论著,他们三人提出的解法中,都首先涉及了数学期望(mathematical expectation)这一概念,并由此奠定了古典概率的基础。
2
概率论的发展
1713 年,伯努利的遗著中发表了概率论中的第一个极限定理——伯努利大数定理,即 “在多次重复独立的试验中,事件发生的频率有越来越稳定的趋势。” 这正是频率稳定性的定理形式。到了 1730 年,法国数学家棣莫弗出版的著作《分析杂论》中包含了著名的棣莫弗─拉普拉斯定理。这就是概率论中第二个基本极限定理的雏形。接着拉普拉斯在 1812 年出版的《概率的分析理论》中,首先明确地对概率作了古典的定义。另外,他又和数个数学家建立了关于正态分布及最小二乘法的理论。后来,泊松将伯努利大数定律做了推广,研究得出了一种新的分布,就是泊松分布。概率论发展到 1901 年,中心极限定理被严格的证明了,数学家们利用这一定理第一次科学地解释了为什么实际中遇到的许多随机变量近似服从以正态分布。后期的中心研究课题则集中在推广和改进伯努利大数定律及中心极限定理,比如柯尔莫戈洛夫的概率公理化结构、以几乎处处收敛定义的强大数定律、林德伯格 - 费勒中心极限定理等等,另一方面,一些数学家将兴趣逐渐转向研究随机现象随时间演变过程的规律性,衍生出另一门重要的学科——随机过程。
3
概率论的应用
目前,以概率理论作为基础的学科有很多,而最典型的莫过于统计学。各大高校非数学系本科生使用的概率统计教材都是建立在随机变量基础上的理论,很少有非数学类的学习以测度论为基础的概率理论。通过引入 “随机变量” 的定义,可以将抽象的样本空间映射到实空间中,方便我们能较好的用数学方法处理任何数据格式(比如实数数据和名义数据等)。概率论中另一个重要的定义则是“条件数学期望”,让人们在做推断的时候想到了利用经验信息(先验信息),由此发展出来的贝叶斯思想(贝叶斯统计)现在可以用到任何领域。
独立同分布场合的大数定律(辛钦大数定律)为一类参数估计奠定了理论基础,因为在简单随机抽样下得到的样本正好是独立同分布的,按照 “样本矩依概率收敛到总体矩” 的思想,矩估计方法诞生了。这正是为什么我们用样本均值去估计总体期望的原因,它也启发人们用概率论的想法构造模型从而实现数值计算,比如蒙特卡洛方法。此外,参数估计中最著名的极大似然估计方法(MLE)则是来源于对已经发生的随机事件的概率的假定,人们承认一次观察中出现的那些样本就是最有可能出现的样本,极大它的概率得到了参数的估计,MLE 是目前十分流行的参数估计方法。反过来,利用 “小概率事件在一次试验中实际不发生” 的原理,人们实现了假设检验,方差分析、相关分析、卡方检验、秩和检验等都是基本的假设检验方法。
中心极限定理则解释了为什么正态分布在统计中占有不可替代的地位,也告诉我们现实当中什么样的数据可以认为是正态的。自从高斯认为误差服从正态分布以后,到今天,在正态总体下建立的许多估计方法和检验方法非常成熟,例如回归分析、判别分析、因子分析等等。同时,在非正态总体下,许多参数估计和检验也是稳健的,基于样本均值渐近无分布的参数方法的理论基础正是中心极限定理。但是,没有参数方法适用于处理名义变量或次序数据,因此而发展起来的就是非参数统计,典型的方法如:列联表、秩检验、核密度估计、局部多项式等等。介于二者之间则是半参数统计了。
敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
编辑 | 李雅祺
继续阅读
阅读原文