卡方分布与卡方检验

本文转载自CSDN
sselssbh的卡方分布与卡方检验
https://blog.csdn.net/bitcarmanlee/article/details/52279907

阅读大概需要6分钟

卡方分布

卡方分布(chi-square distribution,-distribution)是概率统计里常用的一种概率分布，也是统计推断里应用最广泛的概率分布之一，在假设检验与置信区间的计算中经常能见到卡方分布的身影。

我们先来看看卡方分布的定义：

若k个独立的随机变量Z1,Z2,⋯,Zk，且符合标准正态分布N(0,1)，则这k个随机变量的平方和

为服从自由度为k的卡方分布，记为：

也可以记为：

卡方分布的期望与方差分为为：

其中n为卡方分布的自由度。

卡方检验

χ2检验是以χ2分布为基础的一种假设检验方法，主要用于分类变量。其基本思想是根据样本数据推断总体的分布与期望分布是否有显著性差异，或者推断两个分类变量是否相关或者独立。

一般可以设原假设为 H0：观察频数与期望频数没有差异，或者两个变量相互独立不相关。

实际应用中，我们先假设H0成立，计算出χ2的值，χ2表示观察值与理论值之间的偏离程度。根据χ2分布，χ2统计量以及自由度，可以确定在H0成立的情况下获得当前统计量以及更极端情况的概率p。如果p很小，说明观察值与理论值的偏离程度大，应该拒绝原假设。否则不能拒绝原假设。

χ2的计算公式为：

其中，A为实际值，T为理论值。

χ2用于衡量实际值与理论值的差异程度，这也是卡方检验的核心思想。χ2包含了以下两个信息：

1.实际值与理论值偏差的绝对大小。

2.差异程度与理论值的相对大小。

卡方检验做特征选择

卡方检验经常被用来做特征选择。举个网络上的例子，假设我们有一堆新闻标题，需要判断标题中包含某个词（比如吴亦凡）是否与该条新闻的类别归属（比如娱乐）是否有关，我们只需要简单统计就可以获得这样的一个四格表：

通过这个四格表我们得到的第一个信息是：标题是否包含吴亦凡确实对新闻是否属于娱乐有统计上的差别，包含吴亦凡的新闻属于娱乐的比例更高，但我们还无法排除这个差别是否由于抽样误差导致。那么首先假设标题是否包含吴亦凡与新闻是否属于娱乐是独立无关的，随机抽取一条新闻标题，属于娱乐类别的概率是：(19 + 34) / (19 + 34 + 24 +10) = 60.9%

理论值的四格表为：