公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!
来自 | 知乎
地址 | https://zhuanlan.zhihu.com/p/34261803
作者 | 余学
编辑 | 机器学习算法与自然语言处理公众号
本文仅作学术分享,若侵权,请联系后台删文处理
在了解条件随机场的时候,一开始被各种各样的定义和公式吓倒,抽象晦涩。查阅了一些资料也任然很困惑。废了很多功夫终于算是明白了一些,希望这篇文章能帮一些人少走一点弯路,哪怕一个也是极好的。自然,这文章也是错误百出的。

CRF 综述

简单而又直白的讲,线性条件随机场,是只考虑 概率图中相邻变量是否满足特征函数 
的一个模型。
例如在词性标注任务中,两个动词相连我们可以给负分:转移特征函数
 ; 把 a 标注成不定冠词可以给正分:状态特征 函数
 。条件随机场的参数化定义为:
当我们给每个特征函数不同的权重 
 ,把转移特征 
 ,和状态特征 
 同一写成 
 后,亦可以从条件随机场的简化形式看出条件随机场模型是如何工作的:
由此,我们可以窥一豹。条件随机场模型在统计语料库中相邻词是否满足特征函数的频数,并依此给出 
 。在给定的 
 ,满足的特征函数越多,模型认为 
 越大。
特征函数便是图中的conditional。
以下是简单的说明,综合概述Naive Bayes,Logistic Regression, HMM, Linear-chain CRF之间的关系。
Naive Bayes:
统计训练资料里所有 
 个数得到 
 ,统计所有 
 个数得到 
 。所以得到训练数据里 
的概率,也是先验概率
 。照此方法我们也可以得到成对出现的 
的先验概率
 。至此可以根据贝叶斯公式 
 得到模型 
 。就可以拿 
 开心做预测啦。
Logistic Regression,:
狭义的多项逻辑回归参数化定义为: 
是不是和CRF的定义式有一点像了? 
?我们是不是可以把逻辑回归中的 
 看作是特征函数?
当我们把逻辑回归拓展成最大熵模型时,得到‘广义的逻辑回归模型’:
1.统计训练集中的先验 
 , 
 。
2.设计特征函数 
 , 
 与 
 满足某种关系取1,不满足取0。(当然可以取其他值,比如之前举的例子,两个动词一起出现时就取-1)
3.训练数据集上符合特征的期望: 
 。这个式子的意思是,假设我们只有一个特征函数 
 ,特定的 
 在总数为10的训练集上出现过1次,且刚好满足着唯一的特征函数,那么训练数据上的 
 为0.1.
4.若模型学到了 
 ,我们便可以认为 
 。至此,我们已经在Naive Bayes的基础上融入了特征函数,也就是conditional。
5.实际上这是满足条件的模型有很多,我们选一个可以让熵最大的模型。经过一系列数学步骤(拉格朗日对偶,求偏导,使偏导数为0),我们得到最大熵模型 
 ,天啊,简直和CRF最后的模型一样一样的。
逻辑回归模型(最大熵模型)统计的是训练集中的各种数据满足特征函数的频数(conditional),而贝叶斯模型统计的是训练集中的各种数据的频数。
逻辑回归模型(最大熵模型)统计的是训练集中的各种数据满足特征函数的频数,而CRF统计的是训练集中相关数据 (比如说相邻的词,不相邻的词不统计) 满足特征函数的频数。
图+比方说明HMM
白箱里有2个红球,8个蓝球;黑箱里有7个红球,3个蓝球。有放回取球。即白箱的观测概率 
 ,黑箱的观测概率 
 。
设定规则,当我从白箱取球时,下一次继续从白箱取球的概率是0.4,从黑箱取球的概率是0.6。当我从黑箱取球时,下一次继续从黑箱取球的概率是0.7,从白箱取球的概率是0.3。即白箱的状态转移概率 
 , 黑箱的状态转移概率
从哪个箱子里取球不可观测,只能观测取出球的颜色。HMM从可观测的球的序列中进行推测。请自行推断HMM与CRF之间的conditional关系。

概率图模型

简单的来说,不向连的变量直接毫之间无关系。
定义(概率无向图模型):设有联合概率分布 
 ,由无向图 
 表示。图 
中,节点表示随机变量,边表示随机变量之间的以来关系。如果联合概率分布满足成对,局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型,或马尔科夫随机场。
概率无向图的因子分解
最大团
定义:无向图G中任何两个结点均有边连接的节点子集称为团(clique).若C是无向图G的一个团,并且不能再加进任何一个G的结点使其成为一个更大的团,则称此C为最大团(maximal clique).
在无向概率图中,最大的任意两个结点都有相连的边的组团。
Hammersley-Clifford 定理:概率无向图模型的联合概率分布P(Y)可以表示为如下形式:



其中,C是无向图的最大团, 
 是 C 的结点对应的随机变量, 
 是C上定义的严格正函数,乘积是在无向图所有最大团上进行的。
就是可以拆成最大团的概率连乘。

线性条件随机场

条件随机场的定义
模型的参数化形式
模型的简化表示
转移特征函数 
 和 状态特征函数 
 统一用 
 表示。同时将转移特征的权重 
 与状态特征的权重 
 统一用 
 表示,于是模型可以简写为:
线性条件随机场的学习算法
可以通过梯度下降,拟牛顿发,改进的迭代尺度发等方法学习模型的参数。
本文有很多出自李航老师的《统计学习方法》,读关于条件随机场的篇章,十分干练精简

重磅!忆臻自然语言处理-学术微信交流群已成立
可以扫描下方二维码,小助手将会邀请您入群交流,
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
继续阅读
阅读原文