公众号关注 “ML_NLP”

设为 “星标”，重磅干货，第一时间送达！

来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/34261803

作者 | 余学

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享，若侵权，请联系后台删文处理

在了解条件随机场的时候，一开始被各种各样的定义和公式吓倒，抽象晦涩。查阅了一些资料也任然很困惑。废了很多功夫终于算是明白了一些，希望这篇文章能帮一些人少走一点弯路，哪怕一个也是极好的。自然，这文章也是错误百出的。

CRF 综述

简单而又直白的讲，线性条件随机场，是只考虑概率图中相邻变量是否满足特征函数

的一个模型。

例如在词性标注任务中，两个动词相连我们可以给负分：转移特征函数

; 把 a 标注成不定冠词可以给正分：状态特征函数

。条件随机场的参数化定义为：

当我们给每个特征函数不同的权重

，把转移特征

，和状态特征

同一写成

后，亦可以从条件随机场的简化形式看出条件随机场模型是如何工作的：

由此，我们可以窥一豹。条件随机场模型在统计语料库中相邻词是否满足特征函数的频数，并依此给出

。在给定的

，满足的特征函数越多，模型认为

越大。

特征函数便是图中的conditional。

以下是简单的说明，综合概述Naive Bayes，Logistic Regression, HMM, Linear-chain CRF之间的关系。

Naive Bayes：

统计训练资料里所有

个数得到

，统计所有

个数得到

。所以得到训练数据里

的概率，也是先验概率

。照此方法我们也可以得到成对出现的

的先验概率

。至此可以根据贝叶斯公式

得到模型

。就可以拿

开心做预测啦。

Logistic Regression,：

狭义的多项逻辑回归参数化定义为：

是不是和CRF的定义式有一点像了？

？我们是不是可以把逻辑回归中的

看作是特征函数？

当我们把逻辑回归拓展成最大熵模型时，得到‘广义的逻辑回归模型’：

1.统计训练集中的先验

，

。

2.设计特征函数

，

与

满足某种关系取1，不满足取0。(当然可以取其他值，比如之前举的例子，两个动词一起出现时就取-1)

3.训练数据集上符合特征的期望：

。这个式子的意思是，假设我们只有一个特征函数

，特定的

在总数为10的训练集上出现过1次，且刚好满足着唯一的特征函数，那么训练数据上的

为0.1.

4.若模型学到了

，我们便可以认为

。至此，我们已经在Naive Bayes的基础上融入了特征函数，也就是conditional。

5.实际上这是满足条件的模型有很多，我们选一个可以让熵最大的模型。经过一系列数学步骤（拉格朗日对偶，求偏导，使偏导数为0），我们得到最大熵模型

，天啊，简直和CRF最后的模型一样一样的。

逻辑回归模型(最大熵模型)统计的是训练集中的各种数据满足特征函数的频数(conditional)，而贝叶斯模型统计的是训练集中的各种数据的频数。

逻辑回归模型(最大熵模型)统计的是训练集中的各种数据满足特征函数的频数，而CRF统计的是训练集中相关数据 (比如说相邻的词，不相邻的词不统计) 满足特征函数的频数。

图+比方说明HMM：

白箱里有2个红球，8个蓝球；黑箱里有7个红球，3个蓝球。有放回取球。即白箱的观测概率

，黑箱的观测概率

。

设定规则，当我从白箱取球时，下一次继续从白箱取球的概率是0.4，从黑箱取球的概率是0.6。当我从黑箱取球时，下一次继续从黑箱取球的概率是0.7，从白箱取球的概率是0.3。即白箱的状态转移概率

，黑箱的状态转移概率

从哪个箱子里取球不可观测，只能观测取出球的颜色。HMM从可观测的球的序列中进行推测。请自行推断HMM与CRF之间的conditional关系。

概率图模型

简单的来说，不向连的变量直接毫之间无关系。

定义(概率无向图模型)：设有联合概率分布
,由无向图
表示。图
中，节点表示随机变量，边表示随机变量之间的以来关系。如果联合概率分布满足成对，局部或全局马尔可夫性，就称此联合概率分布为概率无向图模型，或马尔科夫随机场。

概率无向图的因子分解

最大团

定义：无向图G中任何两个结点均有边连接的节点子集称为团（clique）.若C是无向图G的一个团，并且不能再加进任何一个G的结点使其成为一个更大的团，则称此C为最大团（maximal clique）.

在无向概率图中，最大的任意两个结点都有相连的边的组团。

Hammersley-Clifford 定理：概率无向图模型的联合概率分布P(Y)可以表示为如下形式：

其中，C是无向图的最大团，
是 C 的结点对应的随机变量，
是C上定义的严格正函数，乘积是在无向图所有最大团上进行的。

就是可以拆成最大团的概率连乘。

线性条件随机场

条件随机场的定义

模型的参数化形式

模型的简化表示

转移特征函数

和状态特征函数

统一用

表示。同时将转移特征的权重

与状态特征的权重

统一用

表示，于是模型可以简写为：

线性条件随机场的学习算法

可以通过梯度下降，拟牛顿发，改进的迭代尺度发等方法学习模型的参数。

本文有很多出自李航老师的《统计学习方法》，读关于条件随机场的篇章，十分干练精简

重磅！忆臻自然语言处理-学术微信交流群已成立

可以扫描下方二维码，小助手将会邀请您入群交流，

注意：请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主，微商请自觉绕道。谢谢！

推荐阅读：
全连接的图卷积网络(GCN)和self-attention这些机制的区别与联系

图卷积网络(GCN)新手村完全指南
论文赏析[ACL18]基于Self-Attentive的成分句法分析

继续阅读

最新评论

推荐文章

作者最新文章

你可能感兴趣的文章

Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].

版权声明：以上内容为用户推荐收藏至CareerEngine平台，其内容（含文字、图片、视频、音频等）及知识版权均属用户或用户转发自的第三方网站，如涉嫌侵权，请通知[email protected]进行信息删除。如需查看信息来源，请点击“查看原文”。如需洽谈其它事宜，请联系[email protected]。