公众号关注 “ML_NLP”

设为 “星标”，重磅干货，第一时间送达！

来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/70618710

作者 | yif

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享，若侵权，请联系后台删文处理

本文是在闲着蛋疼时所写，内容都是本人瞎想，不接受任何表扬，欢迎吐槽！！！

初识NER

什么是NER

命名实体识别（Name Entity Recognition,NER),也称作"专名识别",是指识别文本中具有特定意义的实体，包括人名,地名，机构名，专有名词等。

注意：实体是一个抽象的对象，并不制定描述它的方式，而命名实体是受“Named”约束的一类对象。

NER算法的发展：

NER数据集的发展

随着近几年深度学习的发展，NER趋向于处理更多类别实体的数据集。但目前为止最常用的数据集是：1. CoNLLo3（粗粒度） 2. OneNotes（细粒度）

NER数据标注体系

共有4种标注体系，最常用的还是BIO。

NER任务的示意图

NER可被视为多分类任务，但又不止是分类问题，还是序列问题。（所以也称为序列标注问题）

NER的评价标准

前面提到了NER是多分类的问题，那么就应该有分类问题的评价标准

常用的评价标准有:Acc,Precision,Recall和F1值 Acc是一种很常见的评价标准，但只是这个又是不够的，因为在数据不均衡的情况下，Acc往往只会给我们带来欺骗性，比如癌症检测（我们希望关注的是minority class）

Precision和Recall往往是一对评价标准。Precision：是相对自己模型而言的，自己预测的100个正例有80个是对的整理，那么Precision就是80%。所以当我们的模型作出预测时，我们可以将Precision 作为该项预测的confidence score。

Recall：是相对真实答案而言的，假设测试集里有100个正例，那么如果Recall为40%，那么就说明只能覆盖到40个正例。

一般来说，两者不可能同时很高。因为一旦你想要Recall高，那就意味着模型要覆盖更多，而模型一旦覆盖更多，那么他就更容易出错。而如果模型的precision要高，则往往会保守地对他很肯定的样本进行预测，这样precision会很高，但这样recall覆盖的就少了，所以recall就低了

F1值是综合了precision和recall的一个指标。$$F1=\frac{2PR}{P+R}$$ F1值还可以分为：1. macro-F1(分别对美中实体类别计算对应的F1值，再求整体平均) 2. micro-F1（直接求整体数据的F1）

NER的作用

NER往往作为Natural Language applications的基础，比如QA，text summarization，machine translation等的基础

NER是一种序列标注任务，常见的序列标注任务还有分词，词性标注（POS），关键词抽取，词义角色标注等

NER的关键 1. 实体边界的确定 2. 实体类别的判断

NER的工具

重磅！忆臻自然语言处理-学术微信交流群已成立

我们为大家整理了李航老师最新书籍的ppt课件，

添加小助手领取，还可以进入官方交流群！

注意：请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主，微商请自觉绕道。谢谢！

推荐阅读：
使用 TensorFlow 做文本情感分析
通俗易懂！使用Excel和TF实现Transformer！
深度学习中的多任务学习(Multi-task-learning)——keras实现

继续阅读

阅读原文

关键词

模型

问题

深度学习

文本

数据集

NLP学习（一）——初识NER