NLP数据标注工具汇总
写在前面
中文NLP领域比较困扰的点在于缺乏数据,尤其像事件抽取这样的任务。完全人工标注(不依赖标注系统)非常耗时费力,因为这不仅需要标注人员标注,还需要他们定位所标注的内容在句中或者篇章中的位置,非常容易出错。所以,想要搭建一个针对事件抽取的标注系统。
在调研如何造轮子时,发现有些开源工具或许可以用,可以避免不必要的标注工具开发时间。这篇文章就对调研到的开源工具做一个简要汇总。
如果本文对你有帮助,记得在文末点赞+在看,也可以分享给你的朋友~~。
一、开源数据标注工具
1. BRAT
安装环境:osx或者linux系统,windows(linux虚拟环境) 标注任务支持:实体识别、实体关系抽取、事件抽取标注 标注语言支持:可适配到中文标注 标注任务扩展:可适配到Aspect-Based Sentiment Analysis方向数据标注 相关🔗: - 官方介绍[1]
- BRAT项目github地址[2]
- brat使用[3]
2. prodigy
标注任务支持:实体识别、分类、情感分析 标注语言支持:只针对英文 特点:基于主动学习的标注工具
3. Chinese-Annotator
标注任务支持:中文命名实体识别、中文关系识别、中文文本分类 安装环境:面向OSX 特点:灵感来源Prodigy,基于主动学习的标注系统,同时支持用户标注 相关🔗: Chinese-Annotator项目github地址[4]
4. YEDDA
标注任务支持:实体识别、实体关系抽取、事件抽取 标注语言支持:支持大部分语言,包括英语、中文 特点:基于python2、可标记种类数只有7种 相关🔗: YEDDA项目github地址[5]
5. IEPY
标注任务支持:主要是关系抽取 相关🔗: IEPY项目github地址[6] 官方说明文档[7]
6. Doccano
- 标注任务支持:实体识别、情感分类、机器翻译
- 标注语言:多语言
Doccano项目github地址[8] Doccano实体标注演示demo[9]
7. Deepdive
相关🔗: DeepDive[10]
8. snorkel
相关🔗: snorkel项目github地址[11]
二、总结
目前来看要做中文领域事件抽取样本标注,可选用的是YEDDA和BRAT。笔者已经使用过BRAT来进行事件抽取标注了,后续针对BRAT的使用方法会专门出一期文章。
三、其他参考资料:
- 2019常用NLP标注工具简单介绍[12]
- 中文文本标注工具调研以及BRAT安装使用[13]
- 语料标注工具1[14]
- 语料标注工具2[15]
- 语料标注工具3[16]
- 情感分析系列之《利用BRAT进行中文情感分析语料标注》[17]
参考资料
官方介绍: http://brat.nlplab.org/introduction.html
[2]BRAT项目github地址: https://github.com/nlplab/brat
[3]brat使用: https://blog.csdn.net/guofei_fly/article/details/104113217
[4]Chinese-Annotator项目github: https://github.com/deepwel/Chinese-Annotator
[5]YEDDA项目github地址: https://github.com/jiesutd/YEDDA
[6]IEPY项目github地址: https://github.com/machinalis/iepy
[7]官方说明文档: https://iepy.readthedocs.io/en/latest/
[8]Doccano项目github地址: https://github.com/doccano/doccano
[9]Doccano实体标注演示demo: http://doccano.herokuapp.com/demo/named-entity-recognition/
[10]DeepDive: http://deepdive.stanford.edu/labeling
[11]snorkel项目github地址: https://github.com/snorkel-team/snorkel
[12]2019常用NLP标注工具简单介绍: https://blog.csdn.net/weixin_44912159/article/details/103654550
[13]中文文本标注工具调研以及BRAT安装使用: https://www.jianshu.com/p/3a70ee9ad632
[14]语料标注工具1: https://zhuanlan.zhihu.com/p/64513343
[15]语料标注工具2: https://zhuanlan.zhihu.com/p/64574125
[16]语料标注工具3: https://zhuanlan.zhihu.com/p/64745990
[17]情感分析系列之《利用BRAT进行中文情感分析语料标注》: https://blog.csdn.net/owengbs/article/details/49780225
关于NLP数据标注工具的内容就到这里了。如果本文对你有所帮助,记得点赞+在看,也可以分享给你需要的朋友~~。
长按👇关注- AI算法小喵 -设为星标,干货速递
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。