【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing
点击上方,选择星标或置顶,每天给你送干货!
阅读大概需要1分钟跟随小博主,每天进步一丢丢
最近参加了一次苏州大学HLT实验室的LA(语言分析)组学术讨论班,收获不少。这是一次纯英文讲解和提问的mini讲座(李正华老师说以后要延续下去,为了方便以后出国交流)。我大概凑活听懂了6-70%左右,哎,以后得多下功夫了。
论文解读
这次分享的论文是:
http://hlt.suda.edu.cn/~zhli/papers/liying_ijcai19_dp.pdf
是由SUDA-HLT实验室LA组的博士二年级学生李英发表在2019IJCAI上的一篇文章。
根据这个题目Self-attentive Biaffine Dependency Parsing你可能会想到经典的biaffine parser(不了解的点这个链接):
https://arxiv.org/pdf/1611.01734.pdf
和Transformer的Encoder:
https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf
对,就是这样的,可以说是强强联合,将目前的parser SOTA模型(biaffine parser based bilstm)的提取特征层(bilstm)替换成self-attention(Transformer的Encoder层)来提取特征。效果和用bilstm的效果几乎是一样的:
LAS基本一样,但是这篇文章新颖的点在哪里呢?
1.第一次将self-attention使用在parser里
2.获得了和SOTA模型几乎一样的性能
3.同样相似的效果但不同类型的encoder(bilstm和self-attention)ensemble起来效果会更好
4.验证了最新的预训练数据(ELMo和BERT)能够提高parser的性能。
5.速度上,并行的self-attention肯定比bilstm要快。
总结
做个总结吧,ijcai是一类顶会,宏观角度看这篇文章
1. 很前沿:
- 李英师姐用了目前最火的self-attention(Transformer的encoder)替换了我们一直使用的SOTA模型biaffine parser based bilstm 的 bilstm
- 使用了最新的预训练模型ELMo和BERT于自己提出的模型上,有效果。
2. 很认真(苦力):
- 我问了师姐,模型写的很快,但是调出理想的参数大概就用了2-3个月。
发顶会应该就这两点:前沿+认真!
加油,希望我和你也能来一篇。
推荐阅读:
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。