目录

  • 梯度剪切可以加速梯度下降
  • 完成命名实体识别的双向LSTM+CRF结构
  • 完成命名实体识别的神经网络结构
  • 自然语言处理(几乎)从头开始
  • 免强度函数学习的时间点过程

梯度剪切可以加速梯度下降

论文名称:Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity
作者:Jingzhao Zhang /Tianxing He /Suvrit Sra /Ali Jadbabaie
发表时间:2019/9/26
论文链接:https://openreview.net/forum?id=BJgnXpVYwS
在神经网络的训练过程中对梯度进行剪切是最近越来越流行的一个趋势,但很多人都不清楚这种做法为什么有效。这篇论文就给出了理论解释以及证明,证明了梯度剪切确实对网络训练有帮助作用。
作者们从实际网络的训练过程中的平滑性出发,进行了仔细的分析和推理,证明了梯度剪切和梯度正则化两种常见方法都可以比传统的固定步骤大小的梯度下降收敛得更快。作者们也做了进一步的解释,并在常见的网络训练设定下通过实验验证了他们的理论。
这篇论文得到了审稿人的一致好评,被ICLR2020接收为口头报告论文。

完成命名实体识别的双向LSTM+CRF结构

论文名称:Bidirectional LSTM-CRF Models for Sequence Tagging
作者:Zhiheng Huang /Wei Xu /Kai Yu
发表时间:2015/8/9
论文链接:https://arxiv.org/pdf/1508.01991.pdf
核心问题:这篇论文是完成命名实体识别的工作,这是一系列使用RNN结构并结合CRF层进行NER的工作的文章之一。
创新点:本论文的创新点是使用了双向LSTM+CRF作为网络模型,这种创新的意义都是结构上的创新,很多时候模型的效果就是结构上的创新。
研究意义:证明BI-LSTM-CRF模型可以有效地利用过去和未来的输入信息。

完成命名实体识别的神经网络结构

论文名称:Neural Architectures for Named Entity Recognition
作者:Guillaume Lample /Miguel Ballesteros /Sandeep Subramanian /Kazuya Kawakami
发表时间:2016/4/7
论文链接:https://arxiv.org/pdf/1603.01360.pdf
推荐原因
核心问题:本文是完成是nlp领域中经典的命名识别识别的问题,本论文可以说是承上启下的作用,它的做法改变了之前的做法,并且之后的很多任务都是使用这样的基本结构。
创新点:先前的使用的核心模型都是CNN,本文中使用RNN代替CNN,并且搭建了一套RNN+CRF的模型结构,这种模型结构效果不错
研究意义:通过实现效果,在英语、荷兰语、德语以及西班牙语上使用LSTM-CRF的实验都证明了能够获得较好的NER性能,并且在没有任何人工标注特征的条件下,在英语上获得非常好的性能。

自然语言处理(几乎)从头开始

论文名称:Natural Language Processing (Almost) from Scratch
作者:Ronan Collobert /Jason Weston /Leon Bottou /Michael Karlen /Koray Kavukcuoglu /Pavel Kuksa
发表时间:2011/1/10
论文链接:http://jmlr.org/papers/volume12/collobert11a/collobert11a.pdf
推荐原因
本文所解决得核心问题:这个论文提出了一种深度神经网络得方法来完成多种nlp任务,比如词性标注、组块、命名实体识别和语义角色标记。
研究重点:本文算是很早使用深度学习得方法来做类似得任务,它比机器学习得优势就是不懂手动得来构建特征,并且不需要根据任务得不同构建不同得特征。它通过两个网络模型来完成,一个网络模型用于提取局部的特征,另外一个网络模型用于提取全局特征。
研究意义:本文使用得核心思想是多任务训练得思路,具体来说先训练好word embedding,然后使用该词向量完成之后得子任务,并且取得了良好得表现。
这篇文章核心使用得是卷积神经网络,其实有些时候我发现在文本领域,卷积神经网络取得的效果也是不错得。

免强度函数学习的时间点过程                     

论文名称:Intensity-Free Learning of Temporal Point Processes
作者:Shchur Oleksandr /Biloš Marin /Günnemann Stephan
发表时间:2019/9/26
论文链接:https://arxiv.org/abs/1909.12127
推荐原因
时间点过程是一类有效的用于建模连续时间域的异步事件序列方法。该方法在事件预测,因果分析,图建模等方向有着广泛的应用。使用该方法的一个核心问题是条件强度函数的设计。然而简单的指定强度函数(指数分布族等)会造成模型表达能力有限,复杂的方式又会造成强度函数中survival积分项计算困难,需要借助数值方法求解。本文另辟蹊径,不再建模强度函数,而是分别提出基于流的方法和混合高斯的方法直接建模条件概率。最后的实验在时间序列预测等任务上达到或者超过了目前的sota, 并且所提出方法非常适合用于学习序列embedding和缺失信息情况下的序列问题。

论文作者团队招募

为了更好地服务广大 AI 青年,AI 研习社正式推出全新「论文」版块,希望以论文作为聚合 AI 学生青年的「兴趣点」,通过论文整理推荐、点评解读、代码复现。致力成为国内外前沿研究成果学习讨论和发表的聚集地,也让优秀科研得到更为广泛的传播和认可。
我们希望热爱学术的你,可以加入我们的论文作者团队。
加入论文作者团队你可以获得
    1.署着你名字的文章,将你打造成最耀眼的学术明星
    2.丰厚的稿酬
    3.AI 名企内推、大会门票福利、独家周边纪念品等等等。
加入论文作者团队你需要:
    1.将你喜欢的论文推荐给广大的研习社社友
    2.撰写论文解读
如果你已经准备好加入 AI 研习社的论文兼职作者团队,可以添加运营小姐姐的微信,备注“论文兼职作者”
继续阅读
阅读原文