今日 Paper | 梯度剪切；命名实体识别；自然语言处理；免强度函数学习等

梯度剪切可以加速梯度下降

论文名称：Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity

作者：Jingzhao Zhang /Tianxing He /Suvrit Sra /Ali Jadbabaie

发表时间：2019/9/26

论文链接：https://openreview.net/forum?id=BJgnXpVYwS

在神经网络的训练过程中对梯度进行剪切是最近越来越流行的一个趋势，但很多人都不清楚这种做法为什么有效。这篇论文就给出了理论解释以及证明，证明了梯度剪切确实对网络训练有帮助作用。

作者们从实际网络的训练过程中的平滑性出发，进行了仔细的分析和推理，证明了梯度剪切和梯度正则化两种常见方法都可以比传统的固定步骤大小的梯度下降收敛得更快。作者们也做了进一步的解释，并在常见的网络训练设定下通过实验验证了他们的理论。

这篇论文得到了审稿人的一致好评，被ICLR2020接收为口头报告论文。

完成命名实体识别的双向LSTM+CRF结构

论文名称：Bidirectional LSTM-CRF Models for Sequence Tagging

作者：Zhiheng Huang /Wei Xu /Kai Yu

发表时间：2015/8/9

论文链接：https://arxiv.org/pdf/1508.01991.pdf

核心问题：这篇论文是完成命名实体识别的工作，这是一系列使用RNN结构并结合CRF层进行NER的工作的文章之一。

创新点：本论文的创新点是使用了双向LSTM+CRF作为网络模型，这种创新的意义都是结构上的创新，很多时候模型的效果就是结构上的创新。

研究意义：证明BI-LSTM-CRF模型可以有效地利用过去和未来的输入信息。

完成命名实体识别的神经网络结构

论文名称：Neural Architectures for Named Entity Recognition

作者：Guillaume Lample /Miguel Ballesteros /Sandeep Subramanian /Kazuya Kawakami

发表时间：2016/4/7

论文链接：https://arxiv.org/pdf/1603.01360.pdf

推荐原因

核心问题：本文是完成是nlp领域中经典的命名识别识别的问题，本论文可以说是承上启下的作用，它的做法改变了之前的做法，并且之后的很多任务都是使用这样的基本结构。

创新点：先前的使用的核心模型都是CNN，本文中使用RNN代替CNN，并且搭建了一套RNN+CRF的模型结构，这种模型结构效果不错

研究意义：通过实现效果，在英语、荷兰语、德语以及西班牙语上使用LSTM-CRF的实验都证明了能够获得较好的NER性能，并且在没有任何人工标注特征的条件下，在英语上获得非常好的性能。

自然语言处理（几乎）从头开始

论文名称：Natural Language Processing (Almost) from Scratch

作者：Ronan Collobert /Jason Weston /Leon Bottou /Michael Karlen /Koray Kavukcuoglu /Pavel Kuksa

发表时间：2011/1/10

论文链接：http://jmlr.org/papers/volume12/collobert11a/collobert11a.pdf

推荐原因

本文所解决得核心问题：这个论文提出了一种深度神经网络得方法来完成多种nlp任务，比如词性标注、组块、命名实体识别和语义角色标记。

研究重点：本文算是很早使用深度学习得方法来做类似得任务，它比机器学习得优势就是不懂手动得来构建特征，并且不需要根据任务得不同构建不同得特征。它通过两个网络模型来完成，一个网络模型用于提取局部的特征，另外一个网络模型用于提取全局特征。

研究意义：本文使用得核心思想是多任务训练得思路，具体来说先训练好word embedding，然后使用该词向量完成之后得子任务，并且取得了良好得表现。

这篇文章核心使用得是卷积神经网络，其实有些时候我发现在文本领域，卷积神经网络取得的效果也是不错得。

免强度函数学习的时间点过程

论文名称：Intensity-Free Learning of Temporal Point Processes

作者：Shchur Oleksandr /Biloš Marin /Günnemann Stephan

发表时间：2019/9/26

论文链接：https://arxiv.org/abs/1909.12127

推荐原因

时间点过程是一类有效的用于建模连续时间域的异步事件序列方法。该方法在事件预测，因果分析，图建模等方向有着广泛的应用。使用该方法的一个核心问题是条件强度函数的设计。然而简单的指定强度函数(指数分布族等)会造成模型表达能力有限，复杂的方式又会造成强度函数中survival积分项计算困难，需要借助数值方法求解。本文另辟蹊径，不再建模强度函数，而是分别提出基于流的方法和混合高斯的方法直接建模条件概率。最后的实验在时间序列预测等任务上达到或者超过了目前的sota, 并且所提出方法非常适合用于学习序列embedding和缺失信息情况下的序列问题。