IJCAI 2019 | 一文详解微软亚洲研究院6篇精选论文

编者按：IJCAI（国际人工智能联合会议）是人工智能领域中的顶级综合性会议，IJCAI 2019 于 8 月 10 日至 8 月 16 日在中国澳门举办。本届大会上，微软亚洲研究院有 14 篇论文入选，本文将分类介绍其中有代表性的 6 篇。

推荐系统

结合用户长期和短期偏好的推荐系统

Adaptive User Modeling with Long and Short-Term Preferences for Personalized Recommendation

论文链接：https://www.ijcai.org/proceedings/2019/0585.pdf

基于历史交互行为的用户建模是构建精准推荐系统的核心环节之一。近两年，如何融合用户长短期的偏好成为一个热点话题。长期偏好指用户持久存在的兴趣，它随时间波动程度较小，反映用户的固有特征；短期偏好指的是用户在最近一段时间内的爱好，甚至是用户在下次行为中可能的兴趣。短期偏好的建模需要考虑用户历史行为中的序列信息，主流的做法有马尔科夫链（Markov Chain）、卷积神经网络（CNN）以及递归神经网络（RNN）。但是用户的行为历史是非常复杂的，一方面，历史行为之间的时间间隔可能是很不均匀的；另一方面，用户的不同行为可能源自不同的意图（intent）。因此在对用户行为建模时，有必要考虑多样化的上下文因素。

本论文主要探究两个话题：（1）改进已有的 RNN 结构，使其能够适应复杂的上下文状态，更好地学习用户的短期偏好；（2）基于用户的历史行为，分别生成长期和短期的偏好向量，并且结合即时环境因素融合用户长短期的偏好。

经典的 LSTM 模型的状态演变过程可以描述为：

考虑到用户历史行为的时间间隔是不规律的，例如，一个用户的历史行为可能是{(物品1，2019-02-01)， (物品2，2019-02-02)， (物品3,2019-04-01)}，从经验来看，前两个行为的相关性应该更大一些，我们设计了一种时间开关，把时间间隔（time interval）和时间跨度（time span）加进了 LSTM 的状态转移函数中：

同时，考虑到不同行为反映的兴趣点可能不一样，我们采用了注意力机制（attention mechanism），抑制跟本次预测目标无关的行为：

关于用户的长期兴趣，我们采用 self-attention 的机制，不考虑行为的次序，有权重地将多个行为合并成一个用户向量。在实际应用场景中，为了提高系统的效率，长期的兴趣向量可以离线地生成，并且采用大量的历史行为；短期的兴趣向量可以实时生成，并且只使用用户最近的若干个行为。最终做预测时，短期兴趣和长期兴趣的融合比重是随着即时的环境因素（例如距离上一次行为的间隔、用户在上一个页面的停留时间等）而改变的，因此我们在最后一层再次使用注意力机制使得模型自动学习出最佳的融合系数。我们将新的模型命名为 SLi-Rec（Short-term and Long-term preference Integrated RECommender system），并在 Amazon 数据和微软原生广告数据上做了评测，效果均显著地好于目前主流的模型。

表1：SLi-Rec 在不同的数据集上与 baseline 模型的效果对比，评测指标为 AUC

借助高保真存档网络的深度用户表示

Hi-Fi Ark: Deep User Representation via High-Fidelity Archive Network

论文链接：https://www.ijcai.org/proceedings/2019/0424.pdf

深度学习在推荐系统中有很多成功的应用，其中一个重要的应用是用户表示（user representation）。借助神经网络，复杂的用户行为被编码成为简洁的用户向量，使用户隐含的行为信息得到了尽可能多的保留，从而极大地促进了下游推荐任务的效果。近年来，借助注意力机制的用户表示相继被提出，即依据待推荐的物品（candidate item）对用户的历史进行加权整合。由于此类用户表示必须依赖于待推荐的物品，我们将其称为物品关联型（candidate-relevant）用户表示；与之相对的，传统的方法被统称为物品无关型（candidate-independent）用户表示。借助物品关联型用户表示，人们能够依照具体的推荐任务对用户历史进行更为个性化的编码，从而进一步帮助下游的推荐任务。值得注意的是，物品关联型用户表示必须基于具体的待推荐物品，这使得用户表示只能实时运行（runtime）计算，而不能预先在线下（offline）生成。考虑到推荐系统对实时性的要求，这一限制条件使得物品关联型用户表示难以适用于现今诸多的实际场景。

为了克服物品关联型用户表示在可用性上的挑战，本文提出了基于高保真存档网络的用户表示方法。与过去方法不同的是，高保真存档网络将用户历史编码为若干存档向量（user archives），每个存档向量表征用户对某一特定类别物品的兴趣程度。与此同时，引入存档向量间的协调机制，尽可能地消除存档向量之间的冗余信息；而全部的存档向量又可以作为一个整体几乎无损地保留所有的用户历史信息。

在应用于具体推荐任务时，本文依然通过注意力机制对存档向量进行个性化整合。但是相较于过去的物品依赖型方法，存档向量的规模远小于用户的历史长度，此处的整合操作仅会带来极低的计算成本，实际已完全具备线上实时应用的可行性。

本文借助三个数据集：MSN News、Bing Ads 及 Amazon E-Commerce 进行实验研究。实验结果显示基于高保真存档网络的用户表示在推荐精确度上显著地超越了传统物品无关型方法，并完全可以媲美物品关联型方法。

表2：模型在不同数据集上的实验结果，不同类别的最高分用粗体显示

目前该项目已经在 GitHub 开源。

GitHub 链接：https://github.com/xyyimian/Hifi-Ark/

利用基于注意力机制的多视角学习神经网络进行新闻推荐

Neural News Recommendation with Attentive Multi-View Learning

论文链接：https://wuch15.github.io/paper/IJCAI19NAML.pdf

在线新闻平台已经成为新闻阅读的热门渠道，但是由于时间限制，用户无法阅读海量的文章。因此，个性化的新闻推荐对于在线新闻平台来说非常重要，可以帮助用户找到感兴趣的新闻并减轻信息过载。在基于深度学习的新闻推荐方法中，一个核心问题是如何学习新闻和用户的表示。新闻文章通常包含不同类型的信息，例如标题、正文和主题类别，它们对于表示新闻都很有用。但是现有方法通常基于单一新闻信息来学习这些表示，且单种新闻信息可能不足以学习准确的新闻和用户表示，从而限制了新闻推荐的性能。

该论文提出了一种neural news recommendation with attentive multi-view learning（NAML）模型，可在新闻推荐任务中通过利用例如标题、正文和类别等不同类型的新闻信息，学习用户和新闻的高质量表示。该模型的核心是一个新闻编码器和一个用户编码器。

在新闻编码器中，我们提出了一种基于注意力的多视角学习模型，通过将标题、正文和主题类别等不同的新闻数据视为不同的新闻视角，来学习统一的新闻表示。此外，我们将单词级和视角级的注意力机制应用于新闻编码器中，以选择重要的单词和视角，学习优质的新闻表示。

在用户编码器中，我们基于用户浏览的新闻并应用注意机制选择重要的新闻来学习用户的表示。

最终候选新闻的点击预估分数由用户和新闻表示向量之间的内积计算得到，以便对不同用户进行个性化排序。

图1：NAML 模型的架构

该论文在 MSN 新闻推荐的数据集上进行了实验，并和一系列基线方法进行了对比，结果如表所示。

表3：不同模型在 MSN 新闻推荐数据集上的实验结果。*相对基线方法的改进显著水平为 p<0.001。

实验结果表明，使用基于注意力机制的多视角学习方法能够有效地提升新闻个性化推荐的效果，学习更优质的新闻和用户表示。因此该论文提出的方法明显优于基线方法。

计算机视觉

推敲学习在图像翻译中的应用

Deliberation Learning for Image-to-Image Translation

论文链接：https://www.ijcai.org/proceedings/2019/0345.pdf

图像翻译任务指的是把图像从一个域转化到另一个域，例如不同画家风格的转换，白天黑夜的转换，人脸之间的互相转换。现有的图像翻译大部分是基于编码器-解码器的结构：编码器将图片编码成为一个向量，解码器将向量转化到目标域。我们在本文中借鉴了推敲的思想：引入一个额外的解码器，将生成的目标域的图片再次精细化，从而得到一张更好的图片。

我们提出的网络结构如图2所示，包括编码器 E_s、解码器 G_t、以及一个后处理解码器 G_t^*。

图2：图像翻译模型

我们将图像翻译的原始域（source domain）和目标域（target domain）记做 X_s和 X_t。给定输入图片 x∈X_s，我们提出的算法按如下方式翻译为目标域的图片 y^*∈X_t：

首先，E_s 将图片 x 编码为一个向量表示 h_x，随后解码器 G_t 将向量 h_x 映射为图片 y ̂ 之后，编码器再次将已经编码过的图片 y ̂ 进行编码得到对应的向量表达 h_y ̂ ，最后 h_x+h_y ̂ 将会被输入到 G_t^* 中，得到最终的输出 y^*。我们将上述公式简记为 f^*:X_s→X_t。类似地，我们将从 X_t 到 X_s 的翻译记成 g^*:X_t→X_s。“推敲”这一过程体现在对 y ̂ 的利用， y ̂ 携带了 x 的目标域的完整信息。利用这份完整的信息能够提高图像翻译的质量。

整个训练的过程我们选择和 CycleGAN 一样的优化目标，使用 cycle-consistency 和 adversarial loss 来约束训练的过程。两种损失函数分别定义如下：

其中，D_s:X_s→[0,1]、D_t:X_t→[0,1] 是判别器，输出的值代表输入的图片是自然图片（而不是机器生成的图片）的概率。判别器的任务是最大化 l_adv，而 f^* 和 g^* 的任务是最小化 l_cyc+λl_adv。

图3：夏季图片到冬季图片的转换结果

图3展示了我们算法在夏季和冬季图片转换的结果。我们发现，经过推敲这一个过程，因为有了目标域完整图片的输入，得到的图片更具有目标域的特点。例如在第一行中的更多的绿色和第二行的更多的白色。类似的例子还包括城市图片和对应的分割后的图片转换，苹果和橘子的转换，以及自然图片和梵高风格图片的转换等。同时，我们提出的算法也适用于多个图像域之间的翻译。

图4：更多类型图片的转换结果

机器学习算法和理论

具有 BN 不变性的尖锐度正则化改善神经网络的泛化能力

BN-invariant sharpness regularizes the training model tobetter generalization

论文链接：https://www.ijcai.org/proceedings/2019/0578.pdf

在机器学习中，人们普遍认为模型的平坦极小值点（flat minima）会具有好的泛化性。然而，深度神经网络模型常用的一些结构会诱导出一系列的等价模型（equivalent models）, 而之前极小值点尖锐度（sharpness）的定义在这些等价模型中并不一致。例如，在有 ReLU 激活函数的神经网络中由于网络的正齐次性（positively homogeneous），抑或是在有批归一化（batch normalization，下文简称 BN）的网络中由于网络的尺度伸缩不变性（scale invariant），我们能找到具有相同的泛化性的两个极小值点，但它们所对应的尖锐度完全不一样。另一方面，尖锐度往往对应一个高维的球内积分，具体表达式为：

考虑到计算难度，我们很难利用表达式寻找到一个更平坦（flatter）的极小值点（具有更好的泛化性）。

针对上述问题，我们对具有 BN 结构的神经网络提出了一个新的、良定义的尖锐度的度量：BN-sharpness。同时，通过设计高效的近似算法，我们将 BN-sharpness 做为训练的惩罚项来帮助模型训练使得模型收敛到一个更平坦的极小值点。

具体来说，尖锐度取决于极小值点附近一个球形邻域内的函数值。对具有 BN 结构的神经网络，我们将 BN 网络的尖锐度（BN-sharpness）定义为

这一定义结合 BN 结构的尺度不变性（scale invariant），通过考虑在一个与参数尺度相关的邻域内，模型在“变化最快”方向上的累积变化来衡量尖锐度。该定义同时兼顾了良定义和计算复杂度。为了将 BN-sharpness 作为训练的惩罚项，我们结合流形（manifold）上的优化和改良的中值定理，提出了一种高效的近似算法。实验结果表明，我们的算法最终能够收敛到更平坦的极小值点，并具有更好的泛化性。在 batchsize 为2048时（被认为会收敛到“尖锐”的极小值点），具体结果如下（SGDS 为我们的算法）

表4：batch size 为2048时，SGDS 和 SGD 算法的对比

自然语言处理

用于语义解析的弱监督多任务学习方法

Weakly Supervised Multi-task Learning for Semantic Parsing

论文链接：https://www.ijcai.org/proceedings/2019/0468.pdf

语义解析是一个重要的自然语言处理任务，目的是将自然语言的原始输入转化为有意义的、机器可以理解的逻辑表达式。为了提升模型的解析能力，往往需要大量的“问题-逻辑表达式”的平行标注语料。然而，直接对自然语言标注对应的逻辑表达式需要足够的相关知识，标注难度很大，从而缺乏大量的语义解析监督语料。

为了解决这个问题，本文提出了一个基于弱监督多任务学习的语义解析方法，该方法在有限监督语料的基础上，利用多种任务的监督信号以及相似问题的一致性的弱监督信号训练模型，进一步提升了模型的解析能力。如图，该方法在标准的编码-解码生成模型的基础上扩展了两个辅助任务——问题分类和实体识别，并遵循多任务学习的范式训练模型。同时，本文提出利用大规模的句子改写语料，用模型在多任务目标上预测分布的一致性作为弱监督信号，使用 KL 距离来度量分布的一致性并优化模型参数。

图5：模型结构图

实验表明，该方法在两个语义分析的数据集上取得了最好的结果。同时，弱监督的多任务学习方法在问题分类和实体识别两个任务上也有明显提升。最后，我们用相似句子生成的逻辑表达式的相似度来评价模型的一致性。得益于弱监督的学习方法，模型对相似输入的解析结果一致性也有了明显的提升，验证了模型对于不同形式输入的鲁棒性。

表6：我们的方法与 baseline 方法在 LSParD 和 CWQ 两个数据集上的实验结果对比

同时，本文还构建了一个新的大规模语义分析语料，用众包的形式标注了超过五万条问题和逻辑表达式的样本，涵盖了九种不同类型的问题。相比于已有的语义分析数据集，该数据集是基于开放领域，并且包含了更加多样化和复杂的问题。我们会在后期公开这个数据集，以帮助语义分析任务的研究工作。

表7：本文构建的大规模数据集

微软亚洲研究院全部被接受论文列表如下：

Adaptive User Modeling with Long and Short-Term Preference for Personalized Recommendation
BN-invariant Sharpness Regularizes the Training Model to Better Generalization
Collaborative Metric Learning with Memory Network for Multi-Relational Recommender Systems
Co-Attentive Multi-Task Learning for Explainable Recommendation
Deliberation Learning for Image-to-Image Translation
Hi-Fi Ark: Deep User Representation via High-Fidelity Archive Network
Image-to-Image Translation with Multi-Path Consistency Regularization
Improved Algorithm on Online Clustering of Bandits
Knowledge Aware Semantic Concept Expansion for Image-Text Matching
Local Search with Efficient Automatic Configuration for Minimum Vertex Cover
Neural News Recommendation with Attentive Multi-View Learning
Personalized Multimedia Item and Key Frame Recommendation
Polygon-Net: A General Framework for Jointly Boosting Multiple Unsupervised Neural Machine Translation Models
Weakly Supervised Multi-task Learning for Semantic Parsing

点击阅读原文，即可下载全部论文。

你也许还想看：

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：[email protected]。

继续阅读

阅读原文