对电商平台的推荐不满意？人大提出自监督学习序列推荐预训练！

近年来，许多在线平台（如亚马逊和淘宝网）的推荐都取得了巨大成功，但是他们主要依靠“下一个物品推荐”（Next Item Prediction）损失函数来学习整个模型。在使用上下文信息时，也仍然只使用这一个优化目标。

已有研究表明，这种优化方法很容易受到数据稀疏性等问题的影响。此外，它们过分强调最终的推荐性能，而上下文数据和序列数据之间的关联或融合却没有在数据表示中被很好地捕获。

对于以上问题，本文提出了一种基于自监督学习方法的序列推荐模型，并在六个数据集上都取得了很好的效果。

论文标题：

《S3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization》

论文来源：ACM CIKM 2020

论文链接：https://arxiv.org/abs/2008.07873

代码链接：https://github.com/RUCAIBox/CIKM2020-S3Rec

1
引言

近年来，许多在线平台（如亚马逊和淘宝网）都取得了巨大成功。在线平台上的用户行为是动态变化的，且会随着时间而发展。序列推荐的主要目标就是从用户历史行为中捕捉关键的信息，并基于此准确表征用户兴趣进而提供高质量的推荐[1,2,3]。

已有研究人员基于深度学习提出很多序列推荐的模型，此外还有研究人员结合丰富的上下文信息（如商品属性）一起进行用户兴趣建模，实验表明，上下文信息对于提高推荐效果很重要。

尽管现有方法在一定程度上已被证明有效，但它们有两个可能会影响推荐效果的缺陷。

首先，他们主要依靠“下一个物品推荐”（Next Item Prediction）损失函数来学习整个模型。在使用上下文信息时，也仍然只使用这一个优化目标。已有研究表明，这种优化方法很容易受到数据稀疏性等问题的影响。

此外，它们过分强调最终的推荐性能，而上下文数据和序列数据之间的关联或融合却没有在数据表示中被很好地捕获。

多个领域的实验结果表明[4，5，6]，更有效的数据表示方法（例如，预先训练的上下文信息嵌入）已成为改善现有模型或体系结构性能的关键因素。因此，有必要重新考虑学习范式并开发更有效的序列推荐系统。

为了解决上述问题，我们借鉴了自监督学习的思想来改进序列推荐的方法。自监督学习是一个新兴的学习范式，旨在让模型从原始数据的内在结构中学习。自监督学习的一般框架是首先从原始数据中构建新的监督信号，然后通过这些额外设计的优化目标来对模型进行预训练。如之前讨论的，有限的监督信号和低效的数据表示是现有的神经序列推荐方法的两个主要问题。

幸运的是，自监督学习似乎为解决这两个问题提供了解决方案：它通过内在数据相关性来设计辅助训练目标以提供丰富的自监督信号，并通过预训练的方法增强数据表示。对于序列推荐，上下文信息以不同的形式存在，包括物品，属性，子序列和序列。开发统一表征这种数据相关性的方法并不容易。

对于这个问题，我们借鉴最近提出的互信息最大化（Mutual Information Maximization, MIM）方法，其已被证明可以有效捕获原始输入的不同视图（或部分）之间的相关性。

基于以上，我们提出了一种基于自监督学习方法的序列推荐模型（Self-Supervised Learning Sequential Recommendation, S3-Rec）。

基于自注意力机制的体系结构[3]，我们首先使用设计的自监督训练目标对模型进行预训练，然后根据推荐任务对模型进行微调。此工作的主要新颖之处在预训练阶段，我们基于MIM的统一形式精心设计了四个自监督的优化目标，分别用于捕获物品-属性间，序列-物品间，序列-属性间和序列-子序列间的相关性。因此，S3-Rec能够以统一的方式来表征不同粒度级别或不同形式数据之间的相关性，并且也可以灵活地适应新的数据类型或关联模式。通过这样的预训练方法，我们可以有效地融合各种上下文数据，并学习属性感知的上下文化的数据表示。最后，将学习到的表示输入推荐模型，并根据推荐任务对其进行优化。

为了验证S3-Rec的有效性，我们在6个不同领域的真实数据集上进行了充分的实验。实验结果表明，S3-Rec超过了目前的SOTA，并且在训练数据非常有限的情况表现得尤为明显。另外S3-Rec还可以有效得适应其他类别的神经体系结构，例如GRU[1]和CNN[2]。

我们的主要贡献概括如下：

1、据我们所知，这是首次采用MIM进行自监督学习来改善序列推荐任务的工作；

2、我们提出了4个自监督优化目标来最大化不同形式或粒度的上下文信息的互信息；

3、在6个数据集上的充分实验证明了我们方法的有效性。

2
方法

2.1 基础模型

我们的基础模型由嵌入层，自注意力层和推荐层构成。

（1）嵌入层包括item embedding，attribute embedding和position embedding。基础模型的输入由序列的item embedding和position embedding求和得到：

（2）自注意力层由一个多头自注意力子层和前馈全连接子层构成。

多头自注意力子层为：

前馈全连接子层为：

（3）推荐层根据自注意力层在 t 时刻的输出预测 t+1 时刻可能交互的物品。

2.2 任务定义

给定一个用户的历史交互序列

，和每一个物品的属性

，其中n是交互个数，序列推荐的目标是基于这些信息推荐用户下一个可能交互的物品。此外，我们使用

来表示一个子序列。

2.3 自监督学习

我们设计了4种不同的自监督学习目标来建模不同粒度的信息联系。

1）建模物品-属性间的联系。对于每一个物品，属性提供了其更小粒度的信息，我们希望融合物品和属性的表示，通过这种方式，我们希望把有用的属性信息注入物品表示中。给定一个物品 i 和其属性集合

，我们设计了Associated Attribute Prediction (AAP) 损失函数来最大化二者之间的互信息：

我们通过负采样来增强物品与真实属性间的联系。给出的AAP定义是针对一个物品的，很显然我们可以扩展到所有物品上。

2）建模序列-物品间的联系。传统的序列推荐方法通常从左至右的建模交互序列，并通过预测下一个时间步的物品来进行训练。受BERT的掩码语言模型（Masked Language Model, MLM）的启发，我们使用Cloze任务来建模物品序列的双向信息，提出了Masked Item Prediction (MIP)。在训练时，我们随机mask原序列中一定比例的物品，然后我们根据其双向上下文的信息来预测被mask的物品。假设我们mask序列