7 Papers & Radios | 全球最大人脸数据集；类Transformer模型跨界视觉任务新SOTA

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括格灵深瞳等机构开源的全球最大人脸数据集，以及类 Transformer 模型跨界在视觉任务上取得了新 SOTA。

目录：

LambdaNetworks: Modeling long-range Interactions without Attention
Fourier Neural Operator for Parametric Partial Differential Equations
Beyond English-Centric Multilingual Machine Translation
A Cross-Domain Recommendation Model Based on Dual Attention Mechanism and Transfer Learning
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
Machine Learning Parallelism Could Be Adaptive, Composable and Automated
Partial FC: Training 10 Million Identities on a Single Machine
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：LambdaNetworks: Modeling long-range Interactions without Attention

作者：未公开
论文链接：https://openreview.net/pdf?id=xTJEN-ggl1b

摘要：对长程交互进行建模在机器学习中至关重要。注意力已成为捕获长程交互的一种常用范式。但是，自注意力二次方式的内存占用已经阻碍了其对长序列或多维输入（例如包含数万个像素的图像）的适用性。例如，将单个多头注意力层应用于一批 256 个 64x64 （8 头）输入图像需要 32GB 的内存，这在实践中是不允许的。

该研究提出了一种名为「lambda」的层，这些层提供了一种捕获输入和一组结构化上下文元素之间长程交互的通用框架。

lambda 层将可用上下文转换为单个线性函数（lambdas）。这些函数直接单独应用于每个输入。研究者认为，lambda 层可以作为注意力机制的自然替代。注意力定义了输入元素和上下文元素之间的相似性核，而 lambda 层将上下文信息汇总为固定大小的线性函数，从而避免了对内存消耗大的注意力图的需求。

lambda 层的超参数、参数等量化数值。

比较了多查询 lambda 层和多头注意力操作的时间和空间复杂度。

比较 LambdaNetworks 与 a）基线 ResNet50、b）通道注意力和 c）以往使用自注意力来补充或替换 ResNet50 中的 3x3 卷积的研究方法。

推荐：Transformer 用在图像识别上会存在计算效率过低的挑战，这篇向 ICLR 2021 大会提交的论文似乎很好地解决了这一问题，其研究的 PyTorch 代码也已在 GitHub 上开源。

论文 2：Fourier Neural Operator for Parametric Partial Differential Equations

作者：Zongyi Li、Nikola Kovachki、Kamyar Azizzadenesheli 等
论文链接：https://arxiv.org/abs/2010.08895v1

摘要：传统意义上，神经网络主要学习有限维欧式空间之间的映射。近期，这一做法被推广到神经算子，它主要学习函数空间之间的映射。对于偏微分方程（PDE）而言，神经算子直接学习任意函数参数依赖到解的映射。因而，与解决一个方程实例的经典方法不同，神经算子学习整个 PDE 家族。

近日，来自加州理工学院和普渡大学的研究者通过直接在傅里叶空间中对积分核进行参数化，构造了新的神经算子——傅里叶神经算子（FNO），帮助实现表达力强且高效的架构。

研究人员在伯格斯方程（Burgers’ equatio）、达西流动（Darcy flow）和纳维 - 斯托克斯方程（Navier-Stokes equation）上进行实验，FNO 超越现有的神经网络方法取得了 SOTA 性能，且与传统的 PDE 求解器相比，其速度快了三个数量级。

上：傅里叶层架构；下：纳维 - 斯托克斯方程示例流。

在一维伯格斯方程、二维达西流动问题和二维纳维 - 斯托克斯方程上对比了 FNO 和多个有限维架构和基于算子的逼近方法。

推荐：该论文目前正在接受 ICLR 2021 大会的审阅。

论文 3：Beyond English-Centric Multilingual Machine Translation

作者：Angela Fan、Shruti Bhosale、Holger Schwenk 等
论文链接：https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

摘要：近日，Facebook 根据多年对 MT 的研究宣布实现了一个重要的里程碑：首个单一的大规模 MMT 模型，该模型可以实现 100x100 个语言对的直接翻译，而不依赖以英语为中心的数据。这个单一的多语言模型表现得和传统双语模型一样好，并且比以英语为中心的多语言模型提高了 10 个 BLEU 点。

具体而言，通过使用新的挖掘策略来创建翻译数据，该研究构建了首个真正的多对多数据集。该数据集拥有 100 种语言的 75 亿个句子。研究者使用可扩展技术来建立具有 150 亿个参数的通用模型，它从相关语言中捕获信息，并反映出更加多样化的语言文字和词法。目前，这项研究已经开源。

多对多数据集和多语言模型示意图。

训练语料库中桥梁语言的数据量。

多对多和以英语为中心语言模型的比较。在包含英语的评估方向上，多对多模型与以英语为中心模型的性能相当，但在非英语方向上的性能要好得多。

推荐：多语言机器翻译模型 M2M-100 不依赖以英语为中心的数据，可以实现 100 种语言之间的相互翻译。

论文 4：A Cross-Domain Recommendation Model Based on Dual Attention Mechanism and Transfer Learning

作者：CHAI Yu-Mei、YUN Wu-Lian、WANG Li-Ming、LIU Zhen
论文链接：http://cjc.ict.ac.cn/online/bfpub/cym-2020324142846.pdf

摘要：本文在 Amazon 数据集上进行了实验比较与分析，首先对本文模型的推荐性能进行评估，与现有的跨领域推荐模型相比，在两种不同的跨领域数据集上平均绝对误差分别提升 6.1% 和 9.15%，均方根误差分别提升 3.66% 和 7.01%；然后对本文模型的知识迁移性能进行评估，与现有的单领域推荐模型相比，在不同数据集下均方误差分别提升 5.47% 和 10.35%；最后通过实验验证了本文提出的注意力机制的有效性，及在缓解数据稀疏问题问题和用户冷启动问题方面的优势，也验证了模型的普适性。

特征提取网络。

跨领域推荐模型 AMTR 架构图。

推荐：本文在《计算机学报》上发表。

论文 5：RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

作者：Yingqi Qu、Yuchen Ding、Jing Liu 等
论文链接：https://arxiv.org/abs/2010.08191

摘要：近日，百度提出了面向端到端问答的检索模型训练方法 RocketQA，该方法针对模型训练中存在的问题，通过跨批次负采样（cross-batch negatives）、去噪的强负例采样（denoised hard negative sampling）与数据增强（data augmentation）等技术，大幅提升了对偶式检索模型的效果。RocketQA 不仅在多个问答相关数据集中取得了 SOTA，同时也刷新了微软 MSMARCO 数据集段落排序任务的榜单，超越谷歌、微软、Facebook、阿里、美团、卡内基梅隆大学、清华大学、滑铁卢大学等企业和高校位居第一，为实现「端到端问答」迈出了重要的一步。

基于稠密向量表示的对偶模型。

RocketQA 训练流程。

微软 MSMARCO Passage Ranking 数据集 leaderboard。

推荐：RocketQA 已逐步应用在百度搜索、广告等核心业务中，并将在更多场景中发挥作用。

论文 6：Machine Learning Parallelism Could Be Adaptive, Composable and Automated

作者：Hao Zhang
论文链接：https://www.cs.cmu.edu/~hzhang2/files/hao_zhang_doctoral_dissertation.pdf

摘要：随着近年来，机器学习领域的创新不断加速，SysML 的研究者已经创建了在多个设备或计算节点上并行机器学习训练的算法和系统。机器学习模型在结构上变得越来越复杂，许多系统都试图提供全面的性能。尤其是，机器学习扩展通常会低估从一个适当的分布策略映射到模型所需要的知识与时间。此外，将并行训练系统应用于复杂模型更是增加了非常规的开发成本，且性能通常低于预期。

近日，CMU 机器人研究所博士张浩公布了自己的博士学位论文《机器学习并行化的自适应、可组合与自动化》，旨在找出并解决并行 ML 技术和系统实现在可用性和性能方面的研究挑战。

论文结构概览。

Facebook AI 提出的 DETR 的架构图。

AutoSync 策略的自动优化流程算法。

推荐：张浩博士的 PhD 导师为 CMU 教授、Petuum 创始人邢波（Eric Xing）。

论文 7：Partial FC: Training 10 Million Identities on a Single Machine

作者：Xiang An,1 Xuhan Zhu, 2 Yang Xiao
论文链接：https://arxiv.org/pdf/2010.05222.pdf

摘要：人脸识别是计算机视觉社区长期以来的活跃课题。之前的研究者主要关注人脸特征提取网络所用的损失函数，尤其是基于 softmax 的损失函数大幅提升了人脸识别的性能。然而，飞速增加的人脸图像数量和 GPU 内存不足之间的矛盾逐渐变得不可调和。

最近，格灵深瞳、北京邮电大学、湘潭大学和北京理工大学的研究者深入分析了基于 softmax 的损失函数的优化目标，以及训练大规模人脸数据的困难。研究发现，softmax 函数的负类在人脸表示学习中的重要性并不像我们之前认为的那样高。实验表明，在主流基准上，与使用全部类别训练的 SOTA 模型相比，使用 10% 随机采样类别训练 softmax 函数后模型准确率未出现损失。

Glint360K 数据集的类别数和图像数比主流训练集加起来还要多。

相比目前最好的训练集 MS1M-V3，Glint360K 有十个点的提升。

在学术界的测试集 IJB-C 和 Megaface 上，使用 Glint360K 的 Full softmax 和 10% 采样都有着相当不错的结果。

推荐：这是目前最大的公共人脸识别训练数据集，已开源。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Topic-Aware Abstractive Text Summarization. (from Harry Jiannan Wang)

2. Multi-task Learning of Negation and Speculation for Targeted Sentiment Classification. (from Andrew Moore)

3. Improving Factual Completeness and Consistency of Image-to-Text Radiology Report Generation. (from Dan Jurafsky)

4. UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus. (from George Michalopoulos)

5. Open Question Answering over Tables and Text. (from William W. Cohen)

6. Word Shape Matters: Robust Machine Translation with Visual Embedding. (from Eric P. Xing)

7. Neural Language Modeling for Contextualized Temporal Graph Generation. (from Yiming Yang)

8. Bridging the Gap between Conversational Reasoning and Interactive Recommendation. (from Minlie Huang)

9. DiDi's Machine Translation System for WMT2020. (from Jieping Ye, Kevin Knight)

10. SmartTriage: A system for personalized patient data capture, documentation generation, and decision support. (from Yang Wang)

本周 10 篇 CV 精选论文是：

1. A Short Note on the Kinetics-700-2020 Human Action Dataset. (from Andrew Zisserman)

2. Volumetric Calculation of Quantization Error in 3-D Vision Systems. (from Andrew J. Coates)

3. Pose And Joint-Aware Action Recognition. (from Rama Chellappa)

4. Towards Accurate Human Pose Estimation in Videos of Crowded Scenes. (from Shuicheng Yan)

5. A Simple Baseline for Pose Tracking in Videos of Crowded Scenes. (from Shuicheng Yan)

6. Toward Accurate Person-level Action Recognition in Videos of Crowded Scenes. (from Shuicheng Yan)

7. LCD -- Line Clustering and Description for Place Recognition. (from Roland Siegwart)

8. On the Exploration of Incremental Learning for Fine-grained Image Retrieval. (from Tinne Tuytelaars)

9. SCOP: Scientific Control for Reliable Neural Network Pruning. (from Dacheng Tao)

10. Deep learning based registration using spatial gradients and noisy segmentation labels. (from Nikos Paragios)

本周 10 篇 ML 精选论文是：

1. Auxiliary Task Reweighting for Minimum-data Learning. (from Kate Saenko, Trevor Darrell)

2. Boosting Gradient for White-Box Adversarial Attacks. (from Licheng Jiao)

3. A Generalizable and Accessible Approach to Machine Learning with Global Satellite Imagery. (from Ian Bolliger)

4. On Differentially Private Stochastic Convex Optimization with Heavy-tailed Data. (from Srini Devadas)

5. Model selection in reconciling hierarchical time series. (from Rob Hyndman)

6. Maximum-Entropy Adversarial Data Augmentation for Improved Generalization and Robustness. (from Dimitris Metaxas)

7. Regret-optimal control in dynamic environments. (from Babak Hassibi)

8. Probabilistic Numeric Convolutional Neural Networks. (from Max Welling)

9. Orbital MCMC. (from Max Welling)

10. Reinforcement Learning for Optimization of COVID-19 Mitigation policies. (from Peter Stone)

继续阅读

阅读原文