机器之心 & ArXiv Weekly Radiostation
参与:杜伟楚航、罗若天
本周论文主要包括微软研究者提出的动态头(Dynamic Head),其采用注意力机制将不同的目标检测头进行统一,将 COCO 指标推到一个新记录;快手 AI 平台部在斗地主上取得了突破,提出了首个从零开始的斗地主人工智能系统——斗零(DouZero)等研究。
目录
  1. OoD-Bench: Benchmarking and Understanding Out-of-Distribution Generalization Datasets and Algorithms 
  2. Decision Transformer: Reinforcement Learning via Sequence Modeling
  3. Dynamic Head: Unifying Object Detection Heads with Attentions 
  4. Video Super-Resolution Transformer 
  5. The rise of intelligent matter
  6. TextStyleBrush: Transfer of text aesthetics from a single example 
  7.  DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:OoD-Bench: Benchmarking and Understanding Out-of-Distribution Generalization Datasets and Algorithms
  • 作者:Nanyang Ye、Kaican Li、 Lanqing Hong、 Haoyue Bai、 Yiting Chen、 Fengwei Zhou、 Zhenguo Li
  • 论文链接:https://arxiv.org/pdf/2106.03721v1.pdf
摘要:深度学习中的分布外 (OoD) 泛化是指模型在分布变化的场景下进行泛化的任务。我们假设在训练的过程中模型可以接触到相同任务但来自于不同环境与实验条件的数据集。OoD 泛化算法的目标是提取这些训练的不变性表征,假设这种不变性表征也能在未知的测试环境中保持。近年来,许多相关 OoD 算法被提出并声称在特定类型的基准测试集上超越了所有先前的工作。然而,最近的一项工作表明,目前大多数为 OoD 泛化设计的学习算法,仍然与经典的经验风险最小化方法 ERM 相当。
本文通过大量实验验证现有 OoD 算法的有效性,并揭示了一个看起来并不比 ERM 好很多的可能原因。事实表明,表现出分布变化的现有数据集通常可以分为具有不同特点的两类,如图 1 所示,大多数算法只能最多在其中一个类别数据集中超过 ERM。研究假设这种现象是由于两种不同的分布偏移的影响,即多样性迁移 (Diversity shift) 和相关性迁移(Correlation shift),而先前的工作往往只关注其中之一。
不同的数据集存在多种维度的数据偏移:左右两边分别是典型的包含 Diversity shift 和 Correlation shift 的数据集,此外,现实中有很多 OoD 数据集是同时包含了这两种数据偏移。
Diversity shift 和 correlation shift 的描绘。
推荐:本文提出了一种新的面向非独立同分布域泛化问题的评价指标 OoD-Bench,同时对 OoD 领域构建了一个统一的框架。
论文 2:Decision Transformer: Reinforcement Learning via Sequence Modeling
  • 作者:Lili Chen、Kevin Lu、Aravind Rajeswaran、 Kimin Lee、Aditya Grover、Michael Laskin、Pieter Abbeel、 Aravind Srinivas、 Igor Mordatch
  • 论文链接:https://arxiv.org/pdf/2106.01345.pdf
摘要:近日,来自 UC 伯克利、FAIR 和谷歌大脑的研究者发布了一篇论文,提出了 Decision Transformer——一种通过序列建模进行强化学习的架构。
首先,为了使用 Transformer 架构的简单性和可扩展性,以及 GPT-x 和 BERT 等语言建模的优势,研究者引入了一个框架,将强化学习抽象为序列建模问题。然后将强化学习问题转化为条件序列建模的架构,提出了 Decision Transformer。与先前拟合值函数或计算策略梯度的方法不同,Decision Transformer 通过利用因果掩蔽的 Transformer 来输出最佳行动。
根据期望奖励、过去的状态和行动来调节自回归模型,Decision Transformer 模型能够生成实现期望奖励的未来行动。尽管很简单,Decision Transformer 在 Atari、OpenAI Gym 和 Key-to-Door 任务上达到甚至超过了最先进的无模型离线强化学习基线性能。
Decision Transformer 架构。
推荐:这是一种通过序列建模进行强化学习的 Transformer 架构,并在 Atari、OpenAI Gym 等强化学习实验平台上媲美甚至超越 SOTA 离线 RL 基线方法。
论文 3:Dynamic Head: Unifying Object Detection Heads with Attentions
  • 作者:Xiyang Dai、 Yinpeng Chen 、Bin Xiao、 Dongdong Chen、 Mengchen Liu、 LuYuan、 Lei Zhang
  • 论文链接:https://arxiv.org/pdf/2106.08322.pdf
摘要:目标检测中定位与分类合并的复杂性衍生出各种算法,这些方法都是从不同的角度进行目标检测性能提升,很难从统一的角度进行分析度量。
来自微软的研究者提出一种新颖的动态头架构(Dynamic Head),其采用注意力机制将不同的目标检测头进行统一。通过特征层次之间的注意力机制用于尺度感知,空间位置之间的注意力机制用于空间感知,输出通道内的注意力机制用于任务感知,该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。在 COCO 数据集上进行了实验。骨干网络为 ResNeXt-101-DCN,研究者将目标检测的性能提升到了 54.0AP;更进一步实验表明,采用最新的 Transformer 骨干与额外数据,可以将 COCO 的指标推到一个新记录:60.6AP。
推荐:本文提出一种新颖的动态头框架,它采用注意力机制将不同的目标检测头进行统一。
论文 4:Video Super-Resolution Transformer
  • 作者:Jiezhang Cao、Yawei Li、Kai Zhang、Luc Van Gool
  • 论文链接:https://arxiv.org/pdf/2106.06847.pdf
摘要:视频超分辨率 (VSR) 旨在由低分辨率视频进行高分辨率视频重建,是一种空 - 时序列预测问题。最近,Transformer 由于其序列到序列建模的并行计算能力而变得越来越流行。似乎可以将 Transformer 直接应用到 VSR 中。然而,Transformer 的经典设计方式 (全连接自注意力层与词级前馈层) 并不适用于 VSR 问题,主要由以下两个原因:
首先,全连接自注意层忽略了数据局部性,因为该层依赖于线性层来计算注意力图;
词级前馈层缺乏特征对齐能力,而这对于 VSR 非常重要。
本文首次尝试将 Transformer 应用于 VSR。具体来说,为解决第一个问题,研究者提出一种空时卷积自注意力层以探索局部信息;为解决第二个问题,研究者设计了一种双向光流前馈层以发现近邻视频帧相关性并进行对齐。最后,研究者在几个基准数据集上验证了所提方案的有效性。
具体来说,给定视频序列,研究者首先采用堆叠残差模块从视频中提取特征;然后 VSR-Transformer 将特征编码为连续表达序列;最后重建网络从上述表达中进行高分辨率视频重建。
VSR-Transformer 架构示意图,它包含特征提取、Transformer 编码器以及重建网络。
上图给出了本文所提 STCSA(Spatial-Temporal Convolutional Self-Attention, STCSA)模块示意图。
推荐:本文提出了一种视频超分辨率 Transformer。
论文 5:The rise of intelligent matter
  • 作者:C. Kaspar、B. J. Ravoo、W. G. van der Wiel、S. V. Wegner & W. H. P. Pernice
  • 论文链接:https://www.nature.com/articles/s41586-021-03453-y
摘要:受大脑能力和能量效率的启发,人工智能 (AI) 正在加速非常规计算范式的发展。人类的大脑尤其擅长于计算密集型的认知任务,比如模式识别和分类。一个长期的目标是去中心化的神经形态计算,依靠分布式核心网络来模拟大脑的大规模并行性,从而严格遵循自然启发的信息处理方法。而通过将相互连接的计算块逐渐转变为连续的计算组织,可以设想出具有智能基本特征的高级物质形态,这种「智能物质」能够以非定域的方式学习和处理信息,能通过接收和响应外部刺激与环境相互作用,同时在内部还能自主调整结构,以便能够合理分配和储存信息。
本文综述了利用分子系统、软材料或固态材料实现智能物质的进展,包括在软机器人、自适应人工皮肤和分布式神经形态计算中的应用。
结构物质是静态的,合成后不能改变其性质,如纯硅;章鱼的触手,带有嵌入式传感器、执行器和神经系统,代表着智能物质。图源:Nature
自适应群体行为和胶体簇。图源:Nature
响应性软物质和具有嵌入式存储器功能的软物质。图源:Nature
推荐:来自德国明斯特大学和荷兰特文特大学的科学家研究者在《Nature》上发文,对「智能物质」进行了概述。
论文 6:TextStyleBrush: Transfer of text aesthetics from a single example
  • 作者:Praveen Krishnan、 Rama Kovvuri、Guan Pang、Boris Vassilev、Tal Hassner
  • 论文链接:https://arxiv.org/pdf/2106.08385.pdf
摘要:用 AI 生成图像一直在以惊人的速度发展,这种生成技术能够重现历史场景,或者将照片变成类似梵高绘画风格。现在,Facebook AI 已经建立了一个可以替换场景和手写文本风格,只需要一个单词作为输入。
虽然大多数 AI 系统都可以通过定义明确、专业化任务做到这一点,但构建一个足够灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,具有很大的挑战。这意味着需要了解众多的文本样式,不仅包括不同的字体和书写风格,而且也包括不同的转换,如旋转,弯曲的文字以及图像噪声等问题。
Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监督的方法进行训练,没有使用目标风格监督,只使用了原始风格图像。该框架可以自动的寻找图片真实风格。在训练时,假设每个词框有真实值(出现在框中的文本);推理时,采用单一源样式图像和新内容(字符串),并生成带有目标内容的源样式的新图像。
研究者通过内容和风格表征来调节生成器以解决上述限制。通过提取特定于层的风格信息并将其注入到生成器的每一层来处理文本风格的多尺度特性。除了以期望的风格生成目标图像外,生成器还生成表示前景像素 (文本区域) 的软蒙版图像。通过这种方式,生成器可以控制文本的低分辨率和高分辨率细节,以匹配所需的输入风格。
推荐:Facebook 公布的一项新的图像 AI TextStyleBrush,该技术可以复制和再现图像中的文本风格。
论文 7:DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning
  • 作者:Daochen Zha 1 、Jingru Xie 、 Wenye Ma 、 Sheng Zhang、 Xiangru Lian 、 Xia Hu 、 Ji Liu
  • 论文链接:https://arxiv.org/pdf/2106.06135.pdf
摘要:人工智能在很多棋牌类游戏中取得了很大的成功,例如阿尔法狗(围棋)、冷扑大师(德州扑克)、Suphx(麻将)。但斗地主却因其极大的状态空间、丰富的隐含信息、复杂的牌型和并存的合作与竞技,一直以来被认为是一个极具挑战的领域。近日,快手 AI 平台部在斗地主上取得了突破,提出了首个从零开始的斗地主人工智能系统——斗零(DouZero)。比较有趣的是,该系统所使用的算法极其简单却非常有效。团队创新性地将传统的蒙特卡罗方法(即我们初高中课本中常说的「用频率估计概率」)与深度学习相结合,并提出了动作编码机制来应付斗地主复杂的牌型组合。
该算法在不借助任何人类知识的情况下,通过自我博弈学习,在几天内战胜了所有已知的斗地主打牌机器人,并达到了人类玩家水平。相关论文已被国际机器学习顶级会议 ICML 2021 接收,论文代码也已开源。同时,论文作者开放了在线演示平台供研究者和斗地主爱好者体验。
如下图所示,斗零将所有的牌型编码成 15x4 的由 0/1 组成的矩阵。其中每一列代表一种牌,每一行代表对应牌的数量。例如,对于 4 个 10,第 8 列每一行都是 1;而对于一个 4,第一行只有最后一行是 1。这种编码方式可适用于斗地主中所有的牌型。
斗零提取了多个这样的矩阵来表示状态,包括当前手牌,其他玩家手牌之和等等。同时,斗零提取了一些其他 0/1 向量来编码其他玩家手牌的数量、以及当前打出的炸弹数量。动作可以用同样的方式进行编码。神经网络如下图所示,斗零采用一个价值神经网络,其输入是状态和动作,输出是价值。首先,过去的出牌用 LSTM 神经网络进行编码。然后 LSTM 的输出以及其他的表征被送入了 6 层全连接网络,最后输出价值。
推荐:该研究提出了首个从零开始的斗地主人工智能系统——斗零(DouZero)。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. Multi-head or Single-head? An Empirical Comparison for Transformer Training.  (from Jiawei Han)
2. Graph Neural Networks for Natural Language Processing: A Survey.  (from Jian Pei)
3. Biomedical Interpretable Entity Representations.  (from Joydeep Ghosh)
4. Text Generation with Efficient (Soft) Q-Learning.  (from Eric P. Xing)
5. Local Explanation of Dialogue Response Generation.  (from Lise Getoor)
6. Direction is what you need: Improving Word Embedding Compression in Large Language Models.  (from Karl Aberer)
7. Specializing Multilingual Language Models: An Empirical Study.  (from Noah A. Smith)
8. Scientific Language Models for Biomedical Knowledge Base Completion: An Empirical Study.  (from Noah A. Smith)
9. Assessing Multilingual Fairness in Pre-trained Multimodal Representations.  (from Yang Liu)
10. DocNLI: A Large-scale Dataset for Document-level Natural Language Inference.  (from Dragomir Radev)
本周 10 篇 CV 精选论文是:
1. Towards Total Recall in Industrial Anomaly Detection.  (from Bernhard Schölkopf, Thomas Brox)
2. Large-Scale Unsupervised Object Discovery.  (from Cordelia Schmid, Patrick Pérez, Jean Ponce)
3. Multi-Label Learning from Single Positive Labels.  (from Pietro Perona)
4. THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers.  (from William T. Freeman, Rahul Sukthankar)
5. Dynamic Head: Unifying Object Detection Heads with Attentions.  (from Lei Zhang)
6. Domain Adaptive SiamRPN++ for Object Tracking in the Wild.  (from Lei Zhang)
7. BABEL: Bodies, Action and Behavior with English Labels.  (from Michael J. Black)
8. Deception Detection and Remote Physiological Monitoring: A Dataset and Baseline Experimental Results.  (from Kevin W. Bowyer)
9. JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion Retargeting.  (from Daniel Cohen-Or)
10. Deep Contrastive Graph Representation via Adaptive Homotopy Learning.  (from Xuelong Li)
本周 10 篇 ML 精选论文是:
1. Online Learning of Competitive Equilibria in Exchange Economies.  (from Michael I. Jordan)
2. Adversarial Robustness through the Lens of Causality.  (from Bernhard Schölkopf)
3. Residual Reinforcement Learning from Demonstrations.  (from Julien Mairal, Jean Ponce, Cordelia Schmid)
4. Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning.  (from Li Fei-Fei)
5. SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual Policies.  (from Li Fei-Fei)
6. Courteous Behavior of Automated Vehicles at Unsignalized Intersections via Reinforcement Learning.  (from Wolfram Burgard)
7. Seeing Differently, Acting Similarly: Imitation Learning with Heterogeneous Observations.  (from Masashi Sugiyama, Zhi-Hua Zhou)
8. Harmonization with Flow-based Causal Inference.  (from Christos Davatzikos)
9. Automatic Curricula via Expert Demonstrations.  (from Brian Williams)
10. KL Guided Domain Adaptation.  (from Philip H. S. Torr)
© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
继续阅读
阅读原文