7 Papers & Radios | 21℃室温超导引爆物理圈；微软发布视觉ChatGPT

机器之心 & ArXiv Weekly

参与：楚航、罗若天、梅洪源

本周论文包括微软亚洲研究院提出的视觉 ChatGPT；罗切斯特大学的物理学家 Ranga Dias 及其团队实现了一种超导体，其能在室温和接近常压的环境下工作。

目录：

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
Evidence of near-ambient superconductivity in a N-doped lutetium hydride
Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions
MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis
PaLM-E: An Embodied Multimodal Language Model
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
Dropout Reduces Underfitting
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

作者：Chenfei Wu 、 Shengming Yin 、 Weizhen Qi 等
论文地址：https://arxiv.org/pdf/2303.04671.pdf

摘要：微软亚洲研究院的研究者提出了一个名为 Visual ChatGPT 的系统，他们将 ChatGPT 和多个 SOTA 视觉基础模型连接，实现在对话系统中理解和生成图片。为了方便复现，该研究已经将代码完全开源。

他们不是从头开始训练一个新的多模态 ChatGPT，而是直接基于 ChatGPT 构建 Visual ChatGPT，并结合了各种 VFM。为了弥合 ChatGPT 和这些 VFM 之间的差距，该研究提出了一个 Prompt Manager，其支持以下功能：

1）明确告诉 ChatGPT 每个 VFM 的功能并指定输入输出格式；

2) 将不同的视觉信息，例如 png 图像、深度图像和 mask 矩阵，转换为语言格式以帮助 ChatGPT 理解；

3) 处理不同 VFM 的历史、优先级和冲突。

下图为 Visual ChatGPT 概览。左边进行了三轮对话，中间是 Visual ChatGPT 如何迭代调用 Visual Foundation Models 并提供答案的流程图。右侧展示了第二次 QA 的详细过程。

推荐：视觉 ChatGPT 来了，微软发布，代码已开源。

论文 2：Evidence of near-ambient superconductivity in a N-doped lutetium hydride

作者：Nathan Dasenbrock-Gammon、Elliot Snider 等
论文地址：https://www.nature.com/articles/s41586-023-05742-0

摘要：本周二下午，在拉斯维加斯举行的美国物理学会（APS March Meeting）三月年度会议上，罗切斯特大学的物理学家 Ranga Dias 发表了一场座无虚席的演讲，他宣布他和他的团队已经实现了该领域的百年梦想：一种超导体，能在室温和接近常压的环境下工作。

在新研究中，人们锻造的化合物成功在 21 摄氏度（69.8 华氏度，294K）和大约 1 吉帕的压力下无电阻地传导电流。这仍然是一个很大的压力 —— 大约是马里亚纳海沟最深处压力的 10 倍 —— 但它比以前使用类似材料进行的实验所需的压力低 100 多倍。

近环境下镥 - 氮 - 氢的超导性压力

推荐：21℃室温超导引爆物理圈。

论文 3：Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions

作者：Huiqi Deng 、 Na Zou 等
论文地址：https://arxiv.org/pdf/2303.01506.pdf

摘要：本文提出了「统一解释 14 种输入单元重要性归因算法的内在机理」。表 1 展示了十四种不同的归因算法分别是如何对独立效应与交互效应进行分配。

此外，本文还提出了以下三条评估准则，以评价某一个归因算法是否公平合理地分配独立效应和交互效应。（1）准则一：分配过程中涵盖所有独立效应和交互效应。（2）准则二：避免将独立效应和交互分配给无关的输入单元。（3）准则三：完全分配。

推荐：理解并统一 14 种归因算法，让神经网络具有可解释性。

论文 4：MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

作者：Tianhong Li、Huiwen Chang 等
论文地址：https://arxiv.org/abs/2211.09117

摘要：来自 MIT 和 Google Research 的研究人员提出了一种基于图像语义符掩码的表征学习方法，首次在一个统一的框架中实现了图像生成和表征学习，并在多个数据集上取得了 SOTA 表现。研究论文已被 CVPR 2023 接收，相关代码与预训练模型已开源。

本文作者提出了 MAGE（Masked Generative Encoder），首次实现了统一的图像生成和特征提取模型。与 MIM 直接作用于图像的掩码方法不同，MAGE 提出了基于图像语义符的 masked image token modeling 方法。如图所示，MAGE 首先使用 VQGAN [3] 编码器将原始图像转换为离散的语义符。之后，MAGE 对其进行随机掩码，并使用基于 transformer 的 encoder-decoder 结构对掩码进行重构，重构后的语义符可以通过 VQGAN 解码器生成原始图像。通过在训练中使用不同的掩码率，MAGE 可以同时进行生成模型（接近 100% 掩码率）和表征学习（50%-80% 掩码率）的训练。如图 1 所示，MAGE 重建出的图像不仅具有与原始图像一致的语义信息，还能够同时保证生成图像的多样性与真实性。

图 2：MAGE 结构图

推荐：谷歌、MIT 提出统一框架 MAGE：表征学习超 MAE，无监督图像生成超越 Latent Diffusion。

论文 5：PaLM-E: An Embodied Multimodal Language Model

作者：Danny Driess 、 Fei Xia 等
论文地址：https://palm-e.github.io/assets/palm-e.pdf

摘要：谷歌推出的具身语言模型 PaLM-E，它可以将连续的传感器数据直接整合到语言模型里，从而使得语言模型能够做出更有根据的推理。值得一提的是，他们之所以将此模型命名为 PaLM-E，是因为本文使用了 2022 年谷歌发布的 PaLM 作为预训练语言模型。

PaLM-E-562B 在 OK-VQA 基准上实现了 SOTA 性能，而不依赖特定于任务的微调。除此以外，PaLM-E-562B 在其他任务上也表现良好，包括零样本多模态思维链 (CoT) 推理、少样本提示、OCR-free 数学推理和多图像推理等。

如下图，给定一张图像，并向 PaLM-E 提问：「如果一个机器人想在这里发挥作用，它应该采取哪些步骤？」PaLM-E 给出的回答是：首先清理桌子，清理垃圾，然后挪动椅子，擦椅子，最后把椅子放回原处。PaLM-E 的回答看起来很符合逻辑。

推荐：5620 亿参数，最大多模态模型控制机器人，谷歌把具身智能玩出新高度。

论文 6：Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

作者：Yu Zhang、Wei Han 等
论文地址：https://arxiv.org/abs/2303.01037v2

摘要：谷歌公开了通用语音模型 (USM) 的信息，这是支持 1000 种语言的第一步。USM 包含一系列 SOTA 语音模型，带有 20 亿参数，经过 1200 万小时的语音和 280 亿个文本句子的训练，涵盖 300 多种语言。USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别（ASR），还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。

谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器，并用较小的标记数据集进行微调，能够让模型识别使用人数非常少的语言。此外，谷歌的模型训练过程可以有效地适应新的语言和数据。

USM 支持的语言示例。‍

推荐：谷歌的野心：通用语音识别大模型已经支持 100 + 语言。

论文 7：Dropout Reduces Underfitting

作者：Zhuang Liu、Zhiqiu Xu 等
论文地址：https://arxiv.org/abs/2303.01500

摘要：近日在一篇论文《Dropout Reduces Underfitting》中，Meta AI、加州大学伯克利分校等机构的研究者展示了如何使用 dropout 来解决欠拟合问题。

他们首先通过对梯度范数的有趣观察来研究 dropout 的训练动态，然后得出了一个关键的实证发现：在训练初始阶段，dropout 降低小批量的梯度方差，并允许模型在更一致的方向上更新。这些方向也更与整个数据集的梯度方向保持一致，具体如下图 1 所示。

研究者提出了 early dropout（即 dropout 仅在训练早期使用），来帮助欠拟合模型更好地拟合。与无 dropout 和标准 dropout 相比，early dropout 降低了最终的训练损失。相反，对于已经使用标准 dropout 的模型，研究者建议在早期训练 epoch 阶段移除 dropout 以降低过拟合。他们将这一方法称为 late dropout，并证明它可以提升大模型的泛化准确率。下图 2 比较了标准 dropout、early 和 late dropout。

推荐：改进 Hinton 的 Dropout：可以用来减轻欠拟合了。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Stylometric Detection of AI-Generated Text in Twitter Timelines. (from Huan Liu)

2. Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering -- Example of ChatGPT. (from Dane Morgan)

3. Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation. (from Dragomir Radev)

4. Adaptive Knowledge Distillation between Text and Speech Pre-trained Models. (from Erik Cambria)

5. Let's Get Personal: Personal Questions Improve SocialBot Performance in the Alexa Prize. (from Marilyn Walker)

6. Automatically Summarizing Evidence from Clinical Trials: A Prototype Highlighting Current Challenges. (from Denis Jered McInerney)

7. Guilt Detection in Text: A Step Towards Understanding Complex Emotions. (from Alexander Gelbukh)

8. Prompt-Based Learning for Thread Structure Prediction in Cybersecurity Forums. (from Chitta Baral)

9. RweetMiner: Automatic identification and categorization of help requests on twitter during disasters. (from Young-Koo Lee)

10. Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling. (from Furu Wei)

本周 10 篇 CV 精选论文是：

1. Generalized Semantic Segmentation by Self-Supervised Source Domain Projection and Multi-Level Contrastive Learning. (from Jian Sun)

2. Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes. (from Mubarak Shah)

3. A Meta-Learning Approach to Predicting Performance and Data Requirements. (from Bernt Schiele, Stefano Soatto)

4. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. (from Jie Yang, Lei Zhang)

5. Centroid-centered Modeling for Efficient Vision Transformer Pre-training. (from Dacheng Tao)

6. AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning. (from Dinesh Manocha)

7. SoftMatch Distance: A Novel Distance for Weakly-Supervised Trend Change Detection in Bi-Temporal Images. (from Licheng Jiao)

8. PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling. (from Kai Chen)

9. TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and Clustering. (from Horst Bischof)

10. Word-As-Image for Semantic Typography. (from Daniel Cohen-Or, Ariel Shamir)

本周 10 篇 ML 精选论文是：

1. Exploration via Epistemic Value Estimation. (from John Shawe-Taylor)

2. Mark My Words: Dangers of Watermarked Images in ImageNet. (from Klaus-Robert Müller)

3. Multi-Symmetry Ensembles: Improving Diversity and Generalization via Opposing Symmetries. (from Marin Soljacic)

4. On the Expressiveness and Generalization of Hypergraph Neural Networks. (from Joshua B. Tenenbaum, Leslie Pack Kaelbling)

5. Planning with Large Language Models for Code Generation. (from Joshua B. Tenenbaum)

6. Neural Operator Learning for Long-Time Integration in Dynamical Systems with Recurrent Neural Networks. (from George Em Karniadakis)

7. Graph Decision Transformer. (from Dacheng Tao)

8. CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network. (from Dinesh Manocha)

9. Tensorized LSSVMs for Multitask Regression. (from Johan A.K. Suykens)

10. Provable Data Subset Selection For Efficient Neural Network Training. (from Daniela Rus)

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

继续阅读

阅读原文