大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

重点发现

在过去一周，Figure 01 机器人因其卓越的性能而成为热议的焦点。这得益于它搭载的 OpenAI 大模型和 ChatGPT 技术，使其在多个方面都展现出了令人瞩目的能力。首先，Figure 01 装备了先进的听觉系统，不仅能理解人类的语音指令并做出精准反应，还能以清晰的发音和自然的语调与人对话，让交流过程仿佛与真人无异。其次，该机器人的动作控制也处于行业领先水平。无论是精细的手部操作还是复杂的全身运动，它都能轻松完成，表现出高度的精确性和敏捷性。这一切归功于其内置的高级传感器和执行器，以及 OpenAI 大模型提供的算法支持，确保了动作的灵活性和准确性。除了听说能力和灵活的动作之外，Figure 01 还具有学习和自适应能力。通过机器学习技术，它能从经验中不断学习，优化行为模式，以更好地适应不同环境和任务需求。

具体内容

大模型持续更新

一家名为 Cohere 的人工智能初创公司推出了一款名为 Command-R 的大模型，这是一款针对大规模生产工作的全新大语言模型。目前，Cohere 已在 Huggingface 上开放了模型权重。
宁德核电发布了自主训练的大模型「锦书」，这是一款专为核工业领域打造的大语言模型，其参数规模达到 720 亿，堪称全球参数量最大的核工业大模型。

多模态领域

华为诺亚方舟实验室联合多个研究机构在《PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation》中提出了一款名为 PixArt-Σ 的扩散变换器模型（DiT），它能够直接根据文本提示生成高达 4K 分辨率的图像。同时，通过引入高质量的训练数据与高效的令牌压缩，使得 PixArt-Σ 在模型大小（0.6B 参数）上远小于现有的文本到图像扩散模型，同时在图像质量和用户提示遵循能力上都有了显著提升。
清华大学丁贵广教授团队和阿里安全联合发布的概念半透膜模型（concept Semi-Permeable Membrane，SPM 模型），能够在 Diffusion 架构的 AI 作图模型中，精准、可控地擦除各类具象或抽象概念，并对无关概念做到几乎完全保留，相关成果记录在论文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》中。
苹果公司公布了最新的多模态大型语言模型— MM1，参数达到 300 亿，采用 MoE 变体架构。相关研究成果记录在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中。

科研领域

3 月 12 日，基于 AI 的蛋白质和其他生物系统设计领域的全球领导者 Basecamp Research，宣布推出其新的深度学习模型 BaseFold 。与其他 AI 驱动的模型相比，该模型可以比其他 AI 工具更准确地预测大型复杂蛋白质的 3D 结构。

开源领域

3 月 12 日，OpenAI 机器学习研究员 Jan Leike 宣布，OpenAI 开放了内部用于分析 Transformer 内部结构的工具—Transformer Debugger（TDB）。TDB 结合了自动可解释性「即使用大模型解释小模型」和稀疏自动编码器，并且允许在不编写代码的情况下快速探索模型的架构，这为探索语言模型的自我解释能力提供了早期研究的工具。

应用探索

产品新功能 / 插件

Midjourney 发布的一项名为角色参考的新功能，这可以让用户在新生成图像中保持之前图像角色的一致性，即将同一人物添加到不同的场景当中。
Pika 发布了一项给视频无缝生成音效的新功能— Sound Effects，用户可以通过 Prompt 来描述自己想要的声音，或者用户可以直接让 Pika 根据视频内容自动生成音效。

智能体

谷歌推出最新版的 RT 系列机器人—— RT-H ，它能通过将复杂任务分解成简单的语言指令，再将这些指令转化为机器人行动，来提高任务执行的准确性和学习效率。相关的研究成果发布在论文《 RT-H: Action Hierarchies Using Language 》中。
3 月 13 号，机器人创业公司 Figure 发布了自己第一个 OpenAI 大模型加持的机器人 Figure 01 的相关视频。视频显示，在搭载了 OpenAI 的多模态大模型后，机器人不仅能够理解人类谈话的内容，而且还能根据人类的要求完成指令任务（如递苹果、收拾桌面、将杯子与盘子放到指定位置）。同时 Figure 01 的速度有了显著的提升，开始接近人类的速度。
谷歌宣布了一种适用于 3D 虚拟环境的通用 AI 智能体——SIMA（Scalable Instructable Multiworld Agent）。通过 SIMA 发出的指令，AI 智能体在游戏中能完成人类能完成任务的 60%。
机器人 AI 公司 Covariant 正式宣布推出机器人领域的通用基础模型 RFM-1（机器人版 ChatGPT），因为 RFM-1 整合了相关语言数据，因此使用者只用自然语言就可以指导机器人完成相应的工作。
3 月 12 日，Cognition AI 公司认知实验室（Cognition Labs）推出了世界上首位全自主人工智能软件工程师— Devin , 它可以在几分钟内独立完成整个软件项目，能够进行复杂的多步骤推理，即使执行了数千项任务也不会出错。

终端 AI

3 月 13 日，在荣耀笔记本 AI PC 技术沟通会上，荣耀公布了其 AI PC 技术架构，荣耀笔记本将会把 AI 技术与用户体验全面融合，用 AI 使能智能硬件、人机交互和多端生态，开启 AI PC 新时代。同时此次发布的 AI PC 技术，将会全面落地荣耀 MagicBook Pro 16。

基础设施

芯片

人工智能超级计算机公司 Cerebras 推出其下一代晶圆级 AI 芯片——Wafer Scale Engine 3 ，其包含了 4 万亿个晶体管。由于使用了更新的芯片制造技术，WSE 3 单机可训练比 GPT4 大 10 倍的模型。

算法

华为诺亚方舟实验室在研究成果《DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models》中提出了一种用于增强 SSM 中各层间隐藏信息的流动的新方法— DenseSSM。其通过有选择地将浅层隐藏状态整合到深层，保留了对最终输出至关重要的浅层细粒度信息，增强了深层感知原始文本信息的能力。
佐治亚理工学院的研究人员在《scDisInFact: disentangled learning for integration and prediction of multi-batch multi-condition single-cell RNA-sequencing data》上介绍了一个深度学习框架—— scDisInFact，其可以对单细胞 RNA 测序（scRNA-seq）数据中的批次效应和条件效应进行建模。
来自南加州大学、微软的研究者在《Guiding Large Language Models with Divide-and-Conquer Program for Discerning Problem Solving》中提出了一种基于分治算法的提示策略来使 LLM 更好地分辨并尽可能避免受到幻觉引发的中间错误的影响。
腾讯和复旦大学的研究团队在《MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies》中提出了一个创新性的 AI 生成框架— MovieLLM。通过这一框架不仅可以生成高质量、多样化的视频数据，而且能自动生成大量与之相关的问答数据集，极大地丰富了数据的维度和深度，同时整个自动化的过程也极大地减少了人力的投入。
清华大学和哈工大在一项联合研究《OneBit: Towards Extremely Low-bit Large Language Models》中提出了大模型 1bit 极限压缩框架 OneBit，这一框架使得大模型权重在压缩超越 90% 的情况下保留大部分（83%）能力。
来自浙江大学、中科院软件所等机构的研究人员在《Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization》中提出了一种新的 Agent 进化策略，从而打造了一款会玩德州扑克的“狡猾”智能体 Agent-Pro。通过不断优化自我构建的世界模型和行为策略，Agent-Pro 掌握了虚张声势、主动放弃等人类高阶游戏策略。

数据库

3 月 11 日，零一万物宣布推出基于全导航图的新型向量数据库笛卡尔（Descartes）。同时零一万物还表示，笛卡尔向量数据库将用在近期即将正式亮相的 AI 产品中，未来也将结合工具提供给开发者。

其他

3 月 13 日，社交、科技巨头 Meta 在官网公布了 Llama-3 模型的训练进展，并公布了两个全新的 24k GPU 集群（共 49152 个 H100）。同时 Meta 也分享了新集群在硬件、网络、存储、设计、性能和软件方面的详细信息，新集群将为各种人工智能工作负载获取高吞吐量和高可靠性。

除了每周的动态更新，InfoQ 研究中心也将以季度为周期，发布《大模型季度监测报告》，跟踪大模型行业的最新动态和相关产品测试。《2023 年第 4 季度中国大模型季度监测报告》预计将于 2024 年 3 月底正式发布，届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试，或想要参与报告内容共建，欢迎联系微信：Bettycbj1996（添加好友请注明来意）