音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

西交、清华等发布多模态大模型，有望成为「DALL·E 4」技术路线？和AI一起「白日作梦」

DALL·E 3让我们看到了生成+理解的大语言模型的魔力。就在其发布的同一天，国内的一个新工作引起了社区的关注：DreamLLM。DreamLLM实现了协同学习的多模态理解和生成的大一统，能端到端进行生成和理解，这是否有望成为未来「DALL·E 4」的技术路线？

顶尖科学家如何玩转AI？DeepSpeed4Science：利用先进的AI系统优化技术实现科学发现

AI助力科学发现，DeepSpeed4Science计划引领新时代技术突破！在接下来的十年中，深度学习可能会彻底改变自然科学，增强我们对自然现象进行建模和预测的能力。这可能预示着科学探索的新时代，为从药物开发到可再生能源的各个领域带来重大进展。对此，微软DeepSpeed团队启动了一个名为DeepSpeed4Science的新计划，旨在通过AI系统技术创新帮助领域专家解锁当今最大的科学之谜。

DeepMind创始人：生成式AI只是过渡，AI未来将获得自由，交互式AI将改变人类

在最近MIT科技评论的专访中，DeepMind联创，Inlfection AI创始人表示，他们已经将AI毒性去除，生成式AI只是过渡，未来AI将获得像人一样的自由。

别用GPT-4直出文本摘要！MIT、哥大等发布全新「密度链」提示：实体密度是摘要质量的关键

用密度链提示逐步改善GPT-4摘要中的实体密度，只需三步即可获得「人类级摘要」！

NeurIPS 2023 Spotlight｜高质量多视角图像生成，完美复刻场景材质！SFU等提出MVDiffusion

不怕多视角图像变化大，MVDiffusion整合图片全局意识，内容一致性更高！逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。

MIT惊人证明：大语言模型就是「世界模型」？吴恩达观点再被证实，LLM竟能理解空间和时间

MIT的两位学者发文力证：大语言模型能够理解世界！他们的工作表明，LLM不仅仅学习了表面的统计数据，还学习了包括空间和时间等基本维度的世界模型。

400万token，大模型推理飙升22倍！清华校友爆火一作，GitHub狂揽1.8k星

大语言模型的上下文长度限制从此不存在了？！Meta、MIT、CMU的研究者最近刚刚发表了一篇论文，提出了一种被称为是「高效流式语言模型」（Efficient Streaming Language Models，ESLM）的方法，可以让有限上下文能力的语言模型能够支持几乎无限的上下文窗口。

SLAM和路径规划，哪个容易点？

个人觉得还是slam要难不少。slam+路径规划是一个完整的为了解决机器人在哪，去哪，怎么去的问题。slam解决在哪和去哪，路径规划解决怎么去。所以slam为了解决在哪和去哪需要建立地图和实现自我定位，路径规划则是以这个地图为基础实现全局规划(最优路径)和局部规划(避障)。

太强了！MIT团队开源的激光雷达-视觉-惯导SLAM系统，不服不行！

很多人让我推荐激光雷达-视觉-惯导的多传感器融合SLAM算法，LVI-SAM就是其中一个优秀的算法。

塔夫茨大学开源：激光雷达高清地图定位的运动失真校正方案

由于扫描激光雷达传感器需要有限的时间来创建点云，因此扫描期间传感器的运动会使生成的图像变形，这种现象称为运动失真或卷帘快门。运动失真校正方法是存在的，但它们依赖于外部测量或对多个激光雷达扫描进行贝叶斯滤波。在本文中，我们提出了一种执行快照处理以获得运动失真校正的新颖算法。快照处理无需使用外部传感器或贝叶斯过滤即可将当前激光雷达扫描注册到参考图像，对于高清 (HD) 地图的定位尤其重要。

https://arxiv.org/pdf/2308.13694.pdf

评测 | Quest 3彩色透视提升，但部分MR体验令人失望

Meta Connect 大会正式举行。作为 XR 产业中巨头的年度活动，Meta 在今年一如既往带来了诸多惊喜，并正式发布新一代的 MR 设备 Quest 3。虽然这款设备在 WWDC 之前已经亮相过了一次，但这次 Meta 带来了更多在硬件与生态内容方面的消息。科技媒体 Theverge 的 Adi Robertson 也在现场简单地进行了体验，并给出了相关评价。

混合现实+AI+智能眼镜！Meta Connect大会打出组合拳

作为Connect大会的重点，马克·扎克伯格在Keynote演讲中公布了Meta Quest 3、个性化AI模型、第二代智能眼镜以及系列MR内容生态。以下是Keynote演讲的重要信息汇总。

Meta AR/VR专利分享通过手腕式穿戴设备来检测手势

在Connect大会中，Meta宣布了一系列对Presence Platform功能的升级，从而赋能下一代头显的输入、交互和动捕，包括高保真的上半身追踪，更自然和响应的交互，以及逼真的双腿等等。

挑战英伟达，AMD万事俱备

在软件吞噬世界几十年之后，硅谷的“硅”部分又回来了。事实证明，需要大量的硬核硬件才能将生成式 AI的奇迹变为现实，而芯片制造商Nvidia凭借其强大的图形处理器抓住了时机，成为市场的卫冕冠军。

探索更高效的半导体制造

当前制造太阳能电池和电力电子产品的工艺存在制造浪费问题：当从基板中取出晶圆然后减薄时，高达95%的初始材料块（称为晶圆或基板）被破坏。这些半导体制造工艺称为线锯切和背面研磨。

芯片技术的挑战者“大阅兵”

自1971年英特尔推出第一款 4004 芯片以来，集成电路中的晶体管数量以惊人的速度增长。现在，半导体行业不得不承认，“微芯片上的晶体管数量大约每18个月就会增加一倍”的摩尔定律即将走向终结。

NeurIPS 2023丨说话人识别：语音解耦与自监督

NeurIPS 2023说话人识别最新工作：语音解耦与自监督！由新加坡国家科技局、新国立、港理工和港中文（深圳）联合推出。

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域。

用于音乐源分离的Mel-Band RoFormer

近年来，基于多波段谱图的方法，如带分裂RNN (BSRNN)，在音乐源分离方面显示出了良好的效果。在本文中，我们在前端引入BS-RoFormer模型，该模型继承了BSRNN中的分带方案思想，然后使用带旋转位置嵌入(RoPE)的分层变压器对带内和带间序列进行建模，用于多波段掩码估计。

http://arxiv.org/pdf/2310.01809v1

NeRF&Beyond 10.4日报(HAvatar,MMPI, PARF,PC-NeRF,MIMO-NeRF,逆渲染等）

在轻量级设置下建模可动画 3D 人体头部头像的问题非常重要，但尚未得到很好的解决。现有的 3D 表示要么在人像图像合成的真实感方面表现良好，要么在表情控制的准确性方面表现良好，但无法两者兼而有之。为了解决这个问题，我们引入了一种新颖的混合显式-隐式 3D 表示，面部模型条件神经辐射场，它集成了 NeRF 的表达能力和参数模板的先验信息。

NeRF&Beyond 9.27日报(NeRF3D密度梯度,ITEM3D,DriveSceneGen,LEXIS等）

从神经辐射场 (NeRF) 生成几何 3D 重建受到大量关注。然而，基于密度值的准确且完整的重建具有挑战性。网络输出取决于输入数据、NeRF 网络配置和超参数。因此，直接使用密度值，例如通过使用全局密度阈值进行过滤，通常需要实证研究。在密度从非物体到物体区域增加的假设下，相对值的密度梯度的利用是显而易见的。由于密度表示位置相关参数，因此可以各向异性地处理它，因此体素化 3D 密度场的处理是合理的。在这方面，本文基于密度梯度来解决几何 3D 重建，而梯度是由一阶和二阶导数的 3D 边缘检测滤波器（即高斯的 Sobel、Canny 和拉普拉斯算子）产生的。梯度依赖于所有方向上的相对相邻密度值，因此与绝对大小无关。

智能扬声器可让用户将房间的不同区域静音

在虚拟会议中，通过静音键可以很容易阻止人们互相交谈。但在熙熙攘攘的咖啡馆里，没有按钮可以让你旁边的桌子安静下来。定位和控制声音的能力——例如，在拥挤的房间里，将一个人的说话与特定位置隔离开来——对研究人员来说是一个挑战，尤其是在没有摄像头视觉线索的情况下。