音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

UC伯克利脑机接口新突破！利用脑电波即可复现歌曲，语言障碍者有福了

脑机接口领域再添一笔，凭借大脑电波波形图，可逆向重建歌曲。文字解码以外的又一重大突破！

特斯拉「擎天柱」机器人视频爆了！端到端AI大脑加持，挑战高难度瑜伽

特斯拉人形机器人「擎天柱」最新视频公开，在端到端神经网络加持下，能够精准分类物体、找准身体平衡感，让众多网友惊呼将改变人类。

进能形式逻辑，退能四则运算，MAmmoT让LLM成为数学通才

一个新数据集外加思维链和思维程序两种方法之长，竟能让开源 LLM 的数学推理追上 GPT-4 等闭源大模型。

Midjourney创始人：图片只是第一步，AI将彻底改变学习、创意和组织

Midjourney是一家神奇的公司，11人改变世界，创造伟大的产品。注定会成为Pre AGI初年的佳话。MidJourney是当下最炙手可热的图片生成引擎，在OpenAI的DALL·E 2和开源模型Stable Diffusion等激烈竞争下，目前仍保持着多种风格生成效果的绝对领先。极客公园创始人张鹏与Midjourney创始人David Holz进行了对谈。

ChatGPT月活15亿遥遥领先！50家企业厮杀6个月，白手起家占8成

生成式AI大PK！50家企业上台竞争，ChatGPT遥遥领先，月活高达15亿。最近，国外一网站盘点了差不多一年以来所有生成式AI的数据，最后发现，ChatGPT遥遥领先。

ChatGPT最重大更新来了：多模态将上线，能说会看了

ChatGPT 进行了一次重要更新，不管是 GPT-4 还是 GPT-3.5 模型，现在都可以基于图像进行分析和对话了。

无惧图像中的文字，TextDiffuser提供更高质量文本渲染

Text-to-Image 领域取得了巨大的进展，特别是在 AIGC(Artificial Intelligence Generated Content)的时代。随着 DALL-E 模型的兴起，学术界涌现出越来越多的 Text-to-Image 模型，例如 Imagen，Stable Diffusion，ControlNet 等模型。然而，尽管 Text-to-Image 领域发展迅速，现有模型在稳定地生成包含文本的图像方面仍面临一些挑战。

刷榜13个暗光增强基准！清华大学联合ETH等开源Retinexformer：亮、暗都有细节｜ ICCV 2023

来自清华大学、维尔茨堡大学、苏黎世联邦理工学院的研究人员最近在ICCV 2023上发表了一篇新论文，制定了一个简单但原理性的单阶段Retinex-based框架（ORF）。全面超越暗光增强sota模型，Retinexformer架构端到端、单阶段解决过曝、伪影、低光等问题！

激光雷达or视觉感知，谁能顶峰相见？

自动驾驶绕不开的一个话题那就是激光雷达和摄像头到底哪个更出色，这个问题一直在行业内争论不休，两大派系各执一词，都能讲出一大堆的理由为什么用此非彼，其实要想明白为什么会有这个争论，我们就要先了解这两大技术路线背后的原理是什么，各自有哪些优势和不足。

多伦多大学等发布: 半静态环境下的概率对象感知变分SLAM

在缓慢变化的场景中，同时定位和建图（SLAM）对于长期机器人任务完成至关重要。未能检测到场景变化可能导致地图不准确，最终导致机器人丢失。传统的SLAM算法假设场景静态，最近的研究考虑了动态场景，但要求连续帧中观察到场景变化。半静态场景中，物体随时间出现、消失或缓慢移动，通常被忽视，然而它们对于长期操作至关重要。我们提出了一种对象感知的因子图SLAM框架，用于跟踪和重构半静态对象级别的变化。通过融合对象级别信息，我们的方法可以稳健地处理半静态场景，并在长时间内保持准确的地图。实验结果证明了我们提出的框架在处理缓慢变化场景方面的有效性和优越性。我们的工作为SLAM技术在具有多样化和动态环境的实际场景中的进展做出了贡献。

Varjo首款消费级VR头显宣布永久降价；泄露的Xbox文件显示XR备受关注

近日，动态全息技术服务提供商Envisics宣布完成 C 轮融资，这要归功于 M&G Investments 的新投资以及 Van Tuyl Companies 的跟进投资。

硬件持续内卷、内容领域升温，3D赛道再掀浪潮

两年前，对于业内不少人来说，3D内容市场是一条具备千亿级想象空间的赛道。动辄亿元级别的融资，也是3D内容创作市场备受资本关注的缩影。如今，随着疫情结束，市场进入冷静期，融资环境大变。在这个环境下，很多3D内容的初创企业缺的并不是技术而是市场。以3D重建为例，据VR陀螺了解，目前国内的3D重建应用市场基本上没有打开，大多数初创企业都以海外市场需求为主，主要也集中在北美国家。

Meta AR专利介绍用于减少彩虹伪影的波导配置

大多数用户和眼镜厂商都渴望一种形状与太阳眼镜类似的AR眼镜。尽管这听起来十分简单，但一个问题始终困扰着研究人员：杂散光。AR眼镜的敞开程度越高，越多来自多余方向和光源的光线就能够进入系统。由于衍射结构，AR眼镜搭载的眼动追踪组合器可能会衍射来自真实世界的可见光，从而在透视视图中产生彩虹伪影，尤其是当用户从特定角度查看明亮光源时。这种伪影可能会降低透明视图的图像质量。

微软AR/VR专利探索大范围主射线角操纵的微透镜阵列

微软认为，Micro LED具有体积小、重量轻、亮度高、封装密度高的特点，可能特别适合用于需要高分辨率、小尺寸和轻重量的头戴式显示器。在名为”Microlenses providing wide range chief ray angle manipulation for a panel display“的专利申请中，微软介绍了一种为面板显示提供大范围主射线角操纵的微透镜，以及配置所述微透镜阵列的显示系统。

碾压H100，英伟达下一代GPU曝光！首个3nm多芯片模块设计，2024年亮相

H100供不应求，下一代更强GPU已经在路上了。爆料称，英伟达新一代芯片B100，将采用台积电3nm制程，多芯片设计，预计在2024年会推出。

推理芯片的最大挑战

在 Transformer 和其他大型语言模型 (LLM) 的引领下，软件算法取得了快速进展，而负责执行它们的处理硬件却被抛在了后面。即使是最先进的算法处理器也不具备在一两秒的时间范围内详细阐述最新 ChatGPT 查询所需的性能。为了弥补性能不足，领先的半导体公司构建了由大量最好的硬件处理器组成的系统。

“突围”1568天，华为凿出“中国芯”

华为Mate 60 Pro的手机芯片技术引发震动。央视“点名”华为称：华为Mate 60系列新机采用“中国芯”，其1万多个零部件已实现国产化。

多语种说话人识别中的分布对齐研究

由于能够更好地反映现实世界的复杂性，多类型说话人识别正变得越来越受欢迎应用程序。然而，一个主要的挑战是不同类型的演讲者向量分布的显著变化。虽然分布对齐是解决这一挑战的常用方法，但以前的研究主要集中在对齐源域和目标域上，并且多类型数据的性能尚不清楚。本文对多类型数据中需要对多个分布进行对齐的主流分布对齐方法进行了综合研究。我们对各种方法进行定性和定量分析。我们在CN-Celeb数据集上的实验表明，中间分布对齐(within-between distribution alignment, WBDA)的性能相对较好。然而，我们也发现在所有的测试用例中，没有一个被调查的方法能够持续地提高性能。这表明，仅仅对齐说话人向量的分布可能无法完全解决多类型说话人识别带来的挑战。需要进一步调查以制定更全面的解决方案。

https://arxiv.org/pdf/2309.14158v1.pdf

可控情感的表现力语音驱动面部动画合成

高度逼真的面部动画生成需求量很大，但目前仍然是一项具有挑战性的任务。现有的语音驱动面部动画方法可以产生令人满意的口部运动和嘴唇同步，但在表现力情感表达和情感控制的灵活性方面仍存在不足。本文提出了一种基于深度学习的新方法，用于从语音生成富有表情的面部动画，可以展示出具有可控情感类型和强度的广谱面部表情。本文提出了一种情感控制模块，用于学习情感变化（例如类型和强度）与相应面部表情参数之间的关系，使得情感可控的面部动画成为可能，其中目标表情可以根据需要连续调整。

通过通话音频诊断语音状况

丰桥技术科学大学（Toyohashi University of Technology）信息技术教育中心（CITE，Center for IT-Based Education）助理教授Yuya Hosoda开发了一种从通话音频中估计人类声带振动音高的方法。

基于激光的系统实现非接触式医学超声成像

麻省理工学院林肯实验室的研究人员及其在马萨诸塞州总医院(MGH, Massachusetts General Hospital)超声研究和转化中心(CURT, Center for Ultrasound Research and Translation)的合作者开发了一种新的医学成像设备：非接触式激光超声(NCLUS, Noncontact Laser Ultrasound)。这种基于激光的超声系统提供身体内部特征的图像，如器官、脂肪、肌肉、肌腱和血管。该系统还可以测量骨骼强度，并可能随着时间的推移跟踪疾病阶段。

nsdi23 | Bolt：用于超低延迟的 Sub-RTT 拥塞控制

数据中心网络倾向于将线路速率提高到 200Gbps 及以上，以满足 NVMe 和分布式 ML 等应用的性能要求。随着带宽延迟乘积 (BDP) 的增大，几个 BDP 内可以容纳越来越多的传输。这些传输不仅对拥塞性能更加敏感，而且给拥塞控制（CC）带来更多挑战，因为它们几乎没有时间让 CC 做出正确的决策。因此，CC 面临着比以往更大的压力，需要实现最小排队和高链路利用率，不为不完美的控制决策留下空间。论文发现，为了让 CC 做出快速、准确的决策，使用精确的拥塞信号和最小化控制环路延迟至关重要。论文通过设计 Bolt 来解决这些问题，Bolt 试图通过利用可编程数据平面的力量将拥塞控制推向理论极限。

https://www.usenix.org/conference/nsdi23/presentation/arslan

实时音视频技术在明星陪看直播中的应用实践

爱奇艺近年推出的明星陪看直播业务打造了明星真人与观众围绕影视剧综艺近距离实时互动的新体验，逐渐吸引了用户关注。而在技术落地方面，爱奇艺通过与第三方音视频服务供应商深度合作，各尽其能，最终实现了成本最小化，效果最大化。LiveVideoStackCon 2023 上海站邀请了来自爱奇艺的施幸东，为大家分享爱奇艺明星陪看直播业务的整体技术架构，以及爱奇艺从剧集版权管理、复用已有基础设施、高可用性保障等方面的作出的一些优化考虑。

“创多窗”和“解压平”——流媒体的下一代是多视角以及全景视频

随着群雄并起，流媒体行业已然走上了内卷的快车道。如何通过更好的贴合用户需求以增加用户规模是各大企业当前面临的重要课题。Tiledmedia认为在元宇宙等概念兴起的趋势下，“创多窗”和“解压平”是其中的关键答案。LiveVideoStackCon 2023 上海站邀请了来自Tiledmedia的马高阳，为大家介绍“创多窗”和“解压平”的含义以及一些落地的技术实例。

生成图像动力学：Generative Image Dynamics

本文提出一种对场景动态的图像空间先验建模的方法。该先验是从包含自然振荡运动的真实视频序列中提取的运动轨迹集合中学习的。给定一幅图像，所提出的训练模型使用频率协同扩散采样过程来预测频域中每个像素的长期运动表示，称为神经随机运动纹理。与基于图像的渲染模块一起，这些轨迹可用于许多下游应用，例如将静态图像转换为无缝循环的动态视频，或允许用户与真实图片中的物体进行交互。

https://generative-dynamics.github.io/static/pdfs/GenerativeImageDynamics.pdf

对话万佳安黄翠萍：音视频技术迈向第四阶段，IoT普及势不可挡

10年前，物联网进入了一个飞速发展的阶段，5G技术的突破进一步为“万物互联”的大趋势提供了推力。根据loT Analytics 预测，2025年全球IoT连接数将较2021年增长121%，2021-2025年CAGR达22%。在“人联网”趋于饱和的今天，越来越多的目光转向了IoT技术。

智能外呼：引领信贷服务的未来

在电信行业，话务服务应用于各行各业，凡是需要营销以及客服的企业都有这种服务需求。但随着话务行业的不断发展，各种痛点不断涌现。针对这些问题，青岛洞听智能科技有限公司研发了智能外呼机器人小GO，为信贷领域提供了各种场景下的新解法。在电信行业，话务服务应用于各行各业，凡是需要营销以及客服的企业都有这种服务需求。但随着话务行业的不断发展，各种痛点不断涌现。针对这些问题，青岛洞听智能科技有限公司研发了智能外呼机器人小GO，为信贷领域提供了各种场景下的新解法。