音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

RLHF何以成LLM训练关键？AI大牛盘点五款平替方案，详解Llama 2反馈机制升级

AI领域日新月异，RLHF也逐渐成为过时的技术，但新路线尚不明朗：应该采用无需人工的反馈，还是继续改进RLHF机制？

ChatGPT启发，谷歌DeepMind预测7100万基因突变！AI破译人类基因遗传密码登Science

AlphaFold之后，谷歌DeepMind再次震撼发布AI模型AlphaMissense，成功预测7100万「错义突变」，有望攻克人类遗传学难题。

「深呼吸」让大模型表现更佳！谷歌DeepMind利用大语言模型生成Prompt，还是AI更懂AI

谷歌DeepMind提出了一个全新的优化框架OPRO，仅通过自然语言描述就可指导大语言模型逐步改进解决方案，实现各类优化任务。

GPT-5来了？OpenAI被曝加急训练多模态大模型Gobi，一举狙杀谷歌Gimini！

多模态大模型的战场上，已有人闻到风声。据外媒爆料，OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决，似乎已是箭在弦上了。

破解一切模态，无限接近AGI！新加坡华人团队开源全能「大一统」多模态大模型

继各类输入端多模态大语言模型之后，新加坡国立大学华人团队近期开源了一种支持任意模态输入和任意模态输出的「大一统」多模态大模型，火爆AI社区。

LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

本论文在全球范围内评估了 31 个大型语言模型 (LLM) 在解读放射科报告并从放射学发现中推导出诊断信息（impression）任务上的表现。这是目前已知的对全球 LLM 用于放射科学自然语言处理 (NLP) 进行的最全面评估之一。该研究通过在这个关键的放射科 NLP 任务上对海外和中国研发的主流 LLM 进行基准测试，填补了该领域目前的知识空白。

比GPT-4还强，20亿参数模型做算术题，准确率几乎100%

当前，大型语言模型 (LLM) 在处理 NLP 领域的各种下游任务方面已经表现出卓越的能力。特别是，GPT-4、ChatGPT 等开创性模型已经接受了大量文本数据的训练，使它们具备强大的文本理解和生成能力，能够生成连贯且上下文相关的响应，在各种 NLP 任务中具有高度通用性。

东北大学发布Sttracker：用于3D单目标跟踪的时空跟踪器

相比于输入两帧点云，本文输入多帧点云对目标的时空信息进行编码，隐式地学习目标的运动信息，可以建立不同帧之间的相关性，高效地跟踪当前帧中的目标。同时，与直接使用点特征进行特征融合不同，首先将点云特征裁剪成多个面片，然后使用稀疏注意力机制对面片级相似度进行编码，最后融合多帧特征。大量实验表明，本文方法在挑战大规模基准测试集( KITTI中62.6%, NuScenes中49.66 %)上取得了有竞争力的结果。

由粗到精学习LVI-SAM：论文原文精华解析

本文是LVI-SAM学习系列的第三部分，在深入分析LVI-SAM源码之前阅读论文原文，可以在分析源码遇到困难时明确思路，少走弯路，提高源码分析效率。

北理工开源TDLE: 利用区域划分进行分层规划的2D激光雷达探索

探索系统对于增强机器人的自主性至关重要。由于未来规划空间的不可预测性，现有方法要么采用低效的贪婪策略，要么需要耗费大量资源来获得全局解。在这项工作中，本文解决了以最少的计算资源获得全局探索路线的挑战。分层规划框架动态地将规划空间划分为子区域并排列其顺序，为探索问题提供全局的指导。使用与次区域顺序一致的指标来选择特定的探索目标，从而考虑空间结构的估计，并将规划空间扩展到未知区域。大量的仿真和实地测试证明了我们的方法与现有的基于2D LiDAR的方法相比的有效性。

浙大高飞团队发布：一种用于任意形状机器人规划的快速准确的整体碰撞评估工具

浙江大学高飞团队发布Robo-Centric Esdf：一种用于任意形状机器人规划的快速准确的整体碰撞评估工具。

硬件持续内卷、内容领域升温，3D赛道再掀浪潮

年初AI爆火，吹来了第一波风，引发了业内对3D内容创作的高度关注；6月，苹果推出Vision Pro宣称进入「空间计算时代」，而3D则是进入「空间计算时代」的关键钥匙之一，3D内容市场的赛道再次动荡。

Quest 3在线文档透露将能提供更好的MR 3D空间交互体验

能够利用网格数据和深度数据的Quest 3将能大大提升扫描体验，实现具有立体感的逼真虚拟对象，以及与虚拟对象的逼真交互。

Meta第二代智能眼镜Ray Ban Stories通过FCC认证，有望9月27日发布

根据美国联邦通信委员会公开信息，注册人为Luxottica Group，产品名为Ray-Ban Stories的全新智能眼镜设备已经通过FCC认证。这意味着由Meta和雷朋母公司Luxottica Group合作的第二代Ray-Ban Stories有望在9月27日的Connect大会正式亮相。

Meta AR/VR专利分享通过手腕式穿戴设备来检测手势

Meta认为，在XR中通过手势滚动列表和浏览内容而非采用控制器会增强用户移动体验。所以，团队申请了一份名为“Scrolling and navigation in virtual reality”的专利。其中，除了通过头显的手部追踪来识别手势之外，Meta表示同时可以通过手腕式可穿戴设备来检测手势。

英特尔发布新芯片，288核至强在路上

北京时间9月20日凌晨，英特尔在旧金山举行了隆重的“Intel Innovation”盛会。会议开始的时候，英特尔CEO帕特基辛格首先表示，AI代表新时代的到来，创造了巨大的机会。如今，芯片形成了规模达5740亿美元的行业，并驱动着全球约8万亿美元的技术经济。

芯片正在走向原子级

全世界都在不停地谈论芯片，但令人兴奋的是配料——原子大小的晶体管，当它被雕刻、分层和格子化成半导体纳米宇宙时，赋予微芯片深不可测的精湛技艺。相比之下，芯片只是从硅片上雕刻出来的清晰可见的小块。

Jim Keller的芯片新思考

凯勒曾在英特尔和特斯拉等科技巨头担任“芯片大师”，现在他利用自己多年的经验来开发由称为 Tensix 核心的核心网格组成的处理器。这些设备包括直接通过网络而不是通过 DRAM 与其他处理器“对话”的网络通信硬件。

利用一致性蒸馏加速基于扩散的文本-音频生成

扩散模型支持绝大多数文本到音频生成。但是，由于对底层去噪的迭代查询，这些模型的参考速度很慢，因此不适合具有推理时间或计算约束的场景。这项工作修改了最近提出的一致性框架，以训练只需要的TTA模型单个神经网络。

https://arxiv.org/pdf/2309.10740v1.pdf

声源定位完全是关于跨模式对齐

人类可以很容易地感知到视觉场景中声源的方向，称为声源定位。目前基于学习的声源定位研究主要是从的定位角度来探讨这个问题。然而，现有技术和现有基准并没有考虑到问题的一个更重要的方面，即跨模态语义理解，这对于真正的声源定位至关重要。跨模态语义理解对于理解语义不匹配的视听事件非常重要，例如，无声物体或屏幕外的声音。为了解释这一点，本文提出了一个跨模态对齐任务，作为声源定位的联合任务，以更好地学习音频和视觉模态之间的相互作用。

https://arxiv.org/pdf/2309.10724v1.pdf

Audition RMS计算原理解析

分贝（deci-Bel, dB）是语音中一个比较常见的概念，经常听别人说声音多少dB，但是有时候会发现，dB一会儿是正的一会儿是负的。这个声音25岁以上听不到这篇文章中讲过几种dB的区别，正的dB用分贝仪测量，负的dB用音频软件(如Audition)查看，那么Audition等音频软件展示的dB是如何计算出来的呢？本文介绍下这个简单的问题。

我国标准率先突破无线音频传输限制，全球首个统一架构、全码率无线音频编解码标准 L2HC 发布

全球首个统一架构、全码率无线音频编解码标准L2HC今日正式发布，最高支持 1920Kbps 传输码率，超过苹果 AAC、索尼 LDAC、高通主导的 aptX Lossless 等标准。据介绍，华为FreeBuds Pro 3是首款支持L2HC智能无损音频编解码标准的产品，全球首发1.5Mbps无损音质体验，支持64K-1920Kbps、96kHz / 24bit 音频。

实时云渲染与直播应用场景结合技术探索

随着互联网以及终端设备的全面发展，直播在日常的生活中已经越来越常见。越来越多的人开始在直播中与主播互动，作为一种娱乐消遣的方式。但是有些直播平台频发的卡顿以及打赏特效的单一会让用户的直播体验大打折扣。LiveVideoStack邀请到腾讯云的江敏为我们介绍腾讯云如何将云渲染应用在直播场景中，为直播带来更好的体验。

Unity云原生分布式运行时

元宇宙时代的来临对实时3D引擎提出了诸多要求，Unity作为游戏行业应用最广泛的3D实时内容创作引擎，为应对这些新挑战，提出了Unity云原生分布式运行时的解决方案。LiveVideoStack 2023上海站邀请到Unity中国的解决方案工程师舒润萱，和大家分享该方案的实践案例、面临的问题、解决方式，并介绍了Unity目前对其他方案的构想。

AVS感知无损压缩标准概述——视觉无损质量等级视频浅压缩

浅压缩又称夹层压缩，是一种视频压缩级别，可以有效降低视频带宽，并能保持视频整体质量，压缩比通常为2:1到8:1。根据这一压缩比，4K、8K节目都可以用10G接口进行传输，这极大降低了网络设备成本。LiveVideoStackCon 2023上海站邀请到杨海涛老师为我们介绍AVS标准组以及上海海思等硬件厂商在无损质量等级视频浅压缩领域的实践与探索。

Caton Media Xstream: 重新定义实时内容交付服务

随着公共互联网愈加复杂，best effort的基本原型已无法满足越来越多的有QoS保障需求的实时内容交付服务。而专线、卫星等传统解决方案存在部署成本高、周期长等问题，无法快速响应各类需求。LiveVideoStackCon邀请到了科腾科技的魏凌，为我们介绍Caton Media Xstream平台的解决方案。