每周一期,纵览音视频技术领域的干货。
新闻投稿:[email protected]
AI领域日新月异,RLHF也逐渐成为过时的技术,但新路线尚不明朗:应该采用无需人工的反馈,还是继续改进RLHF机制?
AlphaFold之后,谷歌DeepMind再次震撼发布AI模型AlphaMissense,成功预测7100万「错义突变」,有望攻克人类遗传学难题。
谷歌DeepMind提出了一个全新的优化框架OPRO,仅通过自然语言描述就可指导大语言模型逐步改进解决方案,实现各类优化任务。
多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决,似乎已是箭在弦上了。
继各类输入端多模态大语言模型之后,新加坡国立大学华人团队近期开源了一种支持任意模态输入和任意模态输出的「大一统」多模态大模型,火爆AI社区。
本论文在全球范围内评估了 31 个大型语言模型 (LLM) 在解读放射科报告并从放射学发现中推导出诊断信息(impression)任务上的表现。这是目前已知的对全球 LLM 用于放射科学自然语言处理 (NLP) 进行的最全面评估之一。该研究通过在这个关键的放射科 NLP 任务上对海外和中国研发的主流 LLM 进行基准测试,填补了该领域目前的知识空白。
当前,大型语言模型 (LLM) 在处理 NLP 领域的各种下游任务方面已经表现出卓越的能力。特别是,GPT-4、ChatGPT 等开创性模型已经接受了大量文本数据的训练,使它们具备强大的文本理解和生成能力,能够生成连贯且上下文相关的响应,在各种 NLP 任务中具有高度通用性。
相比于输入两帧点云,本文输入多帧点云对目标的时空信息进行编码,隐式地学习目标的运动信息,可以建立不同帧之间的相关性,高效地跟踪当前帧中的目标。同时,与直接使用点特征进行特征融合不同,首先将点云特征裁剪成多个面片,然后使用稀疏注意力机制对面片级相似度进行编码,最后融合多帧特征。大量实验表明,本文方法在挑战大规模基准测试集( KITTI中62.6%, NuScenes中49.66 %)上取得了有竞争力的结果。 
本文是LVI-SAM学习系列的第三部分,在深入分析LVI-SAM源码之前阅读论文原文,可以在分析源码遇到困难时明确思路,少走弯路,提高源码分析效率。
探索系统对于增强机器人的自主性至关重要。由于未来规划空间的不可预测性,现有方法要么采用低效的贪婪策略,要么需要耗费大量资源来获得全局解。在这项工作中,本文解决了以最少的计算资源获得全局探索路线的挑战。分层规划框架动态地将规划空间划分为子区域并排列其顺序,为探索问题提供全局的指导。使用与次区域顺序一致的指标来选择特定的探索目标,从而考虑空间结构的估计,并将规划空间扩展到未知区域。大量的仿真和实地测试证明了我们的方法与现有的基于2D LiDAR的方法相比的有效性。
浙江大学高飞团队发布Robo-Centric Esdf:一种用于任意形状机器人规划的快速准确的整体碰撞评估工具。
年初AI爆火,吹来了第一波风,引发了业内对3D内容创作的高度关注;6月,苹果推出Vision Pro宣称进入「空间计算时代」,而3D则是进入「空间计算时代」的关键钥匙之一,3D内容市场的赛道再次动荡。
能够利用网格数据和深度数据的Quest 3将能大大提升扫描体验,实现具有立体感的逼真虚拟对象,以及与虚拟对象的逼真交互。
根据美国联邦通信委员会公开信息,注册人为Luxottica Group,产品名为Ray-Ban Stories的全新智能眼镜设备已经通过FCC认证。这意味着由Meta和雷朋母公司Luxottica Group合作的第二代Ray-Ban Stories有望在9月27日的Connect大会正式亮相。
Meta认为,在XR中通过手势滚动列表和浏览内容而非采用控制器会增强用户移动体验。所以,团队申请了一份名为“Scrolling and navigation in virtual reality”的专利。其中,除了通过头显的手部追踪来识别手势之外,Meta表示同时可以通过手腕式可穿戴设备来检测手势。
北京时间9月20日凌晨,英特尔在旧金山举行了隆重的“Intel Innovation”盛会。会议开始的时候,英特尔CEO帕特基辛格首先表示,AI代表新时代的到来,创造了巨大的机会。如今,芯片形成了规模达5740亿美元的行业,并驱动着全球约8万亿美元的技术经济。
全世界都在不停地谈论芯片,但令人兴奋的是配料——原子大小的晶体管,当它被雕刻、分层和格子化成半导体纳米宇宙时,赋予微芯片深不可测的精湛技艺。相比之下,芯片只是从硅片上雕刻出来的清晰可见的小块。
凯勒曾在英特尔和特斯拉等科技巨头担任“芯片大师”,现在他利用自己多年的经验来开发由称为 Tensix 核心的核心网格组成的处理器。这些设备包括直接通过网络而不是通过 DRAM 与其他处理器“对话”的网络通信硬件。
利用一致性蒸馏加速基于扩散的文本-音频生成
扩散模型支持绝大多数文本到音频生成。但是,由于对底层去噪的迭代查询,这些模型的参考速度很慢 ,因此不适合具有推理时间或计算约束的场景。这项工作修改了最近提出的一致性框架,以训练只需要的TTA模型单个神经网络。
https://arxiv.org/pdf/2309.10740v1.pdf
声源定位完全是关于跨模式对齐
人类可以很容易地感知到视觉场景中声源的方向,称为声源定位。目前基于学习的声源定位研究主要是从的定位角度来探讨这个问题。然而,现有技术和现有基准并没有考虑到问题的一个更重要的方面,即跨模态语义理解,这对于真正的声源定位至关重要。跨模态语义理解对于理解语义不匹配的视听事件非常重要,例如,无声物体或屏幕外的声音。为了解释这一点,本文提出了一个跨模态对齐任务,作为声源定位的联合任务,以更好地学习音频和视觉模态之间的相互作用。
https://arxiv.org/pdf/2309.10724v1.pdf
分贝(deci-Bel, dB)是语音中一个比较常见的概念,经常听别人说声音多少dB,但是有时候会发现,dB一会儿是正的一会儿是负的。这个声音25岁以上听不到这篇文章中讲过几种dB的区别,正的dB用分贝仪测量,负的dB用音频软件(如Audition)查看,那么Audition等音频软件展示的dB是如何计算出来的呢?本文介绍下这个简单的问题。
全球首个统一架构、全码率无线音频编解码标准L2HC今日正式发布,最高支持 1920Kbps 传输码率,超过苹果 AAC、索尼 LDAC、高通主导的 aptX Lossless 等标准。据介绍,华为FreeBuds Pro 3是首款支持L2HC智能无损音频编解码标准的产品,全球首发1.5Mbps无损音质体验,支持64K-1920Kbps、96kHz / 24bit 音频。
随着互联网以及终端设备的全面发展,直播在日常的生活中已经越来越常见。越来越多的人开始在直播中与主播互动,作为一种娱乐消遣的方式。但是有些直播平台频发的卡顿以及打赏特效的单一会让用户的直播体验大打折扣。LiveVideoStack邀请到腾讯云的江敏为我们介绍腾讯云如何将云渲染应用在直播场景中,为直播带来更好的体验。
元宇宙时代的来临对实时3D引擎提出了诸多要求,Unity作为游戏行业应用最广泛的3D实时内容创作引擎,为应对这些新挑战,提出了Unity云原生分布式运行时的解决方案。LiveVideoStack 2023上海站邀请到Unity中国的解决方案工程师舒润萱,和大家分享该方案的实践案例、面临的问题、解决方式,并介绍了Unity目前对其他方案的构想。
浅压缩又称夹层压缩,是一种视频压缩级别,可以有效降低视频带宽,并能保持视频整体质量,压缩比通常为2:1到8:1。根据这一压缩比,4K、8K节目都可以用10G接口进行传输,这极大降低了网络设备成本。LiveVideoStackCon 2023上海站邀请到杨海涛老师为我们介绍AVS标准组以及上海海思等硬件厂商在无损质量等级视频浅压缩领域的实践与探索。
随着公共互联网愈加复杂,best effort的基本原型已无法满足越来越多的有QoS保障需求的实时内容交付服务。而专线、卫星等传统解决方案存在部署成本高、周期长等问题,无法快速响应各类需求。LiveVideoStackCon邀请到了科腾科技的魏凌,为我们介绍Caton Media Xstream平台的解决方案。
泛娱乐出海,日趋成为一条风起潮涌、一日千里的黄金赛道。
在过去的三年中,我们见证了人类日常生活和工作方式的颠覆性变革。从短视频、互动直播到在线教育和云上会议,音视频技术不仅渗透到各个角落,而且已经深入地影响了各行各业的运作方式。
VR娱乐以及硬件开发商维亚科技环球有限公司(后简称维亚 )开发了一款线下VR投篮街机,团队希望能以VR技术取代传统投篮机,让玩家在没有篮球的情况下也能体验投篮的乐趣。
如果你希望参与到音视频技术大会当中,此刻刚刚好:LiveVideoStackCon 2023深圳站大会,
门票限时9折
火热售卖中,团体参会优惠更多,此刻报名,与您相约深圳。

●时间:2023年11月24日-25日

●地点:深圳圣淘沙酒店(翡翠店)

●获票方式:扫描上方海报二维码,或咨询:13520771810(微信同号)了解详情。

●官方链接:
https://sz2023.livevideostack.com/topics
点击阅读原文
跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息
继续阅读
阅读原文