音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

两周倒计时！深圳站大会亮点前瞻

LiveVideoStackCon 深圳站 倒计时两周，两周后将迎来精彩纷呈的主题演讲。期待您的参与！

●时间：2023年11月24日-25日

●地点：深圳圣淘沙酒店（翡翠店）

●咨询：13520771810（微信同号）了解详情。

●官方链接：

https://sz2023.livevideostack.com/topics

抖音背后的体验增长奥秘，在这里为你揭晓

在【抖音背后的体验增长实战揭秘】专题中，我们将深入解析抖音背后的体验增长实践，结合抖音拥有的亿级日活跃用户所沉淀的经验，剖析在大规模用户背景下如何实现降本增效。

点击链接，免费报名火山专场演讲。

http://livevideostack.mikecrm.com/EIvkisN

定制一个「陈天奇GPT」，OpenAI新品大波实测来袭！Sam Altman降维打击，千家AI初创公司入土

OpenAI引爆了核弹，让任何人都可以使用自然语言在几分钟内构建应用程序！爆炸性的革命时刻，真的来了。

AI「脑补」画面太强了！李飞飞团队新作ZeroNVS，单个视图360度全场景生成

斯坦福和谷歌团队提出了ZeroNVS，可以实现单个图像零样本360度试图合成。

CMU清华MIT引爆全球首个Agent无限流，机器人「007」加班自学停不下来！具身智能被革命

最近，由CMU/MIT/清华/Umass提出的全球首个生成式机器人智能体RoboGen，可以无限生成数据，让机器人7*24小时永不停歇地训练。AIGC for Robotics，果然是未来的方向。

最新调查：AI大模型的两大难题，要靠“绿色计算”来解决？

当前，人工智能（AI）已广泛应用于众多领域，包括计算机视觉、自然语言处理、时间序列分析和语音合成等。

把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架：完美把控乘客意图

这项工作首次尝试用语言模型作为辅助驾驶，用描述的方式来控制行动轨迹，依然能符合用户的轨迹意图。

GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC

为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白，研究人员引入了PowerPoint任务完成（PPTC）基准测试，以评估LLM创建和编辑PPT文档的能力。

让大模型自主探索开放世界，北大&智源提出训练框架LLaMA-Rider

大语言模型因其强大而通用的语言生成、理解能力，展现出了成为通用智能体的潜力。与此同时，在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此，大语言模型如何适配开放世界是一个重要的研究问题。

基于NeRF的SLAM是不是未来？

NeRF这几年太火了！席卷计算机视觉领域，几大顶会顶刊每年有大量的文章发表，不仅在深度学习方面大展身影，在传统几何为主的SLAM（同时定位与建图）和三维重建领域也是横扫四方。

ANU新发布|单目视觉感知在线3D场景重建，CVPR2023

VisFusion，这是一种基于单目视频的视觉感知在线3D场景重建方法。目标是从体积特征重建场景。与以前从输入视图聚合每个体素的特征而不考虑其可见性的重建方法不同，该文的目标是通过从相似度矩阵显式推断其可见性来改进特征融合，该相似度矩阵是根据其在每个图像对中的投影特征计算的。

多伦多大学发布用于自动驾驶感知和预测的隐式占用流场

自动驾驶车辆（SDV）必须能够感知其周围环境并预测其他交通参与者的未来行为。现有的方法要么进行对象检测，然后对检测到的对象进行轨迹预测，要么预测整个场景的密集占用和流动网格。前一种方法存在安全问题，因为为了效率，需要将检测数量保持在较低水平，从而牺牲了对象的召回率。后一种方法由于输出网格的高维性，计算成本很高，并且受到全卷积网络固有的有限感受野的影响。

清华等发布|单目VIO实时运动捕捉，3D人体定位！

人类运动通常由惯性传感器捕获，而环境则主要使用相机进行重建。我们在EgoLocate中将这两种技术集成在一起，该系统可以从稀疏的身体装载传感器（包括6个IMU和单目手机相机）实时执行人类运动捕捉（mocap）、定位和建图。

AR眼镜AI用例盘点：从单薄的功能一窥广阔的生命力

今年Connect大会上，扎克伯格抛出了一个有意思的话题：“让我特别感兴趣的一个领域是，如何将AI的进步与下一代计算平台相结合。”

牵手京东，雷鸟创新打通AR“最后一公里”

近日，AR 厂商雷鸟创新宣布与京东达成战略合作协议，双方将围绕 3 年 50 万台销售目标，在产品开发、营销推广、渠道拓展等方面开启深度合作。

VR开发商Vertigo Games为全球知名IP研发3A级VR游戏

根据招聘启事，荷兰VR开发商Vertigo Games正在开展一款备受瞩目的多平台3A级VR游戏的前期制作，而且所述作品是基于某个全球知名IP。

微软专利为AR眼镜各种眼部追踪提出透镜阵列摄像头组合

眼成像摄像头可用于智能眼镜和其他头戴式设备，并支持眼动追踪，虹膜识别和眼睛定位等目的。眼动追踪可作为用户输入方式，虹膜识别可用于用户身份识别和认证。眼睛定位可用于显示校准。眼睛成像摄像头可以利用包括一个或多个透镜的折射透镜系统将眼睛的图像聚焦到图像传感器。但由于透镜系统的焦距，眼成像摄像头可能会十分笨重，难以集成到近眼设备。

NeRF&Beyond 11.8日报(植物表面重建，SR-TensoRF,ZUP-NeRF,布料渲染）

植物表型的准确重建对于优化精准农业（PA）领域的可持续农业实践起着关键作用。目前，基于光学传感器的方法在该领域占据主导地位，但在非结构化农业环境中对农作物和植物进行高保真 3D 重建的需求仍然具有挑战性。

NeRF&Beyond 11.7日报(InstructPix2NeRF,VR-NeRF,Consistent4D等）

随着神经辐射场 (NeRF) 在 3D 感知肖像编辑中的成功，各种作品在质量和 3D 一致性方面都取得了可喜的成果。然而，这些方法在将自然语言作为编辑指令处理时严重依赖于每个提示的优化。

亲眼“看到”图像传感器的Shot Noise

在图像传感器的成像理论中，有一种无论多么精巧的设计都不可避免的信号相关的噪声来源叫Shot Noise，即，由“光子是一个个来的”（或者说，光子成功激发出了电子是一个个的）产生的。

NPU-ASLP实验室在歌声转换挑战赛SVCC中取得佳绩

语音转换（Voice Conversion）是智能语音处理领域的典型研究课题。语音转换挑战赛（VCC）是语音转换领域的国际顶级赛事，已成功举办了三届。2023年VCC竞赛专注歌声转换（Singing Voice Conversion，SVC），由日本名古屋大学、腾讯AI Lab和卡内基梅隆大学（CMU）联办。歌声转换（SVC）扩展了普通语音转换（VC）的定义，旨在将源歌手的唱歌声音转换为目标歌手的声音，而不改变内容。

最强开源大模型刚刚易主！李开复率队问鼎全球多项榜单，40万文本处理破纪录

百模大战，最备受期待的一位选手，终于正式亮相！它便是来自李开复博士创办的AI 2.0公司零一万物的首款开源大模型——Yi系列大模型

BK知识库 | 什么是声强和声压？

声功率是由声源每单位时间辐射的总空气声能量。另一方面，声压是声源辐射声音能量的结果，这些能量转移到特定的声音环境中并在特定位置进行测量。声功率是原因，声压是效果。

iOS Crash 治理：淘宝VisionKitCore 问题修复

本文通过逆向系统，阅读汇编指令，逐步找到源码，定位到了 iOS 16.0.<iOS 16.2 WKWebView 的系统bug 。同时苹果已经在新版本修复了 Bug，对于巨大的存量用户，仍旧会造成日均 Crash pv 1200+ uv 1000+，最终通过 Hook 系统行为，规避此 Bug。在手机淘宝双 11 版本中已经彻底修复，Crash 跌 0。

B站如何构建高效的数据预处理和模型训练AI平台？

Coeus是哔哩哔哩自主研发的云原生人工智能平台。目前，Coeus 支持广泛的用例，包括广告、简历、NLP、语音、电子商务等。从功能角度来看，Coeus支持模型开发、模型训练、模型存储和模型服务。

BVT：高性能多媒体算法推理基座

随着人工智能技术的快速发展，B站已经有非常多的AI算法可以用来助力多媒体业务，诸如超分辨率、人脸增强、视频插帧、窄带高清等等。如今，以扩散模型（Stable Diffusion）和大语言模型（LLM）掀起的生成式AI浪潮又给多媒体业务带来了更多技术可能。相对于各类AI算法模型的研发，模型推理与视频处理框架在多媒体业务部署中的重要性更为凸显，是工程化”基座“的存在。