音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

近日，由清华大学脑与智能实验室复杂网络智能中心（CCNI）主任Carlo Vittorio Cannistraci教授与北京大学韩敬东教授共同指导的国际科学家团队在《先进科学》（Advanced Science）杂志上发表了一项研究。此项研究提出了一种人工智能算法，可以通过分析基因组信息恢复组织中单个细胞的三维空间结构。

ChatGPT的这项核心技术要被替代了？谷歌提出基于AI反馈的强化学习

近日，Google Research 的研究人员提出了基于 AI 反馈的强化学习（RLAIF），该技术可以产生人类水平的性能，为解决基于人类反馈的强化学习（RLHF）的可扩展性限制提供了一种潜在的解决方案。

RLHF再也不需要人类了！谷歌团队研究证明，AI标注已达人类水平

ChatGPT横空出世后，RLHF成为研究人员关注的焦点。谷歌最新研究提出，不用人类标注，AI标注偏好后，也能取得与RLHF一样的效果。如果说，RLHF中的「人类」被取代，可行吗？谷歌团队的最新研究提出了，用大模型替代人类，进行偏好标注，也就是AI反馈强化学习（RLAIF）。

AI+认知行为疗法，治愈心灵的良药丨青源Workshop「AI+心理干预」观点集锦

当前，抑郁症、焦虑症等心理障碍成为社会关注的焦点，如何有效地缓解和治疗这些心理问题成为一个重要的研究方向。在这样的背景下，如何利用AI等先进技术手段来辅助心理疾病的治疗备受关注。例如，通过语音、脑部MRI辅助诊断器质性抑郁、通过多种语言模式的聊天机器人对患者的心理状况进行有效干预等，相关诊疗方案不一而足。本次「AI+心理」研讨会，相关技术专家和心理学专家共同探索人工智能技术在心理学领域的应用。

GPT-4写代码不如ChatGPT，误用率高达62%！加州大学两位华人开源代码可靠性基准RobustAPI

代码能否跑起来的不是判断可靠性的标准，用语言模型写代码还需要考虑生产环境下的预期外输入。大型语言模型（LLM）在理解自然语言和生成程序代码方面展现出了非凡的性能，程序员们也开始在编码过程中使用Copilot工具辅助编程，或是要求LLM生成解决方案。经过几版迭代后，目前LLM生成的代码已经很少有语法错误了，也更贴合用户输入的文本、符合预期语义，但针对LLM代码生成的可靠性和鲁棒性仍然缺乏彻底的研究。

上海交大发布大模型双语编程评估基准CodeApex，机器真的开始挑战人类写代码了吗？

打造能自己写代码的机器，这是计算机科学和人工智能先锋者一直在追寻的目标。而随着 GPT 类大模型的快速发展，这样的目标正在从遥不可及开始变得近在咫尺。大语言模型 (Large Language Models) 的出现，让模型的编程能力越来越受到研究者的关注。在此态势下，上海交通大学 APEX 实验室推出了 CodeApex-- 一个专注于评估 LLMs 的编程理解和代码生成能力的双语基准数据集。

陶哲轩用大模型辅助解决数学问题：生成代码、编辑LaTeX公式都很好用

几个月来，数学家陶哲轩多次尝试使用 ChatGPT 辅助解决数学问题，并与大家分享他的试验结果。网友在围观的同时还会和陶哲轩进行一些交流，或者给出 ChatGPT 的使用技巧建议。今天，陶哲轩又尝试用 ChatGPT 生成可采用 LaTeX 表达式的程序代码，并最终得到了一段可用的 VSCode 代码。陶哲轩表示 ChatGPT 能够生成涉及正则表达式的复杂代码片段，并且很有效。

700 亿参数 LLaMA2 训练加速 195%，基础大模型最佳实践再升级

ChatGPT 引发的大模型热潮愈演愈烈，全球科技巨头和明星初创争相入局，打造以 AI 大模型为核心的竞争力和多样化商业使用需求。其中 LLaMA 系列模型，因良好的基础能力和开放生态，已积累了海量的用户和实际应用案例，成为无数开源模型后来者的模仿和竞争的标杆对象。但如何降低类 LLaMA2 大模型预训练成本，如何基于 LLaMA2 通过继续预训练和微调，低成本构建 AI 大模型实际应用，仍是 AIGC 相关企业面临的关键瓶颈。

杀入「千元级」无线AR眼镜市场，仅重52g，INMO影目再秀新品

衍射光波导+Micro-LED，以其高透光率、高亮度、低功耗，以及随着规模化边际贡献更为显著的生产工艺等诸多优势，一直被视为下一阶段最有竞争力的AR眼镜光学和显示方案。据了解，Vuzix、OPPO、TCL、Dispelix、WaveOptics、中兴、小米等公司均展示了基于该方案的AR原型和产品。

为降低HoloLens成本、功耗、尺寸，微软专利提出低分辨率深度摄像头解决方案

于XR头显，基于立体图像对计算深度信息基于立体图像对存在挑战。例如，用于生成透视图像的立体图像通常使用高分辨率立体摄像头捕获，但高分辨率立体摄像头价格昂贵，同时会增加设备体积、重量和电池消耗。另外，使用高分辨率立体图像对计算深度信息的计算成本高，并会导致传递体验的延迟。

Meta AR/VR专利提出具有颜色校准操作的颜色调谐光学模块

人工现实设备主要依赖于准确的光学信息来为用户提供无缝和逼真的输出，所以光学模块具有严格的光学要求，而彩色滤光片等器件对利用接收和透射光的光学模块的复杂操作构成重大挑战。

色彩感知深颞背景双面消光系统

本文提出了一种基于神经网络的时间多背景制作系统，该系统结合了色度键控和 alpha 遮罩的有益功能。给定两个具有不同背景颜色的连续帧，单编码器双解码器网络使用基于色块的重叠混合方法预测前景色和 alpha 值。该系统能够处理不精确的背景、动态摄像机和动态前景，并且对前景色没有限制。将方法与使用基准数据集和演示器设置捕获的视频序列的最先进算法进行比较。结果验证了双背景输入优于通常应用的基于三图的方法。此外，拟议的演播室布景对演员友好，并产生高质量、时间一致的 alpha 和颜色估计，其中包括出色的色彩溢出补偿。

https://doi.org/10.1145/3587819.3590973

动态SLAM方向全方面梳理

动态SLAM是在动态环境中进行定位和建图的算法。传统的SLAM通常基于静态刚体场景假设，即环境中的所有物体都是固定不动的。然而在实际应用中这种假设并不成立。例如，环境中车辆和行人可能会移动。

点云地图技术突破：ITSC 2023发布动态点去除方案

机器人领域，点云已经成为一种必不可少的地图表示方式。从定位和全局路径规划等下游任务的角度来看，动态对象对应的点会对其性能产生不利影响。现有的点云动态点去除方法在对比评价和综合分析方面往往缺乏明确性。因此，本文提出了一个易于扩展的统一基准测试框架，用于评估地图中动态点的移除技术。它包括重构的最先进的方法和新的度量来分析这些方法的局限性。这使得研究者能够深入挖掘这些局限背后的深层原因。该基准使用多个不同传感器类型的数据集。所有与我们研究相关的代码和数据集都是公开的，可供进一步开发和利用。

香港科技大学发布！使用语义线和平面的多会话、轻量级Lidar SLAM

通过使用轻量级的线和平面图表示，而不是广泛使用的点云，提出了一个用于城市环境中的多段式的集中式LiDAR建图框架。所提出的框架以由粗到精的方式实现了一致性建图。全局位置识别通过关联Grassmannian流形上的线条和平面来实现，然后通过离群点剔除辅助的位姿图优化进行地图合并。然后还设计了一种新的光束法平差来提高直线和平面的局部一致性。在实验部分，使用公开和自收集的数据集来展示效率和有效性。实验结果表明，本文提出的LiDAR建图框架能够全局地融合多期地图，并对地图进行增量优化，适用于轻量级机器人定位。

最新迭代｜FunASR离线文件转写软件包2.0

FunASR是由达摩院语音实验室开源的一款语音识别工具包，集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署，吸引了众多开发者参与体验和开发。在7月初，FunASR社区发布了离线文件转写软件包，实现了高精度、高效率、高并发的长音频离线文件转写，并在8月份发布了支持流式语音识别软件包。

声学在复合材料损伤检测中的应用

随着科技的快速发展，单一材料已不能完全满足综合性要求，复合材料由于其强度高、质量轻、隔热性能好、设计性强等优点，正在实际工程中逐渐取代单质材料，广泛应用于航空航天、船舶、汽车、医疗器械等领域。但是复合材料在实际生产和使用过程中难免会产生损伤或缺陷，继而产生安全隐患，因此需要一种有效的损伤监测手段，保证复合材料结构的安全性和可靠性。声学技术为评估复合材料结构的内部完整性提供了无损检测手段，可以在不损伤、不破坏被检对象的情况下，实现对目标内部或表面所发生损伤的检测，并对损伤的一些特性做出评估。目前用于损伤检测的两种主要声学方法是超声波检测（Ultrasonic Testing，UT）技术和声发射（Acoustic Emission，AE）检测技术。

更精确可靠的新声光成像技术

由德克萨斯大学阿灵顿分校（University of Texas at Arlington）数学助理教授Souvik Roy领导的一个多学科团队正在执行一项任务，即使用一种称为定量光声断层扫描（QPAT，quantitative photoacoustic tomography）的新技术来改进医学成像。

MediaBox，行业音视频数字化再加速

根据权威数据表明，65%的行业数字化信息来自视频，基于此，音视频技术对于行业数字化来说是至关重要的。今天我想借此机会向大家介绍一个重量级的客户端产品——MediaBox，它将致力于实现行业音视频数字化再加速.

音视频学习--Video Fast Update

视频快速更新 (VFU) 是 H.323 视频会议协议的一项功能，允许在视频会议通话期间快速恢复丢失的视频帧。当视频帧在传输过程中丢失时，接收端点可以向发送端点发送视频快速更新请求。发送端点将尽快重传丢失的帧，从而使接收端点能够快速恢复并显示丢失的视频信息。这可以通过减少丢失帧对视频流的影响来帮助提高视频会议的整体质量。

音视频学习--音画同步

音视频封装是将音频和视频数据流打包成一个容器文件的过程。在封装过程中，音频和视频数据需要经过编码（例如AAC、MP3、H.264、H.265等）得到压缩后的二进制数据。这些压缩后的数据会按照特定的格式和规范被装载到FLV或MP4文件的对应位置。

拥抱云原生，下一代边缘计算云基础设施

对海量数据新的应用形态对低时延和分布式架构的需求，边缘计算将成为新一代边缘计算云基础设施，火山引擎覆盖了全国海量边缘节点，储备了上百T带宽，承载了视频直播、游戏娱乐、智慧交通、影视特效等多场景客户服务， LiveVideoStackCon 2023上海站邀请到火山引擎边缘云边缘计算架构师——郭少巍，为大家分享《拥抱云原生——下一代边缘计算云基础设施》。

我们距离下一个超高清时代还有多久？

低延迟的互动直播、连续上划的短视频、1080p的电影电视剧……在超高清视频轻而易得的当下，我们对于低清、卡顿视频的忍耐度越来越低。

融合开放，边缘云网助力企业全球数字化升级

围绕边缘云海量分布式节点和上百T的网络规模，结合边缘云快速发展期间遇到的各种问题和挑战。LiveVideoStack Con 2023上海站邀请到火山引擎边缘云网络产品研发负责人韩伟，为我们介绍火山引擎边缘云网的全球基础设施，融合开放的云网技术体系以及基于边缘网络延伸的全域联网加速方案。

加速大模型产业落地，百度智能云千帆再升级

中信所、科技部新一代人工智能发展研究中心等机构联合发布的《中国人工智能大模型地图研究报告》显示，中国 10 亿参数规模以上的大模型数量为 79 个。上个月，赛迪顾问发布的《IT 2023》研究显示，截止 2023 年 7 月，我国现有大模型已经达到 130 个。

首批大模型通过备案，更激进的投入开始了

字节跳动、商汤、MiniMax、中科院、上海人工智能实验室等公司和机构也宣布其大模型已通过备案，将开始正式对外提供服务。

行业动态 | TCL明年首发杜比全景声FlexConnect新技术

杜比宣布了一项新的杜比全景声功能，可以将电视内置音响与房间里的其它无线扬声器配对。该技术的官方名称为Dolby Atmos FlexConnect，将于2024年首次在TCL电视上亮相。

连接千行百业共话企业数字化转型的增长新机遇

在这个全行业加速迈入视频化的时代，音视频技术正成为越来越重要的纽带，推动万物相连相融。在这个过程中，腾讯云音视频连接越来越多的企业，助力加速数字化转型，找到新的增长点。

沉浸新视界·「听」你所想，「见」所欲见

作为深耕线下的技术大会，我们坚信“百闻不如一见”。深圳站购票火热进行中！同时，我们为在校学生争取了特别福利（购买学生票，请联系小秘书，微信号：LVSgogo）。准备好了吗？和诸多资深的音视频技术者一起，去见未来。

▲点击“阅读原文”▲

跳转LiveVideoStackCon 2023 深圳站官网，了解更多信息

继续阅读

阅读原文

音视频技术开发周刊 | 310