音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

“讲师天团”招募过半，宝藏讲师等你来pick！

LiveVideoStackCon 2023深圳站大会，门票限时9折火热售卖中，团体参会优惠更多，此刻报名，与您相约深圳。

●时间：2023年11月24日-25日

●地点：深圳圣淘沙酒店（翡翠店）

●购票：扫描下方图片二维码

●官方链接：https://sz2023.livevideostack.com/topics●咨询电话：13520771810（微信同号）了解详情。

清华AI模型登Nature子刊：玩转城市空间规划，快人类3000倍

如今，在城市空间规划领域，人类设计师也有了 AI 伙伴。来自清华大学的研究团队提出了一个深度强化学习算法的模型。基于 15 分钟城市概念，该模型可以进行复杂的城市空间规划。结合人工输入，机器学习辅助土地和道路空间规划的表现超越了其他算法和专业人类设计师，在所有考虑的指标方面均提高 50% 左右，且速度快了 3000 倍。

OpenAI：LLM能感知自己在被测试，为了通过会隐藏信息欺骗人类｜附应对措施

OpenAI，纽大，牛津大学等研究人员发现，LLM能够感知自身所处的情景。研究人员通过实验可以提前预知和观察这种感知能力。AI发展到现在，到底是否具有了意识？前几天，由图灵奖得主Benjio参与的一个研究项目刊登上了Nature，给出了一个初步的答案：现在没有，但是未来可能有。

DeepMind创始人：AI将让人类远离心理问题，13亿美元GPU算力打造最强个人助理｜附实测记录

Inflection AI创始人称，AI有望成为解决人类心理问题的杀手级工具。他们的第一代产品已经让用户能感受到阳光般的温暖了。

llama2.mojo比llama2.c快20%，最年轻的语言Mojo惊艳开发者社区

如果说 Python 是最流行的语言，C 语言是最经典的语言，那么 Mojo 也有它的之最 —— 最年轻。Mojo 能够与 Python 无缝衔接，它的出世被称作为「几十年来最大的编程进步」。

GPT太「奢侈」，平替大汇总来了，再也不用担心部署大难题

近年来，生成式预训练模型（如 GPT）的兴起彻底颠覆了自然语言处理领域，其影响甚至已经延伸到其他多种模态。然而，像 ChatGPT 和 GPT-4 这样的模型，由于其巨大的模型规模与计算复杂度、复杂的部署方式以及未开源的训练模型，这些因素都限制了他们在学术界和工业界的推广与应用。因此，易于计算和部署的语言模型成为了人们关注的焦点。

32卡176%训练加速，开源大模型训练框架Megatron-LLaMA来了

9 月 12 日，淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA，旨在让技术开发者们能够更方便的提升大语言模型训练性能，降低训练成本，并且保持和 LLaMA 社区的兼容性。测试显示，在 32 卡训练上，相比 HuggingFace 上直接获得的代码版本，Megatron-LLaMA 能够取得 176% 的加速；在大规模的训练上，Megatron-LLaMA 相比较 32 卡拥有几乎线性的扩展性，而且对网络不稳定表现出高容忍度。目前 Megatron-LLaMA 已在开源社区上线。

LLaMA微调显存需求减半，清华提出4比特优化器

大模型的训练和微调对显存要求很高，优化器状态是显存主要开销之一。近日，清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比特优化器，节省了模型训练的内存开销，同时能达到与全精度优化器相当的准确率。大模型的训练和微调对显存要求很高，优化器状态是显存主要开销之一。近日，清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比特优化器，节省了模型训练的内存开销，同时能达到与全精度优化器相当的准确率。

文本直接生成3D游戏场景、功能，用ChatGPT方式开发游戏！

3D游戏开发平台Hiber3D通过谷歌的PaLM大语言模型，结合自身500多个模板库，以及数百万个成品3D场景进行微调，推出了一个全新游戏开发平台。该平台在生成式AI加持下，用户可以像使用ChatGPT那样，通过文本问答方式快速创建3D游戏场景和功能，例如，生成一个被行星、恒星和宇宙飞船包围的空间站场景。如果对生成的游戏场景不满意，同样支持文本问答进行添加、修改、删除等操作。目前，Hiber3D的生成式AI开发平台处于测试阶段，未来会开放给用户使用，使得没有专业编程背景的普通人也能开发游戏。

人体跌倒动作识别研究现状之基于计算机视觉的跌倒识别之传统图像算法

基于计算机视觉的跌倒识别算法是目前最主流的识别方式。伴随着计算机视觉的快速发展，智能监控的研究和应用越来越受到研究人员的关注。该类方法主要通过摄像头采集原始视频，再结合视频图像处理技术和机器学习技术等进行目标检测、目标跟踪、特征提取及结果分类等操作，以识别出监控视频中是否出现跌倒行为。

自动驾驶中的时间同步方式有哪些？

在自动驾驶中，需要用到很多传感器的数据（Lidar，Camera，GPS/IMU)，如果计算单元接收到的各传感器的消息时间不统一，则会造成例如障碍物识别不准等问题。时间同步包含哪些内容：自动驾驶中，时间同步可以分为几部分的内容：统一时钟源，硬件同步，软件同步。其中硬件时间同步主要针对相机。

MIT团队开源的这个激光雷达视觉惯导SLAM系统，太香了！

很多人让我推荐激光雷达-视觉-惯导的多传感器融合SLAM算法，LVI-SAM就是其中一个优秀的算法。LVI-SAM是MIT团队的TixiaoShan等人开源的一个紧耦合的激光雷达视觉惯导SLAM系统，可以实时高精度鲁棒的进行状态估计和建图。

传感器的新篇章：从人类视觉到算法感知

在计算机视觉的时代，传感器的核心任务已经从简单地为人类捕捉清晰、绚丽的画面转向了为算法提供更为精确和详实的数据。在实现这一核心转变的道路上，存在多种技术路径供制造商选择。其中一些产品选择在传感器中直接集成AI或计算机视觉功能，使其成为一个真正的“智能”传感器；而另一些则专注于重新设计传感器的结构或工作原理，以提供更加有助于计算机视觉算法处理的数据。接下来将结合STM、NextChip和Sony的演讲为大家进行详细介绍。

德国马普所最新综述：生成式AI与图像合成 TPAMI 2023

随着DALL-E2，Stable Diffusion和DreamFusion的发布，AI作画和3D合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式AI技术深刻地拓展了人们对于AI图像生成能力的认识，那么这些生成式AI方法是如何生成以假乱真的视觉效果？又是如何利用深度学习和神经网络技术来实现画作、3D生成以及其他创造性任务的呢？

港科大VLIS LAB自监督学习：事件相机卷帘快门帧视频插值算法

本文首次尝试在新的事件相机数据引导下，从两个连续的滚动快门( RS )帧中恢复任意帧率的潜在全局快门( GS )帧。实验结果表明，提出的方法在性能上与之前的有监督方法相当或更好。

第一人称射击游戏中延迟对目标选择的影响

虽然2D空间中的目标选择已经得到了很好的研究，但3D空间中的目标选择(如第一人称射击游戏中的射击)并没有得到很好的研究，许多延迟补偿技术也没有给玩家带来好处。本文介绍了一项用户研究的结果，该研究通过定制的FPS射击游戏评估延迟和延迟补偿技术对3D目标选择的影响。分析结果显示，延迟会降低玩家的表现(选择/射击目标的时间)，对体验质量(QOE)的主观看法也会随之下降。单独的延迟补偿技术不能完全克服延迟的影响，但组合技术可以，让玩家表现和感觉好像没有网络延迟。导出玩家选择时间分布的基本分析模型，这可以作为模拟各种FPS游戏的一部分。

https://doi.org/10.1145/3587819.3590977

XREAL 联合创始人吴克艰谈AR：下一代计算平台及其关键技术

一种行业观点是，AR或是未来十年、三十年的革命性技术，是下一代计算平台。近半个世纪，我们总能听到苹果在AR行业的创新动作，开辟了新的硬件范式。AR/VR行业为苹果不断欢呼的同时，激发了人们的好奇心——究竟，人类在戴上AR眼镜的那一瞬间，感知与交互从二维平面延伸到三维空间，科幻片场景触手可及之时，和世界的交互可以是什么样子？今天LiveVideoStack大会邀请到了XREAL的联合创始人吴克艰，为我们分享XREAL在AR行业的发展演进和思考。

万字梳理 | 2023光博会，从供应链技术看XR产业趋势

作为以光学显示、交互传感为核心支柱的XR上游供应链，在本次博览会上，通过与上百家展商交流，以及多个行业论坛观察，我们也得以看见XR产业上游光学供应链的一些细微变化与产业未来发展趋势。

Bigscreen 4K轻薄Pancake PCVR头显开始在美国发货

Bigscreen宣布，于今年2月发布且售价999美元的4K轻薄Pancake PCVR头显，售价999美元已经开始在美国发货。

音视频学习--Raw格式引起的图像问题

最近研发小伙伴在预研新的产品，在系统正常运行起来之后，发现一个奇怪的问题：从图片来看，可能是图像处理过程中出现了噪声，导致显示出斑点，这个问题可能会影响到用户的使用体验

字节跳动大规模多云CDN管理与产品化实践

在世界杯等大规模流量突发的情况下，作为承载抖音集团业务核心流量的基础设施，在运维效率、质量方面都可观测、调度、容灾、成本可观测与优化方面都遇到了很多的挑战。LiveVideoStackCon 2023上海站邀请了火山引擎边缘云融合CDN团队负责人孙益星介绍火山引擎在多云应用架构下的CDN运维管理解决方案。

大规模流量下的云边端一体化流量调度体系

火山引擎是字节跳动旗下的云服务平台，将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业，提供云基础、视频与内容分发、数智平台VeDI、人工智能、开发与运维等服务，帮助企业在数字化升级中实现持续增长。LiveVideoStackCon 2023上海站邀请到刘学介绍火山引擎在大规模流量下的云边端一体化流量调度体系。

音视频质检及画质评估——为QoS & QoE 指标保驾护航

腾讯已有超过21年的音视频技术积累，独家具备 RT-ONE 全球网络。此外，构建了包括实时音视频、云直播、云点播、即时通信、媒体处理等业界最完整的 PaaS 及 aPaaS 产品家族，面向各大场景提供低代码解决方案，开发者和企业可以快速上线高品质的音视频应用。下面有请孙祥学老师为我们分享腾讯云在音视频方面采取的质检及画质评估策略。

从项目管理到数据压缩创新者

Yann是一名项目经理，他从对公司生活感到疲惫的人变成了世界上最受欢迎的开发人员之一。Yann构建了LZ4和ZStandard，这是世界上最快的两种压缩算法，它们已经改变了数据库、操作系统和文件系统等等。在此片采访中，回到Yann在编程方面的最初步骤，谈谈他在此过程中改变游戏规则的发现，以及他对数据压缩的热爱如何使他创造出在全球范围内节省数十亿美元的技术。

https://corecursive.com/data-compression-yann-collet/

英伟达最强芯片性能公布，比H100高17%

Nvidia 今天宣布，已向最新版本的 MLPerf 提交了其 Grace Hopper CPU+GPU Superchip 及其 L4 GPU 加速器的首个基准测试结果，MLPerf 是一项行业标准 AI 基准测试，旨在为衡量人工智能性能提供一个公平的竞争环境。不同的工作负载。今天的基准测试结果标志着 MLPerf 基准测试的两个值得注意的新第一：添加了新的大型语言模型 (LLM) GPT-J 推理基准测试和改进的推荐模型。Nvidia 声称，在 GPT-J 基准测试中，Grace Hopper Superchip 的推理性能比其市场领先的 H100 GPU 之一高出 17%，并且其 L4 GPU 的性能高达英特尔 Xeon CPU 的 6 倍。

2023年中国半导体设备行业现状及发展趋势分析，半导体设备国产替代进程将加快

半导体设备泛指生产各类半导体产品所需要的设备，半导体设备可以分为IC制造设备和封测设备两大类。IC制造设备大致可以分为11大类，50多种机型，其核心有光刻机、刻蚀机、薄膜沉积机、离子注入机、CMP设备、清洗机、前道检测设备和氧化退火设备八大类。封测设备可以细分为分选机、划片机、贴片机、检测设备等。从市场规模上看，IC制造设备占整个设备市场规模的85%以上。

半导体前端工艺：沉积—微细化的关键

沉积工艺非常直观：将晶圆基底投入沉积设备中，待形成充分的薄膜后，清理残余的部分即可以进入下一道工艺了。

正在离地起飞的半导体材料——碳化硅

碳化硅，作为目前发展最成熟的第三代半导体材料，是近年来最火热的材料之一。尤其是在“双碳”战略背景下，碳化硅被深度绑定新能源汽车、光伏、储能等节能减碳行业，万众瞩目。因此，有人称其是一种“正在离地起飞的半导体材料。”

深度访谈｜谷歌CEO劈柴哥：我们对目前所处的位置感到非常满意

谷歌，作为人工智能（AI）领域的领导者，在过去的几年，尽管在产品中加入了中AI，但过于僵化和谨慎，从而让其他公司抢占了先机。

全球首款3nm芯片，苹果再次封神！全员上岛史诗级换C，主机游戏塞进iPhone，地表最强影像就差一个Vision Pro

搭载3nm芯片的iPhone 15 Pro，居然把主机游戏塞进手机了，说是移动端游戏的革命，真不夸张。

重磅！苹果将重构视频生态，iPhone 15 Pro支持空间视频

北京时间 9 月 13 日凌晨一点，苹果正式举办”好奇心上头“秋季新品发布会。在发布会的最后阶段，Apple Vision Pro 字样再次出现，与 iPhone 15 Pro（含iPhone 15 Pro Max）形成了从内容生产，到内容展示的系统化生态。

▲点击“阅读原文”▲

跳转LiveVideoStackCon 2023 深圳站官网，了解更多信息

继续阅读

阅读原文

音视频技术开发周刊 | 311