音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

深圳站大会亮点前瞻

LiveVideoStackCon 深圳站今日开讲。期待您的参与！

●时间：2023年11月24日-25日

●地点：深圳圣淘沙酒店（翡翠店）

●咨询：13520771810（微信同号）了解详情。

●官方链接：https://sz2023.livevideostack.com/topics

马斯克让盗梦空间成真？初创公司用Transformer诱导清醒梦，Neuralink技术操控梦境效果惊人

这个名为「先知」的初创公司，希望开发出一种可穿戴设备，让你体验在清醒梦中醒来的感觉……《盗梦空间》要成真了？

「无需配对数据」就能学习！浙大等提出连接多模态对比表征C-MCR｜NeurIPS 2023

C-MCR利用现有多模态对比表征间可能存在的重叠模态，来连接不同的对比表征，从而学到更多模态间的对齐关系，实现了在缺乏配对数据的多模态间进行训练。

马斯克星舰二次发射！自毁系统触发，超重助推器爆炸，10分左右失联

虽然触发自毁系统，导致了超重助推器爆炸，但马斯克的星舰第二次试飞，可以被认为是成功了。

玩转围棋、国际象棋、扑克，DeepMind推出通用学习算法SoG

2016 年 3 月，一场机器人与围棋世界冠军、职业九段棋手李世石展开的围棋人机大战受到全球的高度关注。我们知道，最后的结果是 DeepMind 的机器人 AlphaGo 以 4 比 1 的总比分获胜。这是人工智能领域一个里程碑性的事件，也让「博弈」成为一个热门的 AI 研究方向。

媲美Gen-2，Meta多模态创AI生图新里程碑！破文生视频历史难题，静图秒变视频逼真到炸裂

文生视频，直接被革命了！Meta连发两个重磅研究，多模态模型Emu的变体 Emu Video和Emu Edit联动解锁生成式AI未来。

本文提出了一种简易且高效的基于大语言模型的表征学习（Representation Learning）范式。基于该范式模型无关的特性，将其有效地与现有最先进的基于图神经网络的协同过滤推荐算法相结合，显著且极大地提高了在推荐场景下的性能。

0.6秒出图！手机跑Stable Diffusion创下最快速度，而这仅仅是开始

如今，随着将大模型塞进手机的进程加快，普通用户也能亲自体验生成式 AI 的魅力了。

Meta 发布！基于Ranging-IMU融合的鲁棒室内定位

室内无线测距定位是可穿戴设备低功耗、高精度定位的一种很有前景的方法。该领域的一个主要挑战来源于无线电波的非视距传播。这项研究解决了无线测距中的一个基本问题：实时多径确定的不可预测性，特别是在具有挑战性的条件下，例如没有直接视线时。本文通过从低成本惯性测量单元( Inertial Measurement Unit，IMU )获得的惯性测量值与距离测量值进行融合来实现这一目标。为此，本文提出了一种新的非对称噪声模型，该模型专门针对非高斯多径干扰。

ETHZ等极限微操：在袖珍机器人实现板载SLAM

感知和对周围环境建图对于在任何机器人平台上实现自主导航至关重要。能够实现精确建图同时纠正大多数机器人系统中存在的里程计误差的算法类是同时定位与建图( Simultaneous Localization and Mapping，SLAM )。如今，只有在能够承载高功能强大处理器的机器人平台上才能实现完全的机载建图，这主要是由于执行SLAM算法需要大量的计算负载和内存需求。因此，袖珍硬件受限的机器人将SLAM的执行卸载到外部基础设施。

SLAM论文创新点的来源与思考

本文和大家一起讨论SLAM论文创新点的来源，以及如何判断一个创新点是否有价值和硬核。

发展势头强劲，我们距离「裸眼3D自由」更近了？

十五年前，iPhone的问世彻底改变了人与世界的交流方式，并且智能手机的发展随之引爆了互联网，带来了全新的商业模式——眼球经济或称注意力经济。

苹果发布visionOS Beta 6开发者测试版本；体全息光学元件厂商“尼卡光学”获数千万级Pre-A轮融资

近日，苹果向开发者发布了visionOS的第六个Beta版本，编号为21N5300a，距离上一个测试版本Beta 5（11月1日发布）仅相隔两周的时间。

Meta AR/VR光学专利提出折射式空心单峰折叠透镜结构

对于头显设备，采用由两个简单透镜配对在一起的双透镜可以允许更多的光学表面和厚度，帮助纠正更多的光学像差并提高图像精度。然而，传统的双透镜可能在两个透镜之间的间隙中包含油脂或类似材料，并可能会增加头显的重量挑战。

美国海军计划数十亿美元用AR/VR制造地球尺度模拟环境

在历次战争中，美国海军陆战队都需要在最恶劣的条件下作战。为了更好地为日益不稳定的未来做好准备，他们正在进入元宇宙。

手机端生成模型爆发在即，芯片迎来巨变？

以生成式模型（generative model）为代表的下一代AI正在席卷科技行业乃至整个人类社会。目前，人们对于生成式模型的关注还主要在于以OpenAI和谷歌为代表的人工智能巨头运行在云端服务器的模型，这些模型需要巨大的算力，并且一般运行在GPU上。然而，随着技术的发展，我们认为生成式模型运行在手机端已经到了一个转折点，马上会进入大规模铺开的阶段。

算力芯片，如何突围？

上世纪70年代，Intel发明了CPU。通过对CPU的持续投入，Intel逐渐获得了市场的优势，并逐渐构建起了自己的x86生态，这包括外围的硬件合作伙伴、BIOS等固件开发、操作系统软件、工具链以及应用软件生态等等。

芯瑞达、海信、首尔半导体共建实验室，发力Mini LED等

近日，芯瑞达在互动平台上表示，为推动新型显示行业包括Mini LED等先进显示与光学技术进步，公司近日与海信视像、首尔半导体三方签署协议，共建联合实验室。

AI降噪的N种损失函数

这是AI降噪的第二期，这一期本文介绍下AI降噪的一些损失函数。

网易有道强力开源中英双语语音克隆

EmotiVoice是一个强大的开源TTS引擎，支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

AI降噪耳机技术可以让佩戴者选择他们听到的声音

大多数使用过降噪耳机的人都知道，在正确的时间听到正确的声音至关重要。有人可能想在室内工作时消去汽车喇叭，但在繁忙的街道上行走时就不需要了。然而，人们无法选择耳机消除什么声音。

云厂商CDN故障后，连夜设计了云边端协同新方案

事件简述：2023年8月4日 21:00-21:20 云厂商 CDN 服务故障，回源流量突增导致 BFS SLB 过载，影响依赖图片、JS/CSS静态资源的服务，大量用户出现白屏和无法播放视频的问题。

快速构筑技术壁垒，抓住百亿短剧出海风口，腾讯云点播发布微短剧行业解决方案

流量加持之下，近年来增长迅速的短视频内容赛道又迎来了新的风口。三分钟一集的微短剧以其情节紧凑、剧情爽快等特点，站上了短视频内容赛道的潮头。越来越多的爆款剧集不断涌现，推动微短剧行业规模快速增长。知情人士指出，国内短剧全平台日投放规模已达8000万，整体市场规模近300亿。

NeRF&Beyond 11.17日报(Adaptive Shell NeRF渲染，EvaSurf，连续光场，D3GA）

神经辐射场为新颖的视图合成实现了前所未有的质量，但其体积公式仍然昂贵，需要大量样本才能渲染高分辨率图像。体积编码对于表示模糊几何形状（例如树叶和头发）至关重要，并且非常适合随机优化。然而，许多场景最终主要由固体表面组成，可以通过每个像素的单个样本来准确渲染。

音视频技术在手机上的应用与挑战

随着手机相机功能日益强大，4k，8k，各类特色短视频的拍摄，编辑、播放需求日益增长，短视频应用的火爆也对当前的手机音视频技术提出了更高的要求，如何更好地提高用户体验成为了行业共同的命题。LiveVideoStackCon 2023 上海站邀请了小米的吴昊，从一名开发者的角度为大家分享他关于手机端音视频技术的一些思考与经验。

OpenAI深夜变天，CEO奥特曼被炒鱿鱼！联创Brockman辞职力挺，女CTO临时补位

谁能想到，OpenAI这家独角兽的内部也是暗流汹涌，昨夜的大动荡中，Sam Altman竟然在权力游戏中意外出局？更惊人的是，关于他虐待亲妹妹的爆料，也开始大肆传播。

腾讯发布SLAM Changenge 2023获奖方案！多相机视觉-惯性SLAM

人工智能发展进步神速，但问题频出。OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好，后脚又因幻觉问题令人不禁吐槽。

Meta和联发科合作，将研发AR眼镜专用芯片

在美国加州拉古纳海滩举行的联发科2023年芯片峰会中，Meta和联发科宣布将携手研发用于AR眼镜的芯片产品。值得一提的是，联发科强调这是一个排他性的合作伙伴关系，这意味着联发科为Meta开发的任何芯片都不会提供给其他AR眼镜品牌。

▲点击“阅读原文”▲

跳转LiveVideoStackCon 2023 深圳站官网，了解更多信息

继续阅读

阅读原文

音视频技术开发周刊 | 321

深圳站大会亮点前瞻