每周一期,纵览音视频技术领域的干货。
新闻投稿:[email protected]

一周倒计时!深圳站大会亮点前瞻

LiveVideoStackCon 深圳站 倒计时一周,一周后将迎来精彩纷呈的主题演讲。期待您的参与!
时间:2023年11月24日-25日

●地点:深圳圣淘沙酒店(翡翠店)

●咨询:13520771810(微信同号)了解详情。

●官方链接:https://sz2023.livevideostack.com/topics
在【抖音背后的体验增长实战揭秘】专题中,我们将深入解析抖音背后的体验增长实践,结合抖音拥有的亿级日活跃用户所沉淀的经验,剖析在大规模用户背景下如何实现降本增效。
复制链接,免费报名火山专场演讲。
http://livevideostack.mikecrm.com/EIvkisN
谷歌DeepMind再次在科学细分领域——天气预报迈出重要的一步。全新AI模型GraphCast可在1分钟内,精准预测10天全球天气,甚至还可以预测极端天气事件。
有研究者发现,李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。对此,「零一万物」给出了官方回应。
我们知道,ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的,存在难以处理的优化难题。本文中,斯坦福大学等研究机构的团队探索用「对比偏好学习」替换掉「强化学习」,在速度和性能上都有不俗的表现。
Sam Altman投资的消费硬件初创公司Humane交卷了!名为Ai Pin的可穿戴设备由OpenAI提供技术支持,专为与大模型交互而设计。这是要用ChatGPT革了iPhone的命?
最近,来自哈尔滨工业大学和华为的研究团队发表了一篇长达50页的综述,细致地盘点了有关LLM幻觉问题你该知道的所有事。
生成式AI模型的新范式要来了。UC伯克利谷歌提出幂等生成网络(IGN),只需单步即可生图。
GitHub公布了今年的Octoverse开源状态报告,AI成为了当仁不让的主角。印度也将替代美国成为最大的开发者社区。还有更多趋势和详细信息,开发者千万不能错过!
神经辐射场(Neural Radiance Fields)自2020年被提出以来,相关论文数量呈指数增长,不但成为了三维重建的重要分支方向,也逐渐作为自动驾驶重要工具活跃在研究前沿。
DreamCraft3D,这是一种层次化的3D内容生成方法,能够生成高保真度和连贯性的3D物体。我们通过利用2D参考图像来引导几何雕刻和纹理增强的阶段,解决了这个问题。这项工作的核心焦点是解决现有工作所遇到的一致性问题。3D先验模型,优先考虑了几何一致性,但会牺牲纹理的保真度。
闭环和重定位是解决位姿估计漂移和退化,建立可靠和鲁棒的长期SLAM的关键技术。本文首先在一个统一的框架内制定闭环和重定位。然后,本文提出了一种新颖的多头网络LCR - Net来有效地处理这两个任务。它利用新颖的特征提取和姿态感知注意力机制来精确地估计两两LiDAR扫描之间的相似性和6 - DoF姿态。
英伟达在 2023 年全球超算大会(SC2023)上发布了目前世界上最强的 AI 芯片 H200。
全球最大的存储芯片制造商三星电子公司周二发布的第三季度监管报告显示,该公司已以约 1.34 万亿韩元(10 亿美元)的价格出售了荷兰芯片设备制造商 ASML Holdings NV 0.3% 的股份。
当信息和通信技术 (ICT) 处理数据时,它们会将电能转化为热量。如今,全球 ICT 生态系统的 CO 2足迹已与航空业相媲美。然而事实证明,计算机处理器消耗的大部分能量并没有用于执行计算。相反,用于处理数据的大部分能量都花在了内存和处理器之间的字节传输上。
就在去年进行首次肩关节置换大手术的前几天,Jake Shine医生戴上VR头显开始工作。
immerGallery是一款VR相册APP,最早于2022年4月上线,目前应用在APP Lab的售价为15欧元。近日,immerGallery迎来更新,现已支持在Quest 3设备上拍摄3D照片和视频。
11 月 13 日消息,据华尔街日报近日报道,Meta 已与腾讯达成初步协议,将在中国大陆销售其新的低价版 VR 头显。
计算机视觉是否即将迎来革命性的自我革新?
百模大战,最备受期待的一位选手,终于正式亮相!它便是来自李开复博士创办的AI 2.0公司零一万物的首款开源大模型——Yi系列大模型
诸公可知目前最牛逼的TTS免费开源项目是哪一个?没错,是Bert-vits2,没有之一。它是在本来已经极其强大的Vits项目中融入了Bert大模型,基本上解决了VITS的语气韵律问题,在效果非常出色的情况下训练的成本开销普通人也完全可以接受。
说话人匿名 (Speaker Anonymization) 的旨在保留原语音的音质和可懂度的情况下,隐藏说话人的身份,该任务的目标是满足以下要求:(a)输出语音波形;(b)隐藏说话人的身份;(c)保持语言内容和副语言属性不变;(d)确保来自给定说话人的所有数据均由同一个伪说话人发出,而来自不同说话人的语音由不同的伪说话人发出。目前主流方案通过将说话人表征和语义信息解耦,而后通过修改说话人表征来实现匿名。
Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。
罗马不是一天建成的。语聊房当前架构也是不断演进的结果。在技术架构层面,语聊房作为搭建在直播体系上的业务,使用既有技术架构体系可以帮助我们快速搭建早期产品,但随着业务迭代,已有技术体系又成为新的技术架构的负债。
从产品运营角度来说,功能的用户触达是实现用户价值转化的最基本前提。所以如何快速将一个新的功能触达到用户,同时减少触达过程中对运营推广、用户带来额外的成本就成了一个必须被重视的课题。
腾讯云音视频通信&边缘平台产品干货库
OpenAI和谷歌抢人抢疯了,一边给出500万到1000万美元的天价年薪,另一边许诺自己的offer薪水更高。而国内的AI博士也是遭到疯抢,还没毕业就要被几百万年薪挖走了。
人工智能发展进步神速,但问题频出。OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。
HTC日前发布了一份关于美军使用XR的报告《The State of Extended Reality (XR) Training in the U.S. Military/美国军队的扩展现实训练状况》。据介绍,这份报告对美国陆军、海军、空军、海军陆战队和海岸警卫队的400名现役军事培训师和专家进行了调查。
点击阅读原文
跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息
继续阅读
阅读原文