实时会话式 AI 是一项复杂的任务,因为它需要理解语音、文本、语言并回复,这个过程还需在非常短的时间内精准完成。
11 月 9 日,英伟达宣布推出 NVIDIA Omniverse Avatar,这是一个用于生成交互式 AI 虚拟形象的技术平台。
在 NVIDIA GTC 的主题演讲中,英伟达创始人兼首席执行官黄仁勋分享了 Omniverse Avatar 的各种示例:用于客户支持的 Project Tokkio、用于在线车辆智能服务的 NVIDIA DRIVE Concierge 以及用于视频会议的 Project Maxine。
在第一次 Project Tokkio 演示中,黄仁勋展示了 AI 机器人版的自己——Toy Jensen Omniverse Avatar,它具有黄仁勋的声音、玩具的形象,和专家你来我往地讨论生物学和气候科学等深度话题。
在第二次 Project Tokkio 演示中,英伟达展示了餐厅售货亭中的客户服务虚拟形象,它能够看到两位顾客,和他们实时交谈,并理解他们需要订购素食汉堡、薯条和饮料。
而在车辆智能服务领域,和餐厅服务员外观相似的数字助理现身仪表板中央屏幕,它的职责是帮助驾驶员选择最佳驾驶模式以准时到达目的地,并按照驾驶员要求设置汽车行驶里程低于 100 英里时的提醒。
此外,英伟达展示了用于视频会议的 Project Maxine。在嘈杂的咖啡馆参加视频会议时,一位女士可以简单快速地去除背景噪音,而且她所说的话会被实时转录和翻译成多种语言,Omniverse Avatar 则负责生成声音和语调不变的虚拟形象。
按照英伟达的说法,「智能虚拟助手的曙光已经到来」,协作机器人和虚拟助手几乎可以为任何行业轻松定制,帮助处理数十亿的日常客户服务互动——餐厅订单、银行交易、个人约会等等,从而带来更多商机。
为了实现以上所有示例,Omniverse Avatar 使用了以下技术:
(1)语音识别基于 NVIDIA Riva,它可识别多种语言的语音,并通过「文本到语音」功能生成类似人类的语音响应;
(2)自然语言理解基于威震天 530B 大型语言模型,它能够回答大量领域的问题,总结长而复杂的故事;
(3)推荐引擎由 NVIDIA Merlin ™ 提供,它允许企业构建处理大量数据的深度学习推荐系统;
(4)感知能力由 NVIDIA Metropolis 提供,这是一种用于视频分析的计算机视觉框架;
(5)形象动画则由 2D 和 3D 人工智能驱动的面部动画和渲染技术支持。
可以说,英伟达展现各行各业的 AI 角色,也是为了高调而不失优雅地「炫技」。
这些技术被组合成了一个应用程序,并使用 NVIDIA 统一计算框架进行实时处理;与此同时,它们被打包为可扩展、可定制的微服务,可以通过 NVIDIA Fleet Command ™ 安全地部署、管理和编排。
Omniverse Avatar 是NVIDIA Omniverse ™ 的一部分。NVIDIA Omniverse ™ 是一个用于 3D 工作流程的虚拟世界模拟和协作平台,它还包括 Omniverse Replicator——这是一种用于训练深度神经网络的合成数据生成引擎,帮助开发人员创建训练 AI 所需的大量数据。
NVIDIA Omniverse ™ 目前处于公开测试阶段,拥有超过 70000 名用户。黄仁勋表示:
借助 Omniverse,我们现在拥有创建新 3D 世界或为我们的物理世界建模的技术。你会看到一个不变的主题——Omniverse 如何被用来模拟仓库、工厂、物理和生物系统、5G 前沿、机器人、自动驾驶汽车以及虚拟形象的数字孪生。
点击「在看」
是对我们最大的激励
继续阅读
阅读原文