面向全球 AI 开发者的 GTC 2023 将于3月20 – 23日在线上举办,这场被 NVIDIA 创始人兼首席执行官黄仁勋描述为 「迄今为止最重要的一次 GTC」,将带来650多场演讲、专家座谈会和特别活动,几乎涵盖了计算领域的所有热门内容,预计将有超过25万人报名参加。
本届 GTC 设有专门为中国 AI 从业者举办的特别活动 — China AI Day。活动将于3月22日下午1点开始,邀您一同探讨互联网、数字孪生、元宇宙领域的前沿的 AI 应用。
来自阿里巴巴、百度、快手、腾讯、网易、字节跳动等领先 AI 智能计算企业的专家,将与 NVIDIA GPU 计算专家团队带来11个精彩演讲,内容涵盖互联网搜索、推荐、广告业务、数字孪生、短视频,和元宇宙这些热门应用场景。推荐业内关注数据、算法、架构和运维的工程师、开发人员以及AI从业者预约观看!
3月22日1:00 PM  锁定China AI Day
扫描海报二维码,免费注册参会。点击 「Add to Schedule」,将心仪的演讲添加至您的日程。
以下为11个演讲的详细介绍:
加速计算助力云上业务场景
李曦鹏,NVIDIA开发与技术部门亚太区总经理
会议代码:[SE52359]
演讲时间:3月22日 1:00 PM - 1:30 PM
加速计算是未来必经之路,极致化性能,并提高能效。NVIDIA AI 平台涵盖了从基础设施、调度、加速库以及加速框架、部署工具和最上层的应用框架。NVIDIA 也提供了从数据预处理、大规模训练、推理优化到大规模部署的端对端软件。加速计算需要应用导向来进行整个环节的优化,是软硬件协同,需要业务、算法、工程师和加速工程师密切合作。
本演讲将以推荐系统的演变为例,来阐述加速计算的旅程。加速计算也正是 China AI day 的主旨所在。非常欢迎并诚挚感谢 China AI Day 的演讲者,分享在数字孪生、元宇宙、短视频、以及搜索、广告、推荐等领域,借助 NVIDIA GPU 和全栈 AI 解决方案,最新鲜的优化加速的精彩成果。
李星澜:一个基于实时智能交互系统打造的 “真实” 数字生命
四道,朝夕光年江南工作室AI技术负责人
会议代码:[SE51461]
演讲时间:3月22日 1:30 PM -2:00 PM
智能 NPC 和数字人已经在娱乐行业和社交媒体平台被广泛应用,包括人工智能驱动的主持人、评论员和网红等。但开发具有高视觉保真度的逼真智能AI通常需要大量时间,而且成本很高,很难扩大规模。
朝夕光年江南工作室提出了一个 GPU 驱动的系统,包括文本到语音模块、音频到全身动画模块、视频分析模块、渲染模块和聊天机器人模块,基于这些模块可以构建一个逼真的实时交互数字人。在 NVIDIA Omniverse 的支持下,可以实时高效地渲染李星澜,而且其中的动画模块将根据后端聊天机器人的输出自动驱动角色模型的运动。动画模块和后台聊天机器人都是基于自定义开发的深度神经网络。使用 NVIDIA Omniverse ACE,能够在两天内完全训练 audio2motion 和 text2speech 模型,并在 5 天内训练超大参数的 Chatbot 神经网络模型,使用了超过 10tb 的训练数据。
本演讲将介绍如何利用 NVIDIA Omniverse 和 NVIDIA GPU,以及如何借助计算机图形学和人工智能功能来构建 Lydia 数字人项目。
飞桨深度学习平台高效支持大规模生产及应用
马艳军,百度AI技术生态总经理
会议代码:[S52366]
演讲时间:3月22日 即可在线观看 自选点播
源于百度业务对人工智能技术的广泛应用,飞桨深度学习平台结合应用持续创新,研发了业界领先的大规模分布式训练技术。飞桨先后发布了4D混合并行训练、端到端自适应分布式训练、超大规模图训练引擎等核心技术,并基于这些技术支持文心大模型的训练和部署。目前,文心大模型已经覆盖基础大模型、任务大模型、行业大模型的三级体系,飞桨+文心大模型赋能千行百业的智能化升级。本演讲将分享飞桨深度学习平台如何高效支持大规模生产及应用。
机器学习模型中访存密集型计算STITCH融合优化技术   
郑桢,阿里巴巴高级技术专家
会议代码:[SE51289]
演讲时间:3月22日 2:00 PM – 2:30 PM
近年来,访存密集型计算日益成为影响机器学习模型性能的重要因素。由于机器学习模型计算图日趋复杂,传统的机器学习编译器面对复杂的数据依赖关系时很难执行高效的计算融合优化。同时,动态张量形状 (dynamic tensor shape) 的模型优化需求开始兴起,缺失的张量形状使得访存密集型计算子图的性能优化变得更加困难。
本演讲将讲述阿里巴巴针对机器学习任务中访存密集型计算性能优化的关键技术:STITCH 融合技术。该技术支持将任意类型及任何数量的机器学习访存密集型算子进行融合,最终将大粒度的访存密集型计算子图转化为单个的 GPU 核函数,以减少片外访存、框架调度及 GPU 核函数调用开销。
GPU加速大规模向量索引构建
李晨,腾讯高级工程师
会议代码:[SE51475]
演讲时间:3月22日 2:30 PM – 3:00 PM
大规模向量检索引擎在腾讯诸多业务中有所应用,在百亿级召回场景中提供低延迟、高召回率的在线服务。但随着索引规模的增加,向量索引的构建已经成为日常索引的更新瓶颈。离线向量 IVF 索引构建,在引入 GPU 优化之前,索引构建工作依托 Hadoop 平台进行,引入 NVIDIA GPU 改造后索引构建成本降低 60%。索引构建的优化工作主要由两部分组成:1. IVF KMeans 聚类;2. 百亿向量在海量聚类中心上的 FIT 过程。本次演讲将介绍如何基于 GPU 构建大规模向量索引及其优化过程。
多模态超大模型在短视频场景落地应用
张胜卓,快手算法引擎专家
韩青长,快手算法引擎工程师
李杰,快手算法引擎工程师
门春雷,快手算法引擎专家
会议代码:[SE52361]
演讲时间:3月22日 3:00 PM – 3:30 PM
以 ChatGPT 为代表的大模型面世,带来了 AI 大模型技术热潮,研究表明,知识密集任务中越大的模型学习效率越高(相同训练数据量下,模型越大任务效果越好),主流大模型的参数大都超过了千亿 (100B) 规模,同时也给模型的高效训练和推理部署带来严峻挑战。快手围绕提高模型计算效率和可部署开展技术攻关,沉淀了一套通用的混合并行训练、压缩、推理整体解决方案,并联合业务实现百亿参数 Dense 模型和千亿参数 MOE 大模型落地,取得显著业务收益。本演讲将分享多模态超大模型在短视频场景的落地应用。
PGLBox:百度基于GPU的超大规模图模型训练框架
焦学武,百度主任架构师、百度MEG商业模型中台技术负责人
会议代码:[SE51302]
演讲时间:3月22日 3:30 PM – 4:00 PM
PGLBox 是百度研发的基于 GPU 的大规模图模型训练框架,支持数百亿节点和边的图模型全 GPU 训练,已在百度广泛部署。相比业界主流的分布式 CPU 解决方案,PGLBox 具有以下几大优势:1. 超高性能:业界首个分布式 GPU 图学习训练框架,相比分布式 CPU 方案,训练速度提升 27 倍;2. 超大规模:业界首个多级存储图引擎,单机可支持数百亿节点数百亿边的超大图规模;3. 算法丰富:预置丰富的图表示学习算法,支持跨场景异构图建模和复杂图属性建模;4. 灵活易用:用户仅需简单配置,即可一键启动大规模图表示学习训练任务;5. 落地广泛:百度内部多业务体系广泛落地,为业务带来了显著业务收益。
视频场景中的音频理解推理加速解决方案
陈炳州,字节跳动音频理解视频方向引擎负责人
会议代码:[SE51166]
演讲时间:3月22日 4:00 PM – 4:30 PM
音频理解是指通过语音识别、事件检测、语种识别、声纹识别等技术从音频数据中解析出多维度信息。在视频场景上,比较经典的落地技术,比如视频字幕生成、视频字幕打轴等等。这些技术应用极大地提高了人效,也带来生活的便利。伴随短视频和音频类应用的兴起,用户请求量、音频数据正呈几何级别增长,这些都为大规模数据处理,以及高并发低延迟的推理带来诸多挑战。比如机器有限的情况下如何处理更多的音频,多语种的场景中单卡处理单语种模型存在利用率较低的问题。本演讲将基于 NVIDIA 提供的推理 GPU(T4, A10, A30),介绍音频理解如何做推理加速,以及如何广泛应用于抖音等大流量场景。
CUTLASS 极致性能优化探索及在阿里巴巴推荐系统中的应用
董纪莹,阿里巴巴高级工程师
会议代码:[SE51305]
演讲时间:3月22日 4:30 PM – 5:00 PM
在大规模推荐系统中,点击率 (Click-Through Rate, CTR) 和 转化率 (ConVersion Rate, CVR)预测任务的深度神经网络模型通过由 Embedding 层,Attention 层和 MLP 层组成。然而,在 TensorFlow 上执行时,Attention 层和 MLP 层中数量众多的算子和大量耗时的计算成为了性能瓶颈。
通过 NVIDIA 开源的高性能矩阵乘 (general matrix multiplication, GEMM) 应用框架 CUTLASS,能够实现将与 GEMM 相连的算子融合进 GEMM,并且将级联的 GEMM 进一步融合成一个算子。通过这种方式,在理想情况下,可以将整个Attention 模块融合成一个算子。在计算 MLP 时,将纵向相连的 GEMM 融合成 back-to-back GEMM,然后继续将横向相连的 GEMM 融合成 Batch GEMM,从而实现性能提升。这些优化已经在阿里巴巴预测引擎平台上线,很好地提升了预测性能,更好地发挥了硬件算力。
NVIDIA CUDA技术助力网易瑶台神经隐式曲面建模20倍加速
李林橙,网易伏羲视觉计算负责人
会议代码:[SE52360]
演讲时间:3月22日 5:00 PM – 5:30 PM
网易瑶台提供大型的沉浸式会展服务。在与客户的沟通中,我们了解到,客户期望将线下物体生成 3D 模型,导入瑶台,从而降低定制化制作的成本。2020 年以来神经渲染3D建模技术快速发展,重建精度有了显著的提升,但耗时却限制了实际的应用。网易瑶台充分利用了 NVIDIA 的 tiny-cuda-nn 与 CUDA 渲染技术,对神经隐式曲面建模进行了20多倍加速,实现了高效、高质量的 3D mesh 重建。本演讲将分享项目过程中的实践经验与心得。
在GPU上使用Video Codec SDK,CV-CUDA和TensorRT加速现代云上视频应用
王倬遥,NVIDIA 开发与技术部工程师
会议代码:[SE51229]
演讲时间:3月22日 5:30 PM – 6:00 PM
人工智能技术广泛应用于云和 on-prem 数据中心的短视频和直播应用当中,覆盖了超分辨率、直播视频特效、旧视频修复、自动像素化、视频内容理解等。然而,当部署这些应用程序时,传统视频处理管线混合了 CPU 和 GPU 负载,其性能将受到以下因素的限制:1) h2d 和 d2h 内存拷贝;2) CPU 上的前处理和后处理;3) CPU 上的视频编解码;4) 未充分优化的 AI 推理框架。
针对以上限制, NVIDIA 提供了丰富的视频处理相关的 SDK。如何在实践中高效地在云上使用这些工具是搭建基于人工智能的新式视频处理管线的关键。本演讲将介绍如何使用这些 SDK 来解决应用中的低效部分,并构建一个全 GPU 的视频处理管线。
如何预约和注册
想要预约以上精彩内容?扫描海报二维码或点击「阅读原文」,打开China AI Day 专题页面,注册登录后,按照会议代码或标题,找到对应演讲。通过点击 「Add to Schedule」或  「星星」 ,将该演讲内容添加至您的日程,大会开始后登录即可在线观看。
点击 「Add to Schedule」,添加至您的日程
如无「Add to Schedule」按钮,说明该演讲为点播,从3月22日开始即可在线观看。点击右上方的「星星」,将该演讲添加至您的日程。
请在3月26日前完成在线注册,免费观看以及回看 GTC 2023 春季大会超过650场精彩内容,并参与抽取黄仁勋签名版NVIDIA GEFORCE RTX 4090!
点击阅读原文,开启你的GTC 2023吧!
继续阅读
阅读原文