下一个 AI 爆点在哪里

编者按：

人工智能（AI）可以开启第四次工业革命吗？预训练大模型的开发应用是其中关键一步。

当企业开发一个 AI 项目时，往往需要开发一系列定制化的小模型，然而这一过程的综合成本、不可控程度，以及对开发人员的专业性要求都很高。因此，为了提升 AI 工业化水平，就要提升 AI 开发前置工作的标准化程度，将不同开发者所需模型的公约部分提前训练好，也就是提前将知识、数据、训练成果沉淀到一个大模型中，再将这个基础释放到产业中，由不同行业、不同企业的开发者在此基础上二次开发和微调。

华为云盘古大模型就是要打造出一个适配各种真实产业场景的大模型。这一项目由华为云人工智能领域首席科学家田奇 2020 年组队启动。加入华为云之前，田奇长期在学术界工作，是美国伊利诺伊大学香槟分校博士、美国德州大学圣安东尼奥分校计算机系教授，获电气与电子工程师协会授予协会最高荣誉（IEEE Fellow）。眼下，他和团队气象领域的研发成果正式刊发在国际权威期刊《Nature》上，面向行业的盘古大模型 3.0 也在华为开发者大会上全新升级。田奇对大模型在工业等场景的应用有很多研究和思考。以下是他的讲述。

▲本文部分内容整理自播客「What's Next丨科技早知道」节目。更完整对话，请收听本期节目

下一个 AI 爆点

我们认为大模型是一项新的科技革命，很多行业都会被大模型重塑。

工业 AI 会是下一个 AI 爆点，主要有几个原因。从需求看，工业领域有大量场景存在自动化需求，比如工业质检，一个摄像头就能替代重复的人工动作。AI 模型非常适合在这些场景中发力。

从数据看，得益于数字化手段的普及，每个行业都积累了海量且高质量的电子化数据，能够满足数据驱动的 AI 模型大规模训练所需。

从现状看，许多工业场景已经完成了数字化转型，但智能化转型还存在巨大空间。

我举几个例子。一个例子是铁路的缺陷检测，现在一般由人工巡检，难度比较大。我们团队从 2020 年开始探索铁路的智能识别系统，在试点中，盘古铁路大模型实现了 430 多个故障识别，故障图片筛除率达到95%。去年 12 月评测时，针对 78 个设计故障，盘古模型实现了零漏检。这是我们可商用大模型的一个落地场景，可以全面提升检测员的工作效率，确保车辆故障的精确分析。

再比如电力巡检。国网电力巡检最早的方法是工人爬到高架上人工检查，安全隐患很大。后面是无人机巡检，每天拍摄海量照片，但里面有缺陷的样本非常少，如何从海量照片中筛选出可能有缺陷的照片，又如何从中快速识别出缺陷类型？原先各个厂商基本采用多个小模型来适配不同缺陷，而盘古大模型的模型参数量在 4 亿左右，只用一种模型就可以适配上百种类别的缺陷，相较于之前的方法，大幅减少了人工标注量，准确率提升了 20% 以上，筛选效率提升了 30 倍，筛选质量提升了 5 倍以上。

而且我们现在可以通过一些优化方法，把过去需要 3 个月完成的计算复杂度，降低到只用不到一周时间就可以完成。带来的影响是什么呢？过去做气象预报需要巨大的算力，很多小国家甚至没法独立完成，现在如果把相关计算变为 3 天就可以完成的程度，那么在普通大学的实验室里，就可以完成气象预报训练过程。一次气象预测之前需要超算中心 3000 个节点的超算算力，运算几个小时才能得到，但盘古气象大模型做一次 24 小时天气预报只需要 1.4 秒。盘古气象大模型已经被欧洲气象局和中国气象局做了多次对比实验。欧洲气象局在报告中表示，盘古系统的气象预报精度超过传统数字分析，而且速度提升了 1 万倍以上。

大模型离你我有多远

将来还有很多能应用大模型的领域，包括医疗健康、商业及金融、环境科学等。

在医疗健康方面，大模型可以用来分析医疗影像，比如通过深度学习 CT、MR（磁共振）图像，更准确地检测疾病早期迹象，或更精确分析疾病。此外，我们也可以通过大数据和复杂算法，预测个体的健康风险，或分析基因变异对于个体健康的影响。

在商业及金融领域，大模型可以用来提高决策的精度或效率，尤其是在需要处理大量数据和多个复杂因素的情况下。比如可以用大模型预测市场趋势，指导投资决策。大型企业还可以利用大模型优化供应链管理，通过预测需求和分析原材料、价格、运输成本等各种因素，确定最佳的生产和配送策略。

在环境科学方面，大模型可以模拟全球气候系统，预测未来一年或一段时期的气候变化，比如全球变暖的程度，今年的冬天是暖冬还是寒冬。这可以帮助我们更好地理解全球气候，更好应对全球变暖或变寒。

▲盘古大模型全球气象实时预测｜图片来源：华为云

AI 可以赋能千行百业，未来也有可能走入千家万户。现在大模型还需要极大的算力来训练，以及较高的成本来推理，很难配置在手机上。如果将来大模型和底层芯片能更好适配，推理成本就会成千倍甚至成万倍地降低，就有可能装载在手机上。

但要实现这些愿景还有一些难点需要攻克。首先是需要一个多模态统一架构。打个比方，ChatGPT 是黑白无声电影，我们的目标就是多模态的彩色有声电影。也就是说现在只有文本，而将来会有彩色的图像、视频，再加上语音。这一过程是正在发生，而且一定会实现的。但我们现在的 CV （计算机视觉）和 NLP（自然语言处理）是用不同的网络处理不同的输入。NLP 是文本输入，要加入视频和语音输入，就要有一个多模态统一架构可以处理不同的输入。这个统一架构到底应该怎么做？这是现在很多研究人员在努力的领域，也可能是未来 1 到 3 年的一个主要研究方向。

还有一个把大模型变小的问题。大模型在具体行业落地过程中，要考虑模型的复杂度、推理速度，以及运算成本。如果想把大模型装载到手机上，就要把大模型小型化以适应手机的容量和带宽。所以大模型需要打磨成合适的小模型，以装载到手机等端侧的设备上。

另一个研究重点，是如何增强外部知识输入。我们的基础模型是一个通用知识库，是从海量数据中训练归纳而来，也就是说大模型的能力受限于训练的语料。如果一些行业的知识没有出现在语料中，大模型就会缺乏相应能力。因此如何利用外部知识，以及额外的专业知识图谱来提升大模型的能力，在实际应用中也是非常值得探索的。

再有一个研究重点，就是实现数据模型的全生命周期迭代。新的数据源源不断产生，如何把新的数据加到原来预训练的大模型中，是个非常重要的问题。我们希望大模型在新数据不断增加的情况下，能够实现增量学习，进而实现大模型的终身学习。

从学术界到产业界

▲田奇｜图片来源：华为云

我本科就读于清华大学电子工程系，主修语音信号处理，但我对图像处理非常感兴趣，上了不少图像处理的课。大学毕业后，我做的研究多与信号处理相关，但还是对图像视频的处理更有兴趣。这有可能是因为图像处理和计算机视觉处理的结果可以被人眼直接看到，那种感觉比较实在，而且在现实生活中我也比较喜欢拍照。1997 年，我到伊利诺伊大学香槟分校读博士，正式开始 CV 研究，到现在已有 26 年。之前在美国大学当老师时，我和产业界已经有很多合作，对象包括谷歌、微软等。2018 年 6 月，我正式加入华为。

我觉得学术界和产业界的合作对整个行业发展非常重要。一般产业界会在实际应用中提炼出一些问题，然后支持学术界研究，希望学术界用先进的理论解决这些问题。比如大家认为华为手机的拍照效果不错，这其实应用了很多底层视觉的算法，比如怎样实现超分辨率，怎样去除反光，等等。在产业界的带动下，学术界也设计出许多轻量级的计算模型，以更好地适配到终端手机上。

总的来讲，产业界提炼出问题，资助学术界实现「从 0 到 1」的过程，产业界再负责「从 1 到 N」的工业化，同时在新的场景中再提出新的问题给学术界，形成一个闭环。

在大模型研发方面，学术界和产业界也需要配合。大模型研发的技术门槛和资源门槛都很高，学术界很难具备足够算力，另外也很难获得某些特定场景和行业的数据。因此在大模型的研究上，产业界是领先于学术界的，学术界很多学者也很渴望和产业界合作。反过来，产业界在大模型的研究中也遇到了很多问题，比如如何降低大模型的推理、训练成本，这些开放性课题可以交给学术界研究。

我们团队在大模型的研发上具有一定优势。首先，大模型训练需要海量数据。在这个过程中，我们收集了上百 TB 的百科知识、文学作品、程序代码等文本数据，以及数十亿张图像和图文数据用于多模态训练。

其次大模型训练需要海量算力。我们需要大量计算资源训练模型，并使用并行计算框架加速大模型的训练过程。盘古各个系列的大模型基本都要使用几百张甚至上千张生成芯片，训练数个月时间。在这个过程中，华为云的算力和平台团队为我们提供了有力的保障。

此外，我们还要综合评估和测试训练好的模型，以确保它在实际应用中的性能和可靠性，整个过程不仅需要充分利用海量的数据和计算资源，还需要优异的模型架构和训练算法，以达到事半功倍的效果。

我们的团队成员也很优秀，平均年龄不到 30 岁，都是过去 3 年从各高校吸引和招聘来的朝气蓬勃的年轻人，正值创新巅峰期。我们把他们叫做「仰望星空的人」，一方面要能够仰望星空，同时也需要有脚踏实地的坚忍和耐心。

继续阅读

阅读原文