2023年,堪称大模型元年。厚积薄发的ChatGPT,在2022年11月一推出,仅用2个月用户破亿,刷新历史,大模型应用一炮而红。英伟达CEO黄仁勋称之为人工智能的iPhone时刻。比尔·盖茨则预测大模型将掀起能力无限的科技革命。全球都在见证突破与变革、机遇与挑战。国内企业、机构纷纷跟进,拉开了“百模大战”的序幕。中央网信办适时出台《生成式人工智能服务管理暂行办法》,保障安全鼓励创新。
大模型的技术突破,正在形成面向个人、深入行业的多重应用,势必引发新一轮的智力重构和产业变革,从而带来数字生产力大爆发,深刻改变人类社会历史进程。
人与机器,从未如此亲密。
何为大模型
大模型,即大型语言模型(LargeLanguage Model,LLM)。建立模型是为找出数据规律和模式,并据此预测未来结果。与传统语言模型不同,大模型以人工神经网络为基础,通过大规模语料库训练学习语言的统计规律。GPT就是一种大模型。其中,G代表生成性(Generative),P代表预训练(Pretrained),T代表模型架构(Transformer)。
大模型的大,是因为其参数量过亿,而且这个标准一直在提高。GPT-3的参数量1750亿,GPT-4的参数量1.8万亿。模型的参数量越大,处理复杂信息的能力越强大。大模型可以根据文本提示,生成代码、文本、图像、音频、视频,在构建多模态的同时激活灵感、知识和思想。可以说,大模型是未来人工智能赖以生存和发展的基础。
“炼丹”的过程
有人把大模型的训练比作“炼丹”,主要步骤包括:预训练、微调、提示工程、泛化等。
大模型生成内容的前提是大规模的文本数据输入,如维基百科、网页文本、书籍、新闻文章等,还可以根据应用场景调用其他外部数据资源,包括知识库、情感词典、关键词提取、实体识别等。通过预训练,大模型学习大量样本,投入更多计算资源,逐渐能够理解上下文,凭借一个词进行预测,并根据反馈调整参数,最终生成优化文本。
微调,主要以思维链为手段,其本质是一个多步推理的过程,类似海龟汤游戏。大模型会将一个问题拆解为多个环节,逐层分析,得出正确答案。伴随着微调和反馈,大模型变得更加结构化和规范化,减少数据信息冗余和碎片化等问题,提高生成的效率和质量。
提示工程,通过输入提示词引导,大模型生成期望的输出。提问过程类似苏格拉底的“助产术”。好的提示词具有角色定位、结果导向、循循善诱的特点,可以激发大模型潜力,生成期望结果。例如有网友曾巧妙利用提示词发现大模型“奶奶漏洞”可谓深谙此道。
泛化是指大模型在训练时,能够学习并掌握未见过数据的规律和模式,适应新的场景,实现预测的能力。这也是大模型的核心所在。通过提高大模型的泛化能力,可以优化其处理复杂任务的表现,从而促进智能涌现,最终展现出类似人类的智慧。
智能发展史
大模型的背后,浓缩了一段机器智能的历史。在电影《模拟游戏》中,卷福扮演的图灵,破译纳粹德国的恩尼格玛密码机。他通过将计算符号化(图灵机的设计理念),一战功成。1950年,图灵发表《机器能思考吗?》一文,提出了用于判断机器智能的“图灵测试”。1956年,约翰·麦卡锡在达特茅斯会议上首次使用“人工智能”一词,开启学科大门。在其后将近70年,如何让机器模仿人类大脑思考,成为连接主义学派的核心命题。
从赫布法则到罗森布拉特的感知机,再到斯坦福大学的专家系统,连接主义曲折发展,直到有一个人出现才带来曙光,他就是杰弗里·辛顿。
辛顿生在学术世家:曾曾祖父乔治·布尔创立了布尔代数;曾祖父查尔斯·辛顿提出了第四维度及宇宙魔方,堪称漫威电影鼻祖;父亲埃佛勒斯·辛顿是英国皇家学会会员、昆虫学家;堂姐琼安·辛顿是核物理学家,还参加了曼哈顿计划……
出身世家的辛顿,在剑桥大学国王学院读本科,狂选10来个专业,大都半途而废,只有心理学坚持到最后。心灰意冷的他去伦敦做了木匠,但保持了周末去图书馆自学的好习惯。为了研究大脑原理,他重回学术圈,在爱丁堡大学读博士,专攻神经网络。辛顿苦研10年,1986年在《自然》杂志发表《通过误差反向传播算法的学习表示》,使得沉寂的连接主义为之一振。
但当时的主流是符号主义,代表便是IBM的“深蓝”。1997年5月,“深蓝”击败国际象棋世界冠军卡斯帕罗夫,人机大战,震惊世界。
这也让辛顿看到了希望。2006年,他陆续写出了《通过神经网络进行数据降维处理》和《一种基于深度信念网络的快速学习算法》,深度学习开启,神经网络勃兴。
2012年,辛顿师生携基于深度学习的神经网络系统AlexNet,征战ImageNet图像识别大赛,以碾压之势夺冠,令东京大学、谷歌大脑等团队甘拜下风。
连接主义终于重回主流,辛顿注册了DNNresearch的空壳公司,引得微软、谷歌,百度、DeepMind轮番竞拍,谷歌笑到最后。输了竞拍的DeepMind也被谷歌收入囊中。2016年,DeepMind的阿尔法狗击败围棋世界冠军李世石,还破解了生物学家50年来的重大难题:蛋白质分子折叠。
阿尔法狗实力超群,但人工智能的威胁令人担忧。为了应对挑战,2015年,萨姆·奥特曼、伊隆·马斯克等共同创建了OpenAI,希望实现安全的通用人工智能,使其有益于人类。大模型终于登场。不过,2018年的GPT-1、2019年的GPT-2,效果不如谷歌同类产品。后来,OpenAI获得微软10亿美元投资及强大算力支持,于2020年发布GPT-3。作为全球首个1750亿参数量的大模型(训练成本高达1200万美元),GPT-3能力惊人,技术路线占优。2021年,OpenAI再获微软20亿美元投资,并逐渐引入代码思维链,发布文本生成图片的神经网络DALL-E,该名称来源于画家达利(Dalí)和机器人总动员(Wall-E)。2022年11月30日,OpenAI推出搭载GPT-3.5的ChatGPT,一鸣惊人。
行业的面相
国内外科技企业迅速意识到大模型商业化前景,加速布局。2023年2月,微软是全球首个将大模型技术商用的企业。其推出ChatGPT支持的新必应(New Bing),成为全球增长最快的搜索应用。此后,微软向OpenAI追加投资100亿美元,后者得以继续训练参数量高达1.8万亿的GPT-4(单次训练成本高达6300万美元)。3月14日,OpenAI发布多模态大模型GPT-4,增加了图像输入文本输出等功能,微软迅速将其整合到新必应、Office、Azure云服务等,占得先机。
3月16日,百度不甘示弱,发布文心一言,拔得国产大模型头筹。随后,华为、阿里、字节、商汤、百川智能等迅速跟进,呈现“百模大战”之势。
5月,百度将文心一言的基础模型升级至文心大模型3.5。谷歌也推出大模型PaLM2,包括对话机器人Bard等超过25个产品全线接入。
7月,Meta发布首个开源大模型Llama2,包含了70亿、130亿和700亿三种参数版本。微软成为Meta首选合作伙伴,通过Azure云服务与Llama2深度合作。
8月15日,《生成式人工智能服务管理暂行办法》正式实施。此后,百度、字节、商汤、百川智能等8家大模型首批通过备案上线。
9月,科大讯飞、360、腾讯等大模型陆续面向公众开放服务。微软也宣布,Windows11重大更新,大模型支持的辅助工具Copilot接入全线产品。
10月17日,在百度世界大会上,李彦宏发布文心大模型4.0。据百度披露,目前,文心一言已拥有4500万用户、5.4万开发者,覆盖应用场景达4300个,应用825个,接入插件达到500个。
10月24日,在联想TechWorld大会上,联想集团董事长兼CEO杨元庆展示了全球首款AIPC,通过模型压缩技术可以运行个人基础大模型,同时发布的还有联想与微软合作开发的个人与企业级人工智能双胞胎(AITwin)等面向未来的技术产品等。
数据显示,中国目前拥有至少130个大模型,占全球总数的40%,仅次于美国的50%。这反映出中国在人工智能领域的强劲实力,也为国内人工智能的未来发展提供了广阔的市场空间。
产品代表作
谈到大模型产品,首推ChatGPT,9月,OpenAI推出其最新版本GPT-4V,新增了语言和图像交互功能。10月,新版文生图大模型DALL·E3,可以利用ChatGPT生成提示,进而生成图像。由此,新版ChatGPT实现了能听能说能看,具备更强大的创造力和语言理解能力,朝着多元化、多模态的方向迈进。
百度发布文心大模型4.0时,李彦宏现场演示文心一言写武侠小说,文心一言展示出惊人的记忆能力。同时,百度旗下的搜索、文库、地图、网盘等智能焕新。全新亮相的百度GBI把商业分析师十几天才能完成的数据分析、撰写报告的工作,缩短到分钟计算。
李彦宏称,文心大模型4.0与GPT-4相比毫不逊色,在它基础上的原生应用,全面升级国家跳水队辅助训练系统,协助国家图书馆学习古代方志与家谱数据,支持全球华人寻根之旅,让全无人自动驾驶真正落地。
除了上述通用大模型,垂直大模型的代表莫过于绘图界网红产品Midjourney。其创始人大卫·霍尔茨称,Midjourney这个名字源于《庄子》的庄周梦蝶,对应中文的“中道”,这也成为其设计理念。例如Midjourney的v5.2版本中zoom out功能,可以实现无限变焦,每一帧极致高清,微观宇宙比韦伯望远镜看得还远。
场景化应用
今年3月,可口可乐推出的最新广告《杰作》中,利用了实拍+3D+StableDiffusion,通过一个可乐瓶的传递,回顾了阿尔忒弥斯青铜器,安迪·沃霍尔的《可口可乐(3)》,透纳的《沉船》,蒙克的《呐喊》,梵高的《阿尔勒的卧室》,大卫的雕像,歌川广重的《鼓楼和夕阳山,目黑》,最后博得维米尔《戴珍珠耳环的少女》的嫣然一笑。借助大模型的魔法,艺术家脑洞大开,展现出文学、音乐、美术、体育、游戏等领域的无限可能性。
除了创意点赞,《杰作》也引发了大模型颠覆行业的思考。在教育领域,大模型可以成为老师的助手,除了备课、答疑等常规工作,还可以创新教学法,实现个性化教育。在法律领域,大模型可以协助律师根据客户需求和监管要求,出具相应的法律文书并提供咨询支持。在商业领域,大模型可以根据招聘需求扫描海量简历,人岗匹配后完成个性化面试,亦可助力组织培训、绩效评估等。另外,大模型还可以完成同步翻译、邮件生成、文案撰写、海报设计、会议助理、智能语音、客户响应、报告总结、可视分析等工作。
产业的生态
从产业生态角度,大模型可分为四个部分。在硬件基础设施层,大模型对算力要求很高,这也是英伟达一枝独秀的原因。根据公开数据,英伟达在独立GPU市场份额达80%,在高端GPU市场份额高达90%。为了防垄断,谷歌给最新款的Pixel手机装上了TensorG3芯片。微软将在11月推出首款自研AI芯片。OpenAI尝试自研AI芯片,同时评估收购目标。亚马逊以40亿美元投资Anthropic,条件包括使用亚马逊自研AI芯片……这些公司的目标就是降低算力成本,并减少对英伟达的依赖。
国内方面,华为发布AI芯片昇腾910,配合全新架构的昇腾AI计算集群,可支持超万亿参数的大模型训练;AI芯片厂商燧原科技宣布完成D轮融资,融资规模达到20亿元人民币……应该说,硬件基础设施ToB(面向企业用户)的商业模式是最清晰的,付款企业包括大模型提供商、行业客户或应用提供商。
软件方面,在大模型训练算力需求远超GPU单节点能力的情况下,还需要通过软件基础设施,实现硬件的横向扩展,充分释放底层硬件的潜力。常用框架包括谷歌大脑开发的TensorFlow,Meta开发的PyTorch,百度开发的飞桨Paddle,阿里开发的PAITensorFlow等。在参数规模激增的情况下,分布式的深度学习框架便成为刚需,主要实现方式包括叠加式,如OpenAI的Ray on PyTorch;全栈式,如国内开源框架OneFlow。同时,大模型的研发者和使用者还会组建诸如Hugging Face、ModelScope等在线模型库和社区。
模型即服务层是大模型产业的核心。当前,大模型可分为闭源大模型和开源大模型。前者如GPT、文心等。后者如LLaMA、通义千问等。企业服务就是要将大模型产品化和商业化,通过企业服务模块的API向企业客户或应用开发者提供多种能力调用,如模型推理、微调训练、强化学习训练、插件库、私域模型托管等。
最后,大模型需要通过应用层体现客户价值和商业价值,这也是整个大模型产业持续发展的动能。例如,ChatGPT作为通用智能助手和新的互联网入口,其商业化有3种可能:按月订阅付费、插件库对开发者抽成、对话中插播个性化广告。
风险惹人愁
1968年,《2001:太空漫游》中,人工智能计算机HAL9000掌管着发现号,却最终发了疯,引发科技伦理思考。
从阿西莫夫的机器人三原则到阿西洛马23条准则,人类亟须建立人工智能的伦理规则,才能让技术带来福祉,而非灾难。
今天的大模型潜力巨大,令人兴奋也不乏担忧。今年3月,马斯克联名千名专家呼吁所有人工智能实验室立即暂停训练比GPT-4更强大的人工智能系统,期限至少6个月。
4月,辛顿向谷歌提出辞职,理由是为了能够“自由地谈论人工智能的风险”。这让人不禁想到电影《奥本海默》中所探讨的命题。
今年6月,欧洲议会通过了《人工智能法案》,计划依法防范大模型风险并保护创新。
7月,《生成式人工智能服务管理暂行办法》,成为全球首个大模型应用服务监管的立法文件。此外,人工智能法草案也已列入国务院2023年立法工作计划。
10月,科技部等10部门联合印发《科技伦理审查办法(试行)》,全国信息安全标准化技术委员会将《生成式人工智能服务安全基本要求》面向社会公开征求意见,均对大模型安全可控提出合规要求。

10月18日,习近平主席在第三届“一带一路”国际合作高峰论坛开幕式主旨演讲中提出《全球人工智能治理倡议》,系统阐述了人工智能治理中国方案,为全球大模型发展与治理提供了解决思路与规制蓝本。
未来的方向
马克·吐温曾说:“历史不会简单重复,它会押着同样的韵脚。”未来,大模型将承担繁重的机械劳动,生成唇枪舌剑的激辩,预测经济社会发展走向,规划人类美好生活图景。
新一代人工智能,会推动人类的社会空间、物理空间和信息空间加速融合,逐步构建一个人类智慧与机器智能共存的世界。
在这个过程中,我们始终相信,人类的情感和创意,好奇与想象,依旧将是人类文明赓续的力量源泉。
大模型只是开始。
未来,已来。
本文刊载于《金融博览》2023年第11期
投稿邮箱
订阅方式:
1. 邮局订阅:邮发代号22-488
2. 电话订阅:010-6326 5031
继续阅读
阅读原文