15日凌晨,OpenAI公布大型语言模型的最新版本——GPT-4。
OpenAI称,GPT-4能够生成与编辑创新型与技术性的文字内容,靠着强化版的推理能力超越现有的ChatGPT。
OpenAI老板Sam Altman直接开门见山地介绍说:这是我们迄今为止功能最强大的模型!
据悉,摩根士丹利财富管理部门已经在使用GPT-4
GPT-4开发者直播演示
https://www.bilibili.com/video/BV1n24y1t7Si/?)
GPT-4比上一版本强大在哪里呢?
  • GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本。
  • GPT-4在各种专业和学术基准上的表现达到人类水平。例如,它通过了模拟的律师考试,分数约为应试者的前10%。
  • OpenAI花了6个月的时间,利用从对抗性测试项目以及ChatGPT中获得的经验,反复调整GPT-4,结果在事实性、可引导性和可控制方面取得了史上最佳结果。
  • 在简单的聊天中,GPT-3.5和GPT-4之间的区别可能微不足道,但是当任务的复杂性达到足够的阈值时,区别就出来了,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。
  • GPT-4能对相对复杂的图像进行说明和解释,比如说,从插入iPhone的图片中识别出一个Lightning Cable适配器。
多模态“更上一层楼”
OpenAI称,虽然这两个版本在随意的谈话中看起来很相似,但“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4更可靠、更有创意,并且能够处理更细微的指令。
多模态的引入,让此次发布的GPT相较上一代综合体感明显“更上一层楼”。
OpenAI称,GPT-4比以往任何时候都更具创造性和协作性。它可以在创意和技术写作任务上与用户一起生成、编辑和迭代,比如创作歌曲、编写剧本或学习用户的写作风格。
GPT-4可接受图像作为输入,并生成字幕、分类和分析。以上图为例,输入牛奶、鸡蛋、面粉等食材的图片,GPT-4可以识别图片元素并输出食材用途参考。
图片笑点在哪里?GPT-4可以按顺序描述出每一格的内容,并总结出笑点。
此外,在文本内容长度上,GPT-4能够处理超过25000个单词的文本,支持长篇内容创作、延续对话以及文档搜索和分析等应用场景。
“篇幅的拓展让GPT的应用场景进一步扩大。”一位互联网行业人士表示,这意味着GPT在To B端的能力进一步加强。
此外,上周,微软德国公司的首席技术官安德烈亚斯·布劳恩(Andreas Braun)在GPT-4的预告中强调了其多模态特征,包括视频方面的可能性。但这一点尚未在已知信息中体现。
强推理实现能力跃迁
除了引入的多模态技术外,另一个颇引人瞩目的升级,便是此次GPT-4所展现出的强大推理能力。
尽管在体感上,GPT-4在与人闲谈上感觉与上一代差异不大。
但在其发布会上,OpenAI将之引入各类考试的测试中,结果却颇为令人惊讶。
实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。
例如,GPT-4通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,上一代GPT的得分在倒数10%左右。
英伟达AI科学家Jim Fan点评称,GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了。
而这种强大的推理能力最惊艳的亮相,或许就是在生成代码上。
在此次发布会上,OpenAI总裁Greg Brockman在现场演示了GPT-4在这方面的能力。他直接在纸上画了一个潦草的示意图,拍照发给GPT,并要求其按照这个布局写网页代码。
几乎只需要数秒钟的时间,相应的代码就完成了生成。
此外,发布会还展示了一个GPT-4的使用场景,那就是把程序运行出错的信息甚至错误信息截图提交给GPT-4,仅凭这部分图片信息,GPT-4都能自动查出错误。
“这对于整个编程行业来说是具有颠覆性意义的。”前述互联网人士表示,未来大量基础性的编程都将由人工智能接手。据他透露,目前国内许多的互联网公司已经引入GPT,辅助编写程序,“以后这种替代的比例会进一步提高。”
也正因如此,此次发布会上,OpenAI也明确表示,将在ChatGPT Plus上提供GPT-4,并将其作为API提供给开发人员构建应用程序和服务。
本文内容来源:上海证券报、独角兽DIGITALIZATION
继续阅读
阅读原文