智能晚报｜OpenAI可能11月发布GPT-Vision，并考虑开发新模型Gobi；Bard支持插件功能；智谱成新晋独角兽….

「每周一三五更新」

撰文：陆彦君、裘欢欣

编辑：王杰夫

Key Points

OpenAI可能11月发布GPT-Vision，并考虑开发新模型Gobi；

Google Bard升级，已支持插件功能；

DeepMind的AI工具可预测基因突变是否致病；

智谱AI完成B-4轮融资，估值达到约10亿美元；

马斯克脑机接口公司Neuralink将为瘫痪患者开始脑植入物的实验。

OpenAI可能11月发布GPT-Vision，并考虑开发新模型Gobi

9月18日，据媒体报道，OpenAI正在积极准备发布GPT-4大模型的多模态版本，试图保持技术上的领先地位。新皮层本周一曾报道过，Google已经向小部分公司开放了其多模态模型「Gemini」（双子星）的早期版本。

GPT-4已有多模态能力，但迄今没有开放给用户

其实早在今年3月，OpenAI在推出GPT-4时就曾展示了多模态大模型的功能。多模态本应该是GPT-4已经拥有的能力，但OpenAI从未向公众开放过。OpenAI仅向一家为视障人群提供服务的公司Be My Eyes开放过多模态大模型。有报道称，OpenAI担心多模态能力过于强大而被用来破解验证码或人脸识别系统。

多模态指的是大模型不再像今天这样局限在文本形式内容的输入与输出，而是同时可以输入与输出文本、图像、音频等内容。例如用户可以让大模型阅读一张地图，并且协助规划路线。在当时的演示视频中，OpenAI联合创始人Greg Brockman用手机拍了一张他在笔记本上潦草写下的网站设计草稿图，输入给GPT-4后，模型就能根据这张图片生成网页所需的代码。

OpenAI推出GPT-4不久，Google就在5月的开发者大会上公布多模态模型「Gemini」（双子星）的开发计划，并且表示这个模型对标的正是OpenAI的GPT-4多模态大模型。随着Gemini的开发逐渐成熟，Google在近期向一部分公司开放了其早期版本。

OpenAI可能还有新模型Gobi

有报道称，OpenAI正准备推出拥有图像理解能力的模型GPT-Vision来应对Google的挑战，这个模型还会结合OpenAI另一款正在研发中的图像生成模型DALL·E 3的能力，GPT-Vision可能会在11月召开的首届OpenAI开发者大会上公布。不过这个GPT-Vision看起来只是增加了图像的输入与输出能力，依然不是完整版的多模态大模型。

对此，科技博客The Information表示，OpenAI还在考虑从头搭建一款新的多模态模型Gobi，但目前这还只是一个想法，毕竟OpenAI CEO Sam Altman曾表示暂时不会开发GPT-5，也就是下一代大模型。

参考链接

https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm

Google Bard升级，已支持插件功能

9月19日，Google在官方博客宣布了Bard聊天机器人的一系列更新，Bard添加了Google应用的插件功能，包括Gmail、文档、云盘等。Google称，这是Bard迄今为止功能最强大的版本。

今年2月，Google推出类ChatGPT的聊天机器人Bard，以迎接微软与OpenAI的竞争。Bard依托自研大模型PaLM 2，可根据用户的文本指令生成内容。7月，Bard还新增了图像搜索功能，这是竞品ChatGPT和Claude目前不具备的。

什么是插件功能？

5月ChatGPT推出插件功能时，新皮层曾经报道过。简单点理解，插件就是第三方应用为ChatGPT开了后门，方便ChatGPT调用自己应用内的数据。按OpenAI的说法，插件可以成为ChatGPT的「眼睛和耳朵」，使它能够访问一些过于新、过于私密因而无法被包含在训练数据中的信息。

有了插件的Bard可以做什么？

有了插件功能，Bard可以提供来自Google地图、Google机票、Google酒店和YouTube的实时信息。用户需要事先安装扩展程序（extensions）。比如，用户想要获取导航信息，在对话框中输入「@Google Map+指令」，Bard就会调用Google地图解答问题。

Google在文章中举了很多例子：用户计划和朋友去科罗拉多大峡谷旅行，可以要求Bard从Gmail中获取适合每个人的出行日期、查找实时航班和酒店信息、查看前往机场的路线，甚至观看机场活动的YouTube视频。总之，这些功能你都可以在Bard的聊天窗口内完成。

此次Bard还有哪些更新？

可与其他用户分享对话：Google Bard新增了「公共链接分享」功能，用户可以将自己与Bard的对话分享给任何人，被分享者可以在自己的设备上继续对话。
可核查事实：Bard在答案底部新增了一个「G」按钮，用户点击按钮可以让Bard在Google全网搜索，检查回答是否正确。

和Duet AI相比，Bard推出插件有什么不同？

Google推出的Duet AI对标微软的Copilot，Bard对标的是ChatGPT。Duet AI只专注于办公套件Google Workspace，而Bard用于创建Google整体的插件生态：它可以关联Google Workspace，也可以关联Google旗下诸多应用，应用场景不止办公。
Duet AI被定位成办公AI助手，每月费用30美元，且只面向大公司的员工。Bard的插件目前是免费的，个人用户也可以使用。

参考链接

https://blog.google/products/bard/google-bard-new-features-update-sept-2023/

DeepMind的AI工具可预测基因突变是否致病

9月19日，国际学术期刊《科学》（Science）刊登了Google DeepMind团队的论文，论文提出AI系统AlphaMissense可以预测人类的数百万个基因突变是否会致病，可以加快罕见疾病的研究和诊断。

AlphaMissense是什么？

2016年，DeepMind组建团队开发AI系统AlphaFold，它可以根据蛋白质的氨基酸序列预测其三维结构，预测结果的准确性可以与实验相媲美。DeepMind与欧洲生物信息学研究所（EMBL-EBI）合作创建了AlphaFold数据库，将预测结果免费提供给科学界。

AI系统AlphaMissense就是在AlphaFold系统的基础上微调得来的。通过输入氨基酸序列，AlphaMissense能预测在序列中给定位置的所有可能的单氨基酸变化的致病性。AlphaMissense充分利用了AlphaFold的两个关键能力：其高度准确的蛋白质结构模型以及从相关序列中学习进化约束的能力。

因此，AlphaMissense与AlphaFold之间只有轻微的架构差异。

AlphaMissense的预测结果是怎样的？

根据论文披露的数据，AlphaMissence完成了对7100万个错义突变的致病性的预测，并且将所有预测结果公布出来作为公有资源。预测结果中有57%可能是良性的，32%可能是致病性的。相比之下，人类专家只能完成0.1%的预测，这意味着医学界可以借助AI解决人类遗传学中的重大挑战。

错义突变是什么？

错义突变（Missense Mutation）是指在DNA序列中单个碱基被另一个碱基替代，导致编码的氨基酸发生改变的一种基因突变形式，它会导致编码的蛋白质序列发生改变，可能影响蛋白质的结构和功能。打个比方，如果你将DNA视为一种语言，交换一个字母就可以改变一个单词，进而完全改变一个句子的含义。每个人平均携带超过9000个错义变体，大多数是良性的。但少数致病性的变体会严重破坏蛋白质功能，甚至直接致病。

AlphaMissense是怎样被训练出来的？

AlphaMissense接受了来自人类和密切相关的灵长类动物的DNA数据，以了解哪些错义突变很常见，可能是良性的；哪些很罕见，可能有害。同时，该程序通过研究数百万个蛋白质序列，了解「健康」蛋白质的样子，熟悉蛋白质的「语言」。当经过训练的AI被喂食突变时，它会生成一个分数来反映基因变化的风险有多大。

DeepMind已经将AlphaMissense的预测结果免费提供给科学界，并在GitHub开源了AlphaMissense的模型代码。

参考链接

https://www.science.org/doi/10.1126/science.adg7492

智谱AI完成B-4轮融资，估值达到约10亿美元

9月19日，据报道，大模型公司智谱AI完成B-4轮融资，腾讯战投、阿里云战投领投，多家机构参与。腾讯集团和阿里云智能集团回复称确已参与投资。截至该轮投资，智谱AI的估值达到约10亿美元。它也是继MiniMax后，中国大模型领域诞生的第二只独角兽。

智谱是家什么公司？

成立于2019年的智谱AI是清华大学计算机系唐杰教授创立的大模型公司，由清华大学计算机系知识工程实验室的技术成果转化而来。2022年8月，智谱合作研发了千亿大模型GLM-130B，并以此为基础推出了ChatGLM。此后，智谱AI还推出了针对代码、视频、图像生成的一系列模型。

智谱是国内少数几个已成功开发出大模型的初创公司。目前已通过网信办备案审批的模型中，目前仅有百川智能的「百川大模型」、智谱的「智谱清言」、Minimax的「ABAB大模型」等3家初创公司的模型获批。

谁投资了智谱？

2019年8月完成战略投资，由清华控股和中科量创投资；
2021年9月完成A轮融资，金额1亿元，由达晨财智、华控基金、将门创投、南京图灵、北京达凡等9家公司出资；
2022年9月完成B轮融资，金额为1亿元，由君联资本、启明创投、华控基金出资；
2023年7月完成B-2轮融资，由美团战投领投，金额达到上亿美元，投后估值为5亿美元。

Neuralink启动脑机接口临床试验，招募对象是瘫痪患者

9月20日，据媒体报道，马斯克的脑机接口公司Neuralink已获得某个独立审查委员会的批准，开始招募瘫痪患者作为实验对象，推进大脑植入物的首次人体实验。新皮层此前报道过，Neuralink在5月底获得了美国食品药品监督管理局（FDA）的批准，可以启动人体临床研究。

实验细节有什么？

Neuralink表示，这项研究将使用机器人，通过手术的方式将脑机接口（Brain Computer Interface，BCI）植入物植入大脑内控制移动意图的区域，公司的初期目标是使人们能够仅凭思想控制计算机光标或键盘。由于颈椎损伤或肌萎缩性脊髓侧索硬化导致瘫痪的人可能有资格参与研究。

这项实验安全吗？

Neuralink曾经的和现在的员工称，公司早些时候希望获得批准，将设备植入10名患者体内。但FDA提出安全质疑后，公司正与FDA就减少患者数量谈判。目前尚不清楚FDA最终批准了多少患者参与实验。实验预计需要花费6年时间。

专家表示，即使脑机接口设备被证明对人类是安全的，这家初创公司可能仍需要十多年的时间才能获得商业使用许可。

参考链接

https://www.reuters.com/technology/musks-neuralink-start-human-trials-brain-implant-2023-09-19/

Bonus

「Surface」之父潘诺斯·帕奈离开微软加入亚马逊

9月18日，微软负责体验和设备的副总裁Rajesh Jha在周一的一封电子邮件中告诉员工：「在公司工作了近20年后，潘诺斯·帕奈（Panos Panay）决定离开微软」。帕奈是微软首席产品官，2004年加入微软，在领导Surface产品线后于2018年成为微软产品总监，负责Windows 11的开发。2021年，帕奈晋升为微软执行副总裁。

据媒体报道，帕奈后续将加盟亚马逊，接替即将退休的亚马逊硬件主管戴夫·林普（Dave Limp）的工作，负责推进Alexa语音助手和Echo智能音箱等产品。

OpenAI组建红队网络，使其大模型更稳健

9月19日，OpenAI在官网发文宣布，将推出「红队网络」（Red Teaming Network），即邀请各领域专家为大模型提供风险评估。OpenAI感兴趣的领域涵盖自然科学与人文社科，包括认知科学、化学、生物、物理、计算机科学、政治学、心理学、社会学等。

这些专家不需要具备AI系统或大模型的经验，OpenAI看重的是他们愿意参与并提供观点。例如，专家组成的红队可以捕捉大模型中的偏见——ChatGPT此前被发现会放大有关种族和性别的刻板印象。除了OpenAI委托开展的红队活动，OpenAI表示，红队网络成员将有机会就实践和调查结果展开交流，但并不是每个成员都会参与新模型的研究。成员们需要遵守保密协议，参与时长则可以自行决定（每年可能只有5到10小时）。

-END-