今年入夏以来,全球面临各种极端气候——高温、洪水和山火不时发生。为了准确预测此类极端情况,半导体巨头英伟达决定为整个星球打造一个人工智能驱动的名为“地球-2”“数字孪生”体系。
这个系统基于拥有数十兆字节地球数据的人工智能模型,可以更快、更准确地预测未来两周的天气,准确捕捉罕见但致命的灾难风险,从而为弱势人群提供宝贵的准备和疏散时间。
随着人工智能的出现,科学将变得更加令人兴奋,但在某些方面也变得面目全非,这种转变将影响我们所有人。如果我们打好这一手牌,通过合理的监管和对人工智能创新应用的适当支持来解决科学最紧迫的问题,人工智能可以改写科学进程。
近几个月来,人工智能几乎已经成为大型语言模型(LLM)的代名词,但在科学领域,有许多不同的模型架构可能会产生更大的影响。在过去的十年里,科学的大多数进步都来自于专注于特定问题的较小的“经典”模型。这些模式已经带来了深刻的进步。最近,开始融合跨领域知识和生成人工智能的更大深度学习模型扩大了可能性。
重塑科学
目前,人工智能已经改变了一些科学家进行文献综述的方式。PaperQA和Elicit等工具利用LLM扫描文章数据库,并对现有文献引文进行简洁准确的总结。人工智能还可以更快地扩大或缩小假设的搜索范围。因此,人工智能工具可以帮助制定更有力的假设,例如为新药提供更有前景的候选模型。
进入实验阶段,人工智能将能够更快、更便宜、更大规模地进行实验。例如,我们可以用数百个日夜运行的微量移液器制造人工智能驱动的机器,以无人能及的速度产生样本。科学家可以使用人工智能工具进行一千次实验,而不是将自己限制在六次实验。
担心下一次拨款、出版或任期过程的科学家将不再局限于成功几率最高的安全实验;他们将可以自由地追求更大胆、更跨学科的假设。例如,在评估新分子时,研究人员倾向于选择与我们已经知道的分子结构相似的候选分子,但人工智能模型不必具有相同的偏见和约束。
最终,大部分科学将在“自驱动实验室”进行,即与人工智能相结合的自动化机器人平台。在这里,我们可以将人工智能能力从数字领域带入物理世界。这种自驱动实验室已经在Emerald Cloud Lab和Artificial等公司出现,甚至在阿贡国家实验室也出现了。
最后,在分析和结论阶段,自驱动实验室将超越自动化,根据他们产生的实验结果,使用LLM来解释结果,并推荐下一个实验。然后,作为研究过程中的合作伙伴,人工智能实验室助理可以订购用品来取代早期实验中使用的用品,并在一夜之间设置和运行下一个推荐的实验,结果可以在早上实验者在家睡觉时随时公布。
可能性和局限性
年轻的研究人员可能对这一前景感到紧张。幸运的是,这场革命产生的新工作可能比目前大多数实验室工作更有创意,也没有那么盲目。
人工智能工具可以降低新科学家的进入门槛,并为那些传统上被排除在该领域之外的人打开机会。有了LLM能够帮助构建代码,STEM学生将不再需要掌握晦涩难懂的编码语言,这为新的非传统人才打开了象牙塔的大门,并使科学家更容易参与自己以外的领域。很快,经过专门培训的LLM可能会超越提供资助提案等书面工作的初稿,并可能被开发为与人类评审员一起提供新论文的“同行”评审。
人工智能工具有着令人难以置信的潜力,但我们必须认识到人与人之间的接触仍然很重要,不要在走路之前先跑步。例如,通过自驱动实验室将人工智能和机器人技术成功融合并非易事。科学家们在实验室里学到了很多隐性知识,这些知识很难传授给人工智能驱动的机器人。同样,在我们将大部分文书工作、研究和分析交给LLM之前,我们应该意识到当前LLM的局限性甚至幻觉。
除了达到新的高度,人工智能还可以通过解决科学的可复制性危机来帮助验证我们已经知道的事情。大约70%的科学家报告显示,他们无法复制另一位科学家的实验,这是一个令人沮丧的数字。随着人工智能降低了实验的成本和工作量,在某些情况下,复制结果或得出无法复制的结论会更容易,这有助于增强人们对科学的信任。
可复制性和信任的关键在于透明度。在理想的世界里,科学领域的一切都是开放获取的,从没有付费墙的文章到开源数据、代码和模型。可悲的是,由于这些模型可能会带来危险,使所有模型都开源并不总是现实的。在许多情况下,完全透明的风险大于信任和公平的好处。尽管如此,在一定程度上,我们可以对模型透明,尤其是使用更有限的经典人工智能模型。
本文节选自《麻省理工科技评论》,内容有删改。
作者:埃里克·施密特
继续阅读
阅读原文