一文回顾 AI4Science 进展

专题解读
事件：牛津、EPFL 等团队近期发布论文，提出了基于深度学习的 WES 数据体细胞和种系 CNV 调用程序「ECOLE」。基于 Transformer 架构的变体，该模型通过对匹配的 WGS 样本进行高置信度调用，学习调用每个外显子的 CNV。ECOLE 首次在人类专家标记数据上实现了高性能，准确率达到 68.7%，召回率达到 49.6%。

随着人工智能（AI）技术的兴起，AI 开始通过提高、加速和促进我们对各种空间和时间尺度下自然现象的理解，推动自然科学的发展，催生出了科学人工智能 AI4Science 的新研究领域。

在经历了前计算机时代（400BC - 1946）、计算机时代（1946-2020）和 AI4S 时代（2020-至今）的发展之后，在 AI4S 时代，主要科研方式转变为利用 AI 求解高维函数的优势实现高精度高效建模、高通量筛选，并有针对性的进行实验验证。

AI4Science 推动科学研究范式的转变

1、模型驱动：在传统的科学研究中，模型驱动的方法强调从基本原理出发，通过建立和求解数学模型来理解和预测现象。AI 技术提高了计算效率，帮助科学家更快速、准确地求解复杂的科学问题。

2、数据驱动：数据驱动的研究方法侧重于从大量数据中提取模式和洞见，通常不依赖于预先定义的模型或假设。AI 技术，尤其是机器学习和深度学习，能够有效地处理和分析庞大的数据集，从而揭示新的科学知识和规律。

3、模型与数据的融合：在现代科学研究中，结合模型驱动和数据驱动的方法变得越来越重要。AI 技术通过融合传统的基于模型的分析和基于数据的学习，能够提供更全面、更精准的科学洞察。

AI 在科研各个领域中有哪些共性的应用？

1、AI 辅助的科研数据收集与整理

① 数据选择：

科学实验产生的数据规模巨大，需要实时处理和高性能计算，以筛选和分析关键数据。通过深度学习方法，可以实时检测和丢弃背景事件，以控制数据传输速率，同时识别罕见事件，为未来研究提供有用信息。这种无监督异常检测方法已在多个领域广泛应用。

② 数据标注：

有监督模型需要标记数据进行训练，但标注数据集费时费力。伪标注和标签传播等方法可以自动标记无标注数据，尤其在生物学领域中，这对于监督模型的训练至关重要。还可以利用代理模型或领域知识制定标注规则，减少专家标注的需求。

③ 数据生成：

深度学习性能提高的有效方式之一是生成额外的合成数据点，以增强训练数据集。深度生成模型如生成对抗网络等能够合成逼真图像，广泛用于多个领域的数据生成。概率编程是一种新兴技术，将数据生成模型表示为计算机程序。

④ 数据细化：

人工智能技术提高了测量精度，去噪是一项重要任务。深度卷积方法可以将精度较差的测量结果转化为高质量图像。去噪自动编码器可以有效区分信号和噪声，并学习去除噪声。这些方法在不同科学领域中应用广泛，如可视化时空区域、粒子碰撞、生物图像分析等。

2、基于 AI 的科学假设生成

① 可验证的假设是科学发现的关键。这些假设有多种形式，从数学的符号表达式，到化学的分子，再到生物学的基因变异。构建有意义的假设通常是一项耗时费力的过程......

3、AI 驱动的实验和模拟

① 通过实验评估科学假设是科学发现的关键环节。然而，实验室实验可能成本高昂，操作复杂。计算机模拟已经成为一种具有前景的替代方案，为我们提供了更为有效和灵活的实验手段。

② 但模拟需要依赖人工设置的参数和启发式策略来模仿现实世界的情况，并且需要在精度和速度之间做出权衡，这就需要理解底层的机制......

大语言模型是如何加持科学研究的？有哪些研究工作值得关注？科学人工智能在不同领域面临着哪些共同的技术挑战？... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 01

「机器之心PRO」业内通讯 · 2024年度#Week 01

1. World Model As Agent 是 AGI 的必经之路吗？

世界模型是什么？LLM 已经具备世界模型的雏形了吗？LLM 与世界模型能「划等号」吗？世界模型是如何实现「超级 AI」的？...

2. 一文回顾 AI4Science 进展

AI 推动了哪些科学研究范式的转变？AI 在科研各个领域中有哪些共性的应用？大语言模型是如何加持科学研究的？有哪些研究工作值得关注？...

3. 「AI 生成的」生成式 AI 综述了解一下？

这篇综述是 AI 生成的？OpenAI 研究员为何吐槽这篇综述？MoE、多模态和 AGI 对生成式 AI 有何影响？综述是怎么看待 Q*的？...

↓↓↓ 关注「机器之心 PRO 会员」服务号，点击菜单栏「收件箱」查看往期通讯。

继续阅读

阅读原文