离散化、对齐文本还是预训练，哪个才是 LLM 处理时序数据的关键？

机器之心PRO · 会员通讯 Week 21

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. 离散化、对齐文本还是预训练，哪个才是 LLM 处理时序数据的关键？

用 LLM 搞时序数据的趋势在升温？哪些团队从头训练了时序基础模型？时序基础模型能泛化吗？近期还有哪些大模型做时序任务的新方法？...

2.大模型降价背后的真相与「猫腻」?？

不同的大模型厂商在打「价格战」时有哪些差异点？是否波及到了国外大模型及 C 端大模型应用公司？为何企业用户的实际成本并没有真正大幅度降低？有哪些「猫腻」？...

3. Gemini 1.5 Pro 技术报告透露了哪些重要信息？

技术报告都透露了 Gemini 1.5 系列模型哪些方面的信息？有哪些技术细节或创新点值得关注？模型性能测评结果如何？...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递，其中技术方面 15 项，国内方面 6 项，国外方面 7 项。

本期通讯总计 23151 字，可免费试读至 10 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① 离散化、对齐文本还是预训练，哪个才是 LLM 处理时序数据的关键？

日期：5 月 24 日

事件：ICML 2024 于 5 月初公布了本年度 paper List。大会收录论文中，时间序列主题的热度上涨，其相关论文数量总计 37+ 篇，对比去年大会实现翻倍。其中，多篇论文探索了如何通过基础模型处理时序任务。

大模型「苦」时序数据，久矣？

1、针对时间序列数据的分析和预测在零售、金融、制造和医疗保健等各个行业和相关场景中均有应用。对于此类任务，以往的大多数做法是给每一个任务都训练一个匹配模型。

2、2021 年，在 Foundation Model 的概念被提出后，研究者开始尝试是否能用一个模型去完成多种分析任务，比如可以接受多模态输入，然后完成多种多样的任务。

① 对于时序数据，相关工作的目标主要在于基础模型是否能够接受时间序列，然后完成对应的预测、缺失值填补、异常检测、分类等下游任务。[1]

3、莫纳什大学、阿里巴巴、港科大、蚂蚁等机构的研究者在 2023 年的综述中回顾了一系列时间序列大模型的进展，并基于采用的工艺对模型进行分类，而后总结 LLM 处理时序数据中的挑战。[2]

① 数据规模和多样性：时序数据和时空数据的规模通常非常庞大，且具有高度的多样性。大型模型需要能够处理和学习这些数据中的复杂模式和动态系统测量值。

② 模型的泛化能力：大型模型通常是在大规模数据上预训练的，然后在特定任务上进行微调。这可能导致模型在处理未见过的数据或分布外数据时泛化能力不足。

③ 隐私和对抗性攻击：时序数据可能非常敏感，特别是在医疗和金融等应用中。当大型模型在此类数据上进行训练或微调时，可能会记住训练数据中的特定细节，从而带来数据泄露的风险。

④ 模型的脆弱性：大型模型在预训练和微调过程中可能会引入脆弱性，如果微调数据包含对抗性或噪声示例，模型可能会继承这些数据的偏差或脆弱性。

⑤ 跨领域应用的挑战：大型模型在自然语言处理等领域表现出色，但将其应用于时序和时空数据需要解决跨领域的问题，包括不同数据模态的融合和上下文理解。

⑥ 理论分析：需要更深入的理论分析来理解大型模型在时序数据上的表现，包括它们如何捕捉时间数据中的模式，并有效地应用于具体的时序和时空任务。

通过 LLM 预训练「一劳永逸」提高泛化能力来解决时序任务，这条路靠谱吗？

自基础模型的概念出现，研究者开始尝试用预训练 LLM 来处理时序任务。有团队尝试规避时序数据在规模和多样性上的挑战，利用 NLP 预训练模型的跨领域迁移能力来提升任务表现，也有团队尝试构建大规模时序数据集，从头开始训练基础模型。

1、2023 年 2 月，阿里达摩院团队在「One Fits All」论文中提出了简单且同一的框架，用冻结的预训练语言模型（GPT2），在各种主要类型的时间序列分析任务中实现了 SOTA 或相当水平的性能，包括时间序列分类、短期/长期预测、时序填充任务、异常检测、少样本和零样本预测任务。[11]

① 针对时序数据的来源不同，数据分布差异极大以及公开数据集太少的局限，采用通过 NLP 预训练模型迁移的方式跳过这两个问题，利用 NLP 预训练模型跨领域的迁移能力来提升所有时序分析下游任务的效果。

② 该工作提出了 Frozen Pretrained Transformer（FPT）模型。架构保留了预训练模型中的 attention 和 FFN 模块，由于自注意力层和 FFN 包含了大部分来自预训练语言模型的知识，研究者选择在 Fine-tuning 期间冻结模型。

③ 经测试，在零试学习场景中，FPT 模型能够在没有针对特定数据集进行微调的情况下，展示出良好的跨数据集适应能力。; 少试学习场景中，即使只有很少的训练数据，FPT 模型也能快速适应并提供准确的预测。

④ 研究者还通过使用不同类型的预训练模型（如 BERT 和 BEiT）来进一步证明跨领域知识迁移的通用性，这些模型在时间序列预测任务上也表现出了良好的性能。

2、Nixtla 团队在 2023 年 10 月提出的 TimeGPT 被认为是业界首个时间序列基础模型，其特点是能够在不同领域之间进行泛化，让模型在训练阶段之外的数据集上产生精确的预测。[10]

① TimeGPT 采用完整的编码器-解码器 Transformer 架构，使用自注意力机制并结合局部位置编码来丰富输入。该模型采用编码器-解码器结构，每层都包含残差连接和层归一化。

② TimeGPT 采用来自来自经济学、人口统计学、医疗保健、天气、物联网传感器数据、能源、网络流量、销售、交通和银行等各种领域的大量公开可用数据集，总 100 亿个数据点。

③ 在论文发布时，TimeGPT 在多个领域的时间序列预测任务中表现出色，在少试和零试场景中尤为突出。论文中的实验结果显示，TimeGPT 在月度、周度、日度和小时度数据的预测中，均优于其他方法。

3、2024 年 2 月，摩根斯坦利和多家加拿大高校的研究者提出的 Lag-Llama 则是首个开源的时序基础模型。[12]

① Lag-Llama 是面向单变量概率预测开发的模型，采用基于 Transfomer 的纯解码器架构。它使用不依赖于频率的通用方法来标记时间序列数据，由此让模型更好地泛化到不可见的频率。

② Lag-Llama 的训练数据是由由 27 个不同领域的时间序列数据集组成的大型语料库，共有约 7,965 个不同的单变量时间序列，总共包含了大约 3.52 亿个数据 tokens。数据集涉及能源、交通、经济、自然环境和云操作等。

③ 经测试，在没有针对特定下游数据集进行微调的情况下，Lag-Llama 表现了一定程度的零试泛化能力，但性能表现并非最佳。

④ 有知乎文章评价称，Lag-Llama 算是构建开源预测模型的第一步，但与 TimeGPT 相比，它在功能方面存在不足。TimeGPT 可以处理多变量时间序列、不规则时间戳，并实现共形预测，对比 Lag-Llama 用的固定分布更为稳健。

4、在 ICML 2024 在今年收录的论文中，有数篇论文探索了时序基础模型。

① 谷歌团队提出的「TimesFM」是用于预测的时间序列基础模型，该模型在各种公共数据集上的开箱即用的零试性能表现接近于针对每个数据集监督训练的 SOTA 预测模型。[14]

继续阅读

阅读原文