借助BERT、表格上下文信息，谷歌提出的模型能自动生成公式

选自googleblog

机器之心编译

编辑：杜伟、陈萍

手动输入电子表格的公式太麻烦了，谷歌的这项研究可以帮助你自动生成公式。

电子表格是办公的必备工具，有数以亿计的人在使用，而这些电子表格中的公式编辑功能允许用户对他们的数据执行复杂的分析和转换。尽管电子表格中的公式语言比通用编程语言更简单，但编写这些公式仍然很乏味且容易出错，终端用户更是如此。

此前，来自谷歌的研究者已经开发过智能自动填充插件来自动填充电子表格列中缺失的值，但是构建的这些工具并不支持公式编写。

在 ICML 2021 发表的论文《 SPREADSHEETCODER: Formula Prediction from Semi-structured Context 》中，来自谷歌的研究者提出了一种新模型，该模型基于目标单元格周围丰富的上下文自动生成公式。

论文地址：http://proceedings.mlr.press/v139/chen21m/chen21m.pdf

它的效果是这样的，用户打算在单元格 B7、C7 和 D7 中输入公式，这时系统会自动推断用户可能想在这些单元格中写入的最可能的公式：

当用户开始在目标单元格中使用符号「=」编写公式时，系统通过学习历史电子表格中的公式模式，为该单元格生成可能的相关公式。该模型使用存在于目标单元格的相邻行和列中的数据以及表头（header）行作为上下文。实现这一过程是这样的：模型首先嵌入电子表格的上下文结构（由相邻单元格和表头单元格组成），然后使用这种上下文嵌入生成所需的电子表格公式。

公式由两部分组成：1) 运算符序列（例如 SUM, IF）；2) 应用运算符的相应范围（例如 A2:A10）。目前 Google Sheets 用户现在可以使用这种功能。

如下图所示：给定目标单元格 (D4)，模型使用表头和周围单元格值作为上下文来生成目标公式：

模型架构

该模型使用编码器 - 解码器架构，可以灵活地在编码器中嵌入多种类型的上下文信息（例如包含在相邻行、列、表头等中的信息），解码器可根据这些信息生成所需的公式。为了计算表格上下文嵌入，该研究首先使用基于 BERT 的架构对目标单元格上方、下方的几行（连同表头行）进行编码。每个单元格中的内容包括数据类型（如数字、字符串等）及其值，同一行中的单元格内容连接在一起形成一个 token 序列，然后使用 BERT 编码器进行嵌入。类似地，模型还会对目标单元格左侧和右侧的几列进行编码。最后在两个 BERT 编码器上执行行和列卷积以计算上下文的聚合表示。

解码器使用 LSTM 架构来生成所需的目标公式作为 token 序列，首先预测出一个 formula-sketch（包括没有范围的公式操作），然后使用相对于目标单元格的单元格地址生成相应的范围。此外，该研究还利用注意力机制来计算头部和单元数据上的注意力向量，这些向量在进行预测之前连接到 LSTM 输出层。