选自googleblog
机器之心编译
编辑:杜伟、陈萍
手动输入电子表格的公式太麻烦了,谷歌的这项研究可以帮助你自动生成公式。
电子表格是办公的必备工具,有数以亿计的人在使用,而这些电子表格中的公式编辑功能允许用户对他们的数据执行复杂的分析和转换。尽管电子表格中的公式语言比通用编程语言更简单,但编写这些公式仍然很乏味且容易出错,终端用户更是如此。
此前,来自谷歌的研究者已经开发过智能自动填充插件来自动填充电子表格列中缺失的值,但是构建的这些工具并不支持公式编写。
在 ICML 2021 发表的论文《 SPREADSHEETCODER: Formula Prediction from Semi-structured Context 》中,来自谷歌的研究者提出了一种新模型,该模型基于目标单元格周围丰富的上下文自动生成公式。
论文地址:http://proceedings.mlr.press/v139/chen21m/chen21m.pdf
它的效果是这样的,用户打算在单元格 B7、C7 和 D7 中输入公式,这时系统会自动推断用户可能想在这些单元格中写入的最可能的公式:
当用户开始在目标单元格中使用符号「=」编写公式时,系统通过学习历史电子表格中的公式模式,为该单元格生成可能的相关公式。该模型使用存在于目标单元格的相邻行和列中的数据以及表头(header)行作为上下文。实现这一过程是这样的:模型首先嵌入电子表格的上下文结构(由相邻单元格和表头单元格组成),然后使用这种上下文嵌入生成所需的电子表格公式。
公式由两部分组成:1) 运算符序列(例如 SUM, IF);2) 应用运算符的相应范围(例如 A2:A10)。目前 Google Sheets 用户现在可以使用这种功能。
如下图所示:给定目标单元格 (D4),模型使用表头和周围单元格值作为上下文来生成目标公式:
模型架构
该模型使用编码器 - 解码器架构,可以灵活地在编码器中嵌入多种类型的上下文信息(例如包含在相邻行、列、表头等中的信息),解码器可根据这些信息生成所需的公式。为了计算表格上下文嵌入,该研究首先使用基于 BERT 的架构对目标单元格上方、下方的几行(连同表头行)进行编码。每个单元格中的内容包括数据类型(如数字、字符串等)及其值,同一行中的单元格内容连接在一起形成一个 token 序列,然后使用 BERT 编码器进行嵌入。类似地,模型还会对目标单元格左侧和右侧的几列进行编码。最后在两个 BERT 编码器上执行行和列卷积以计算上下文的聚合表示。
解码器使用 LSTM 架构来生成所需的目标公式作为 token 序列,首先预测出一个 formula-sketch(包括没有范围的公式操作),然后使用相对于目标单元格的单元格地址生成相应的范围。此外,该研究还利用注意力机制来计算头部和单元数据上的注意力向量,这些向量在进行预测之前连接到 LSTM 输出层。
公式预测模型总体架构
除了存在于相邻行和列中的数据之外,该模型还利用来自高级工作表结构的其他信息,例如表头信息。使用 TPU 进行模型预测,低延迟的生成公式,并且能够在更少的机器上处理更多的请求。
利用高级电子表格结构,该模型可以跨越数千行进行学习
效果怎么样
在论文中,研究者在由谷歌员工创建和分享的电子表格数据库上训练模型。他们将 46k 个带公式的谷歌表格(Google Sheets)中的 42k 个用于训练,2.3k 用于验证,1.7k 用于测试。
结果表明,该模型实现了 42.5% 的完整公式(full-formula)准确率和 57.4% 的公式草图(formula-sketech)准确率,这两个准确率很高,并在初始用户研究中非常有用。
研究者还进行了一项消融研究,通过删除不同的组件来测试模型的几种简化版,并发现基于行和列的上下文嵌入以及表头信息对于模型表现良好与否非常重要。
随着目标公式长度的增加,模型在不同消融实验中的性能。
研究者表示,未来会有几个令人兴奋的研究方向,包括设计新的模型架构来合并更多表格结构,以及扩展模型以支持电子表格中 bug 检测和自动图表创建等更多应用。
原文链接:https://ai.googleblog.com/
与AI俱进,化时光为翎:「AI中国」机器之心2021年度评选暨特别策划
机器之心正式启动「AI中国」2021年度评选暨「与AI俱进,化时光为翎」特别策划,包括2021年度评选、年度内容专题、年度报告和AI科技年会四项内容。
我们希望借此与AI公司并肩,与创新产业同行,评选出企业榜、解决方案榜、 生态榜、行业事件榜和专业品牌榜,并与机器之心读者分享他们的技术突破与实践中的精彩行业故事。最终评选结果将在AI科技年会现场发布。
欢迎各企业机构扫码报名或了解更多详情。
© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
继续阅读
阅读原文