Google的开源机器学习系统TensorFlow,继之前学会创作艺术作品后,又学会一项新技能:做新闻摘要。

Google今天在部落格释出这套替新闻摘要模型的开源程式码,并指出,透过让机器学习如何找出文章重点,可以测试机器的阅读理解能力;这对机器来说相当有挑战性,且难度会随着文章变长而增加。
贴近人类语意的「概略式摘要」
Google说明,其中一种自动产生摘要的方式为,藉由比对过去研究的单字权重,判断哪些字在文章可能带有重要意义,并选出这些单字、集合成摘要,这个方法被称作「萃取式摘要(Extractive summarization)」,例如:
原文: Alice和Bob搭火车去动物园参观,他们看到长颈鹿、狮子,以及一群五颜六色的热带鸟。
摘要: Alice和Bob去动物园参观。看到一群鸟。
上述摘要范例,为将原文加粗的单字萃取出来,组合成一段句子,但有时句子看起来很怪,文法也不对。另一种摘要方式,则是不限制仅使用原始句子出现的单字,可采用和原本单字相似、但含括更多意思的单字,称作「概略式摘要(Abstractive summary)」,例如:
摘要:Alice和Bob去动物园参观,并且看到动物和鸟。
TensorFlow即是透过「序列到序列(sequence-to-sequence)」的深度学习技术,让模型可自动产生「概略式摘要」,目前TensorFlow已可以精准找出新闻摘要,例如:
原文:从7月1号起,中国南方的海南岛将对所有进口的家畜和动物产品,实行严格的市场进口管制,以防止传染病蔓延的可能。
摘要:海南抑制疾病蔓延。
原文:根据政府统计部在星期一公布的报告,澳洲酒类出口量在9月时以5,210万公升、价值2.6亿的纪录创新高。
摘要:澳洲酒类出口量在9月纪录创新高。
希望将模型用于更复杂的文章
Google指出,由于新闻文章的特性,TensorFlow仅需撷取文章开头的几句话,就可以下很好的标题,但希望未来能将这套模型用于更难的文章,替整份文件摘要。
有趣的是,这套模型令人想到,微软Word 2008也曾推出替文件自动摘要的工具Document.AutoSummarize,不过有网友将热门电子书摘要后,结果令人哭笑不得,比对微软说的「Word已经检视整份文件,挑选出和主题最相关的句子」,十分讽刺。但也不禁令人好奇,Google的TensorFlow摘要整本书时,是否也能产生如此精准的结果。
Google TensorFlow 机器学习系统
Google Research 宣布推出开源的 TensorFlow,这是 Google 的第二代机器学习系统,补足了 DistBelief 的缺点。 TensorFlow 灵活性佳、可移动、易于使用,而且是完全开源的。基于 DistBelief 的速度、可扩展性和为产品做准备的特性,TensorFlow 做得更为出色。按照 Google 所说,在某些基准测试中,TensorFlow 的表现比 DistBelief 快了 2 倍。

TensorFlow 内建深度学习的扩展支持,不只于此——任何能够用计算流图形来表达的计算,都可以使用 TensorFlow。任何基于梯度的机器学习算法都能够受益于 TensorFlow 的自动分化(auto-differentiation)。透过灵活的 Python 接口,要在 TensorFlow 中表达想法也会很容易。
除了在研究方面,TensorFlow 会很有帮助,对于实际的产品也是很有意义的。将思路从桌面 GPU 训练无缝搬迁到手机中运行。使用 Google 的样本模型架构,就能很快地开始使用机器学习技术——Google 正计划在 TensorFlow 之上发布 ImageNet 计算机视觉模型。
更重要的是,现在,它开源了,任何人都可以免费使用。
转载:数位时代
SVACE硅谷创业者联盟
硅谷创业者联盟是硅谷第一创业社区,从2014年成立以来共组织超过百余场创业活动,类型包括创业讲堂、细分领域专场、大型路演大赛和创始人俱乐部小型聚会等。与会人员多为知名投资人、初创公司创始人、硅谷各大互联网及科技公司在职人员以及资深创业服务机构。 目前社区内已拥有上万的硅谷精英会员, 400家以上一流天使机构投资机构汇集于此。

硅谷创业者联盟利用自身资源,嫁接优质项目和投资人,通过闭门路演等线上线下方式, 帮助创业团队寻求融资以及开拓市场。目前 ,已有众多初创企业通过联盟的融资平台获得天使融资,最高融资额达百万美元级别。被硅谷创业者誉为“最勤奋,最靠谱,最有情怀的创业组织”。
微信ID: Svace-org 
继续阅读
阅读原文