路透社的AI新闻追踪器，轻松追热点，辨别真假新闻

如今，互联网带来的信息大爆炸已经让新闻记者们越来越头疼，更难迅速辨别真假新闻，好在我们有了强大的武器－ AI算法，还可以自动编辑和产生新闻。

美联社等多家新闻机构都已经开始尝试用AI自动编辑新闻和发稿。通常他们会采用标准的模式，例如在财经新闻报道时，直接将数据更新到预先编写的模板中：“X公司第三季度实现利润Y万美元，超出华尔街预期等……”

目前，越来越多的新闻机构正面临压力，开始启用AI算法自动产生和编辑新闻。我们来看看路透社的AI News Tracer新闻追踪器是如何在第一时间自动识别突发新闻的。

路透社研发部门表示，这套新闻追踪系统有可能彻底改变新闻行业。尽管这也引发了人们的担忧，这样一套系统也有可能被黑客控制。

路透社的新闻追踪器（Reuters Tracer）将Twitter视为及时记录新闻事件发生的全球传感器。这个新闻追踪器系统采用各种类型的数据挖掘和机器学习，从海量的推文中挑选出最相关的事件，确定它们的主题，排列事件的优先级，然后写出标题和新闻摘要，快速发布在路透社的全球新闻网上。

路透社新闻追踪流程的第一步是吸收Twitter的数据流。追踪器每天查看大约1200万条推文，占总推文的2%。其中一半是随机抽样，另外一半来自路透社记者的Twitter帐号列表，包括新闻机构的帐号、重要的公司、有影响力的个人等。

这个新闻追踪流程的下一步是确定事件发生的时间。其前提假设是：如果几个人同时开始谈论一件事，它就已经发生，由此采用Clustering Algorithm聚类算法来追踪分析这些对话，找到事件的起源。

当然，Twitter信息流中也包括垃圾信息、广告和聊天等，只有一部分涉及有新闻价值的事件。因此下一个步是对事件进行分类和排序，追踪器使用许多AI算法来完成这项工作。

第一个算法负责确定对话的主题，然后与路透社团队从31个官方新闻帐号收集的推文进行对比，包括知名的账号@CNN、@BBCBreaking和@nytimes，以及@BreakingNews等新闻聚合器。同时，这套算法还会根据包含城市和地理位置的关键词数据库，来判断事件发生的地点。

如果一段谈话或传言被认为可能是新闻，接下来就要确认它的真实性。为了辨别真假新闻，追踪器需要找出对话中提到的最早的推文和它所指向的网站，以此来追查最终来源。然后，它会查询已知的假新闻数据库，包括众所周知的虚假新闻来源，如《National Report》，或者讽刺新闻网站《The Onion》等。

最后，这个新闻追踪器会写出新闻标题和摘要，在整个路透社渠道分发其新闻。

路透社的团队表示，在试验过程中，该新闻追踪算法运行良好，就准确度和时效性而言，在新闻追溯和传播上极有竞争力。

路透社的新闻统计数据证实了这一点。该系统每天处理1200万条推文，其中大约80%都是无用信息，剩下的会归入6000个聚类，系统将其视作不同类型的新闻事件。这项工作由13个计算机服务器，运行10种不同的AI算法而完成。

相比之下，路透社在世界各地雇佣了约2500名新闻记者，他们每天都使用包括Twitter在内的各种来源，制作大约3000条新闻引子，其中大约有250条是真正的新闻故事。

路透社将追踪器识别的新闻，与BBC和CNN等机构新闻的信息流中出现的新闻进行了对比，结果显示，追踪器可以用2%的Twitter数据覆盖70%的新闻报道。

路透社的这套新闻追踪系统的运行速度很快。这里有个实例：2017年10月，拉斯维加斯枪击案导致58人死亡。有目击者在凌晨1点22分报告了这一事件，而触发了路透社的新闻追踪器中的一个聚类Cluster。

然而，这个聚类不符合系统给事件制定的标准，因此直到凌晨1点39分才被包含到信息流中。最终路透社在凌晨1点49分报道了此事。

路透社的新闻追踪器展示的是未来新闻行业有趣的趋势，但也引发了许多挑战，尤其是该系统的易用性。不难想象，心怀恶意的人可能会有意编辑大量的Twitter假消息来欺骗追踪器。

当然目前还很难说，AI和人类的新闻记者相比，到底谁更容易受骗，毕竟新闻记者们被假新闻坑了的例子也不少。

不管怎样，我们预期人类在新闻行业仍然要扮演自己的角色。随者路透社这类AI新闻追踪器的出现，未来新闻的产生和编辑无疑会越来越自动化。

人类新闻记者到底该如何和AI编辑一起快乐地玩耍，目前尚无答案。

- 本文源自MIT Tech Review

继续阅读