【对抗新冠新利器】人工智能来啦（三）

独乐乐不如众乐乐，今天您分享了吗？

欣姐碎碎念

前两期人工智能的稿发出以后，引起了不少朋友的关注，看来这个话题自带流量，欣姐和雷哥也有了很多继续下去的动力

不过，也有朋友给欣姐留言说，人工智能比拼的关键不是算法，而是获取大量数据来训练模型。对此，欣姐表示：您说的对，是行家

本期我们就来举一个通过大数据取胜的例子吧。

照例先围观雷哥

恐怖的4个月，全球疫情趋势变化！

预测流感哪家强？这个大学团队连续5年准确预测美国流感趋势

比武汉卫健委早——人工智能报告新冠病毒！

核心问题：大家都知道，传染病早期的预警至关重要，早发现早隔离早追踪是防范大面积传播的核心。中国在SARS过后建立了一个覆盖面很广的传染病预警体系，并在H7N9禽流感爆发时起到了重要作用。COVID-19早期的失误，更多是执行上的问题，而非技术所限。我们希望相关部门能找到漏洞并及时纠错，防止类似失误再度发生。此外，人工智能也可以在这方面起到协助作用：在能获得全面数据的前提下，人工智能可以帮助人类消除主观判断造成的偏差。

壹十年

2019年12月30日，当世界上大多数人都在庆祝21世纪第三个10年到来的时候，武汉几位医生在微信群里发布了出现不明传染病的消息。同一天，远在加拿大，一家名叫BlueDot的公司，也向它的客户——加拿大政府和加拿大航空公司，传达了一条讯息：在中国武汉发现了不明呼吸性传染病，请提高警惕。

一天后，12月31日，武汉市卫健委开始向公众通报疫情，1月3日，中国政府开始向世界卫生组织通报疫情。那么，BlueDot是如何在武汉卫健委通报的前一天，就已经知道新型传染病存在的呢？

其实没什么魔法，依靠的就是大数据。

大数据整合

BlueDot的核心价值之一是整合大量来自正规互联网渠道的新闻，从中挖掘与传染病相关的信号。时至今日，大家可能觉得这项工作没什么重要性，任何人把Covid-19输入谷歌，都能搜到成千上万条相关报道。但是，在没有人关注新型病毒，新闻覆盖极少的初期，能够从海量其他信息（尤其是别国语言的信息）中捕获传染病相关的信号，就显得至关重要。

BlueDot平台能够整合分析全世界65种语言的新闻（注：为确保真实性，来自社交媒体的新闻被排除在外），并以每15分钟刷新一次的频率，筛选信息。此外，它还拥有每天全球所有航班的出发和到达信息，全球实时气候状况，卫星云图，以及全球人口分布，卫生系统容量和防疫资源储备等信息。

自然语言学习

互联网新闻使用的通常是偏口语化的自然语言，与学术语言存在一些区别。比如早期对Covid-19的表达，中文可以是冠状病毒，新型SARS，非特异重症流感，不明原因肺炎，呼吸道感染等，英文可以是coronavirus，influenza-like illness, SARS-like respiratory disease等。这些偏口语化的表述，增加了专业人士判断传染病信号的难度，不易区分到底是季节性流感还是新型SARS。因此，除了关注提示性的词语，还需要结合上下文、类似报道的频率、地域性，范围，症状异同、病情程度等信息综合评估，才能更有把握的判断传染病的威胁。这就需要运用到自然语言处理（Natural Language Processing）和深度学习（Deep Learning）技术。

自然语言处理比较复杂，在这里我们只简单介绍一下大体框架。概括来说，自然语言处理包括三个步骤：

1. 语料预处理

2. 设计模型

3. 训练模型

设计和训练模型是机器学习中的通用概念，我们前面两篇都有涉及到，一般是先进行无监督学习建模，再进行有监督学习预测。自然语言处理关注的主要是第一步，语料预处理；直观理解就是，把毫无规律的自然语言处理成适合作为无监督学习的输入。

由于各国语言语法不同，预处理的步骤也有些区别。比如中文需要四步，英文需要六步，语法更复杂的比如阿拉伯语需要更多步骤。

以中文为例，第一步是分词。把长句断成有独立含义的词。长句含有的信息太多，不易归类处理，需要先分解成小的意群。中文的分词要比罗曼语言难度大，因为中文是以字为单位分割书写的，不像英文等，每个词间都有天然的分割。

接下来，需要对每个词的词性进行标注。词性可以分为实词和虚词，实词包括体词、谓词，体词又包括名词、代词等。对于一个成人，经过一点语法训练，基本可以做到正确的词性标注，但这件事对于机器来说并不容易。中文和罗曼语言都有其自身的难度。比如下面的例子，英语法语等都有大量的词形变化，需要额外的步骤来提取词干（aim），还原成表意原型（aimer）。但这种词形变化却对词性标注有帮助，通过总结变化的规律，就可以判断，aimer这个词是动词。相反，中文没有词形变化，而且兼性词（即同一个词多种词性）特别常见，不需要词形还原，但词性标注规律少、较困难。

第三步是“命名实体识别”，直观的说，就是把文本中有特定意义的实体（一般是名词）找出来，比如人名、地名、机构名、专有名词等。寻找的方法，可以是有监督学习，即利用大量已经标记好的文本进行训练，也可以是无监督学习，即利用已有的知识图谱比如WordNet等进行上下文聚类，还可以利用两者结合的混合方法等。具体的算法比较复杂，比较经典的是长短记忆网络（LSTM）+条件随机域（CRF），在此不做赘述。

最后，经过比较简单的分块，或去掉已经过时的词语，就可以将处理好的文本用于建模和信息挖掘了。

在BlueDot的例子中，人工智能对大量传染病相关的文本进行自然语言处理，训练模型，找到指示传染病的实体，然后将训练好的模型应用在新的来自互联网的海量信息中，从而实现实时挖掘传染病信号的目的。

预测病毒传播轨迹

除了新闻挖掘，BlueDot拥有的另外一项大数据是全球飞机航班的实时信息。根据航班往来的频率和路径，BlueDot也预测了病毒在全球蔓延的时间线。11个在预测榜前列的城市都在预测窗口期内发现了病例。不过，由于缺乏对新型病毒的了解，BlueDot也低估了Covid-19的危害性，并没有预测到世界范围内Pandemic的发生。

总结：通过自然语言处理和深度学习，人工智能帮助加拿大政府在武汉卫健委通告的前一天就知晓了新型病毒的存在。这要归功于人类无法匹敌的海量数据处理和挖掘能力。但人工智能也存在局限性，就是只能根据已有的数据做出判断，在缺乏历史信息的情况下，无法自主预测未来。短期内，人工智能无法代替人类做决定，但将成为人类越来越有力的助手。