机器之心报道
编辑:蛋酱
这位年仅 27 岁的华裔 MIT 毕业生,在疫情期间运用机器学习算法打造出了当前准确度最高的新冠预测模型。
自新冠疫情席卷全球以来,大众一直希望通过专业的统计模型来了解病毒可能会带来的影响。其中有两个模型最受公认,一个来自伦敦帝国理工学院,一个来自西雅图的华盛顿大学健康数据与评估研究所(IHME)。
当然,这两个模型的预测走向是截然不同的,关键在于,和最终实际情况都不太接近。帝国理工模型预测到 2020 年的夏天美国可能会有 200 万新冠死亡病例,IHME 的预测则保守得多,为 6 万例。事实是,截止 2020 年 8 月初,美国最终死亡病例数为 16 万人。
但有一个模型,却因精准的预测数据广受好评:一位 27 岁的 MIT 毕业生、华裔数据科学家,做出了「超越专业机构水平」的新冠预测模型。
他的名字是 Youyang Gu,被外媒彭博社称为「Covid-19 Data Superstar」。包括《华尔街日报》 、《经济学人》 、《纽约时报》 、《华盛顿邮报》等知名媒体都报道了他开发的新冠预测模型。
在 2020 年 4 月中旬,Youyang Gu 注意到当时各预测模型的数据存在巨大差异,于是花了一个星期的时间搭建起了自己的预测模型和网站。
网站地址:https://covid19-projections.com/
华盛顿大学的生物学家 Carl Bergstrom 在社交平台推荐了这一模型:「所看到的一切令我印象深刻。」
从建立之初,该模型的表现就非常良好。比如模型在 4 月下旬预估,到 5 月 9 日美国将有 8 万人死亡,实际死亡人数为 79926;模型还预估 5 月 18 日美国将有 9 万例死亡,5 月 27 日将有 10 万例死亡,这些数字后来都被验证。此外,模型还预估随着许多州的封锁解除,将引起第二次大规模的感染和死亡。
到了 11 月,Youyang Gu 决定结束死亡数量预测,在项目停止前的一个月,该模型预测美国截止 2020 年 11 月 11 日的死亡人数将达到 231000 人。最终的实际数字与之非常接近:230995 人。
越来越多的人关注到 Youyang Gu 的工作,美国疾病控制与预防中心(CDC)也在新冠预测网站加上了该模型的数据,助力公共卫生决策。
关于 covid19-projections.com
现在,该网站能够提供的预测内容包括:1、美国总体感染数量预估;2、美国各州感染数量预估;3、美国各县感染数量预估。
某种意义上,Youyang Gu 搭建的网站并不复杂,他首先考虑的是检查「新冠检测」、「住院情况」和其他因素之间的关系,发现州政府和联邦政府在这类数据上的报告情况是不一致的。看起来最为可靠的是死亡人数,据 Youyang Gu 介绍:「其他模型用了更多的数据源,但我决定根据以往的死亡数量来预测未来的死亡数量,将其作为唯一输入,有助于从噪声中滤除信号。」
此外,这一模型的搭建也与他对机器学习算法的运用分不开。从 MIT 毕业后,Youyang Gu 在金融业有两年的工作经验,曾为高频交易系统编写算法。
SEIR 模拟器
具体来说,该模型基于流行病学中常用的经典 SEIR (易感 - 暴露 - 传染 - 恢复,susceptible-exposed-infectious-recovered) 模型,并增加了一个「暴露期」。如何理解 SEIR?在每个时间段,个体处于以下四种状态之一:易感 (s)、暴露(e)、传染(i) 和恢复(r)。
  • 如果一个人处于易感状态,我们可以假设他们是健康的,但没有免疫力。
  • 如果他们处于暴露状态,他们已经感染了病毒,但不具有传染性。
  • 如果他们是传染性的,他们可以传播疾病。
  • 一个被感染的人要么最终康复,要么死亡。
(假设康复的个体再次感染的机会很低,但并不为零。)
不同于传统的 SEIR 模型,该模拟器不使用微分方程。SEIR 并不是 covid19-projections.com 使用的完整模型,作者主要用其模拟个体每个时间段在这些不同状态间的移动。如果你的系统支持 Python,则可以在 5 分钟内生成自己的模拟器,代码地址:https://github.com/youyanggu/yyg-seir-simulator
数据集
covid19-projections.com 使用的唯一数据来源是 Johns Hopkins CSSE 每天报告的死亡人数,此外还使用每个州 / 国家 / 地区的人口数据来计算总易感人口。
由于原始数据可能比较嘈杂,因此作者首先运行平滑算法以对数据进行平滑处理。例如,如果一个州一天报告 0 例死亡,第二天报告 300 例死亡,则数据进行平滑处理后显示每天 150 例死亡。
作者使用了「网格搜索」等简单的机器学习技术,以确定相关参数的「真实值」,来使用 SEIR 模拟器准确地模拟现实世界中发生的事情。为了尽量避免模型的过拟合问题,作者开发了一个强大的验证系统,该系统允许在受控环境中测试各种变化,从而最大限度减少过拟合。
比如将模型设置为在前 20 天数据中运行,比较接下来 10 天的效果;然后通过在前 21 天数据中运行该,并比较接下来 9 天的效果;重复此过程,依此类推来执行交叉验证,同时保留训练集中的最大数据量。
关于 Youyang Gu
最后我们来了解一下模型作者本人。
Youyang Gu 在伊利诺伊州和加利福尼亚州长大,在 MIT 获得学士学位,主修电气工程、计算机科学和数学。他还获得了 MIT 的硕士学位,并作为 MIT CSAIL 自然语言处理小组的一员完成了他的论文。
从 2020 年 11 月开始,Youyang Gu 的工作重点是预估美国 50 个州和 3000 多个县的实际新冠感染数量。
接下来,Youyang Gu 将开发其他预测工作,比如美国有多少人感染、疫苗推出速度有多快,以及美国何时能够实现群体免疫等有关数据。他的预测表明,到 6 月时,美国大约 61%的人口应具有某种形式的免疫力,来自疫苗或是过往的的感染经历。
参考链接:https://www.bloomberg.com/news/articles/2021-02-19/covid-pandemic-how-youyang-gu-used-ai-and-data-to-make-most-accurate-prediction
AWS白皮书《策略手册:数据、 分析与机器学习》
曾存储过 GB 级业务数据的组织现在发现,所存储的数据量现已达 PB 级甚至 EB 级。要充分利用这 些海量数据的价值,就需要利用现代化云数据基础设施,从而将不同的信息竖井融合统一。
无论您处于数据现代化改造过程中的哪个阶段,本行动手册都能帮助您完善策略,在整个企业范围内高效扩展数据、分析和机器学习,从而加快创新并推动业务发展。
点击阅读原文,免费领取白皮书
© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
继续阅读
阅读原文