作者:chenqin@知乎,经济学研究者
近日,我对中国台湾地区、中国香港特别行政区和日本的感染情况与 “发烧” 搜索指数进行了分析,发现一个可能可以帮助预测感染高峰期的方法:
1. 将 Google 搜索指数分为疫情期间和非疫情期间,非疫情期间的发烧指数平均数为
将疫情期间的搜索指数做以下处理后加总,计算一个数值
其中 S 的含义是这样的:如果发烧的搜索是发烧人口的一个相对稳定的比例,且在非疫情期间发烧人口是总人口的相对稳定的比例,那么 S 就正比于疫情感染的人口占总人口的比例,我们把它叫做 “超额发烧搜索指数累计面积
2. 下图列出了台湾地区、香港特别行政区以及日本的 “超额发烧搜索指数累计面积”,即下图橙色面积、蓝色面积和灰色面积。
我们发现在这三个地区,当疫情达到顶峰时,这个 “超额发烧搜索指数累计面积” 的数值全部刚好达到 80。这两个地区第一波疫情结束时,香港特别行政区的面积达到了 160,台湾地区的面积达到了 200,日本的最终面积是 250。
3. 如果用百度搜索指数做类似的研究会有什么效果呢?我使用了本轮疫情进入群体感染最快、最早的石家庄、邢台和保定做了计算:
可以算出,从疫情开始后计算,石家庄的 “超额发烧搜索指数累计面积” 已经达到了 76,邢台已经达到了 67,保定也达到了 71。由此来看,百度搜索指数和 Google 指数分别算出的 “超额发烧搜索指数累计面积”,至少是在一个差不多的数量级上。
4. 考虑到保定、石家庄、邢台等地的发烧指数仍然在上升,以及百度搜索指数和 Google 指数的差异,我们比较保守地将 100 作为疫情达峰时的 “超额发烧搜索指数累计面积”,将 250 作为第一轮疫情结束时的 “超额发烧搜索指数累计面积”。那么我们通过每个城市的搜索指数累计增长,累计速度,就可以算出现在每一个有疫情的城市疫情达峰的时间,以及疫情结束的时间。
这是计算的结果,列出了所有能在明年春节前达峰的城市以及这些城市在达峰前已经感染的人口比例(截止至 12 月 10 日)。
2022 年 12 月 12 日更新:
疫情分城市达峰时间表主要有三个改动,为了使得算法尽量准确:


第一是我将算法中过峰的“超额发烧搜索累计面积”修正回了80。


之前的几张表格中,保守起见,这个数值我使用了100,他会使一些城市过峰偏慢。但从这几天的数据看,石家庄、保定等地的累计超额倍数超过80的同时搜索指数也已经过峰,这说明中国内地城市居民,在非疫情-疫情的变化中,搜索行为的变化上和香港特别行政区、台湾地区的居民在同样时期的变化是非常类似的。因此一些城市的过峰时间会在表格中有所提前。


第二是加入了两个“进度条”,代表在城市在走向疫情顶峰和疫情结束的路程中感染了多少人。


“达峰进度条”说明的是在疫情达到日增顶峰前已经感染了多少人,这是城市疫情逐渐加剧,院感增加,医疗资源逐渐挤兑的一段日子,数字达到100时日增感染者就达到了顶峰。
而“结束进度条”说明的是在疫情过峰后,在这一波疫情结束前已经感染了多少人,这段时间的疫情虽然整体缓解,但感染还是会继续增加,并且大部分死亡会出现在这个阶段。在数字达到100时,城市的这一波疫情就基本结束了。


第三是加入了巨量算数指标修正了一些城市,加入了一些之前数据不足的城市,因此城市数量大幅度增加,一些城市的百度指数很低,但是抖音安装率很高,因此巨量算术的数据能够起到作用。


当然数据增加的更大原因是因为许多城市疫情正在逐步蔓延,因此进入了搜索指数的监测中。我常常收到私信和评论询问“我住在xx,但xx城市在哪里我在表格里面怎么看不到”,我想说,珍稀这样的时光吧,不出意外的话马上你就可以天天看到你住的城市了。

疫情达峰时间的推算,原本只是搜索指数的一次尝试,初衷是觉得有趣,但无心插柳,竟然能帮助许多人缓解焦虑。焦虑来自哪里?来自未知。既然和疫情共存了,那么不怕他不来,肯定得来,就怕它在计划外乱来。那么有一个数据,虽然简陋,但也比没有数据好,至少大致上是和真实趋势吻合的。

2022 年 12 月 14 日更新,最终如下:
数据不足,方法简陋,仅供参考。
继续阅读
阅读原文