连岳读书 | 读大数据，看大未来

大数据这个词，如今我们听得太熟了。

点开手机软件，在享受方便快捷购物的同时，有时又不觉生出一丝警惕——不知道何时就被大数据杀熟了。

路过商店橱窗时，不经意间发现它不知道第几次换代言人了。那些年轻活力的漂亮哥哥们背后，有以千计、万计的数据女工在通宵打榜控评做销量，数据成为了资本的快速变现渠道。

而你的健康码、通信大数据行程卡，这些能快速将疫情危险遏止于萌芽的工具，也是大数据广泛应用的时代缩影。

大数据，会让我们的生活变得更好吗？这本由译林出版社带来的《牛津通识读本：大数据》双语读本，将用简单精准的话语，向我们阐述大数据的诞生、存储、分析和运用。如果是计算机相关专业的同学，可以从本书后半部分的英文原版开始阅读。

大数据的诞生

什么样的数据是大数据？

道格·莱尼在2001年的文章中提出使用“3V”来表征大数据。它们分别是：Volume（数量大）、Variety（种类多）、Velocity（速度快）。本书作者还提出了第4个“V”，Veracity（准确性）——指所搜集数据的质量，能使它在处理之后产生有意义的结论。

大数据的“大”体现在什么地方呢？它已经不能使用传统的计算和统计方法进行收集、存储和分析了。比如人类基因组计划（Human Genome Project, HGP）。这个自1990年启动，目标是确定人类DNA的30亿个碱基对的序列和确切顺序的伟大项目，所产生的数据库规模也是极为庞大的。

当然还有更大的。建在澳大利亚和南非的平方公里阵列（SKAP）射电望远镜，每秒至少产生160Tb的原始数据。这是需要动用世界各地的超级计算机来分析的数据样本量。

日常生活中，我们也在产生大数据。搜索引擎数据——由我们每个人，从社交媒体、购物信息、视频娱乐中不间断的产生。而地图导航、实时配送和网约打车，在这些司空见惯的情景下，我们也在源源不断的产生着海量数据。

那么，这些大数据是如何被存储的呢？

大数据的存储

在书中第三章，作者提到了两种数据存储方式。

比如在前不久的人口普查中，我们的居民信息登记表，会针对每个人收集相同的信息项，这样的数据信息我们叫做结构化数据。结构化数据中数据项之间的关系是相对固定的，因此我们把它们存储在关系数据库中，进行访问、读取和处理。

但很多时候，我们并不能保证所得到的数据有固定的结构，那些实时产生的大数据用关系数据库也很难装得下。这个时候，就需要使用非结构化数据存储了。这种类型的数据，我们可以用分布式文件系统（DPS）进行处理。

这里举个不太恰当的例子：你和世界第一美女结婚了，大家都来你家凑热闹喝喜酒，想看看新娘的风采。于是，五十八年前没有和你爷爷修成正果的初恋的孙子，两个月前借了你200块的同事小张，还有很多你认识不认识的人，都过来了。

婚宴马上就要开始了，这点时间还不够你招呼宾客们坐下，跟别提安排好席位次序了。眼看着要出丑，这个时候你住在旁边的邻居都出来了。他们分工合作，有的主动给来宾们安排好座位，有的端茶送水，有的充当婚庆主持人，有的用录像设备在同步直播让大家都能看到新娘。于是，一切井然有序，皆大欢喜。

我们把宾客抽象成文字、图片、语音、视频等信息流，把管事儿的邻居抽象成其他的主机，那么以上的情景大致可以模拟计算机的分布式数据处理。

当然，作者没有使用这样夸张的比喻。在他充满理性的精准描述里面，你能找到思考和探索的快乐。一本好书，是值得反复咀嚼的。

大数据的分析和运用

分析和运用是一对双胞胎，你不可能只分析不运用，也做不到只运用不分析。在接下来的篇幅里面，作者举了一些人尽皆知的例子，来告诉我们大数据是怎样被分析和运用的。

比如说Google搜索排名，它用到了PageRank算法来实现排序。这个算法基于指向网页的链接数——链接越多，得分越高，页面作为搜索结构的显示就越靠前。它跟访问页面的次数多少无关。了解到了排名算法的原理，链接交易就诞生了。不过为了保证搜索的可靠性，留住用户，Google会继续更新自己的算法，并加入更多的条件。

这就像一个你追我赶的竞跑游戏。只要是有利润可图，算法的更新迭代不会终止。在“大数据，大商务”这一章，我们能够清楚的看到公司是如何利用大数据做精准投放的。这不一定是坏事——你更舒服了。从某种意义上来说，AI比你更懂你。

大数据之下，有的人用它挣钱，有的人因为它花钱。有的人在偏远地区找到世界上最好的一批老师的讲义资料，如饥似渴的学习起来。有的人在给自己制造“信息茧房”，屏蔽掉不想听的声音，沉醉在自我构建的小小世界之中。

用本书作者的话来说，“大数据是力量，它的潜力是巨大的。如何避免其被滥用，取决于我们自己的努力。”

本书推荐给所有对互联网和数字化世界感兴趣的人。全书使用70克纯质纸，纸质轻柔，单色印刷，16开双语本，适合你睡前饭后慢慢阅读。

▼ 点 阅读原文, 购买《牛津通识读本：大数据》

继续阅读

阅读原文