大数据这个词,如今我们听得太熟了。
点开手机软件,在享受方便快捷购物的同时,有时又不觉生出一丝警惕——不知道何时就被大数据杀熟了。
路过商店橱窗时,不经意间发现它不知道第几次换代言人了。那些年轻活力的漂亮哥哥们背后,有以千计、万计的数据女工在通宵打榜控评做销量,数据成为了资本的快速变现渠道。
而你的健康码、通信大数据行程卡,这些能快速将疫情危险遏止于萌芽的工具,也是大数据广泛应用的时代缩影。
大数据,会让我们的生活变得更好吗?这本由译林出版社带来的《牛津通识读本:大数据》双语读本,将用简单精准的话语,向我们阐述大数据的诞生、存储、分析和运用。如果是计算机相关专业的同学,可以从本书后半部分的英文原版开始阅读。
__
大数据的诞生
什么样的数据是大数据?
道格·莱尼在2001年的文章中提出使用“3V”来表征大数据。它们分别是:Volume(数量大)、Variety(种类多)、Velocity(速度快)。本书作者还提出了第4个“V”,Veracity(准确性)——指所搜集数据的质量,能使它在处理之后产生有意义的结论。
大数据的“大”体现在什么地方呢?它已经不能使用传统的计算和统计方法进行收集、存储和分析了。比如人类基因组计划(Human Genome Project, HGP)。这个自1990年启动,目标是确定人类DNA的30亿个碱基对的序列和确切顺序的伟大项目,所产生的数据库规模也是极为庞大的。
当然还有更大的。建在澳大利亚和南非的平方公里阵列(SKAP)射电望远镜,每秒至少产生160Tb的原始数据。这是需要动用世界各地的超级计算机来分析的数据样本量。
日常生活中,我们也在产生大数据。搜索引擎数据——由我们每个人,从社交媒体、购物信息、视频娱乐中不间断的产生。而地图导航、实时配送和网约打车,在这些司空见惯的情景下,我们也在源源不断的产生着海量数据。
那么,这些大数据是如何被存储的呢?
__
大数据的存储
在书中第三章,作者提到了两种数据存储方式。
比如在前不久的人口普查中,我们的居民信息登记表,会针对每个人收集相同的信息项,这样的数据信息我们叫做结构化数据。结构化数据中数据项之间的关系是相对固定的,因此我们把它们存储在关系数据库中,进行访问、读取和处理。
但很多时候,我们并不能保证所得到的数据有固定的结构,那些实时产生的大数据用关系数据库也很难装得下。这个时候,就需要使用非结构化数据存储了。这种类型的数据,我们可以用分布式文件系统(DPS)进行处理。
这里举个不太恰当的例子:你和世界第一美女结婚了,大家都来你家凑热闹喝喜酒,想看看新娘的风采。于是,五十八年前没有和你爷爷修成正果的初恋的孙子,两个月前借了你200块的同事小张,还有很多你认识不认识的人,都过来了。
婚宴马上就要开始了,这点时间还不够你招呼宾客们坐下,跟别提安排好席位次序了。眼看着要出丑,这个时候你住在旁边的邻居都出来了。他们分工合作,有的主动给来宾们安排好座位,有的端茶送水,有的充当婚庆主持人,有的用录像设备在同步直播让大家都能看到新娘。于是,一切井然有序,皆大欢喜。
我们把宾客抽象成文字、图片、语音、视频等信息流,把管事儿的邻居抽象成其他的主机,那么以上的情景大致可以模拟计算机的分布式数据处理。
当然,作者没有使用这样夸张的比喻。在他充满理性的精准描述里面,你能找到思考和探索的快乐。一本好书,是值得反复咀嚼的。
__
大数据的分析和运用
分析和运用是一对双胞胎,你不可能只分析不运用,也做不到只运用不分析。在接下来的篇幅里面,作者举了一些人尽皆知的例子,来告诉我们大数据是怎样被分析和运用的。
比如说Google搜索排名,它用到了PageRank算法来实现排序。这个算法基于指向网页的链接数——链接越多,得分越高,页面作为搜索结构的显示就越靠前。它跟访问页面的次数多少无关。了解到了排名算法的原理,链接交易就诞生了。不过为了保证搜索的可靠性,留住用户,Google会继续更新自己的算法,并加入更多的条件。
这就像一个你追我赶的竞跑游戏。只要是有利润可图,算法的更新迭代不会终止。在“大数据,大商务”这一章,我们能够清楚的看到公司是如何利用大数据做精准投放的。这不一定是坏事——你更舒服了。从某种意义上来说,AI比你更懂你。
大数据之下,有的人用它挣钱,有的人因为它花钱。有的人在偏远地区找到世界上最好的一批老师的讲义资料,如饥似渴的学习起来。有的人在给自己制造“信息茧房”,屏蔽掉不想听的声音,沉醉在自我构建的小小世界之中。
用本书作者的话来说,大数据是力量,它的潜力是巨大的。如何避免其被滥用,取决于我们自己的努力。
本书推荐给所有对互联网和数字化世界感兴趣的人。全书使用70克纯质纸,纸质轻柔,单色印刷,16开双语本,适合你睡前饭后慢慢阅读。
▼  阅读原文, 购买《牛津通识读本:大数据》
继续阅读
阅读原文