编辑丨Terry Horner、Dan Kador、Manu Mahajan、Ryan Spraetz
编译丨Anna
凡是学会了利用事件数据的公司,比起同行会具有一定的竞争优势。很明显,那些世界领先科技公司就都符合这一特点。从Facebook、Amazon、Airbnb到Pinterest,我们一次次地被它们的数据工程团队惊艳到。可以说,他们的成就为软件界和商业界都树立了新的标杆。
由于这些公司的产品普及度很高,其团队就必须不断更新对规模性分析的定义。目前,这些公司对数据架构的投入已达百万级,而其数据团队的规模则往往比普通公司的整个技术部门都要大。下面,让我们一一来看行业巨头们到底有着怎样的数据架构。
估值达10亿美元以上的初创公司(Wall Street Journal,2015年数据)
其中Airbnb、Pinterest估值分别为100亿美元、50亿美元。
Netflix
对于拥有9300万月活的Netflix来说,它的用户交互程度始终居高、不存在短缺的问题。Netflix的技术团队曾在《Netflix的数据管道革命》这篇文章中表示,他们平均每天要采集约5000亿事件。换言之,其单日事件数据量能达到1.3PB。而在高峰时段,采集的事件数量可达800万/秒。为了支撑起这样的工作量,Netflix雇佣的数据工程师、分析师超过100人。
注:PB为数据量单位,1PB = 1024 TB。
图源:《Evolution of Netflix Data Pipeline》
Facebook
作为有着多达十亿活跃用户的社交平台,Facebook的数据规模必然是惊人的。其数据储存量高达300PB,是世界上最大的数据仓库之一。这些数据被广泛应用于各领域,从传统的批量处理到图表分析,再到机器学习及实时互动分析,都有其用武之地。
为了实现规模化的互动查询,Facebook的技术团队发明了Presto。Presto是一个开源分布式查询引擎,它被设计为用来专门进行高速、实时的数据分析。目前,Presto拥有超过1000名用户,日均查询次数达3万次,查询范围则包括诸如Hive、HBase及Scribede等各类可插拔数据库。
Airbnb
Airbnb向其超过1亿的用户提供了200多万列表。除此之外,airbnb的智能旅行建议功能也为其增长做出了关键性的贡献。
在去年某次以“打造世界级分析团队”为主题的会议上,Airbnb数据科学家经理Elena Grewal曾透露,Airbnb的数据团队已经增至30+人。这意味着,光是花在这部分员工身上的年均投资就高达500万美元。
Pinterest
再来看看月活超过1亿、月均浏览量达100亿以上的Pinterest。2015年,Pinterest的数据团队就已增至250人。由下图可见,其数据架构基础严重依赖Apache Kafka、Storm、Hadoop、HBase、Redshift等平台及服务商。
Pintereset数据架构概要
当然,Pinterest团队要做的不仅是记录数量巨大的用户数据。与任何一个社交平台一样,Pinterest还要向其广告买家提供详细的数据分析。Pinterest前技术总管Tongbo Huang就曾在其文章《Pinterest背后的故事:打造Pinterest分析软件栈》中描述了其更新分析软件栈以满足广告买家需求的经历。通过下图,你就能明白他们是如何运用Apache Kafka,AWS S3及HBase来达成这一目标的。
Pinterest商业分析软件栈的数据架构
Pinterest商业分析软件栈的用户端界面
Twitter / Crashlytics
在他的文章《日均实时处理50亿会话》中,Twitter软件工程师Ed Solovey介绍了Crashlytics Answers团队处理十亿级别的移动设备事件所使用的架构。
事件接收
归档
批量计算
高速运算
总览

后台回复“资源”即可下载海量免费学习资源
你可能错过了:
继续阅读
阅读原文