继《舌尖上的中国》之后,央视的又一部纪录片力作《超级工程》亮相,引起轰动效应。该片详细介绍了中国五大重大工程项目——港珠澳大桥、上海中心大厦、北京地铁网络、海上巨型风机和超级LNG船。这些中国制造也是中国的骄傲给观众带来了视觉上的冲击和心灵上的震撼。

“超级工程”顾名思义,是指实现难度太、能够带来良好经济和社会效益,且具有广泛影响力的项目。上述提到的这些超级工程主要是我国在制造、工业等领域取得的非凡成就,其实在互联网领域也有一项堪称中国骄傲的超级工程,那就是阿里“双11”。
11月11日晚10点,阿里巴巴集团CTO张建锋连线上海“双11”媒体中心,介绍了阿里技术在“双11”中取得的突破与成绩,并表示“阿里‘双11’是名副其实的世界互联网技术‘超级工程’。”
今年“双11”,阿里的技术能力再次得到了验证,也创造了新的记录——每秒32.5万笔的交易创建峰值和每秒25.6万笔的支付成功峰值,带给消费者更畅快的购物体验。而这一切都离不开阿里巴巴基础设施能力,特别是云计算技术的不断演进。
持续云化
在今年“双11”晚会上,马云主演的电影《攻守道》正式推出,这是一部讲述太极功夫的电影,而太极讲究的就是攻守平衡。如果说“双11”购物节是阿里最有效的武器,攻得凌厉漂亮,那么支撑“双11”以及阿里整体业务的后端技术平台则守得密不透风,固若金汤。
阿里通过连续9年不断的打磨,让集团的基础设施云化,“双11”大促上云是一块试验田,阿里云化战略落地,层层递进,步步为营,如今全部业务都已经云化。

       回顾9年来的发展,阿里云化战略的落地大致可以分成三个阶段:第一阶段,最初几届的“双11”,为应对大量并发访问,阿里采用的办法是每次都采购大量的机器,但是“双11”业务高峰期一过,大量资源会闲置;第二阶段,阿里云成立后,随着虚拟化、云计算技术的快速普及,阿里会在“双11”之前的两个月开始提前做容量规划,那时主要依靠阿里云的弹性资源来应对洪峰流量;第三阶段,随着容器、调度等先进技术手段的运用,阿里考虑的是如何将混合云下的弹性资源进行容器化改造,并加以充分调度,大大缩短弹性资源占用周期,提升整体的IT资源效率。
电商业务在阿里云化战略中首当其冲。以前,为了保证电商业务的顺利开展,要解决的核心问题是资源投入问题。现在,随着电商业务规模不断扩大,业务峰值频繁出现,在实现资源投入弹性化的基础上,还要千方百计提升资源的使用效率,同时节省资源投入。
Gartner的统计数据显示:当前,普通数据中心的资源使用效率平均为6%-12%,可提升的空间非常大。如果能够有效提升资源使用效率,那么阿里云赋能用户和合作伙伴的价值将得到更加充分的释放。
阿里一直秉承提升整个社会的资源效率,降低创业成本,普惠大众的原则。在这一原则的指引下,阿里正在从资源投入的弹性化演进到弹性资源混部能力的提升,而实现这一重大转变的技术引擎就是资源Pouch容器化、统一调度、存储计算分离,以及在此基础上实现的计算资源混部能力。
最近两年,统一调度和容器化是阿里集团在技术方面的两大重要目标,各BU的在线系统陆续进行Pouch容器化改造,并接入到Sigma统一调度系统中,同时数以万计的在线业务服务器也不断加入Sigma资源池,实现统一管理,资源共享,对业务屏蔽基础设施复杂的细节,从而大幅提升效率并节省成本。为保证接入Sigma的业务能够稳定高效,Sigma做了很多优化的工作。
容器+调度=完美
毫无疑问,容器技术如今已经成为一种潮流。作为全球业务场景最复杂的互联网服务提供商,阿里的数据中心里运行有百万个Pouch容器,且100%电商核心业务通过Pouch容器化对外服务。
回溯到2011年,当时阿里内部基于LXC技术为业务提供容器服务,后经不断的技术锤炼与经验积累,铸就了今天阿里Pouch容器。Pouch是一个务实者,更懂应用,也更贴近场景。
Pouch的差异化主要体现在以下几方面:Pouch是一种富容器技术,内部应用体验类似虚拟机,还提供友好的用户界面;通过内核加固与轻量级虚拟机支持,Pouch提供丰富的安全隔离保障和隔离维度;在镜像分发上,特别是在超大规模场景下,可通过P2P的方式缓解网络负载;在内核兼容性方面,最大程度适配现有底层基础设施,支持2.6.32以上版本的Linux内核;拥有丰富的插件群,极大地增强了容器在远程盘、网络等方面的功能特性和扩展能力;具有出众的性能和稳定性,支持多线程执行容器指令,同时镜像支持链式分发、热更新或通过盘古、Ceph等远程盘直接挂载。

令人兴奋的是,Pouch将走完全开源的道路,一方面采取生态共建的策略,共同为行业制定容器标准;另一方面,以开放的姿态,拥抱上层的调度系统、编排平台。
阿里巴巴集团在线资源的容器化改造在所难免,而为了达到提升资源使用效率的目标,必须同时在资源调度上做文章。面对大规模数据中心,传统运维方式已不能满足规模化的需求,于是基于自动化调度的集群管理系统纷纷涌现。Sigma就是其中的代表之一。
以前,阿里巴巴内部针对离线计算和在线业务场景,分别各有一套调度系统,分别是从2010年开始建设的基于进程的离线资源调度系统Fuxi(伏羲),以及2011年开始建设的基于Pouch容器的在线资源调度系统Sigma。
正是基于在线资源Pouch容器化改造,以及Sigma调度系统日趋完善, 混部才在阿里巴巴得以落地。
混部,每一分资源都得到充分利用
今年“双11”,阿里云资源弹性的能力再次升级,特别是资源混部能力的提升,大大提高了资源的使用效率。拥有混部能力的阿里云混合云弹性能力将“双11”新增资源成本降低50%。未来,阿里巴巴还计划开放这一能力,帮助整个IT产业提高资源效率,让用户以更低的成本获得更好的服务。
阿里巴巴为什么将混部技术作为弹性能力的发展重点?其实,包括Google、百度和腾讯在内的几家互联网巨头在混部方面都有涉猎,进展不一。
无论是低延时的在线业务,还是吞吐量较高、对延时不敏感的计算任务,都能借助混部技术,通过给任务的资源画像和机器学习,调度匹配最合适的计算资源,既达到资源利用最大化,又可降低任务间同类资源的竞争。混部技术平时可以极大地提升服务器资源利用率,而在像“双11”这样的大促需要突增在线业务的时候,可以通过在线业务占用计算任务资源的方式,顶住短暂的超高峰值压力。
与其他互联网厂商相对单一的业务类型相比,阿里巴巴的计算任务成千上万,类型纷繁复杂。于是从2015年开始,阿里巴巴尝试将对延迟不敏感的批量离线计算任务和延迟敏感的在线业务部署到同一集群上运行,让在线业务用不完的资源充分被离线计算任务所使用,以提高集群的整体利用率。虽然在做混部的头几年也经历了诸多挑战,但经过两年多的试验论证、架构调整和资源隔离优化,已取得全方位突破。基于Pouch容器化和Sigma调度的混部技术,已成为阿里巴巴降低数据中心资源成本的核心武器。今年,阿里巴巴将混部技术应用于大规模生产,服务于企业最核心的交易链路。
在混部技术实施前,阿里巴巴在线业务集群CPU日均利用率只有10%,混部后集群CPU利用率可达40%。在2017“双11”中,在线业务集群和计算任务集群在一起运行,约1/5的峰值流量跑在这个混部集群上,集群CPU利用率可提升至40%以上,峰值超过60%。
在今年“双11 ”期间,得益于Pouch容器、Sigma调度系统和混部技术,阿里巴巴将新增IT资源需求削减了一半。也是因为混部技术,在今年“双11”中,基于阿里云弹性能力的升级,特别是混部能力,可在一小时内将混合云内离线计算任务集群投入到在线业务中,支撑每秒数万笔交易,大幅减少资源占用时间,以降低成本。
阿里巴巴云化战略落地的过程,也是近几年互联网基础设施演进的一个缩影。阿里巴巴在基础设施方面的技术创新、经验的积累,不仅可以更好地支持阿里巴巴自身的发展,而且让所有商家、合作伙伴和客户受益。阿里巴巴的愿景是,未来将这些创新变成全社会能够共享的普惠基础设施,更有效地降低整个社会的创新成本,提升整个社会的创新效率。

继续阅读
阅读原文