从阿里核心场景看实时数仓的发展趋势
随着2021年双11的完美落幕,实时数仓技术在阿里双11场景也经历了多年的实践和发展。从早期的基于不同作业的烟囱式开发,到基于领域分层建模的数仓引入,再到分析服务一体化的新型融合式一站式架构,开发效率逐步提升,数据质量更有保证,也沉淀了更多技术创新,让我们看到了一些未来数仓开发、应用的可能性和趋势。
一 实时数仓已经成为业务标配
数字化运营:这种场景上游对接Flink进行数据流式加工;下游对接BI工具、数据大屏等,实现业务的自助开发和上线。极大提升了开发效率和灵活性,支持所见即所得的开发体验。 网络流量分析、Metrics分析:通过对网络流量、及其他Metrics类数据的实时存储和监控,可快速预警和定位设备潜在故障。在万亿级记录上查询秒级响应,故障秒级发现。 实时物流跟踪:通过实时数仓实现物流信息的实时跟踪,保证物流流转状态的实时更新、实时查询。
对商家的广告人群圈选:通过Hologres对广大商家(to B)提供高QPS、低延迟的人群圈选和广告投放服务。 无人车送货:Hologres承载无人车上商品的订单、物流等指标信息,面向B端驿站,实时汇报物流信息,从而帮助驿站老板完成智能化包裹分拣、移动投柜等任务;面向用户,再通过系统调度运力,实现”定时上门、送货到楼”。 搜索推荐中的特征存储和样本存储:利用Hologres的强大点查能力,实现实时样本(feature store)、实时特征(sample store)和实时算法效果分析。 - 客户全链路体验:客服服务部门通过在Hologres存储客户的相关多渠道数据,实现直接对消费者提供各种明细查询能力(to C)。…
二 实时数仓支撑在线生产系统
阿里巴巴客户体验事业部(Chief Customer Office,以下简称CCO)去年是业务上做了双链路写入和存储冗余来保证高可用。今年双11使用了Hologres原生高可用方案下掉手工双链路,省去备用数据链路上实时任务开发、数据比对的人力投入,减少链路切换时的数据不一致,整体开发人力成本减少200人日,环比去年降低50%以上;减少了100+用于实时重保的备份链路作业,减少计算资源2000CU。 - 阿里巴巴数据产品与技术部(Data Technology,以下简称DT)使用Hologres读写分离方案,高吞吐写入和灵活查询互不干扰;分析查询QPS增长80%的同时,查询抖动明显减少。
三 分析服务一体化(HSAP)
四 实时数据治理成为刚需
五 实时数仓的类数据库化
操作SQL化以及和传统数据库在协议、语法上的兼容性,从而方便开发同学可以用习惯的工具(BI、开发工具等)去对接开发。大数据在这方面的积累还是及不上数据库几十年的积累的,相当多的业务同学对于数据库很熟练,但对于大数据(特别是实时数仓)就感觉不容易上手了。 数据模型和语义向传统数据库靠拢。例如,主键(Primary Key)概念是传统数仓类产品所缺乏的,操作的原子性数仓产品往往也不能保证,这就限制了很多场景的应用。比方说,Clickhouse缺乏数据库意义上的主键(CK所说的主键是另外一个东西,非唯一性约束),所以就不合适处理数据库CDC同步场景。这两年,大数据业界可以明显看到对这块的增强。最典型的例子是DeltaLake、Iceberge和Hudi等为代表的近实时数仓增加了ACID能力。当然,受制于架构,这种近实时ACID在频繁更新场景下的性能和延时是有瓶颈的。
数据库的实时同步:通过将上游的分库分表和多个业务库实时同步(镜像)到一个大数据实时数仓中,可以提供对业务数据的强大分析能力,而这就需要很好的处理纯实时的高频UPDATE和DELETE操作。 Flink 计算产生的UPDATE和DELETE(RETRACTION)操作:例如统计GMV,Flink在结果更新时会生成UPDATE记录,而在有些场景下会生成RETRACTION记录(DELETE),这都要求下游系统能很好的处理这两类事件。 风控等业务的计算是由多路作业共同完成的,这些作业共同实时更新一张大宽表(每个作业更新部分字段),这就要求下游系统能提供基于主键的部分更新能力。
传统上,这样的业务是由HBase、Redis这样的NoSQL系统或者MySQL、PostgreSQL等数据库RDS来承接的。但NoSQL的问题是分析能力普通偏弱,而数据库问题是写入性能和规模有限制。
六 实时数仓开发敏捷化
七 总结
关键词
数仓
系统
大数据
实时数仓
业务
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。