本文主要分享如何通过数据产品,帮助具有20年历史的传统企业在行业互联网数字化转型,促使业务更高效的应用数据,介绍了数据平台在公司数字化转型的过程中是如何演进的,会遇到什么样的困难,如何进行治理,以及产品建设过程中的思考与实践。(文末附正文图片PPT下载方式)
01
贝壳业务及数据应用的背景

1. 贝壳业务

贝壳是一家产业互联网公司,房屋买卖交易是公司的主业。由于贝壳无法把所有交易过程线上化,只能尽可能的将交易关键节点先线上化。整个交易过程中,绝大部分关键节点都需要线下带看和经纪人沟通,这也就导致了很多数据是线下收集的。贝壳的数据呈类型多、复杂度高、线下化、延迟性的特点。
2. 贝壳数据
从数据建设以及数据应用的视角看,贝壳存在三类用户:
  • 第一类,需要用到数据进行管理以及运营的,称之为数据应用用户。
  • 第二类,将数据进行加工处理、探索,做深度分析形成数据报告与分析结论的用户,如数据研发、数据分析师。
  • 第三类,公司。从公司的视角看,在业务不断发展的过程中,日渐积累的大量数据如何衡量它的价值,如何构建良好的数据生态环境,赋能业务,是公司最关心的。

3. 数据应用场景

贝壳的数据应用场景主要分为管理、实际作业和品牌(系统)的应用。
  • 管理:可以理解为是战略层面的应用。贝壳业务重线下,管理层级深。管理的诉求是希望能够高效、精准的传达管理指令,从总部到城市,管理绩效、业绩、以及推行一些标准和规范,从而得到有力的管理抓手。
  • 作业:可以理解为是战术层面的应用,更细粒度的管理场景,通常是一城一策,覆盖店东、商圈经理、经纪人层面。不同城市业务人员不同,对数据的使用颗粒度以及关注视角都不同。
  • 品牌:是系统层面的,在品牌加盟的同时,有数据对接与供给、系统对接的诉求,贝壳希望能够给到他们一套完整、有标准化的系统提供数据服务的能力。
02
贝壳数据平台的演进

1. 过去

① 平台的样子
  • 指标平台:主要基于Kylin构建。通过平台构建指标,设定度量和维度,数仓基于指标需求开发数据表,在进行cube的构建。用户可基于已经开发好的指标,再进行报表的创建。用户获取数据、报表查看都集中在指标平台。
  • 数据管理平台:是数据底层能力集,面向数据研发,包括数据采集、加工、调度、以及数据服务的能力。
两个平台从数据加工采集到数据应用都涵盖了,那么对于公司、用户来说,都有哪些问题?以下将从效率、平台、数据质量、安全的角度剖析。

② 面临的问题

公司的数据能力建设以及应用、是一个复杂而庞大的体系化工程,单点突进(例如查询引擎特别好,数仓建设的完备)对用户来说,依然会在某些场景有体感不适的情况。所以数据能力建设一定是齐头并进,抽象聚焦的。一般来说,重点聚焦在:数据应用效率、数据质量、平台系统、数据安全几方面
效率:
从效率讲,主要是数据流转问题:
  • 报表、看板:以往基于指标平台,需要先有指标、开发,然后通过指标数据再进行数据可视化配置。所以这就带来一个问题,必须要先有指标,才能配置报表,这样会非常依赖数仓开发指标的人力资源,一个成本高,另一个是效率会有瓶颈。
  • 城市:当时的指标、以及数据源是没有办法设定行级权限的,导致城市的用户无法使用指标数据,致使他们的数据获取更复杂,需要在平台上、系统上、线下收集各种数据,然后通过各类第三方工具将数据整合起来。
  • 权限:很多线下审批并没有到线上,通常都是固定在每周的某一天固定由专人处理,导致效率非常低。
平台:
从平台视角看,kylin解决方案满足不了所有场景,贝壳的业务维度多,很容易发生维度灾难。平台的设计是基于当时历史情况来设计,但业务、公司的变化飞快,平台不能适应变化导致系统模块在平台上融合度不够。用户另一个直接感受是技术元素过高,平台的易用性不够,很多功能使用前需要咨询,增加了沟通成本,平台门槛过高。
质量:
对于当时的平台设计,也是缺乏数据管理与管控的。指标需求越来越多,埋点也越来越多,导致指标、埋点、数据表等只增不减。最后,指标数量破万,埋点事件2万多。这样的情况对于用户来说,不知道该用哪个,自己再重新提需求建设,进入恶性循环。对于公司来说,存储、计算压力与日俱增。并且由于效率问题,大家开始自行写Sql提数据,下载数据与线下数据整合等,数据出口非常多。没有统一的管理,数据准确性、一致性遭到用户的存疑,数据信赖度降低,每天的对数成本非常高。
安全:
数据安全同样存在问题,平台的主力功能是数据获取,用户从平台下载数据到本地,通过截图、PDF、Excel进行传播,也没有水印,数据安全存在非常大的隐患。

用户感受:

过去,用户花了70%-80%的时间停留在权限获取/数据处理加工和对数上。从右边五个维度看,平台打分也都不是很高。所以对于未来,贝壳平台要如何演进?
③ 需要什么?
希望减少用户在数据加工上的时间,提高用户上层的效率,产出更多价值。同时,致力于成为提供高效、安全、可信赖的平台。
④ 怎么做?
贝壳需要怎么做?主要考虑以下两方面:
  • 整合扩展:把平台上的能力整合到一个地方,形成闭环。
  • 线上化:之前的分析模式包括数据供给模式都是线下,怎么能够将线下跟线上数据做整合,并且用线上的方式实现需求,同时保证质量和安全。
2. 演进
① 平台演进路线
从背景以及平台带来的问题来看,如果要解决效率、质量、安全的问题,需要把用户整个分析流程全部囊括到平台中来,降低门槛,给予用户更多的自主性、灵活度,同时也要有规则标准进行保障约束。
在2018年底,结合用户和公司的诉求,公司开始研发数据分析平台——奥丁。希望通过平台建设,将原来不能满足的诉求一一实现,将用户自成体系的建设数据方式,逐步迁移到平台上来,把数据孤岛逐步整合到一起。
首先要能覆盖用户线下加工分析到传播的全流程模式:
通过提供一套完整的数据分析体系,整合底层数据引擎、权限、数据管理的能力,输出一整套数据平台能力和服务,释放给平台用户。
但在这个过程中,平台的能力建设是重要的一步,另外更重要的是数据内容建设本身,数仓的模型建设是更重要的,用户需求多样,数仓在这个过程中抽象需求,形成高可用、易懂的数据供给。

② 数据资产化管理

对于数据资产化管理,从底层服务支持上做了扩展,包括数据可管理、权限可管理、资源可管理、数据质量可控:
数据工厂
数据工厂的演进过程也是从2018年底开始,首先做了权限系统的监控,然后希望通过业务的语言了解数据的组织,所以做了元数据图谱。
④ 效果
从效果来说,对于各城市受益最大。数据分析师有更多时间做分析,在效率、质量上都得到保证,从安全上数据能达到不落地。
⑤ 有哪些困难?
3. 现在
贝壳现在的平台架构,底层是hadoop生态。服务层集成了数据采集,数据开发,数据管理,数据一整套底层服务。上层是应用的建设,包括数据探索,以及轻量化的建模和可视化,以及指标体系能力建设,最终给到用户的内容多端呈现为移动端app、小程序、大屏、门户。
03
贝壳数据平台的未来构想
贝壳经历多年建设基础,能给用户什么?现在将线下数据孤岛整合到线上,还处于现象刻画中,停留在数据使用的基本层次上。未来,希望数据能够智能化,形成知识沉淀,形成数据对话,能指导业务,做出风险预警,同时也要提高分析师素养和培养业务数据应用习惯。
举个例子:
  • 从用户感知角度讲,看到的不是一个冰冷的数据,而是可以让用户知道所给数据背后的原因,给出相应的解读。
  • 从平台建设角度讲,需要积攒服务厚度,包括服务体系保障、全链路数据监控、数据血缘、指标图谱、归因分析等,在不断沉淀的过程中,可以抽象出来给到用户。
这就是整体对未来的规划,从刻画现象到内容解读的过程。
最后,产业互联网和互联网在数据应用上本质上没有什么不同,业务、数据驱动的诉求的场景都是一样的,短时间内,贝壳业务的模式不会发生太大的改变,希望在大数据技术以及产品应用不断发展的今天以及未来,能够打造出一套适用用产业互联网的数据产品体系。
(本文来源DataFunTalk,作者张勍
关注本公众号(数据学堂,ID:data_school),后台回复“贝壳”,即可下载《贝壳找房数据平台演进》25页PPT全文。
<END>
继续阅读
阅读原文