最近几年“数据治理”、“数据中台”是个热门词,“数据”在企业内的作用,无论是支持决策行动,还是作为具有价值的企业资产,都需要有一套管理体系。
不过,大家仔细琢磨过没有,在数字化企业的环境下,指导人们行动的是“数据”吗?我常说企业数字化的本质是:“一切业务在线,数据驱动业务”,这个表述其实隐含了一个逻辑错误。指导我们行动的不是“数据”,而是“信息”。
“数据”是从业务作业IT系统或者其他数字化源头(例如社交媒体、物联网设备)产生的,但是原始数据并不能被直接使用,必须对原始数据进行提取、加工,此过程中会发生“用数据来生成数据”的情况——对业务有指导意义的技术对象是数据被处理后产生的“信息”。基于信息,还能够形成知识、洞察和智慧(数据、信息、知识和智慧,简称DIKW):
我认为企业数字化是由两部分组成的,一是“生成数”:一切业务在线,生成记录的事实的数据,二是“用好数”:利用这些数据生成的信息,来指导并优化业务活动。因而数据是驱动这个飞轮。介于这二者之间,就需要“管好数”,来使得这两个齿轮能良好运转。
正如我前天在《企业信息技术应用二十年来,什么变了,什么没变》中所写,过去二十年在企业信息技术应用中,对于信息和数据的管理的地位越来越显著。在进入二十一世纪前,企业信息技术应用的重点在于流程和系统,然而,一是由于企业内信息系统经过多年建设,数量越来越多,系统间数据不集成,二是利用数据生成信息时,不同系统以及不同来源的数据不一致,难以整合,三是随着信息技术和互联网发展,云和大数据带来了数据管理技术的革命,因而大约从2005年前后开始,在企业架构里,信息架构的独立地位得以开始凸显。
当我们在企业管理和企业级信息技术应用的大背景下说“数据”时,实际上指的是客观世界的数字化抽象按照某种结构化的方式,进行数字化的管理。无论是从机器代码到数据记录到数据库的结构,还是从传统数据文件到广泛应用的关系型数据库(SQL)到互联网时代的分布式大数据(No-SQL)的进化,数据管理的技术在过去几十年里一直在持续发展:
将数据提取、处理、加工为信息的过程,推动了“商业智能”、“数据仓库”、“主数据管理”等企业级信息技术应用在二十一世纪初的发展。就我的观察,在2005年至2015年期间,这套管理体系更多地是被称为“企业信息管理”(Enterprise Information Management,以下也简称“EIM”),而不是今天社会上时髦的“数据治理”或者“数据中台方法论”。
根据今天华为介绍数字化转型的说法(《华为数字化转型之道》,第231页),华为数据治理分为两个阶段,第一阶段是2007-2016年,设立数据管理专门组织,建立数据管理框架,第二阶段是2017年以后,建设数据底座,汇聚企业全域数据并对数据进行连接,实现数据按需共享、敏捷自助。
这里提到2007年华为启动数据治理工作,其实是当时华为“集成财务服务(IFS)”的企业转型项目,为了提升财务报表准确性的目的,第一次引进了“数据治理”的概念。实际上,当时华为在IBM咨询部门的帮助下,把这套体系称为“企业信息管理(EIM)”体系,亦即是企业架构的四层中(业务架构、应用架构、信息架构、基础设施架构)的信息架构的治理。
那时,华为希望建立公司统一的信息管理体系,来解决下述问题:
  • 无法取得一致、完整、及时、有效的数据;
  • 数据定义不清,业务规则不清,各环节理解不一致;
  • 多数据源,数据调用混乱,存在数据创建、失效随意,一处失效、一处使用的情况;
  • 管理层从不同领域拿到的分析数据不统一,无法确认数据的准确性;
  • 信息管理的责任缺位,职责不清;
  • 存在问题找不到责任人,部分问题长期得不到有些解决;
  • 缺乏数据的全生命周期管理流程;缺乏数据管理的流程和机制
  • 缺少对数据质量的管理及考核,数据质量未纳入质量体系进行管理;
  • IT系统整改困难、数据清理难度大
  • 多数据源,数据调用混乱,缺乏管理.数据清理难度很大. 
  • IT系统数据难以整合,无法对接
IBM为华为带来了当时行业里流行的“EIM”这个词。在一份2007年的培训材料里,IBM顾问们引用Gartner对EIM的定义是:
EIM as an organizational commitment to define, secure and improve the accuracy and integrity of information assets and to solve semantic inconsistencies across all boundaries, thus supporting the technical, operational and business objectives within the company's enterprise architecture strategy.
“EIM是一种组织承诺,旨在定义、保护和提高信息资产的准确性和完整性,并解决跨所有领域的语义不一致,从而支持公司企业架构战略中的技术、运营和业务目标。”
企业信息管理和企业架构有非常紧密的关系:
当时,华为建立的EIM框架如下图所示,包括相互交叉的三大管理抓手和六个具体实现领域:                                                                                         
来源:华为企业信息管理框架,2007年
在那个年代,EIM概念出现整合了90年代末到2005年期间几个企业级信息技术的“后系统应用”热门领域,包括:商业智能、企业内容管理(ECM)、知识管理(KM)和企业搜索等。那时流行的观点认为企业数据的形态分为两类,一类是结构化数据,另一类是非结构化数据,例如视频、图像,利用前者的IT系统是商业智能,利用后者的IT系统是企业内容管理,对这些数据对象建立索引、便于管理和检索的机制是元数据管理(meta-data)以及相应的分类方法(taxonomies)。
需要注意的时代背景是,那时候大数据技术、社交媒体、搜索引擎等互联网形态的信息管理都还没出现或者刚刚萌芽。
另一家中立IT评测机构Forrester在同一时期的“企业信息管理”模型由三部分构成,一是企业内容管理,包括工作流、文档、表单、协同,二是数据管理,包括数据治理、主数据管理、数据仓库和商业智能等,链接二者的则是一系列基础机制,包括信息资产确权、安全、元数据规则、数据智能等。
如果觉得前面Gartner对于EIM的定义过于绕口,下面这个定义则更加浅显、直白一些:
Enterprise information management (EIM) refers to the optimization, storage, and processing of data created and used by an enterprise. EIM seeks to ensure that data, as a business asset, is managed securely through its lifecycle and is accessible to the appropriate business processes.
企业信息管理(EIM)是指对企业创建和使用的数据,进行优化、存储和处理。企业信息管理寻求确保数据(作为企业的商业资产)在其生命周期内得到安全管理,并可被适当的业务流程访问。”
学术界根据Gartner、Forrester的倡导,提炼出了如下的EIM架构:
那时主流的大型企业软件供应商,包括IBM、SAP、Oracle等,都是EIM这个概念的大力倡导者和践行者。IBM是企业数据库软件的先驱,他家数据库产品线从六十年代被发明时,就叫“IBM信息管理系统”(IBM Information Management System,简称IMS,参见《1992年IT近代史 | 改变世界的25人(四)—— 数据库软件之父》),2000年后通过进一步研发及并购,形成了包括数据库(DB2和Informix)、ETL数据集成和数据治理(InfoSphere,IBM将这个产品线就称为信息服务器,information server),企业内容管理(FileNet),商业智能(Cognos)等完整的EIM产品线。
SAP本来是只做应用软件,随着它的各种企业应用软件推出,企业数据方案则呼之欲出。2005年后,SAP的产品路线追赶企业软件的主流,大力进入EIM领域——通过收购商业智能软件Business Objects获得了数据集成和数据服务的能力,收购Sybase获得了数据管理能力,并且自研了主数据管理等,为了和IBM一样形成全线EIM能力,还和ECM厂商OpenText建立了战略联盟,SAP的内容管理解决方案直接OEM了OpenText的产品。
可以发现这个产品解决方案和Gartner、Forrester的EIM框架是完全吻合的:
直到今天,SAP和IBM的数据管理解决方案,从理念框架、产品定义和技术架构上都很类似,包括了企业级数据编织、主数据管理、数据治理和数据集成及质量等,非常适合企业级的数据管理规划和实施。
2105年后,随着从美国互联网公司实践中开发出来的大数据技术的普及,数据管理从理念到技术都产生了一些变化。阿里的“数据中台”就是具有代表性的互联网时代的数据管理架构(来自下面这本书第331页):
在数据管理的方法上,阿里提出了一个数据模型(OneModel),一个身份识别(OneID)和统一数据服务(OneService)的三大理论。正如上图的架构,这是在互联网公司或者平台电商公司的业务环境下形成的数据管理方法,其主要应用场景是广告投放、精准营销、页面优化、商品运营等,和传统企业以物流、信息流和资金流三流合一的信息化场景还是有很大差别的。
这正是在传统企业里推广“数据中台”方法论让人觉得怪怪的地方,说个我遇到的真事:前几年我曾经跟一家很大的制造企业交流,他们领导说要上“数据中台”的OneID功能,让全企业不仅每个用户在所有IT系统里都有唯一的OneID,连每个机器、每个物料、每个厂房、每个客户、每个供应商都要有OneID,保证分析的数据一致性……我给那位领导说:“呃,那个不叫OneID,叫主数据管理......”。不过我确实在“数据中台”架构图里,就没见到“主数据管理”这个框框,也难怪企业领导被卖数据中台的供应商给误导了。
中国互联网公司搞出来的“数据中台”理论适用于数字化营销、电商运营等互联网应用环境,或者类似于互联网公司的数据应用——例如政府的数据管理平台,需要整合多个不受直接控制的数据源,产生数据分析服务,像下图这样的“健康码数据中台”,采用“数据中台”的架构理念还是很合适的,但是,这套理念生搬硬套到传统企业里就不合适了。
今天华为的数据管理,亦即前面提到第一阶段“企业信息管理”的进化,如下图所示,这种模式是基于大数据平台技术,即将数据采集到“数据湖”里,按需进行治理:
今天“企业信息管理(EIM)”已经不像十年前那么流行了,数据管理、数据治理是“企业信息管理”的概念子集,不过我认为EIM是比“数据中台”更适合传统企业的数据管理框架。虽然技术实现有变化,早年提出的EIM架构理念却仍沿用至今。
下图左边是2007年SAP的EIM架构,从最下一层的信息系统——数据源头,到最上一层的信息应用,中间分层为:信息管理基础(中间又包括了数据集成、元数据管理、企业搜索、主数据管理、商业智能-结构化数据、知识管理-非结构化数据、面向组件的数据服务等)、组件化基础和组件化应用,这和今天的数字化和数据平台(DDP,参见《数字化和数据平台——企业数字化转型的技术架构升级》)的现代化架构,是完全可以一一对应的:
最后想说的是,IBM、SAP、Oracle这些企业信息技术的老炮,他们过去提出的理论、框架、架构、方法是经得起时代考验的,也希望我们这些做企业解决方案的厂商和咨询顾问在新的一年里,少发明些搞怪的名词,踏踏实实帮助中国企业在数字化转型的道路上坚定前行!‍‍‍‍‍‍
继续阅读
阅读原文