在大数据时代,企业数据资产的生产和消费,实际现状大概是这样的。
一方面,每个业务部门都产生并存储了大量的数据。这些数据存储在不同的系统中。每个业务部门都是数据的生产者。另外一面,每个业务部门都有使用数据来帮助进行更智能决策,每个业务部门也都是数据的消费者。
作为数据的消费者们,希望可以自由地消费全公司的数据资产。因为只有联合了多个相关部门的数据进行分析,才能够得到更为有用的结果。
但是,让数据消费者去方便地消费全公司的数据有很多困难。
一方面,数据是由各个业务部门产生的。绝大部分公司,并不存在一个覆盖全公司各个业务部门的数据资产的地方。所以数据消费者不知道有哪些数据可以消费。
另一方面,数据的使用也带来了授权和监管的需求。如果数据包含了敏感信息,比如个人信用卡信息,那么法律法规就限制数据只能在有限情况下被特定的人访问。无论是授权给合适的人,还是监督谁访问了这些数据,都是数据被使用的必然要求。而这些要求伴随数据生产者,在公司内部很碎片化。

那么我们怎么样一方面能够让数据更好更快更方便的在全公司范围内被发现被消费,另外一方面又能够做到数据的所有使用和访问都需要授权和监督?

为了兼顾全公司范围内的数据资产能被方便的使用,和数据资产的使用被有效授权和监管这两个不同的要求,有的公司采用了这样一个办法:专门成立一个部门,集中管理全公司范围内各个业务部门产生的所有数据,给需要的人提供访问,并做好授权和监督。
现实中这个想法很难行得通。这个部门,既不是数据的生产者,也不是数据的消费者,但是却需要对数据的访问和监督负责这问题就很大了。责权不匹配,是各个部门互相推卸责任的好帮手。可以想象如果出问题的话,到底是数据生产者的锅,数据消费者的锅还是这个部门的锅,没人能搞得清楚了。
那么,有没有一个办法可以提供一种靠谱的,持续发展的数据治理方式,帮助企业在生产者和消费者之间牵线搭桥,既能方便消费者很好地跨部门使用数据,又能够让数据的访问经过合理的授权,接受监督呢?
2022亚马逊云科技re:Invent全球大会上发布了一个新服务Amazon DataZone。Amazon DataZone为数据治理提供了一套可行的思路:敏捷的,分散式的数据治理。

具体来说,Amazon DataZone提供了一个平台和对应的工具,方便数据的生产者和消费者建立连接,让消费者对生产者的数据进行使用。
在实际使用过程中,并不需要全公司全方位进行数据治理。只需要找到一个生产者和一个消费者,这一对生产者和消费者就可以先创建项目和API,让消费者把数据在监管的情况下先用起来。下图展示了Amazon DataZone的主要组件。
这样一来,就不需要有一个跨部门全公司范围内全方位的治理了。生产者依然是数据的拥有者,消费者依然是向生产者请求数据的使用。只不过生产者和消费者所对应的信息被聚集到Amazon DataZone这一个统一的平台下。
Amazon DataZone的另外一个重要的功能是提供了一个统一的门户,潜在的数据消费者可以很容易的在这里对所有在Amazon DataZone上的数据资产进行搜索。下图展示了Amazon DataZone的数据门户。
继续上面这个例子。如果第三者也想使用已有的生产者和消费者创建的数据资产,第三者只需要在Amazon DataZone的门户搜索并发现这个数据资产。然后就可以加入消费者的行列。第三者的使用并不需要生产者再次重复之前创立数据资产和对应API的所有步骤了。下图展示了第三方数据消费者,如何利用数据门户进行搜索。
如果说Amazon DataZone提供的功能让一对生产者和消费者建立连接,是一个企业内部的两个点被连成了一条线的话,那么第三者通过Amazon DataZone发现数据资产并使用,则可以让线变成网。用的时间就来,不断有生产者和消费者加入,不断有额外的消费者建立额外的链接,数据治理也就越来越成规模化发展了。这就是敏捷的,分散式数据治理。
在这里,Amazon DataZone扮演了重要角色。一方面,Amazon DataZone只是一个数据资产发布和管理的平台,实际对数据资产进行管理的依然是数据的生产者。
另外一方面,Amazon  DataZone事实上聚集了越来越多的数据资产的信息。同时Amazon DataZone也提供了让第三方潜在数据消费者去发现这些数据资产,从而能够使用这些数据资产的能力。
这两方面能力的结合,是Amazon DataZone解决数据治理过程中万里长征不知道从何开始,也不知道怎么样完成的核心手段。Amazon DataZone通过这些能力,为企业敏捷的,分散式的数据治理提供了一个平台。
在这个平台下,企业可以通过敏捷的增量模式,逐渐将公司的所有数据资产在一个统一的平台下实现数据治理,让数据治理的万里长征真正成功。Amazon DataZone这个服务,值得每个需要数据治理的企业去尝试。
为了将2022亚马逊云科技re:Invent全球大会的精华第一时间带给中国客户和云计算粉丝,亚马逊云科技将在2022年12月20日举办INNOVATE在线大会—re:Invent 2022深度解读。为您剖析re:Invent 2022的最新发布以及全球观点与实践,深度技术详解端到端的数据战略及未来基础架构,点击阅读原文注册参与吧。
继续阅读
阅读原文