三代数据流通技术、弱中心化架构与金融行业应用 |蔡超超IITDC 2021演讲全文

前言

10月24日，由智能投研技术联盟（ITL）主办的第二届1024国际智能投研开发者大会（IITDC 2021）顺利举行。数牍科技联合创始人蔡超超受邀参与本次大会的隐私计算技术专场，分享题为“隐私计算：助力安全可靠的数据智能新基建”的主题演讲。

以下为演讲全文：

很高兴能够在10月24号，这一个对技术开发人员很特别的日子里跟大家交流。我今天分享的主题是“隐私计算助力安全可靠的数据智能新基建”，接下来我将展开聊一聊数牍对隐私计算的理解、研究与实践。

隐私计算技术与数据的流通密切相关，在近几年备受关注。在数据的流通过程中，一方面，数据作为生产要素，需要通过流通与开放才能最大化发挥它的价值。另一方面，在数据的协作过程中，需要注意数据的安全保护以及个人隐私的保护。通过隐私计算可以有效平衡这两点之间的矛盾，在保护数据的前提下，实现数据的可用不可见。

隐私计算是实现数据隐私保护与数据流通的关键技术，可以有效地解决数据共享、隐私保护之间的矛盾，实现数据的所有权不转移的前提下，细化数据的使用权。

隐私计算不是一种单一技术，而是包含多个细分的技术，例如多方安全计算、可信执行环境、联邦学习、差分隐私、同态加密等各种前沿的先进技术。这些技术都有各自的优缺点，有些效率比较高，有些安全性比较高。通过多种技术的叠加，可以实现更加安全的解决方案。比如，联邦学习可以有效保护明文数据的泄露，但是却没有办法保护梯度的泄漏。通过多方安全技术可以实现梯度的多方计算，在保护明文数据与保护梯度兼具的前提下，实现多方数据的联合建模。所以只有能够有效地结合这些技术，才能够高效地、安全地实现数据的流通。

隐私计算技术能够解决数据流通的安全性和可用性的难题，得到了各地政府广泛的关注，尤其是北、上、广、深等一线城市，陆续推出相关的政策和试点项目，鼓励隐私计算等创新技术推动数据安全共享。

首先介绍一下数据流通相关技术的迭代与发展。第一代数据流通技术需要一个数据中心平台，各个行业大数据拥有方在信任这个中心平台基础上，将本方的明文数据全量传输到平台上。客户根据自己的需求向该平台发送计算需求，该平台在接受客户的需求之后根据需求进行计算，只将计算结果传输给客户，不将具体的数据传输给客户。

在这一代技术中，数据拥有方需要转移全部的明文数据，失去对数据的控制权。同时数据中心平台要肩负起对数据安全的保护，既需要防止外部攻击，也需要防止内部数据泄露的风险。

在第一代基础上，衍生迭代出第二代数据流通技术。第二代技术在数据拥有方侧进行相关的加密与保护，再将加密的全量数据通过某种方式传输到中心平台，并在加密的形态下进行相关计算。相对于第一代技术，第二代技术在安全性有了一定的提高，特别是不需要直接传输明文数据。但是第二代技术也存在缺点，它还是需要将自己的全量数据上传到中心平台，如果发生攻击仍有泄露数据的风险。

基于此衍生出第三代数据流通技术，也是隐私计算2.0版的技术。在第三代技术中，数据拥有方无需将全量的数据无论通过明文还是加密的形式传送到中心平台，数据全部留在自己的本地。数据拥有方对自己的数据具有完全可控的能力，通过加密计算因子的方式，进行局部的信息交换，从而达到计算的目的。

比较这三代技术的特点，总体可以看到在技术的迭代过程中，一个最大的特点是数据拥有方对己方数据的可控性不断在叠加。迭代到第三代，数据完全不出库，实现完全可控，安全性不断在提高。同时这三代技术也具有技术的向前兼容性的特点。例如在第二代中，实现数据的加密汇聚计算，如果能够实现第二代技术，也就能够实现第一代的明文汇聚计算。第三代技术是通过去中心化的结构，将各个数据拥有方的数据进行分别的联合计算。如果能实现这一代技术，就一定能够实现把几方数据汇集到同一个云服务器，或同一个中心平台进行计算。所以三代的技术安全性不断提高，同时技术难度也在不断地提高。

数牍科技基于第三代去中心化的结构，打造出降低互信成本、高效数据协作的隐私计算平台Tusita。Tusita平台具有以下三个特点：

从数据生命周期视角出发

数牍科技以数据生命周期为视角，结合多方安全计算、联邦学习、可信执行环境、差分隐私、同态加密等隐私计算技术，自主创新，研发出具有完全自主知识产权的隐私计算平台及多行业解决方案。

产品化思维

数牍科技最早使用产品化思维打造隐私计算产品，并提出隐私计算综合工程概念。以Tusita隐私计算平台为基础，支持多种产品的开发与迭代。

更好的数据助力更好的AI理念

在数据智能时代，人工智能等新一代技术等发展，离不开良好等数据环境，数牍以为AI发展创造更好的数据环境为愿景，致力于数据要素市场的底层基础设施建设。

Tusita隐私计算平台是基于弱中心化的架构。在整体架构中，可以实现数据拥有方对己方数据的本地化存放，同时Tusita引入弱中心化协调节点，实现对任务和数据传输的完整实时监管。基于弱中心化架构，在上层开发出多种具体的应用场景，如用户分层运营、银行风控、广告投放、欺诈识别、反洗钱以及智慧城市等。

信创产业，即信息技术创新应用，其内涵是从关键环节核心组件的自主创新入手，然后扩展到IT的全产业链，逐步建立我国自主的IT底层架构和标准，实现全IT全产业链实力和结构的优化升级，构建中国自主的IT标准和生态。由于隐私计算技术解决了数据安全流通的关键问题，与信创产业具有天然的结合场景。

数牍科技将隐私计算定位为信创产业中基础软件的中间件部分，通过与应用软件以及基础硬件的上下游协作，实现全生态的信创产品。数牍作为信创工委会成员，积极开展与上下游企业伙伴以及相关产业链单位的合作，共同构建隐私计算相关的信创生态，助力关键基础设施建设。

目前，数牍科技在通信、金融、互联网、汽车等多个行业领域进行了隐私计算的落地应用。今天主要针对金融领域的实践进行分享。数牍打造的隐私计算平台支持多方数据的联合分析、建模，支持包括引入期、成长期以及维护期在内的金融全生命周期的隐私计算技术与产品服务，在风控、营销、存客运营、集团内协作等场景帮助金融机构提升营销效率，风险可控，降低运营成本。下面我们结合非常具体的案例来介绍一些解决方案。

解决方案：银行和基金子公司协同

* 债券评级模型增强

在本案例中，某大型金融机构既具备银行又具备基金公司等多个独立法人企业，这些公司虽同属一个集团，但隶属不同法人，不能进行直接的数据互通。为了更好的发挥集团的整体数据优势，数牍科技帮助双方通过隐私计算，在不分享具体数据的前提下，打通基金公司与银行的数据与标签，结合银行关于企业、企业法人、关联企业等数据，以及第三方评估数据等，在多方原始数据不出库的情况下，分析债券对应的发债人和关联企业的信息，通过纵向联邦学习方法，从更多维度的信息构建债券信用评级模型，实现债券评级模型增强，辅助投资经理进行债券投资。

* 基金推荐模型

除去债券评级模型之外，基金公司也希望在银行的海量存量客户中，挖掘更多潜在用户。数牍科技通过充分结合基金公司的标签数据与银行的行为数据，基于联邦建模等方式，帮助客户进一步合规地挖掘基金产品的潜在购买人群。

除上述例子之外，数牍在银行的风控和监管领域、保险数字化运营等场景均有非常具体的落地案例。

典型案例：银行反洗钱模型

在反洗钱的场景中，银行反洗钱监测中心如果仅用自有的数据对洗钱客户的识别能力相对较弱，存在一定的局限性。例如，由于数据覆盖度较小且新的洗钱形式不断涌出，传统的模型的召回率和精确度也会偏低，可能会影响到整体的判断效果，从而降低信息报送和效率以及质量。在这个场景中，隐私计算技术可以使拥有高质量的运营商数据和银行数据，在保证双方数据不可见的前提下，实现联合的建模与计算。

在本案例中，数牍帮助银行客户引入运营商的数据，如异地跨国通话、访问违法网站、夜间跨境通话以及其他等50多个特征标签，通过隐私计算和联邦建模的方式，可以在保证数据不分享的前提下，提升整体的模型效果，达到50%以上的覆盖率的提高，实现了数据孤岛互联、隐私保护以及反洗钱业务提升的三者之间的平衡。

典型案例：保险企业数字化运营

另外一个案例，数牍为保险客户提供的企业数字化运营解决方案。保险公司通过短期小额险种积累了大量的存量客户，但是由于缺少对这些客户的理解，无法有效地运营这些存量客户。在本案例中，数牍科技为保险公司数字化赋能，通过隐私计算技术引入外部数据，例如运营商数据，将保险公司及运营商数据进行联合建模，在不分享具体用户信息的前提下，对海量存量客户进行有效分层运营。通过该方案，避免保险公司用户数据和外部数据交互过程中的商业价值流失，将整体客户投保率提升1.8倍以上。

以上就是数牍科技在隐私计算行业中的研究、应用经验及体会，我们希望更多的伙伴能够共同加入我们，共同为数据的安全协作保驾护航。

联系我们

关注【数牍科技】并点击“原文链接”获取更多行业/领域数牍隐私计算落地方案。

End

更多阅读

1. 1024，我们把话筒交给数牍的攻城狮

2. 报名开启 | 李开复、张亚勤等大咖齐聚MEET大会，数牍科技CEO宋一民受邀大会发言

3. 数牍科技入选2021隐私计算应用创新企业TOP10

继续阅读

阅读原文