现今,数据已然成为了比肩石油的基础性关键战略资源,正颠覆各个行业的发展模式。随着数字经济的建设以及数据产业市场规模的迅速扩大,数据在各行业领域不断地产生、流动、交换。
众所周知,数据共享流通是释放数据价值的关键环节,而随着数据交换、共享力度的加大,其权属、合规性、安全性等诸多险开始显现,出现了数据共享难以及隐私无法得到保障等问题。如何在保证安全、隐私的前提下,实现数据的共享、流通,释放数据的价值是亟待解决的难题。
数据共享业务现状
目前的各个行业、领域都存在数据拥有方因为众多因素而导致无法顺利地进行数据共享的问题。包括:
“不愿”共享,数据拥有方无法从共享数据中获益,行业缺乏数据价值评估体系,同时对各个共享参与方的激励缺失。
“不敢”共享,数据的安全性和隐私性诉求无法得到满足,数据一旦离开原使用场景便会变得不可控,存在不当使用或滥用风险,危害自身利益。同时,缺乏共享数据实时监测手段以及数据使用授权机制,也存在着无法获取共享范围、共享参与方合法性问题。
“不易”共享,各机构信息标准不统一。不能获得持续、多源的、标准化的数据资源,阻碍了数据交换以及共享效率的提升。
针对当前数据共享面临的三个痛点,业内提出通过区块链+隐私计算技术解决这些问题。
1 隐私计算
隐私计算解决最核心的数据隐私问题,排除数据持有方“不敢”共享的顾虑。隐私计算技术包括安全多方计算技术(MPC)、可信执行环境(TEE)、联邦学习(FL)这三类技术实现隐私数据的安全共享。
其中,安全多方计算主要解决在无可信第三方的情况下利用多方数据安全地进行计算,保证各数据拥有方除了计算结果以外不暴露其他任何数据,用于进行隐私的算术运算、集合运算以及统计分析。可信执行环境主要依赖可信硬件,通过借助CPU芯片构建一个可信的执行环境,可以在该环境中对加密数据进行解密计算,外部(操作系统,BIOS等)无法获取该数据,从而保证原始数据的隐私安全。
实际应用中,需要在安全多方计算或TEE之上封装应用协议,才能在具体场景中利用隐私计算技术,场景包括联合查询、联合统计、联合建模、联合预测。
联合查询:隐私集合运算,包括隐匿查询、隐私交集、差集和并集等运算。
联合统计:数值运算,包括数据的隐私加减乘除、平均数和方差等运算。
联合建模:隐私计算建模能力,支持多方不暴露隐私数据情况下联合训练模型。
联合预测:隐私计算的预测能力,支持参与方离线执行或在线预测训练好的模型。
2 区块链
区块链技术提供共治共管能力,负责整个数据流通过程中各个数据参与方、数据使用方以及数据流通基础设施运营方之间的可信协作。区块链为数据共享过程中的三个痛点均起到了关键作用。
解决“不愿”共享问题:区块链联盟治理提供数据流通过程中各个参与方之间的协同治理机制以及数据要素可信数据流通的服务管理机制,通过基于区块链智能合约的投票策略进行联盟参与方利润分配参数调整、联盟成员准入退出、系统升级改造等事务管理工作,解决数据共享者的激励问题。
解决“不敢”共享问题:与隐私计算通过直接解决数据隐私问题、从而排除“不敢”共享的顾虑有所不同,区块链是保障数据流转过程中,数据使用、授权、监管的真实性,来帮助消除数据方因担心数据滥用、数据未经授权、伪造授权使用而带来的“不敢”共享的顾虑。通过智能合约确权授权服务提供各个数据的权属关系确认以及权限控制能力,并结合数字身份等有效机制确保数据的确权和授权精确到人;追溯审计服务支持可信数据流通过程中的关键步骤上链登记,同时基于可信数据提供多维度、全方位的记录审计能力,方便监管机构对数据流通进行全流程监管查询。
解决“不易”共享问题:区块链技术提供链上数据目录+数据流通任务生命周期管理等能力,为共享过程提供便捷检索和顺畅协作服务。其中链上数据目录记录了所有参与数据流通的数据的元信息,包括数据名称、所属单位、访问方式、发布时间,借助区块链不可篡改的特性提供可信数据的检索、分类、校验等服务;数据流通任务生命周期管理包括分布式隐私计算任务的生命周期管理、任务状态管理、参与方管理等。
区块链提供了共享安全性以及可信的存储,引入数据共享合约实现数据链上精准授权,以及提供数据供需撮合,记录收授、予取的流转交换记录。通过区块链完成数据使用凭证颁发,撤销,使用过程中的纠纷仲裁。
数据共享的流程
上面从宏观上介绍了组成基于区块链的数据共享平台的两个核心技术,以下从共享流程展开,以流程来串起整个技术脉络。
概要地讲,区块链提供可信元信息存储媒介,通过构建一个数据协作网络,在网络之上建模、实现业务共享流程。通过构建业务计算模型,模型按链上元信息编程,模型随流程流转,使用本地数据执行,在流程运行、流转中完成共享目标。过程中不同机构的数据不需出库、仅计算结果进行共享和传递。
1 参与者角色
数据提供方,数据的所有者。数据提供方将本地用户的数据经过密码学进行处理。
发起方,共享结果需求者。向平台提供共享任务请求。
参与方,指数据交换共享任务实际执行者,自己也提供本地数据参与计算。
协调者,计算任务的协调者,调度流程,计算任务执行。
在一次共享任务流转中,数据提供方,参与方各自可以有一个或多个,协调者必须参与。
2 共享流程
基于区块链的数据共享平台为各种数据源构建一套在网络中协作、共享的数据表示、索引、定位、查询、交换和数据追溯审计的统一实现标准,并提供业务流程定制等能力,支持快速开发、部署和实现共享业务、开展业务合作,实现机构间数据的可信互联互通,解决数据协作过程中的安全隐私问题。
流程分为数据提供方的发布和数据需求方的获取使用,整个过程分两部分:
(1)数据提供方的发布流程
导入:数据上传至本地数据共享节点。导入提供了数据管理的需求,导入过程会对数据进行统一的表示。根据导入的数据类型不同,进行不同的处理,会有分片,文件系统服务。
命名:通过自描述的数据结构,形成网络唯一的ID,也提供文件系统路径的概念。提供数据在网络中的定位、查找能力。
发布:发布可共享数据的元信息(如数据标题、数据使用描述等)至区块链,可为某些机构设置默认的数据访问权限。
同步:将数据元信息同步至基于区块链的数据共享平台,基于区块链的数据共享平台是链上数据汇集的集合,任意方可查询,获取此处的数据。
(2)数据需求方的获取流程
需求方获取数据,编排业务流程,启动数据共享,节点会根据流程的指示分派共享任务,同时节点的虚拟机会加载业务计算模型,利用本地数据执行计算逻辑。
检索:通过基于区块链的数据共享平台检索所需的数据,包括数据的统一描述以及链上元数据信息,这些信息构建了检索的索引。
请求:请求相关数据的访问凭证Token,提供平台内的积分机制,根据数据发布方式,请求数据时会进行积分转移、数据授权记录上链。当数据是授权访问时需要向数据提供方发起数据访问申请,获得数据提供方审核后智能合约颁发的Token。
获取:数据请求方通过自身的业务定制流程以及计算模型,根据流程流转到不同的机构,通过网络的节点ID以及获取到的Token向提供方获取数据,基于区块链的数据共享平台点对点传输数据或计算结果。
使用:计算模型会使用授权得到的或者积分购买到的数据,通过加载模型来使用本方数据,计算得到结果。
总结
区块链和隐私计算技术尽管发展迅速,但是相关的应用落地仍然不足,目前的数据流通方式仍以原始数据传输的方式为主,数据隐私安全问题亟需解决。数据流通行业从业务发展、技术演进、政策及标准的制定等方面都呈现出快速发展的形态。数据价值要能够最大限度地被挖掘,数据就必须进行充分的流通,传统数据处理技术在隐私安全方面做得不够,一定程度上制约了数据流通,随着区块链、隐私计算、大数据等多方可信协作和数据处理技术的不断发展,以及国家政策法规、标准的不断完善,数据的安全共享、流通也将逐步得到解决,数据价值也将逐步得到释放。
作者 | 高文俊
视觉 | 王朋玉
统筹 | 祖德光
转载自:中国光大银行科技创新实验室
风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。