2022年12月,中共中央、国务院印发的《关于构建数据基础制度更好发挥数据要素作用的意见》指出要“破除阻碍数据要素供给、流通、使用的体制机制障碍”,围绕数据资产建立规范数据交易与流通、数据产权分类等创新机制,同时要保障数据在使用、流通、供给全过程中的安全,推动数据的“可用不可见”。
目前,我国数据流通方式主要包括市场交易以及企业或政府部门数据公开。相比于传统的实体生产要素,数据是一种具有创新性、可传播性与可复制性的虚拟生产要素,在市场交易与流通方面法更为棘手。如何在保障隐私和安全的前提下促进数据联合利用,是数据发挥要素价值的关键。
为此,本文拟探讨一种数据交易的新方案——数据租赁(data tenancy)。该方案基于隐私技术技术设计出一套可溯源控制、确权登记的数据流通模式,确保数据资产交易的可追溯性与安全性。
我国数据流通的市场现状
01
与传统的技术、土地、资本、劳动力等生产要素不同,数据要素只有与实体经济进行深度有效的结合才能发挥与效用。数据若要实现“资源——资产——资金”这一路径转变,需满足三个核心条件:首先是企业拥有或控制数据资源,同时该类数据具备商业场景,可以获得预期经济收益;其次是数据产权明晰,能够合理估值,可以入表成为资产;最后是具备数据资产变现的场所或方法。
根据2023年3月国家互联网信息办公室发布的《数字中国发展报告(2022)》的调查,我国2022年末数据产量已超8.1ZB,同比增长超22%;在全球占有量超过10%,仅次于美国。此外,根据国家工业信息安全发展研究中心的测算,2022年我国数据市场交易规模超过700亿元人民币。当前数据流通可分为场外与场内两种交易模式,数据信托、数据空间及数据经纪人等新兴模式也在加速发育过程中。
场内数据流通市场:发展势头良好,交易模式有待突破。从2015年贵阳大数据交易所开始,截至2023年底,全国注册在案的数据交易所已近50家。虽然国内数据交易所的总体上发展势头良好,但由于配套产业与建设经验等方面存在不足,当前场内数据交易在规模上并不乐观。根据上海数据交易所研究院的报告,2022年的数据交易额场内占比不足2%,大部分交易所年均成交不到50笔,场内数据交易流通模式有待突破。
场外数据流通市场:落地场景多元化,流通半径较局限。从数据来源看,当前场外数据交易模式可分成两种:一种是基于自持数据或自身业务所产生的数据来进行上下游数据流通,如电商提供各行业品类的数据给线上客户;一种是通过多渠道收集数据(如与数据第三方合作、购买数据库、公开市场获得等方式),进而成为数据集成方来提供数据服务。总的来看,两种场外交易方式都存在“数据孤岛”现象,数据大多在较小范围内流通,难以充分发挥数据共享的作用。
新兴流通模式:交易方式不断创新,落地实践有待推广。通过借鉴成熟市场的发展经验,数据流通模式的创新层出不穷。不仅有引入“持牌上岗”的数据经纪人模式,借助市场中介的力量推动数据流通;也有构建数据空间模式来打造数据开放共享的安全环境,为企业间的技术合作与数据交流提供信任平台;还有积极探索数据信托业务的可行性模式,建立由被委托人行使监督职能的委托机制。虽然新兴的数据流通模式百花齐放,但形成适应国内市场特点并能够有效推广的成熟模式仍有待时日。
基于租赁模式进行数据流通
02
目前市场上的数据流通方式主要通过主体之间互相交易为主,即数据需求方向数据持有方支付一笔商定的金额后,前者直接获得后者的数据并对数据自由开展研究分析。尽管数据直接交易的方式能够有效促进数据流通,但依然存在两个明显的缺陷,导致数据在部分情景下难以充分流通。
首先,部分主体的数据中可能含有私人用户的隐私信息,而根据《个人信息保护法》《数据安全法》以及《网络安全法》的规定,将数据直接进行交易售卖将可能存在严重的法律风险。
其次,在商业竞争的背景下,数据持有方将核心数据直接交给对方的意愿不强,大多只交易部分敏感度低、价值效用小的数据,从而降低了数据流通的意义。
针对上述局限,本文提出一种既可保护隐私又能够审计的数据交易模式——数据租赁。在该模式下,数据需求方通过租赁的方式获得并使用数据持有方的数据,从而提高数据交易市场的效率和数据要素价值的发挥。
参照对固定资产租赁的传统理解 ,同时充分考虑各项保护隐私的法律法规以及数据资产的形态等因素,本文将数据租赁定义为:在双方约定的时间段里,出租数据方为承租数据方所设定的特殊计算任务提供自己所持有的数据,后者向前者支付一定的价格并拥有数据使用权。
数据租赁有三大特点:一是承租数据方不可直接读取出租数据方的数据,只能获得计算任务的最后结果;二是出租数据方可以根据承租数据方计算任务方案的难度、时间及数据稀缺性等,对数据租金进行报价;三是双方对计算过程共同监督,确保数据的运算过程按照事先的合同约定进行。
基于多方安全计算的租赁数据方案
03
基于多方安全计算的租赁数据方案可以通过秘密计算的方式来保护数据隐私,在各参与主体都同意数据共享的条件下,搭建一个半诚实模型,能够满足可审计、可监督、有效性及隐私性四个要求,同时借助区块链技术来避免违约行为出现。
◆参与主体
租赁数据方案里共有三类主体,分别为租赁平台、出租数据方与承租数据方。承租数据方通常也自持部分数据,同时打算通过支付租金的形式获得出租数据方的数据,进而结合多方数据来挖掘更精准的计算结果。承租数据方要向租赁平台与出租数据方事先披露其计算任务的具体信息,然后通过安全多方学习来运行计算。在一次租赁数据交易中,出租数据方根据计算方案中利用该数据的次数及复杂程度等情况向承租数据方收取租金。租赁平台的主要作用是对交易双方的信息进行撮合,同时对交易过程进行审计。
◆多方安全计算
多方安全计算是秘密计算应用路线中一种较为主流的方法,它可以把隐藏的计算价值部分与公开的信息数据进行剥离,在没有可信任第三方的前提下利用安全协议算法来实现事先约定的函数框架计算,以此达到“可算不可见”的目的。多方安全计算方案的底层算法一般采用秘密分享、同态加密等,同态加密法主要应用于两个参与主体及以上,秘密分享则应用于三个参与主体及以上。在实际操作中,一般会通过秘密分享与同态加密互相搭配来构建完整的计算方案。
秘密分享是基于密码学家阿迪·萨莫尔(Adi Shamir)所提出的(t,n)密钥共享门限方案演变而来,其核心思想是把数据任务分割为多份发送给其他参与主体,每个参与主体按照其持有的份额进行协作计算。由于参与主体无法获得整体数据,秘密分享方法可以以达到保护数据隐私的目的。
同态加密计算方法的基本思路相对直观,该方法要求所有参与主体把自身所持有的数据加密后发送到指定的第三方服务器,接着在第三方服务器上对加密的数据直接进行计算,再将计算结果发送给数据租赁方,最后对计算结果进行解密从而完成计算任务。在整个过程中均采用加密数据进行计算,服务器方看不到任何真实数据,数据租赁方也只能获得最后计算结果,无法看到中间步骤的具体信息。
◆租赁数据交易的具体步骤
在多方安全计算方法下,当出租数据方与承租数据方对计算任务方案及数据的数量与类型达成一致后,出租数据方按照合同要求将数据传输到多方安全计算的模型中,在计算结束后将结果直接转给承租数据方,出租数据方获得租金。在此过程中,承租数据方将不直接接触数据,从而保证了数据的私密性。
首先,由承租数据方用布尔电路或算术电路来表达计算目标任务,其他参与主体根据该电路方案在后续数据计算中进行输入。同时,承租数据方要计算出任务中的数值摘要并通过区块链上传,以方便在交易完成后进行审计。
随后,出租数据方通过秘密分享技术把数据转变成秘密份额后发送给其他参与主体,完成数据出租工作。如果承租数据方也提供部分自持数据参与计算,同样要将自持数据转变成秘密份额后发送给其他参与主体。在计算目标任务时,承租数据方和出租数据方将按照目标电路任务,通过安全多方学习方案来进行秘密份额交互利用与本地计算,输入的电路即为各主体所持有的份额。在计算方式上,各主体要按照门电路之间的相互关系进行电路层拆解,最终得出的电路层输出即为计算结果。
最后,出租数据方将计算结果以秘密份额的形式交给承租数据方,后者将秘密份额进行还原得到完整的计算结果,同时向出租数据方支付事先承诺的租金,租赁数据交易就此完成。
结语
04
基于多方学习模型设计的租赁数据模式是一种将数据流通过程与隐私计算技术相结合,能够同时满足可审计、可监督、有效性及隐私性等多项要求的数据交易方案。在实际场景中,金融机构数据库中存储大量的高敏感性的用户个人信息,基于这些个人隐私数据能够分析计算得出征信分数,但部分中小金融机构往往因为算力不足,把部分计算任务外包给第三方,进而容易导致自身敏感数据和客户信息泄露。通过多方学习模型设计的租赁数据方案,金融机构可以在不透露原文数据的前提下完成数运算,从而实现数据要素高效应用和保障数据安全双重目的。