数据流通技术工具
本章将对数据流通过程中某些环节涉及到的具体技术进行介绍。这些技术分别从不同的角度,对数据流通中的一些问题提出了解决方案。限于篇幅,主要从适用场景和技术方案概述切入,对各个技术的细节不作展开。在本章的最后,对上述技术进行了概括总结。
(一)同态加密
技术概述
同态加密是指对其加密数据进行处理得到一个输出,将此输出进行解密,其结果与用同一方法处理未加密原始数据得到的结果一致。
同态加密可以用以下的举例来说明:Alice买到了一大块金子,她想让工人把这块金子打造成一个项链。但是工人在打造的过程中有可能会偷金子,Alice可以通过以下这种方法让工人加工金子又不能偷走金子。
Alice将金子锁在一个密闭的盒子里面,这个盒子安装了一个手套。工人可以带着这个手套,对盒子内部的金子进行处理。但是盒子是锁着的,所以工人不仅拿不到金块,连处理过程中掉下的任何金子都拿不到。加工完成后。Alice拿回这个盒子,把锁打开,就得到了金子。
这里面的对应关系如下,盒子:加密算法;盒子上的锁:用户密钥;将金块放在盒子里面并且用锁锁上:将数据用同态加密方案进行加密;加工:应用同态特性,在无法取得数据的条件下直接对加密结果进行处理;开锁:对结果进行解密,直接得到处理后的结果。
与普通加密算法只关注数据存储安全不同,同态加密算法关注的是数据处理安全,提供对加密数据进行加法和乘法处理的功能。使用同态加密算法,不持有私钥的用户也可以对加密数据进行处理,处理过程不会泄露任何原始数据信息。同时,持有私钥的用户对处理过的数据进行解密后,可得到正确的处理结果。
同态加密算法从功能上可分为部分同态算法和全同态算法。所谓部分同态是指支持加法同态或者乘法同态或者两者都支持但是操作次数受限。而全同态算法则可简单理解为能不受限制地同时支持加法和乘法操作,从而完成各种加密后的运算(如加减乘除、多项式求值、指数、对数、三角函数等)。
利用同态加密,可以委托不信任的第三方对数据进行处理,而不泄露信息。因此,同态加密在云计算、电子商务、物联网等领域有重要应用。适用场景
同态加密在数据流通领域,包括数据共享和数据交易过程中,具有广阔应用前景。
如前文所述,在数据共享过程中需要对敏感数据进行脱敏处理,保证其不被泄露。同时,敏感信息本身具有分析和应用价值,若全部脱敏,将无法发挥其数据价值。同态加密技术为敏感数据隐私保护提供了一种新的解决思路,将数据中的敏感信息进行同态加密,但不影响其可操作性。
在数据流通场景中,数据需求方事先无法获知数据使用效果,因此无法评判数据价格的合理性。因此,在数据交易前,数据需求方可用部分加密数据进行计算,验证其可操作性及业务相关性,以此为基础,确定需求数据价格的合理性。技术方案
考虑数据流通过程中的委托计算场景。使用同态加密技术的委托计算场景涉及两类角色,数据持有方和数据处理方,其技术方案示意图3.1所示:
图3.1 同态加密技术方案示意图
数据持有方拥有原始数据,并选择需要保护的敏感属性。在本地生成公私钥对后,使用生成的用户公钥,同态加密原始数据中的敏感属性,得到密文文件。之后数据持有方将密文文件发送给数据处理方,数据处理方对密文文件进行同态操作,在明文数据信息不可知的情况下,生成密文统计结果,此结果和明文状态直接加密得到的处理结果一致。数据处理方得到密文统计结果后,将其返回给数据持有方。数据持有方接收到处理后的密文统计结果,使用用户私钥解密,获取明文统计结果。
- 技术发展趋势
目前单一的支持加法同态操作或者乘法同态操作的同态加密算法设计相对简单,比如Paillier算法,ElGamal算法等,这类算法在一些相对简单的数据分析场景中已足够支撑需求。但是从数据流通角度来看,数据处理的方式和场景将会越来越复杂,单一的加法同态或者乘法同态将无法满足要求。全同态算法将为数据加密操作提供完备的解决方案。然而全同态加密算法目前只是在理论层面论证可行性,其核心算法和性能问题尚未得到突破,当前存在密钥制作时间长以及制成的密钥过大等困难,工业界及密码学界仍在这一块进行积极的探索。
(二)零知识证明
- 技术概述
在一个零知识证明协议中,证明者向验证者证明一个声明的有效性,而不会泄露除了有效性之外任何信息。使用零知识证明,证明者无需任何事件相关数据向验证者证明事件的真实性。
图3.2 零知识证明思想原理示意图
Jean-Jacques Quisquater和Louis Guillou用一个关于洞穴的故事来解释零知识证明。在上图中,洞穴里有一个秘密,知道咒语的人能打开C和D之间的密门。但对任何人来说,两条通路都是死胡同。
假设P知道这个洞穴的秘密,她想对V证明这一点,但她不想泄露咒语。下面是她如何使V相信的过程:
1)V站在A点。
2)P一直走进洞穴,到达C或者D点。
3)在P消失在洞穴中之后,V走到B点。
4)V向P喊叫,要她: 从左通道出来,或者从右通道出来。
5)P答应,若有必要则用咒语打开密门。
6)P和V重复步骤(1)-(5)多次。
若多次重复中,若每次P都从V要求的通道中出来,则能说明P确实知道咒语,并且V不知道咒语的具体内容。
在分布式账本中,需满足群体共识特性,即各方通过共识机制确认数据的合法性,而能达成共识的前提是所有数据在所有方透明可见,其中包括了个人或机构的隐私数据。若不对共识数据做任何处理,将会导致个体隐私数据信息的泄露,引发个体隐私和群体共识的矛盾。
零知识证明能提升数据合法性的隐性共识,是解决该矛盾最强大的工具。零知识证明可以让验证方既不知道数据具体内容,又能确认该内容的是否有效或合法,其应用包括交易有效性证明、供应链金融、数据防伪溯源等。
适用场景
零知识证明可在证明者不提供事件相关信息的前提下,使验证者相信某个论断是正确的。
数据流通各环节中,需要为数据共享或交易双方提供数据有效性及正确性的认证服务,证明数据流转的安全性和可信性,保证整个数据流通的安全可追溯。但在认证过程中,证明方不希望暴露己方数据信息,需要不泄露真实数据的有效性认证方式。技术方案
考虑数据流通过程中的分布式财务数据共享场景。企业可以利用分布式账本进行准确、透明的财务数据记录。各企业的财政数据上链存储,允许跨组织进行标准财务记录,改进财务报告并降低审计成本。
整个过程中,每个企业的财政数据属于隐私信息,各企业希望其财政数据对其余企业不可见。但同时,需对财政数据的正确性进行验证。使用零知识证明技术可为各企业间提供不泄露隐私的认证服务,使其余方在数据真实信息不可知的前提下验证数据的正确性。其技术方案示意图如下:
图3.3 零知识证明技术方案示意图
在分布式账本中,企业需将财政数据加密上链存储,包括其资产负债表、上税金额等,同时生成零知识证明π,π能证明:资产负债表中资产合计及负债与所有者权益合计等于对应各项相加总和;企业上税金额等于企业利润总额乘以所得税税率金额。
其余方计算并验证π是否成立,验证过程中不泄露企业财政数据。若零知识证明成立,说明企业的财政数据正确可信。验证过程中,需保证只有数据持有企业能生成此零知识证明。
- 技术发展趋势
零知识证明在功能上分为对特定场景的证明方案与通用场景的证明方案。随着数据流通场景的不断复杂化和多样化,通用场景零知识证明将逐渐成为更合适的技术,结合智能合约能更好的保护数据流通中的各类隐私问题。
通用场景的零知识方案理论已经较为成熟,目前学术界大部分工作集中在性能的优化上,在未来的几年中将会逐渐商用。
(三)群签名
技术概述
群签名技术是一种允许一个群体中的任意成员以匿名方式代表整个群体对消息进行签名,并可公开验证的机制。
由于群签名能为签署者提供较好的匿名性,同时在必要时又通过可信管理方追溯签署者身份,使得群签名技术在诸如共享数据认证,身份认证及金融合同签署等事务中,发挥重要作用。适用场景
群签名在各个方面有着广泛的应用。而且,随着各种网络终端计算能力的提升,原来受效率限制的群签名方案现在也开始能适应于某些应用。因此,群签名的应用研究也越来越受到大家的重视。当前,群签名比较多地应用到了下面两个方面。
2.1隐私保护
群签名被广泛的应用到了各种隐私保护场景中。如大数据应用中的身份和数据的访问认证。在网络的匿名认证中,虽然存在一些匿名认证协议,但是一般情况下,这些匿名认证协议并不提供追责功能。此外,由于大数据应用一般是多域环境,各个域之间很难统一身份供应和访问认证方式。因此,传统的认证协议并不适用大数据应用。而许多文献研究表明,基于群签名的协议更适合于大数据应用中的身份认证和管理。
2.2电子货币
与传统货币不同的是:电子货币仅仅是一串数据,所以它能被复制。基于此银行发行电子货币给用户时,必须在电子货币中嵌入用户身份,确保如果用户非法复制时能被追责。另一方面,要保证合法使用电子货币的用户在使用过程中不泄露其身份。鉴于这两方面的原因,群签名的匿名性和可追踪性正是适合于构建电子货币的密码工具。技术方案
基于群签名技术的身份认证方案如图3.4所示。
图3.4基于群签名的身份认证模型
群签名方案的实施由群成员和群管理者共同完成,在一个群签名方案中,群管理者创建群,并生成群公钥和群私钥。群公钥公开给所有用户,群私钥由群管理者自己持有。群成员申请加入群后,群管理者向其颁发群证书,并生成成员公钥和私钥给到群成员。群成员可利用成员私钥对消息进行签名,其他用户可用群公钥验证该消息来自于该群,但不知具体签名者。只有群管理者可使用群私钥追溯签名者身份。
- 技术发展趋势
群签名广泛应用在网络安全中的在线匿名通信,隐私保护和匿名认证,以及金融和管理等多个方面。
现有的基于群签名的电子货币方案仍然面临很多困难。诸如,提款协议的效率,如何平衡支付协议运行时的匿名性和可追踪性,以及如何有效地实现传递性等,都是需要深入研究的内容。
(四)环签名
技术概述
环签名是一种简化的群签名,环签名中只有环成员没有管理者,不需要环成员间的合作。在环签名中不需要创建环,改变或者删除环,也不需要分配指定的密钥,无法撤销签名者的匿名性,除非签名者自己想暴露身份。环签名在强调匿名性的同时,增加了审计监管的难度。适用场景
保障安全是数据流通的关键屏障。必须通过技术手段保障流通数据安全与用户隐私安全。由于环签名具有无条件匿名性,对于数据流通中的身份隐私保护可以有应用。
(1)云存储数据分享的身份隐私保护。数据分享是云存储的一个重要功能,实现数据分享的身份隐私保护是环签名的重要应用领域。
(2)用于电子现金或电子投票系统。将环签名方案用于电子现金或电子投票系统,不仅效率高而且安全性也高。技术方案
基于环签名的数据流通认证方案如图3.5所示,用户加入一个环,当需要签署数据时,用自己的私钥和任意多个环成员的公钥为消息生成签名。验签者根据环签名和消息,验证签名是否是环中成员所签。如果有效就接收,如果无效就丢弃。对方对签名进行验证。
图3.5 基于环签名的身份认证方案
- 技术发展趋势
自从环签名的概念被形式化之后,环签名有了长足的发展,各种具有不同应用背景的环签名方案被陆续提出,许多与环签名有关的特殊性质也被引入,从而得到了一些具有较好性质的环签名方案。同时,环签名在密码学中的应用也引起了研究者很大的兴趣,在数据流通中的应用也越来越广泛。
环签名今后的发展趋势主要有:
(1)为环签名方案定义更好的、更强的安全性模型,以便于在更为宽松的环境下,以更自由的方式产生环签名或者利用环签名来实现更好的方案。
(2)环签名与群签名的结合,使之优势互补。环签名的自发性的是一个非常好的性质,而其匿名性较强,易受不诚实签名者的攻击。群签名具有可撤销的匿名性,但是群的形成过程不自由,需要大量的交互信息。因此,在数据流通场景中,可以考虑将环签名与群签名的优势结合起来,形成一种新的性质更好的身份认证方案。
(3)环签名与组合公钥密码体制(CPK)结合。组合公钥密码体制具有灵活性高、用户空间大、效率高、可离线认证的特点,有学者基于CPK改进环签名方案,使认证具备匿名性的同时,具有较高的扩展性和效率。但目前这方面的研究还比较初步,还需要更深入的去研究。
(五)差分隐私
技术概述
差分隐私的基本思想是对原始数据的转换或者是对统计结果添加噪音来达到隐私保护效果,相对于传统的隐私保护模型,差分隐私具有以下两个优点:不关心攻击者所具有的背景知识;具有严谨的统计学模型,能够提供可量化的隐私保证。
按照隐私保护技术所处的数据流通环节的不同,差分隐私技术可分为以下两类:
(1)中心化差分隐私技术
将原始数据集中到一个数据中心,然后发布满足差分隐私的相关统计信息,该技术适用于数据流通环节中的数据输出场景。目前中心化的差分技术的研究主要围绕基于差分隐私的数据发布、面向数据挖掘的差分隐私保护及基于差分隐私的查询处理等方向展开。
(2)本地化差分隐私技术
将数据的隐私化处理过程转移到每个用户上,在用户端处理和保护个人敏感信息,该技术适用于数据流通环节中的数据采集场景。目前,本地化差分技术在工业界已经得到运用。适用场景
差分隐私已被证明在一定情况下会降低数据的可用性,因此需将差分隐私用在合适的场景中,目前学术界与工业界已证明差分隐私在以下三种场景中优于目前已有的方法:
(1)数据量较大,且数据维数较低时应优先使用差分隐私保护用户的数据。
(2)数据的使用者众多时,应使用差分隐私技术对用户的数据进行保护,可应对具有任意知识背景的攻击者。
(3)数据非常敏感时,可通过差分隐私技术对数据进行处理后,提供给数据需求方使用。技术方案
面向公众公开发布数据或数据本身非常敏感时,如果直接向使用者输出数据,可能带来严重的隐私泄露问题,因此在输出数据应集中利用差分隐私技术对数据进行保护。
图3.6 数据输出差分隐私保护技术方案
如图3.6所示,服务端在将数据提供给数据使用方之前,需用差分技术对数据集中进行扰动处理,添加拉普拉斯噪声或指数噪声,保证数据可用性的同时,确保个体的隐私信息不被泄露。
- 技术发展趋势
结合现有研究,我们认为差分隐私保护技术还有很多挑战性问题亟待解决。
一是复杂数据的差分隐私保护。在实际应用中存在许多复杂的数据集,其中的记录之间往往存在某种联系.然而目前的差分隐私保护方法并未考虑数据之间的联系。
二是连续发布的数据场景的隐私保护。在连续发布的数据场景,随着更新次数的增加,所发布数据的可用性会越来越低,累积误差越来越大,如何有效地控制累积误差是一个值得研究的问题。
差分隐私保护是目前数据安全领域的研究热点之一,取得了丰富的研究成果,也在若干实际场景得到了应用,后续随着差分隐私技术的进一步发展,差分隐私会在越来越多的场景中发挥更大的价值。
(六)数据标识技术
技术概述
个人信息由唯一辨别个人的标识数据与无法辨别具体某个人的特征数据组成。数据标记技术的原理,是通过处理标识数据,保留特征数据的方法,实现数据流通过程中实现既保护个人信息,又实现数据流通的解决方案。
该技术能提供三种基本功能:
(1)相同数据标识在不同方不同结果的不可逆转换;
(2)相同数据标识在完成转换后的第三方关联性匹配;
(3)支持启动第三方关联性匹配所需的合法授权接口。使用场景
eID(公民网络电子身份标识)算法具有的转化与匹配两种算法,适合与个人信息相关数据流通的金融风控场景中使用。金融风控需要在授权范围内对个人信息进行调查或取证。确保数据供应方的个人信息合法流通至数据需求方,对需求侧产生正面的商业价值是数据标识标记技术的主要应用场景。技术方案
数据标识标记技术由两个核心功能组成,分别是流通控制机与标识算法机。其中,流通控制机控制整体流通流程,算法机利用负责明文标识转换与不同流通参与方之间的转换后标识的关联性匹配。具体实现分为以下步骤:
1、供应方将分离标识数据与特征数据,并将标识数据通过算法机进行加密处理。此步骤完成了存量个人信息的匿名化处理工作。
2、数据需求方确认需要查询的个人标识,通过算法机获取对应的加密后标识。
3、数据需求方将处理后的标识信息传至流通控制机,控制及等待被查询个人的授权,在通过授权之后向供方侧请求对应标识的特征数据。获取过程中,控制机将确认具体数据供方标识并通过算法机获取关联性匹配后的转换结果,最终在供方侧获取标识对应的特征数据,完成数据流通。技术发展趋势
在我国,数据标识技术已经用于线上身份识别,基于加密与匹配算法的基础,结合数据流通的流程,形成了针对个人信息的解决方案,是平衡个人信息相关数据流通场景的有效解决方案。
(七)小结
下面,对以上所涉及到的部分技术工具从原理概述、技术特点、适用领域、技术成熟度等角度进行对比总结。
表2 数据流通技术工具对比表
技术工具 | 同态加密 | 零知识证明 | 群签名 | 环签名 | 差分隐私 |
原理概述 | 对原始数据进行加密,使得加密数据和原始数据进行相同处理时,结果相同 | 证明者向验证者证明一个声明的有效性,而不会泄露除了有效性之外任何信息 | 允许群体中的任意成员以匿名方式代表整个群体对消息进行签名,并可公开验证 | 一种简化的群签名,环签名中只有环成员没有管理者,不需要环成员间的合作 | 通过添加噪音来达到隐私保护效果 |
技术特点 | 可在不解密的情况下对密文进行计算和分析 | 证明者无需任何事件相关数据,就能向验证者证明事件的真实可靠 | 能为签名者提供较好的匿名性,同时在必要时又通过可信管理方追溯签署者身份 | 不需要分配指定的密钥,无法撤销签名者的匿名性 | 具有严谨的统计学模型,能够提供可量化的隐私保证 |
适用领域 | 云计算、电子商务、物联网等 | 电子商务、金融、银行、电子货币等 | 公共资源管理、电子商务、金融等 | 云存储、电子货币等 | 电子商务、物联网等 |
技术成熟度 | 全同态加密理论上可行,商用化程度还需提高 | 通用场景的零知识证明理论较为成熟,性能优化后逐渐商用 | 广泛应用在网络安全中,需要提高计算效率 | 实际应用还较少 | 已经得到成熟应用,但复杂性需提高 |
还没有评论,来说两句吧...