一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于区块链智能合约的数据价值评估方法

2022-06-08 13:12:46 来源:中国专利 TAG:


1.本发明涉及无形资产评估领域领域,特别涉及一种基于区块链智能合约的数据价值评估方法。


背景技术:

2.近年来,大数据走向资源化、资产化、资本化已是大势所趋。传统的数据共享交易平台通常依赖于一个可信的代理,不仅未考虑数据的安全性和质量,而且从买卖双方等共享主体角度而言,也缺乏高效的数据交换机制和合理的数据定价机制。因此,传统的数据共享交易平台容易产生数据泄漏侵权、难以实时共享和错误估算数据价值等问题,直接降低了数据持有方和数据需求方的共享积极性,影响了数据资产化和资本化的发展进程。


技术实现要素:

3.为了解决现有技术中存在的上数据技术问题,本发明提供了一种基于区块链智能合约的数据价值评估方法。其主要基于区块链数据交易平台,从数据的隐私损失和质量衰减角度建立两种分别针对数据持有方和数据需求方的双边定价机制,并结合智能合约和代理重加密技术应用在交易流程中,达到互不信任的用户在数据的安全交易过程中自由选择交易对象并讨价还价的效果。
4.本发明的目的通过以下技术方案实现:
5.一种基于区块链智能合约的数据价值评估方法,包括以下步骤:
6.步骤1:数据持有方注册持有数据的摘要信息至区块链,基于隐私损失定价机制对持有数据进行价值评估;
7.步骤2:数据需求方初始化数据需求。愿意参与交易的数据需求方提交押金,更新至候选交易队列;
8.步骤3:数据需求方计算需求描述与候选队列中数据持有方的数据摘要之间的短文本相似度并参考持有方历史表现,选择最终交易对象,由智能合约通知选中的数据持有方交付数据;
9.步骤4:数据持有方将不存在相同哈希存储路径的数据上传到ipfs,并对存储路径addpi代理重加密得到encaddpi。数据需求方从秘钥生成中心kgc拿到重加密私钥k
do-》dr
解密encaddpi,从ipfs上下载数据datai;
10.步骤5:数据需求方在使用数据之后,调用基于数据质量衰减的定价机制的智能合约statecycle对数据集价值评估并进行结算。
11.进一步的,步骤1中所述的基于数据隐私损失定价机制如下:
12.假设给定同一个数据集中任意两个数据元组d(r)和d

(r),利用集对分析将任意两个数据元组建立同、异、反的联系数,再通过集对逻辑联结方法对数据进行有效的隐私度量,再将其隐私损失映射到定价函数上。
13.进一步的,所述的基于数据隐私损失定价机制具体为:
14.步骤1、衡量数据集或其子集的隐私损失
15.取属性值中最大值maxai、实际值ai、最小值minai,根据这个三个值构造出三元区间,定义形式如下:
16.[ai]=[minai,ai,maxai]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0017]
三元区间中的maxai表示区间的上限,minai表示区间的下限,ai是区间上最可能取的值,即信息偏好;
[0018]
对于一个元组集中任意一个属性的联系数可以定义为:
[0019][0020]
其中,当ai≠0时有:
[0021][0022]
当ai=0时有:
[0023][0024]
对每个元组中属性得到的联系数,进行集结;
[0025]
经过集结的平均联系数,通过定义联系数势和记分函数进行度量;在联系数中,分别表示为:
[0026][0027]
s(μ)=a
a-caꢀꢀꢀꢀ
(6)
[0028]
联系数势shi(μ)或者记分函数s(μ)反映了数据元组之间的联系趋势;shi(μ)>1时,表示元组隐私损失较高;shi(μ)≥1时,表示元组隐私损失较低;记分函数s(μ)反映了交易数据集信息之间的联系变化趋势,元组之间联系的紧密程度与记分函数值呈正相关;
[0029]
第i个元组的信息泄露集对势熵表示为:
[0030]hshi
(μi)=-shi(μi)log2shi(μi)
ꢀꢀꢀꢀ
(7)
[0031]
第i个元组的信息泄露集对记分函数熵表示为:
[0032]
hs(μi)=-s(μi)log2s(μi)
ꢀꢀꢀꢀ
(8)
[0033]
由于数据集中n个元组的隐私泄露是等概率的,均为1/n,所以数据集的信息识别最大熵为:
[0034]hmax
(μi)=log2n
ꢀꢀꢀꢀ
(9)
[0035]
采用相对信息泄露集对势熵l
shi
(μi)和相对信息泄露集对积分函数熵ls(μi)来衡量数据集中的隐私损失;因此,每个元组的相对信息泄露集对势熵和集对记分函数熵为:
[0036][0037][0038]
lshi(μi)或ls(μi)反映了数据集信息的泄露程度,它们的值越大信息泄露越多,数据集的隐私损失越大。因此,数据集隐私损失值θi表示为:
[0039][0040]
其中,n为数据元组的个数;
[0041]
步骤2、建立基于量化后的隐私损失的定价函数,将其映射为价格
[0042]
基于数据隐私损失的定价函数公式如下:
[0043]
pr(d)=lop(θ)
ꢀꢀꢀꢀ
(13)
[0044]
这里d代表数据集,θ代表数据集的隐私损失值,lop(θ)是一个非递减函数,应该满足一下它条件:
[0045][0046][0047]
进一步的,所述步骤5中,基于数据隐私损失定价机制具体为:
[0048]
步骤1、摘要信息准确度评估
[0049]
数据需求方在预览数据内容后,评估摘要信息与数据内容相匹配的程度,摘要准确度评估得分表示为ssd(ssd∈[0,1]);
[0050]
步骤2、计算数据质量衰减
[0051]
从数据新鲜度的角度出发,建立具体的数据质量衰减函数如下:
[0052]
ε(t;ρ)=e-ρt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0053]
其中t≥0是数据产生到交易的时间间隔,ρ为时间衰减率;
[0054]
建立的数据质量衰减函数ε(t)满足以下性质:
[0055]
(1)ε(t)≥0,即数据质量是非负;
[0056]
(2)ε(t)与时间呈负相关,即
[0057]
(3)ε(t)是凸函数;
[0058]
步骤3、计算最终价格
[0059]
数据需求方通过智能合约将摘要信息准确度和数据质量衰减结果写入区块链中,再由智能合约计算出数据最终的价值:
[0060]
fpr=(α1ssd α2ε(t;ρ)*pr(d)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)。
[0061]
藉由上述技术方案,本发明提供的有益效果如下:
[0062]
(1)采用从数据隐私损失和质量衰减两个角度建立的双边定价机制,对数据进行公平合理的价值评估,合理地实现数据资产化,加紧数据资产与其价值之间的连接,并且兼顾数据持有方和数据需求方,达到“讨价还价”的效果,平衡买卖双方在数据交易过程中的定价地位,有效提高了双方的交易积极性。
[0063]
(2)使用区块链上的智能合约充当可信第三方,对数据价值进行自动评估,并在存
储及交付数据的过程使用代理重加密技术,提高了数据在交易过程中的安全性,免去买卖双方在数据交付过程中的后顾之忧,有利于达成交易。
附图说明
[0064]
图1为本发明实施例提供的一种基于区块链智能合约的数据价值评估方法的数据交互流程图;
[0065]
图2为本发明实施例提供的使用双边定价机制的区块链交易系统的框架组成图;
[0066]
图3a-图3d为本发明实施例提供的uci数据集在不同比例下的数据子集下的隐私损失衡量图;
[0067]
图4为本发明实施例提供的数据集heart disease及其两个子集基于无套利定价函数得出的价格图;
[0068]
图5a-图5d为本发明实施例提供的基于数据隐私损失定价机制中由无套利定价函数对uci数据集的定价图;
[0069]
图6a-图6i为本发明实施例提供的基于质量衰减对两幅不同时间人脸图像之间相似度和在相同相似阈值κ下精确度的计算图。
具体实施方式
[0070]
下面结合附图对本发明作进一步说明。
[0071]
如图1和2所示,本发明的基于区块链智能合约的数据价值评估方法,应用于以区块链技术为核心的数据交易平台,其流程步骤包括:
[0072]
步骤1、注册数据信息和初始价值评估
[0073]
数据持有方调用智能合约datadesc将数据商品的摘要信息写入区块链,再基于数据隐私损失定价机制对数据进行价值评估,完成双方交易中的“讨价”。在这个过程中,只有数据持有方能调用智能合约privacyloss,避免数据持有方为骗取利润而篡改数据价格,进而确保他不会有欺骗行为。
[0074]
步骤2、数据需求方提交数据购买需求
[0075]
数据需求方通过智能合约initrequest提交数据购买请求。数据持有方查看其数据需求描述,决定是否参与该次交易。数据持有方如果有交易意愿,则将其identityid和数据唯一标识符添加到候选候选队列candidatearray中,并实时更新候选队列状态和候选人数candidatenum。为了保证双方的利益,参与请求的数据持有方需要提交押金。如果整个交易过程正常,押金将在交易完成后退还。
[0076]
步骤3、买卖双方正式建立交易
[0077]
数据需求方计算需求描述与候选队列中各数据持有方的数据摘要之间的短文本相似度,返回根据相似度由大到小排序后的结果并结合数据持有方历史交易表现,选择最终交易的对象。最后,datauidlist记录了数据需求方最终选择的数据集的列表,由智能合约通知选中的数据持有方交付数据。该步骤中的参数(需求描述和数据商品的摘要信息)由于已经提前上传至区块链中,数据需求方不能进行篡改,只能按照规则调用查看。
[0078]
步骤4、交付数据
[0079]
数据持有方将数据上传到ipfs以获取数据的哈希存储路径addpi。如果ipfs中已
经存在相同哈希存储路径的数据,那么ipfs将会拒绝存储。同时,数据持有方可以调用秘钥生成中心kgc来生成一对通信的公钥-私钥pki,ski用于数据的代理重加密。数据持有方采用私钥ski加密存储路径addpi得到encaddpi,将其上传至智能合约。此外,数据持有方将向密钥生成中心(kgc)请求数据需求方的公钥,将自己的私钥和数据需求方的公钥生成重加密秘钥k
do-》dr
。然后,数据需求方从智能合约处得到addpi,向秘钥生成中心(kgc)请求重加密秘钥k
do-》dr
解密encaddpi,获得数据在ipfs上的存储路径addpi。最后,从ipfs上下载数据datai。
[0080]
步骤5、交易结算
[0081]
最后是交易结算阶段,候选队列中的数据持有方无论是否被选中参与正式交易都将收到返回的押金。数据需求方在使用数据之后,调用智能合约statecycle利用基于数据质量衰减定价机制对选择的数据集进行评估,完成数据交易中的“还价”环节,公正合理的得到数据商品的最终定价。最后,数据持有方将收到tc=desposit dprice。
[0082]
进一步地,所述的基于数据隐私损失定价机制的具体方法为:
[0083]
假设给定同一个数据集中任意两个数据元组d(r)和d

(r),它们仅仅在一个或者多个属性上的数据值有所不同。利用集对分析将任意两个数据元组建立同、异、反的联系数,再通过集对逻辑联结方法(合取和析取)对数据进行有效的隐私度量,再将其隐私损失映射到定价函数上。
[0084]
步骤1、衡量数据集或其子集的隐私损失
[0085]
为了防止起始值较大或较小的属性相比较时对权值的影响较大,取属性值中最大值maxai、实际值ai、最小值minai,根据这个三个值构造出三元区间,定义形式如下:
[0086]
[ai]=[minai,ai,maxai]
ꢀꢀꢀꢀ
(1)
[0087]
三元区间中的maxai表示区间的上限,minai表示区间的下限,ai是区间上最可能取的值,即信息偏好。
[0088]
对于一个元组集中任意一个属性的联系数可以定义为:
[0089][0090]
其中,当ai≠0时有:
[0091][0092]
当ai=0时有:
[0093][0094]
对每个元组中属性得到的联系数,进行集结,常见的数据信息集结方法主要有:平均值或者集对逻辑联结方法。
[0095]
经过集结的平均联系数,可以通过定义联系数势和记分函数进行度量。在联系数中,它们分别表示为:
[0096][0097]
s(μ)=a
a-caꢀꢀꢀꢀ
(6)
[0098]
联系数势shi(μ)或者记分函数s(μ)反映了数据元组之间的联系趋势。shi(μ)>1时,表示元组隐私损失较高;shi(μ)≥1时,表示元组隐私损失较低。记分函数s(μ)反映了交易数据集信息之间的联系变化趋势,元组之间联系的紧密程度与记分函数值呈正相关。
[0099]
第i个元组的信息泄露集对势熵表示为:
[0100]hshi
(μi)=-shi(μi)log2shi(μi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0101]
第i个元组的信息泄露集对记分函数熵表示为:
[0102]hs
(μi)=-s(μi)log2s(μi)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0103]
由于数据集中n个元组的隐私泄露是等概率的,均为1/n,所以数据集的信息识别最大熵为:
[0104]hmax
(μi)=log2n
ꢀꢀꢀꢀꢀꢀꢀ
(9)
[0105]
本技术采用相对信息泄露集对势熵l
shi
(μi)和相对信息泄露集对积分函数熵ls(μi)来衡量数据集中的隐私损失。因此,每个元组的相对信息泄露集对势熵和集对记分函数熵为:
[0106][0107][0108]
l
shi
(μi)或ls(μi)反映了数据集信息的泄露程度,它们的值越大信息泄露越多,数据集的隐私损失越大。因此,数据集隐私损失值θi表示为:
[0109][0110]
其中,n为数据元组的个数。
[0111]
步骤2、建立基于量化后的隐私损失的定价函数,将其映射为价格
[0112]
基于数据隐私损失的定价函数公式如下:
[0113]
pr(d)=lop(θ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0114]
这里d代表数据集,θ代表数据集的隐私损失值,lop(θ)是一个非递减函数,应该满足一下它条件:
[0115][0116][0117]
进一步地,所述的基于数据质量衰减定价机制的具体方法为:
[0118]
步骤1、摘要信息准确度评估
[0119]
数据需求方在预览数据内容后,想要成功下载数据需要评估摘要信息与数据内容相匹配的程度,即在确保需求方能合理正确评估摘要信息准确度的情况下才允许下载全部数据。摘要准确度评估得分表示为ssd(ssd∈[0,1])。
[0120]
步骤2、计算数据质量衰减
[0121]
从数据新鲜度的角度出发,建立具体的数据质量衰减函数如下:
[0122]
ε(t;ρ)=e-ρt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0123]
其中t≥0是数据产生到交易的时间间隔,ρ为时间衰减率。
[0124]
建立的数据质量衰减函数ε(t)满足以下性质:
[0125]
(1)ε(t)≥0,即数据质量是非负的,这样才是合理的。
[0126]
(2)ε(t)与时间呈负相关,即随着时间的推移,数据的效用性在不断的降低,不断侵蚀数据质量。
[0127]
(3)ε(t)是凸函数。随着时间的推移,数据质量衰减率不断减少,则这一特点能够很好的观察数据质量衰减的趋势。
[0128]
步骤3、计算最终价格
[0129]
数据需求方通过智能合约将摘要信息准确度和数据质量衰减结果写入区块链中,再由智能合约计算出数据最终的价值:
[0130]
fpr=(α1ssd α2ε(t;ρ)*pr(d)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0131]
实验过程:
[0132]
基于javascript语言构建系统并且利用fabric-node-sdk实现与联盟链的通信,并在数据交易流程中使用了智能合约和联盟链的功能。我们部署了一个由2台电脑组成的分布式网络:2台电脑都是64位的虚拟机,swarm网络中有4个peer节点作为用户节点;3个order节点对交易排序和广播消息,完成raft共识算法。为了验证提出的隐私损失度量和定价函数的有效性和合理性,从下面两个角度进行评估:
[0133]
(1)数据集的隐私损失和数据集大小的关系。一般来说,数据集的大小和数据集的隐私损失呈正相关,也就意味着数据集越大信息泄露越多。因此,数据的隐私损失应该是一个非递减函数。
[0134]
(2)数据隐私损失与该数据集上的分类器的分类精度之间的关系。根据机器学习分类算法实验,若输入更多的有效信息,那么分类器的准确率就越高。因此,如果集对分析能够有效地度量一个数据集的隐私含量,那么它应该和分类器输出的精度呈正相关。
[0135]
因此,本技术设计了以下实验:
[0136]
(1)测量这些元组集的数据隐私损失。
[0137]
(2)选择在公开的数据集上使用分类器,记录相应的分类精度。
[0138]
为了进一步验证集对分析度量隐私损失的有效性,在数据集上应用了支持向量机(svm)和决策树(dt)两种分类器,用于实验的数据集都是从yci机器学习数据库中获取的。数据集的详细信息如表1所示:
[0139]
表1 uci数据集
[0140][0141]
基于数据元组测试各个子集的数据隐私损失。对于实验中所采用的的数据,将原始数据集随机分割成大小比例为10%,20%,30%,40%,50%,60%,70%,80%,90%的数据子集。然后,通过集对分析度量这些子集的隐私损失。之后,分别在9个不同比例的子集上应用两种分类器,并统计所获得的分类精度。
[0142]
如图3a-图3d、图4、图5a-图5d、图6a-图6i所示,根据结果可以发现,随着数据集中元组大小的增多,数据的隐私损失不断增加,并且所应用的分类精度也有所上升。因此,可以得出结论如下:
[0143]
(1)数据的隐私损失和数据集大小呈正比。
[0144]
(2)数据的隐私损失是分类器对数据集分类精度的非递减函数。
[0145]
显然,这个两个结论也是比较符合预期的,从这个意义上而言,我们提出的集对分析度量数据的隐私损失是一种有效的度量标准。
[0146]
在本实验当中给出了一个具体的无套利定价函数如下:
[0147]
pr(d)=lop(θ),lop(θ)=log2(θ)
[0148]
此外,针对上述定价函数,测试数据集heart disease及其子集之间的价格关系。有303条记录的数据集d被分为两个子集d1和d2,它们分别有120条和210条记录。在d1和d1中均有120条重叠的数据元组。首先度量它们的数据隐私损失,再上述定价函数计算了它们各自的价格。从结果可以看到,对于给定的定价函数,d的价格总是小于d1和d2的价格之和。根据定价函数给4个数据集定价,可以看到定价函数是非单调递减的,这是合理的。
[0149]
为了更加地只直观描述数据质量具有衰减性,本技术使用神经网络训练的模型,计算两幅不同时间人脸图像之间的相似度和在相同相似阈值κ下的精确度。
[0150]
首先计算年龄间距距τ=1时精确度,然后,按照τ=5或者10,将每个年龄段组合起来,并求出当前年龄段的平均精度。显然,该实验能够表明数据质量具有衰减性,以及质量衰减函数能够有效的在实际中应用。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献