一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于区块链的神经网络数据集存储方法与流程

2021-12-04 02:37:00 来源:中国专利 TAG:


1.本发明涉及区块链技术领域,具体涉及一种基于区块链的神经网络数据集存储方法。


背景技术:

2.随着社会的快速发展,各行各业都需要记录不断产生的大量数据,这些数据能够辅助社会的建设和发展,例如交通图像数据可用于辅助城市交通的建设;金融外贸数据利于客户以及交易数据可以用于大数据分析进行金融风险预警等;医疗卫生领域的医疗图像数据可以用于疾病的诊断等等。
3.现有的基于区块链进行数据存储的方法是随机将数据存储在区块中,那么,根据区块链中的数据进行神经网络训练时,如果想要训练出特征提取能力强的神经网络,就需要从区块链中提取较多数据,但这些数据可能存储在距离比较远或者相关性不大的区块中,严重影响神经网络的训练速度,而且,也可能会出现过拟合与欠拟合的问题,降低神经网络的准确率。


技术实现要素:

4.为了解决上述技术问题,本发明的目的在于提供一种基于区块链的神经网络数据集存储方法,所采用的技术方案具体如下:
5.本发明一个实施例提供了一种基于区块链的神经网络数据集存储方法,该方法包括以下步骤:
6.获取各端在区块链中已存储数据的特征向量以及各端获取到的待存储数据的特征向量,并分别得到各端对应的源域特征分布和目标特征分布;
7.根据任意两端对应的所述源域特征分布所在的特征空间,将不同特征空间的两个所述源域特征分布进行映射对齐;
8.根据任意两个所述源域特征分布的映射对齐结果,获得任意两个所述源域特征分布对应的目标特征分布中每个目标特征向量的合理性;
9.根据任意两个所述源域特征分布对应的所述目标特征分布中每个目标特征向量的合理性,获得各端所述目标特征分布的合理程度;
10.根据各端所述目标特征分布的合理程度以及预设的判断条件,确定能够将待存储数据存储到所述区块链中的目标端。
11.优选的,所述根据任意两端对应的所述源域特征分布所在的特征空间,将不同特征空间的两个所述源域特征分布进行映射对齐,包括:
12.获取任意两端对应的所述源域特征分布中的低维源域特征分布和高维源域特征分布,其中,所述低维源域特征分布的维数小于所述高维源域特征分布的维数;
13.计算所述低维源域特征分布对应的低维源域gram矩阵,以及升维源域特征分布对应的升维源域gram矩阵;其中,所述升维源域特征分布由所述低维源域特征分布映射对齐
后得到;
14.构建目标函数:
[0015][0016]
其中,m0为低维源域特征分布a的关注矩阵;为升维源域特征分布对应的升维源域gram矩阵;m
a
为低维源域特征分布a对应的低维源域gram矩阵;表示关注矩阵m0与矩阵的哈达玛积;为升维源域特征分布对应的升维源域特征矩阵;d
b
为高维源域特征分布b对应的高维源域特征矩阵;δd
b
为高维源域特征矩阵d
b
中所包含的噪声矩阵;‖‖2表示用于求取l2范数的计算式;
[0017]
对所述目标函数进行求解,求解出使得所述目标函数达到最小值的所述升维源域特征矩阵以及预设的所述噪声矩阵δd
b

[0018]
得到所述低维源域特征分布和所述高维源域特征分布映射对齐之后的所述升维源域特征分布和等维源域特征分布。
[0019]
优选的,所述关注矩阵的获取方法,包括:
[0020]
预设所述关注矩阵与所述低维源域gram矩阵的行列相同,且两矩阵内的同一位置处的元素对应的低维源域特征向量相同;
[0021]
将所述关注矩阵的所有元素值都置为预设数值;
[0022]
计算任意端的所述目标特征分布内任意目标特征向量与对应的源域特征分布内的各源域特征向量的欧式距离;获取各所述目标特征向量对应的最小的top

k个欧式距离,以及所述最小的top

k个欧式距离对应的源域特征向量,作为第一源域特征向量,构成第一源域集合;
[0023]
由多个所述第一源域集合构成总集合;计算所述总集合中相同所述第一源域特征向量出现的次数,并将所述关注矩阵中各所述源域特征向量对应位置处的元素值重置为对应第一源域特征向量出现的次数;
[0024]
对重置后的关注矩阵的元素值进行归一化处理,得到归一化后的关注矩阵。
[0025]
优选的,所述映射对齐结果的获取方法,包括:
[0026]
对于所述低维目标特征分布中的低维目标特征向量,获取所述低维目标特征向量对应的所述第一源域特征向量及所述第一源域集合;
[0027]
预设待定参数序列,由所述待定参数序列与所述低维目标特征向量对应的所述第一源域特征向量构建含有待定参数的线性数学模型;
[0028]
所述线性数学模型为:
[0029][0030]
其中,x为所述低维目标特征分布中的低维目标特征向量;θ
q
为所述待定参数序列中第q个待定参数;a
q
为低维目标特征向量x对应的第q个所述第一源域特征向量;q为所述第一源域特征向量的数量;
[0031]
利用ransac算法得到所述待定参数序列;
[0032]
对所述低维目标特征向量对应的所述第一源域集合进行映射对齐得到升维第一
源域集合;根据所述升维第一源域集合与所述待定参数得到所述低维源域特征分布对应的低维目标特征分布中的低维目标特征向量的映射对齐结果;
[0033]
所述映射对齐结果:
[0034][0035]
其中,f(x)为所述低维目标特征向量的映射对齐结果;为第q个所述第一源域特征向量对应的第一源域特征向量。
[0036]
优选的,所述根据任意两个所述源域特征分布的映射对齐结果,获得任意两个所述源域特征分布对应的目标特征分布中每个目标特征向量的合理性,包括:
[0037]
计算所述映射对齐结果分别与所述升维源域特征分布内任意两个升维源域特征向量的差值的l2范数,以及所述两个升维源域特征向量之间的差值的l2范数;将三个所述l2范数的平均值作为第一离散程度;
[0038]
计算所述映射对齐结果分别与所述等维源域特征分布内任意两个等维源域特征向量的差值的l2范数,以及所述两个等维源域特征向量之间的差值的l2范数;将三个所述l2范数的平均值作为第二离散程度;
[0039]
根据所述第一离散程度、所述第二离散程度以及对应的映射对齐前后的源域特征向量的内积的差值的绝对值得到所述映射对齐结果对应的目标特征向量的合理性;
[0040]
所述合理度的计算公式为:
[0041][0042]
其中,r
x
(a,b)为低维源域特征分布a对应的低维目标特征分布a1和高维源域特征分布b对应的高维目标特征分布b1中的任意目标特征向量x的合理度;表示y,z是升维源域特征分布中任意两个升维源域特征向量;表示m,n是等维源域特征分布中任意两个等维源域特征向量;ρ
x
(y,z)为映射对齐结果f(x)与所述升维源域特征分布中的升维源域特征向量y,z的第一离散程度;ρ
x
(m,n)为映射对齐结果f(x)与所述等维源域特征分布中的等维源域特征向量m,n的第二离散程度;δm
yz
为升维源域特征向量y,z的内积与y,z对应的映射对齐前的低维源域特征向量内积的差值的绝对值。
[0043]
优选的,所述根据任意两个所述源域特征分布对应的所述目标特征分布中每个目标特征向量的合理性,获得各端所述目标特征分布的合理程度,包括:
[0044]
所述合理程度的计算公式为:
[0045][0046]
其中,p为所述目标特征分布的合理程度;x∈a1表示x为低维目标特征分布a1中任意目标特征向量x;b∈z表示b为除了低维源域特征分布a外的所有其他低维源域特征分布集合z中任意一个低维源域特征分布;n表示低维源域特征分布集合z中包含的低维源域特征分布的数量。
[0047]
优选的,所述根据各端所述目标特征分布的合理程度以及预设的判断条件,确定
能够将待存储数据存储到所述区块链中的目标端,包括:
[0048]
获取满足所述预设的判断条件的最终目标特征分布,将所述最终目标特征分布对应的端作为目标端;所述预设的判断条件为合理程度最大值对应的目标特征分布。
[0049]
本发明具有如下有益效果:
[0050]
本发明实施例利用区块链技术,根据各端在区块链中已存储数据的特征向量和各端获取到的待存储数据的特征向量,将待存储数据的特征向量分为了源域特征分布和目标特征分布,获取到待存储数据中可以存储在区块链上的数据,提升了获取可存储数据的准确性;将各端低维的源域特征分布映射到高维的源域特征分布,提升后续目标特征向量的合理性计算准确性;进行目标特征向量的合理性及合理程度的分析,根据合理程度能够进一步获得待存储数据在不同特征空间下与区块链上存储的数据特征的分布关系;根据目标特征向量的合理程度将待存储数据存储到区块链中。使得新添加到区块链上的区块中所包含的数据和临近的其他区块上的数据中所含有的特征向量之间存在相关关系,保证局部区块所存储的数据包含多样的、全面的、分布均匀特征的信息,有利于神经网络的训练,提升神经网络的训练速度,而且,避免出现过拟合与欠拟合的问题,提高神经网络的准确率,有利于训练出准确率更高、特征提取能力更强的神经网络。
附图说明
[0051]
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0052]
图1为本发明一个实施例所提供的一种基于区块链的神经网络数据集存储方法的方法流程图。
具体实施方式
[0053]
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于区块链的神经网络数据集存储方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
[0054]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0055]
本发明实施例提供一种基于区块链的神经网络数据集存储方法的具体实施方法,该方法实施例适用于交通数据的存储,也可用于存储金融外贸数据及医疗卫生数据,该交通数据是指不同天气环境下的图像数据以及每个图像数据对应的标签数据:这些图像包括道路、车辆、行人、道路标识等信息,且每个图像都带有标签,本发明实施例的标签是指图像中道路、车辆、行人、道路标识等语义区域的遮罩图像,这些图像数据可以用于训练语义分割网络等神经网络。实施者也可以存储其他数据和每个数据对应的标签数据,这些数据来自于不同的个人、企业、机构等。
[0056]
本发明实施例中的区块链上的各个区块是由各端产生的,该各端指的是有一定计算能力和获取数据能力的个人、企业和机构等。在本实施例中已有一个区块链,该区块链已经存储了大量数据,且仍有大量数据的产生,需要存储在已有区块链上;根据区块链上已经存储的数据可以训练出不同的dnn网络(deep neural networks,深度神经网络,简称神经网络),这些dnn网络结构可能各不相同,应用场景或者功能也各不相同,不同dnn网络在相同数据上提取到的特征也可能不同。现已经根据已有区块链上的数据训练出了一些dnn网络,用于不同目的,且这些dnn网络具有一定的特征提取能力。
[0057]
在利用区块链上的数据训练新的dnn网络时需要不断的读取区块链上的数据,或者将区块链上的数据暂存在本地后进行训练dnn网络,训练dnn网络的数据来自于区块链上的某些局部区块,这些数据的特征需要具有良好的、多样的、完备的特征分布,这样才能使dnn网络学习到全面的、准确的特征,避免dnn网络因数据分布不均衡而出现较为严重的过拟合或欠拟合问题,进而提高dnn网络准确率。
[0058]
本发明实施例的思路是获取一些数据,如果数据能够增加区块链上存储的数据的特征的多样性和完备性,那么就将这样的数据存储在区块链上。在利用区块链技术存储数据时不再考虑数据的传输、通信、数据的加密解密、数据的身份认证、数据的存储等问题,因为这都是现有技术。
[0059]
本发明实施例利用区块链技术,将待存储数据的特征向量分为了源域特征分布和目标特征分布,将各端低维的源域特征分布映射对齐到高维的源域特征分布,进行目标特征向量的合理性及合理程度的分析,根据目标特征向量的合理程度得到最佳目标特征分布,并将该最佳目标特征分布对应的待存储数据存储到区块链中。达到了使其最佳目标特征分布对应的待存储数据上能够增加区块链上存储的数据的多样性和完备性目的,有利于训练出准确率更高、特征提取能力更强的dnn网络,提升了准确率和效率。
[0060]
下面结合附图具体的说明本发明所提供的一种基于区块链的神经网络数据集存储方法的具体方案。
[0061]
请参阅图1,其示出了本发明一个实施例提供的一种基于区块链的神经网络数据集存储方法的方法流程图。
[0062]
步骤s100,获取各端在区块链中已存储数据的特征向量以及各端获取到的待存储数据的特征向量,并分别得到各端对应的源域特征分布和目标特征分布。
[0063]
所有端都能获取一个训练好的dnn网络,一个端对应一个dnn网络,这些dnn网络都是根据区块链上的数据训练而得的,这些dnn网络结构和功能可能各不相同。
[0064]
各端利用各自的dnn网络提取区块链上的最新的q个区块上所存储的数据的特征向量,在本发明实施例中q的取值为50。
[0065]
提取区块链上的最新区块的存储数据的特征向量的具体方法为:
[0066]
(1)各端读取出区块链上最新的q个区块上所存储的所有数据,然后各端分别获取各自的dnn网络在每个数据上所提取到的特征向量,每个特征向量都是一个高维的向量,可以视为高维空间的一个点。
[0067]
其中,该dnn网络在每个数据上所提取到的特征向量是指:将该数据输入dnn网络中,然后获取dnn网络的特定卷积层输出的特征向量图或者特征向量,这个特征图或者特征向量展平为一维向量后的结果就是该数据的特征向量。dnn网络的特定卷积层输出的特征
向量图或者特征向量,如语义分割网络(如segnet、u

net网络)或者关键点检测网络的编码器输出的特征图,再或者全连接网络等分类回归网络最后一层全连接层输出的特征向量等。
[0068]
该dnn网络提取到的特征向量都是输入数据所呈现的抽象的高维特征,其维度往往比输入数据的维度低很多。需要说明的是,具体利用什么dnn网络,以及用dnn网络哪个卷积层输出的特征向量图或者特征向量作为数据的特征向量,这由各端自行决定,本发明实施例只关注各端在这些数据上所提取到的特征向量是如何分布的,不关注这些特征向量是如何获取的。
[0069]
(2)各端获取一些待存储的数据,这些数据需要被存储在区块链上,但是还未被存储在区块链上,各端利用各自的dnn网络提取出这些待存储的数据中每个数据的特征向量。需要说明的是,各端获取的待存储的数据可能是不一样的,这是由于各端获取数据的来源不同,又或者网络数据传输延迟等原因造成的。
[0070]
至此,各端利用各自的dnn网络提取到了一些数据特征向量,其中一大部分特征向量是从区块链上存储的数据中提取到得的。将这些从区块链上存储的数据提取得到的特征向量构成一个特征分布,也就是一个特征向量的集合,将该特征分布称为源域特征分布。
[0071]
另一小部分特征向量是从待存储的数据中提取到的,这一小部分从待存储的数据中提取到的特征向量也构成一个特征分布,也就是一个特征向量的集合,将该特征分布称为目标特征分布。需要说明的是,特征分布也可以视为一个矩阵,该矩阵每一行对应一个特征向量,即源域特征分布对应的矩阵称为源域特征向量矩阵,目标特征分布对应的矩阵称为目标特征向量矩阵。
[0072]
各端将各自获得的源域特征分布和目标特征分布共享给其他所有端用户,即各端都可以获取其他端的源域特征分布和目标特征分布。
[0073]
需要说明的是,一个端对应一个源域特征分布和一个目标特征分布,其中,一个特征分布其实就是一个特征向量的集合,其特征分布也可以用矩阵表示,一个矩阵也对应着一个特征分布。
[0074]
步骤s200,根据任意两端对应的源域特征分布所在的特征空间,将不同特征空间的两个源域特征分布进行映射对齐。
[0075]
获取任意两端对应的源域特征分布,假设为源域特征分布a和源域特征分布b。由于这两个源域特征分布是在同一区块链上的数据在不同dnn网络上所提取到的特征向量集合,因此这两个源域特征分布表征的是同一些数据中的不同的数据特征,所以这两个源域特征分布所在的空间维度可能不一致。
[0076]
在本发明实施例中,假设源域特征分布a是低维空间,b是高维空间,低维源域特征分布的维度小于高维源域特征分布的维度,即源域特征分布a为低维源域特征分布,源域特征b为高维源域特征分布。其特征空间是由特征方向的数量确定的,而特征方向的数量是由非共线的特征向量的数量决定的。
[0077]
将不同特征空间的两个源域特征分布进行映射对齐,也即将低维空间的源域特征向量映射升维对齐到高维空间的源域特征向量。常规映射升维对齐方法是利用射影变换进行空间变换,但是射影变换一般适用于线性空间变换。
[0078]
本发明实施例提出一种映射升维对齐方法,以下简称映射对齐方法,以达到将一
个低维的源域特征分布和另一个高维的源域特征分布对齐。该对齐的方法的思路为:让一个低维的源域特征分布中的特征向量进行升维,然后使得升维后的结果与另一个高维的源域特征分布中的特征向量具有很小的差异。前提条件是这两个源域特征分布必须是用于表征同一些数据的不同维度的特征分布。若为两个源域特征分布为同一维度也可以利用该方法计算,此时只需任意选择一个源域特征分布认为是低维的即可,然后利用该方法进行计算,故在本发明实施例中不再对维度相同这一特殊情况具体说明。
[0079]
该映射对齐方法的具体步骤为:
[0080]
(1)预设低维源域特征分布a映射对齐后的升维源域特征分布为需要说明的是在此时升维源域特征分布为仍为一个待定量。由升维源域特征分布得到对应的源域特征矩阵为其中,一个特征分布就可以表示为一个特征向量矩阵,这个特征向量矩阵的每一行都对应特征分布中的一个特征向量。
[0081]
计算低维源域特征分布a中所有低维源域特征向量对应的低维源域gram矩阵m
a
,其中,一个源域特征分布对应一个源域gram矩阵。并计算升维源域特征分布中所有升维源域特征向量对应的升维源域gram矩阵低维源域gram矩阵m
a
用于表示低维源域特征分布a中任意两个低维源域特征向量的内积,即低维源域特征分布a中任意两个低维源域特征向量的内积就是低维源域gram矩阵m
a
中的元素。具体的,假设低维源域特征分布a中第i个低维源域特征向量与第j个低维源域特征向量的内积为v,那么低维源域gram矩阵m
a
第i行j列的元素就是v。
[0082]
低维源域gram矩阵m
a
可以表示低维源域特征分布a中每个特征向量的几何关系。低维源域gram矩阵m
a
中每一行对应一个低维源域特征向量,某行中的所有元素都表示某一个低维源域特征向量与其他所有低维源域特征向量的内积,该矩阵每一列也对应一个低维源域特征向量,某列中的所有元素表示某一个低维源域特征向量与其他所有低维源域特征向量的内积。低维源域gram矩阵m
a
的行数和列数都是低维源域特征分布a中特征向量的个数,升维源域gram矩阵同理。
[0083]
(2)设高维源域特征分布b的高维源域特征矩阵为d
b
,并预设高维源域特征矩阵d
b
中所包含的噪声矩阵δd
b
。该噪声矩阵δd
b
的大小与高维源域特征矩阵d
b
大小一致,该噪声矩阵δd
b
用于表征高维源域特征矩阵d
b
所包含的噪声,也可以说是高维源域特征矩阵d
b
的误差。
[0084]
本发明实施例中对高维源域特征矩阵进行去噪的目的是,因为映射对齐之后的升维源域特征分布即便维度是与高维源域特征分布的维度相同,但是对齐是想要达到两个特征分布的特征向量尽可能相同的目的,如果不进行去噪,那么高维源域特征分布中可能会存在大量与升维源域特征分布中的升维特征向量不同的高维特征向量,就达不到对齐的目的了。
[0085]
在本发明实施例中期望该噪声矩阵δd
b
是稀疏的,且想要达到低维源域特征分布a和高维源域特征分布b映射对齐后的源域特征分布的差异尽可能的小的目的。同时,本发明实施例还想要达到升维前后的源域特征分布对应的源域gram矩阵的几何关系尽可能的不受到破坏的目的。
[0086]
故构建目标函数loss,本发明实施例中期望目标函数loss越小越好,目标函数
loss越小就能够使得低维源域特征分布a中的低维源域特征向量升维后与高维源域特征分布b中的高维源域特征向量接近,并使得升维前后的几何关系保持不变。得到目标函数loss达到最小值时的升维源域特征分布得到对应的升维源域特征矩阵为以及噪声矩阵δd
b

[0087]
构建目标函数loss:
[0088][0089]
其中,m0为低维源域特征分布a的关注矩阵;为升维源域特征分布对应的升维源域gram矩阵;m
a
为低维源域特征分布a对应的低维源域gram矩阵;为升维源域特征分布对应的升维源域特征矩阵;d
b
为高维源域特征分布b对应的高维源域特征矩阵;δd
b
为高维源域特征矩阵d
b
中所包含的噪声矩阵。
[0090]
其中,d
b

δd
b
表示高维源域特征矩阵d
b
去噪后的矩阵。表示升维源域特征分布对应的升维源域特征矩阵与高维源域特征矩阵d
b
去噪后对应的等维源域特征矩阵的差异,本发明实施例期望该差异尽可能的小,该差异越小说明升维源域特征分布中的升维源域特征向量与高维源域特征分布b中的高维源域特征向量的差异越小,其中,需要说明的是等维源域特征矩阵即为高维源域特征矩阵d
b
去噪后的矩阵。
[0091]
表示低维源域特征分布a在映射对齐前后源域gram矩阵的变化,用于表征映射对齐前后每个特征向量之间的几何关系的变化。升维源域gram矩阵和低维源域gram矩阵m
a
之间的差异越小,则说明低维源域特征分布a中映射对齐前后源域特征向量之间的几何关系变化越小。
[0092]
表示关注矩阵m0与矩阵的哈达玛积,即这两个矩阵对应元素相乘后构成的矩阵。引入关注矩阵m0的目的是给低维源域特征分布a中与低维目标特征分布a1中的低维目标特征向量欧氏距离较小的低维源域特征向量分配一个较大的关注度,以保证后续将低维目标特征分布a1中的低维目标特征向量进行映射对齐时具有较为准确的效果。
[0093]
其中,关注矩阵m0与低维源域gram矩阵m
a
的大小一致,即行列一致,该关注矩阵m0表征低维源域特征分布a中低维源域特征向量的重要程度。低维源域gram矩阵m
a
的每一行和每一列都对应一个低维源域特征向量,关注矩阵m0每行和每列也对应同样的低维源域特征向量,且关注矩阵m0与低维源域gram矩阵m
a
同一位置处的元素对应的源域特征向量相同。如低维源域gram矩阵m
a
的某一行或某一列对应的低维源域特征向量是u,那么关注矩阵m0中相同的行或列对应的低维源域特征向量也是u。
[0094]
具体的,关注矩阵m0的获取方法为:
[0095]
1)将关注矩阵m0的所有元素值都置为预设数值。在本发明实施例中该预设数值为1.0。
[0096]
2)基于低维源域特征分布a对应的低维目标特征分布a1内任意低维目标特征向量
c,计算低维源域特征分布a中各个低维源域特征向量与低维目标特征向量c的欧式距离,并获取最小的top

k个欧氏距离,以及最小的top

k个欧氏距离对应的低维源域特征向量,将该top

k个低维源域特征向量作为第一源域特征向量,构成第一源域集合{a1,a2,

,a
q
,

,a
q
}。其中,k的取值在不同实施例中实施者可根据实际情况调整该取值。
[0097]
需要说明的是,由于低维目标特征分布a1中有多个低维目标特征向量,每个低维目标特征向量都有一组与其对应的第一源域集合{a1,a2,

,a
q
,

,a
q
}。
[0098]
由多个低维目标特征向量对应的第一源域集合构成一个总集合s,计算在总集合s内各低维源域特征向量出现的次数,如该总集合s中第一源域特征向量a
q
(所有第一源域特征向量均为低维源域特征向量)出现了n次,那么说明低维目标特征分布a1中有n个低维目标特征向量与第一源域特征向量a
q
的欧式距离比较小,然后获取总集合s中每个第一源域特征向量在关注矩阵m0上对应的每个行或列,每个行或列上对应的元素值重置为对应的第一源域特征向量出现的次数,如关注矩阵m0的第m行和第m列对应的第一源域特征向量是a
q
,那么将关注矩阵m0的第m行和第m列的元素值置为第一源域特征向量a
q
出现的次数n。若关注矩阵中有的元素对应的低维源域特征向量不属于总集合s中,则将此处的元素值置为0,也即在总集合s中出现了0次。
[0099]
计算总集合中各第一源域特征向量出现的次数,并将关注矩阵中各低维源域特征向量对应位置处的元素值重置为对应的低维源域特征向量出现的次数。
[0100]
3)对重置后的关注矩阵m0的元素值进行归一化处理,即将重置后的关注矩阵m0中每个元素值重置为每个元素值与所有元素值之和的比值,得到归一化后的关注矩阵m0。
[0101]
(3)至此,得到低维源域特征分布a和高维源域特征分布b映射对齐之后的升维源域特征分布和等维源域特征分布
[0102]
步骤s300,根据任意两个源域特征分布的映射对齐结果,获得任意两个源域特征分布对应的目标特征分布中每个目标特征向量的合理性。
[0103]
具体的,获取目标特征中每个目标特征向量的合理性的具体步骤包括:
[0104]
(1)首先,获取低维源域特征分布a和高维源域特征分布b对应的低维目标特征分布a1和高维目标特征分布b1中的任意一个目标特征向量x。
[0105]
该目标特征向量x可能来自于低维目标特征分布a1,也有可能来自于高维目标特征分布b1,本发明实施例需要将目标特征向量x映射对齐到升维源域特征分布和等维源域特征分布所在的高维空间。需要说明的是,如果目标特征向量x来自于高维目标特征分布b1,而高维目标特征分布b1本身就处于高维空间,不需要再进行升维,所以如果目标特征向量x来自于高维目标特征分布b1,则目标特征向量x本身就处于升维源域特征分布和等维源域特征分布所在的高维空间中;如果目标特征向量x来自于低维目标特征分布a1,此时目标特征向量x的维度是低维的,因此需要将目标特征向量x映射对齐到升维源域特征分布和等维源域特征分布所在的高维空间中。在本发明实施例中,因为目标特征向量x来自于高维目标特征分布b1时不再需要升维,故只考虑目标特征向量x来自于低维目标特征分布a1需要映射对齐进行升维的情况。
[0106]
(2)当目标特征向量x来自于低维目标特征分布a1时,此时目标特征向量x为低维木目标特征向量,现将低维目标特征向量x升维到高维空间。
[0107]
升维的具体步骤如下:
[0108]
1)在低维源域特征分布a中,获取与目标特征向量x的欧式距离中最小的top

k个欧氏距离对应的低维源域特征向量,即步骤s200中(2)中2)涉及的第一源域集合{a1,a2,

,a
q
,

,a
q
}。
[0109]
2)预设待定参数序列{θ1,θ2,


q
,


q
},由待定参数序列与第一源域特征向量构建含有待定参数的线性数学模型。本发明实施例利用ransac算法求解出待定参数{θ1,θ2,


q
,


q
}。
[0110]
该含有待定参数的线性数学模型,即也可以视为高维空间的超平面。待定参数序列为{θ1,θ2,


q
,


q
},随机变量为第一源域特征向量a
q
,其中,随机变量的样本数据为第一源域集合{a1,a2,

,a
q
,

,a
q
},现需要求解待定参数序列{θ1,θ2,


q
,


q
},让含有待定参数的线性数学模型拟合得到这些样本数据。ransac算法是求解这种数学模型的一种手段,具体该算法为公知技术,在此不再赘述。
[0111]
含有待定参数的线性数学模型为:
[0112][0113]
其中,x为低维目标特征分布中的低维目标特征向量;θ
q
为待定参数序列中第q个待定参数;a
q
为低维目标特征向量x对应的第q个第一源域特征向量;q为第一源域特征向量的数量。
[0114]
需要说明的是,利用与低维目标特征向量x距离最小的top

k个低维源域特征向量(距离最小的top

k个低维源域特征向量即第一源域特征向量),是因为与低维目标特征向量x距离越近则更能准确的反映低维目标特征向量x的分布情况。这种分布情况在低维目标特征向量x升维前后是保持不变的,即低维目标特征向量x在升维前与距离最小的top

k个低维源域特征向量的线性关系和低维目标特征向量x在升维后与距离最小的top

k个低维源域特征向量的线性关系保持是一致的。后续基于此将低维目标特征向量x升维到高维空间。
[0115]
3)根据低维源域特征分布a和其对应的升维源域特征分布获取第一源域集合{a1,a2,

,a
q
,

,a
q
}在映射对齐后的升维第一源域集合为其中升维第一源域集合内的特征向量为升维第一源域特征向量,该映射对齐过程与步骤s200中的映射对齐的过程相同。
[0116]
根据该升维第一源域集合和待定参数得到低维目标特征分布a1中的低维目标特征向量的映射对齐结果。
[0117]
映射对齐结果为:
[0118][0119]
其中,f(x)为低维目标特征向量的映射对齐结果;为第q个第一源域特征向量对应的升维第一源域特征向量;q为第一源域特征向量的数量;θ
q
为待定参数序列中第q个待定参数。需要说明的是,升维第一源域特征向量的数量与第一源域特征向量的数量相同。
[0120]
至此,将低维目标特征向量x升维对齐,使得升维后的目标特征向量和升维源域特
征分布和等维源域特征分布处于同一高维空间中。
[0121]
4)最后,低维目标特征分布a1和高维目标特征分布b1中的任意目标特征向量x的映射对齐结果为:
[0122][0123]
其中,x∈a1为目标特征向量x来自低维目标特征分布a1;x∈b1为目标特征向量x来自高维目标特征分布b1。
[0124]
(3)当升维源域特征分布和等维源域特征分布中的一些源域特征向量和目标特征向量x相距较远,分布离散,那么说明目标特征向量x就能够增加这些源域特征向量(即升维源域特征分布和等维源域特征分布中的一些源域特征向量)的特征的多样性和完备性;当升维源域特征分布和等维源域特征分布中的一些源域特征向量中的一些源域特征向量和目标特征向量x相距较近,这些源域特征分布集中,那么说明目标特征向量x就不能够太多的增加这些源域特征向量特征的多样性和完备性,本发明用目标特征向量x的合理性来表述目标特征向量x能否增加源域特征向量的多样性和完备性。除此之外如果中的这些源域特征向量在映射对齐前后几何关系发生了较大变化,那么也会影响目标特征向量x与这些源域特征向量的合理性。
[0125]
具体的,计算合理性的方法如下:
[0126]
先计算映射对齐结果与升维源域特征分布内任意一个升维源域特征向量的差值的l2范数,再计算映射对齐结果与升维源域特征分布内其他任意升维源域特征向量的差值的l2范数,以及计算两个升维源域特征向量之间的差值的l2范数;将三个l2范数的平均值作为第一离散程度。其中,l2范数表示的是两个特征向量之间的欧式距离;第一离散程度越大说明映射对齐结果对于升维源域特征向量来说越离散,第一离散程度越小说明映射对齐结果对于升维源域特征向量来说越集中。
[0127]
第一离散程度的计算公式如下:
[0128][0129]
其中,ρ
x
(y,z)为升维源域特征分布内升维源域特征向量y,z的第一离散程度;f(x)为映射对齐结果,y为升维源域特征分布内任意升维源域特征向量;z为升维源域特征分布内除y以外的任意升维源域特征向量。
[0130]
再计算映射对齐结果与等维源域特征分布内任意一个等维源域特征向量的差值的l2范数,再计算映射对齐结果与等维源域特征分布内其他任意等维源域特征向量的差值的l2范数,以及计算两个等维源域特征向量之间的差值的l2范数;将三个l2范数的平均值作为第二离散程度。其中,l2范数表示的是两个特征向量之间的欧式距离;第二离散程度越大说明映射对齐结果对于等维源域特征向量来说越离散,第二离散程度越小说明映射对齐结果对于等维源域特征向量来说越集中。
[0131]
第二离散程度的计算公式如下:
[0132][0133]
其中,ρ
x
(m,n)为等维源域特征分布内等维源域特征向量m,n的第二离散程度;f(x)为映射对齐结果,m为等维源域特征分布内任意等维源域特征向量;n为等维源域特征分布内除m以外的任意等维源域特征向量。
[0134]
根据第一离散程度、第二离散程度以及对应的映射对齐前后的源域特征向量的内积的差值的绝对值得到映射对齐结果对应的目标特征向量的合理性。
[0135]
合理性的计算公式如下:
[0136][0137]
其中,r
x
(a,b)为低维源域特征分布a对应的低维目标特征分布a1和高维源域特征分布b对应的高维目标特征分布b1中的任意目标特征向量x的合理度;为y,z是升维源域特征分布中任意两个升维源域特征向量;为m,n是等维源域特征分布中任意两个等维源域特征向量;ρ
x
(y,z)为映射对齐结果f(x)与升维源域特征分布中的升维源域特征向量y,z的第一离散程度;ρ
x
(m,n)为映射对齐结果f(x)与等维源域特征分布中的等维源域特征向量m,n的第二离散程度;δm
yz
为升维源域特征向量y,z的内积与y,z对应的映射对齐前的低维源域特征向量内积的差值的绝对值。
[0138]
ρ
x
(y,z)越大说明目标特征向量x的映射对齐结果f(x)和升维源域特征向量y,z越是离散分布的,将目标特征向量x放入低维源域特征分布a中使得映射对齐结果f(x)能够增加升维源域特征向量y,z的多样性或完备性。同理,ρ
x
(m,n)越大,说明目标特征向量x的映射对齐结果f(x)和等维源域特征向量m,n越是离散分布的,将目标特征向量x放入高维源域特征分布b中,使得f(x)能够增加等维源域特征向量m,n的多样性或完备性。
[0139]
δm
yz
越大说明升维源域特征向量y,z的内积和映射对齐之前的内积相比变化越大,说明升维源域特征向量y,z映射对齐前的在低维源域特征分布a中对应的两个低维源域特征向量,记为h,g,不能保证低维源域特征向量h,g以原有几何关系不变的情况下与高维源域特征分布b中对应的高维源域特征向量对齐,说明低维源域特征分布a中的这两个低维源域特征向量h,g与高维源域特征分布b中与h,g对应的高维源域特征向量是无法完美的对齐,不能对齐的原因是h,g这两个低维特征向量的几何关系不确定性强,如果想要让这h,g两个低维特征向量完美对齐,就需要放入其他特征向量来增加低维源域特征分布a与高维源域特征分布b中的特征向量的数量和特征向量的多样性,使得低维源域特征分布a中特征向量间引入更多的几何关系,源域特征分布b中引入更多的特征分布信息,进而减少这些不确定性。
[0140]
ρ
x
(y,z)δm
yz
或者ρ
x
(m,n)越大,说明越有必要在低维源域特征分布a与高维源域特征分布b中放入目标特征向量x(具体如何放入在后续步骤s400具体说明),而且将目标特征向量x放入低维源域特征分布a与高维源域特征分布b中后,目标特征向量x的映射对齐结果f(x)和升维源域特征向量y,z就能结合在一起,能够增加升维源域特征向量y,z的多样性或完备性。同理,也能增加等维源域特征向量m,n的多样性和完备性。
[0141]
因此r
x
(a,b)越大说明低维目标特征分布a1与高维目标特征分布b1中的目标特征
向量x对源域特征分布a与b映射对齐之后的所有特征向量来说是有较大必要的,换句话说就是目标特征向量x是重要的、合理的、对低维源域特征分布a与高维源域特征分布b是不可获取的、能够增加低维源域特征分布a与高维源域特征分布b映射对齐之后的特征向量多样性和特征向量完备性的,或者说目标特征向量x对应的数据能够让低维源域特征分布a与高维源域特征分布b所对应的数据包含多样完备的特征,这正是本发明实施例所需的。
[0142]
步骤s400,根据任意两个源域特征分布对应的目标特征分布中每个特征向量的合理性,获得各端目标特征分布的合理程度。
[0143]
根据上述步骤s300获得了低维源域特征分布a与高维源域特征分布b对应的低维目标特征分布a1与高维目标特征分布b1中的目标特征向量x的合理性r
x
(a,b)。
[0144]
对于低维目标特征分布a1,这个低维目标特征分布a1中每个低维目标特征向量都是该低维目标特征分布a1对应的端利用dnn网络在待存储数据上提取到的特征向量。本发明实施例期望待存储数据的特征向量与区块链上所存储的数据的特征向量具有互补性,或者说前者能够丰富后者,使得后者根据多样性、泛化性、完备性。本发明实施例用低维目标特征分布的合理程度来描述待存储数据的特征向量与区块链上所存储的数据的特征向量是否具有互补性、多样性、完备性。
[0145]
其合理程度的计算公式为:
[0146][0147]
其中,p为目标特征分布的合理程度;x∈a1表示x为低维目标特征分布a1中任意目标特征向量;b∈z表示b为除了低维源域特征分布a外的所有其他源域特征分布构成的域特征分布集合z中任意一个源域特征分布;n表示源域特征分布集合z中包含的源域特征分布的数量。
[0148]
至此,给定任意一个源域特征分布都能计算其对应的目标特征分布的合理程度。即一个端对应一个源域特征分布,对应一个目标特征分布,也对应一个合理程度。
[0149]
步骤s500,根据各端目标特征分布的合理程度以及预设的判断条件,确定能够将待存储数据存储到区块链中的目标端。
[0150]
基于多个目标特征分布的合理程度,获取满足预设判断条件的最终目标特征分布以及该最终目标特征分布对应的端。在本发明实施例中,预设判断条件为获取合理程度最大值,以及该合理程度最大值对应的目标特征分布,将该合理程度最大值对应的目标特征分布作为满足预设判断条件的最终目标特征分布。
[0151]
将该最终目标特征分布对应的端中的待存储数据存储在一个新的区块中,并将该区块存储在区块链上。将原本带存储数据进行一系列处理后得到可以存储在区块链上的数据,该将数据存储在区块链上的过程即为步骤s300(3)中在低维源域特征分布a与高维源域特征分布b中放入目标特征向量x的放入过程。
[0152]
总的来说,本发明实施例根据区块链上已经存储的数据的特征分布和各端待存储数据的特征分布,给各端待存储数据的特征分布分配一个合理程度,并获取合理程度最大的端,由该端将数据存储在区块上,并将区块连接在区块链上,这个决定由哪个端将数据存储到区块链上的过程就是本发明实施例中区块链的共识机制。另外需要给予该端奖励,例如奖励类似于比特币之类的虚拟货币,或者是其他奖励,例如一些经济补助等,如何奖励不
是本发明实施例的重点故本发明实施例不再具体赘述。
[0153]
随着新区块的不断产生,区块链上存储的数据越来越多,这些数据的特征分布具有局部的多样化、完备性,有助于训练不同任务的dnn网络,用于实现不同的目的。
[0154]
综上所述,本发明实施例利用区块链技术,根据各端在区块链中已存储数据的特征向量和各端获取到的待存储数据的特征向量,将待存储数据的特征向量分为了源域特征分布和目标特征分布。将各端低维的源域特征分布映射到高维的源域特征分布,进行目标特征向量的合理性及合理程度的分析,根据目标特征向量的合理程度得到最佳目标特征分布,并将该最佳目标特征分布对应的待存储数据存储到区块链中。使其最佳目标特征分布对应的待存储数据上能够增加区块链上存储的数据的多样性和完备性,有利于训练出准确率更高、特征提取能力更强的dnn网络。
[0155]
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0156]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0157]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献