一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于贝叶斯算法的智能数据录入方法与流程

2022-05-18 08:07:01 来源:中国专利 TAG:


1.本发明涉及网络领域,特别涉及基于贝叶斯算法的智能数据录入方法。


背景技术:

2.网络中的多链路是数据传输的主要通道,通过多条链路的设置,能够保证待传输数据在最合适、最便捷的路径中传输。由于多链路中的数据量较大,易导致链路通道的堵塞,降低数据传输的效率。这是由于在多链路数据中存在较多的相似数据,从而严重影响了多链路传输通道的效能。为此,为降低多链路中相似数据的数量、提高网络传输效率,目前市面上具有三种多链路相似数据挖掘检测与清洗方法:
3.第一种是在优化snm算法的基础上,对数据属性展开划分,利用三区间排序算法对数据实施排序,以此来减少比对范围。最后通过求和属性权重判断数据相似度并剔除相似数据,该方法可提升数据相似度的匹配程度,但在匹配过程中由于数据量较大,存在耗时较长等问题;
4.第二种是以k-modes聚类法为核心,通过信息熵理论判断数据属性权重并约简属性维度,然后根据数据属性重要程度对各组别的数据实施比较,根据阈值判断其相似性,再在完成对每个数据集的检测后消除相似数据;
5.第三种是设计预处理模块、云聚类模块、相似数据识别模块和实体划分模块,并通过数据空间聚类、相似度计算等完成对相似数据的清洗。以上方法在对链路相似数据丢包中控制较高,但是存在着相似数据提取精度较差的问题。


技术实现要素:

6.本发明的目的在于提供基于贝叶斯算法的智能数据录入方法,以解决上述背景技术中提出的问题。
7.为实现上述目的,本发明提供如下技术方案:基于贝叶斯算法的智能数据录入方法,包括以下具体步骤:
8.步骤一:通过邻接矩阵判断多链路中数据的存在状态,并计算多链路数据的节点度,根据数据出度和入度提取多链路数据信息;
9.步骤二:通过计算多链路半径确定预处理数据的限定范围,在二次降噪的基础上,以该范围为基础计算多链路数据的维度,再通过降维操作完成对数据的预处理;
10.步骤三:利用贝叶斯算法的后验概率计算多链路中数据的节点概率,将相似数据的维度值作为挖掘参数,挖掘链路中的相似数据;
11.步骤四:通过设置结构参数设定最优贝叶斯网络,将所有相似数据中每个节点父节点输入其中,确定数据的极大似然值,通过剔除具有极大似然值的数据完成清洗处理。
12.优选的,所述步骤一中多链路数据提取应先通过邻接矩阵确定多链路上是否存在数据,设置多链路上的数据集合表示为g,则此时的领接矩阵可以表示为:
13.l=(i
ij
)n×n14.式中,i
ij
代表第i行上的第j上的链路数据;
15.由于采集过程中链路上点数据的距离是影响数据提取的关键因素,因此,确定多链路中两个数据的最大距离,在此基础上采集数据,则此时多链路上两个数据的直线最大距离表示为:
[0016][0017]
式中,z
ij
代表多链路的直径,z
max
代表两个数据间最大的直线距离;
[0018]
根据多链路上数据的状态和最大直线距离判断该链路上数据的度,数据的度代表了其在链路上的重要程度,其为:
[0019][0020]
在此基础上,确定多链路上数据度的平均值如下:
[0021][0022]
式中,n代表多链路上数据总数量,代表平均度值;
[0023]
将链路上的数据度划分为出度和入度,此时不同的数据度表示链路上数据度志向的所有数据,由此得到在这两种状态下的多链路上的数据,即:
[0024][0025][0026]
式中,代表出度数据状态,代表入度数据状态,n代表数据的数量。
[0027]
优选的,所述若在链路的边缘,则此时的邻接矩阵为1,若不在链路的边缘,则测试的邻接矩阵为0。
[0028]
优选的,将链路上的数据度划分为出度和入度,此时不同的数据度表示链路上数据度志向的所有数据,由此得到在这两种状态下的多链路上的数据,即:
[0029][0030][0031]
式中,代表出度数据状态,代表入度数据状态,n代表数据的数量。
[0032]
优选的,所述步骤二中多链路数据预处理包括设置多链路数据感知范围内的两个数据是相邻关系,此时链路上的数据表示为:
[0033][0034]
式中,e代表两个数据之间的欧式距离,1代表两个数据是相邻的数据,0代表两个数据不相邻;
[0035]
在降噪过程中,设置的节点数据初始值为i,相邻数据为j,则此时数据集合表示为:
[0036]
d={d1,d2,d3...dm}
[0037]
式中,dm代表多链路数据组成因子,经过降噪后过程中,公式中数据得到:
[0038][0039]
式中,v代表数据降噪阈值,c代表集合中数据求取的平均值。
[0040]
优选的,在多链路数据降噪过程中,由于噪声程度的不同,需要进行二次降噪,以保证数据的有效性,该过程如下:
[0041][0042]
式中,s代表数据中心位置点,在对上述多链路数据进行降噪后,还要进一步降低其中维度较高的数据,首先建立多链路数据集合如下:
[0043]
b={b1,b2,...bn}
[0044]
将此类型数据进行偏导数的求解,得到数据的维度。如果维度为0或小于0,将此部分数据进行降维,如大于0则认定该数据无需降维,即:
[0045][0046]
式中,e代表数据的隶属程度,y
ij
代表数据的维度。
[0047]
优选的,所述步骤三中利用贝叶斯网络对研究的对象的独立关系实施分解,其基本形式是一种乘积形式,可表示为:
[0048][0049]
式中,pa(p)代表贝叶斯网络中节点i的父节点,通过该算法中存在的独立条件对研究对象进行解析;
[0050]
首先判断之间的相似程度,即:
[0051][0052]
式中,same代表数据初始相似度,y
t
代表数据历史相似度,x
t
代表相似度计算的误差范围,g代表多链路相似数据数量总数;
[0053]
根据确定的多链路相似数据,利用贝叶斯算法的后验概率计算,确定多链路相似数据的节点概率,可以表示为:
[0054]
p(q=q|u=u)
[0055]
式中,q代表相似节点的集合,u代表查询数据的集合;
[0056]
根据确定的多链路数据相似数据节点概率,构建多链路相似数据的挖掘模型,根据构建的模型,完成相似数据的挖掘,即:
[0057]
wi=ap bp s(a,b)σp
[0058]
式中,wi代表目标相似链路数据,a代表挖掘的相似性数据的度量值,b代表链路间的相似度,s代表不同数据的权重值。采用贝叶斯网络训练上述相似数据,完成对挖掘后数据的清洗;
[0059]
在此基础上,确定贝叶斯网络的最优结构,将该结构设置为bs,得到:
[0060]
p(bs)=d∑p
[0061]
根据确定的最优网络结构,将上述得到的相似数据以节点的形式输入到该网络中,其中,每一个相似性数据代表一个维度的特征,其集合可以表示为:
[0062]
f={f1,f2,f3,...fm}
[0063]
式中,代表m条记录,然后将所有相似数据中的每个节点的父节点表示为e(vi),通过初始化该节点值使其成为一个空值,该过程如下:
[0064][0065]
根据确定的空集,通过贝叶斯算法设定评分值函数,即:
[0066][0067]
式中,代表评分结果值;
[0068]
在完成对相似数据的评定后,通过求取贝叶斯算法的极大似然值,以该值作为清洗的最优结果,得到:
[0069][0070]
式中,k(d|θ)代表贝叶斯网络结构变量集合,l代表相似数据父节点的结合,p代表父节点的概率,e(vi)代表得到清洗后的数据最大似然值。
[0071]
本发明的技术效果和优点:
[0072]
(1)本发明在提取并预处理多链路数据的基础上,利用贝叶斯算法的后验概率计算多链路中数据的节点概率,将相似数据的维度值作为挖掘参数,挖掘链路中的相似数据。然后通过设置结构参数设定最优贝叶斯网络,将所有相似数据中每个节点父节点输入其中,确定数据的极大似然值,通过剔除具有极大似然值的数据完成清洗处理,具有较高的挖掘精度和清洗精度,故有效性较强。
附图说明
[0073]
图1为本发明多链路有向图示意图。
[0074]
图2为本发明多链路数据感知范围示意图。
[0075]
图3为本发明不同方法对多链路相似数据挖掘精度的对比图。
[0076]
图4为本发明不同方法对多链路相似数据的清洗误差对比图
具体实施方式
[0077]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0078]
本发明提供了如图1-4所示的基于贝叶斯算法的智能数据录入方法,包括以下具体步骤:
[0079]
步骤一:通过邻接矩阵判断多链路中数据的存在状态,并计算多链路数据的节点度,根据数据出度和入度提取多链路数据信息;
[0080]
多链路数据提取应先通过邻接矩阵确定多链路上是否存在数据,设置多链路上的数据集合表示为g,则此时的领接矩阵可以表示为:
[0081]
l=(i
ij
)n×n[0082]
式中,i
ij
代表第i行上的第j上的链路数据,若在链路的边缘,则此时的邻接矩阵为1,若不在链路的边缘,则测试的邻接矩阵为0;
[0083]
由于采集过程中链路上点数据的距离是影响数据提取的关键因素,因此,确定多链路中两个数据的最大距离,在此基础上采集数据,则此时多链路上两个数据的直线最大距离表示为:
[0084][0085]
式中,z
ij
代表多链路的直径,z
max
代表两个数据间最大的直线距离;
[0086]
根据多链路上数据的状态和最大直线距离判断该链路上数据的度,数据的度代表了其在链路上的重要程度,其为:
[0087][0088]
在此基础上,确定多链路上数据度的平均值如下:
[0089][0090]
式中,n代表多链路上数据总数量,代表平均度值;
[0091]
将链路上的数据度划分为出度和入度,此时不同的数据度表示链路上数据度志向的所有数据,由此得到在这两种状态下的多链路上的数据,即:
[0092][0093][0094]
式中,代表出度数据状态,代表入度数据状态,n代表数据的数量。
[0095]
将链路上的数据度划分为出度和入度,此时不同的数据度表示链路上数据度志向的所有数据,由此得到在这两种状态下的多链路上的数据,即:
[0096][0097][0098]
式中,代表出度数据状态,代表入度数据状态,n代表数据的数量;
[0099]
步骤二:通过计算多链路半径确定预处理数据的限定范围,在二次降噪的基础上,以该范围为基础计算多链路数据的维度,再通过降维操作完成对数据的预处理,为后续的数据清洗环节奠定良好的数据基础;
[0100]
多链路数据预处理包括设置多链路数据感知范围内的两个数据是相邻关系,此时链路上的数据表示为:
[0101][0102]
式中,e代表两个数据之间的欧式距离,1代表两个数据是相邻的数据,0代表两个数据不相邻;
[0103]
在降噪过程中,设置的节点数据初始值为i,相邻数据为j,则此时数据集合表示为:
[0104]
d={d1,d2,d3...dm}
[0105]
式中,dm代表多链路数据组成因子,经过降噪后过程中,公式中数据得到:
[0106][0107]
式中,v代表数据降噪阈值,c代表集合中数据求取的平均值;
[0108]
在多链路数据降噪过程中,由于噪声程度的不同,需要进行二次降噪,以保证数据的有效性,该过程如下:
[0109][0110]
式中,s代表数据中心位置点,在对上述多链路数据进行降噪后,还要进一步降低其中维度较高的数据,首先建立多链路数据集合如下:
[0111]
b={b1,b2,...bn}
[0112]
将此类型数据进行偏导数的求解,得到数据的维度。如果维度为0或小于0,将此部分数据进行降维,如大于0则认定该数据无需降维,即:
[0113][0114]
式中,e代表数据的隶属程度,y
ij
代表数据的维度;
[0115]
步骤三:利用贝叶斯算法的后验概率计算多链路中数据的节点概率,将相似数据
的维度值作为挖掘参数,挖掘链路中的相似数据;
[0116]
利用贝叶斯网络对研究的对象的独立关系实施分解,其基本形式是一种乘积形式,可表示为:
[0117][0118]
式中,pa(p)代表贝叶斯网络中节点i的父节点,通过该算法中存在的独立条件对研究对象进行解析;
[0119]
首先判断之间的相似程度,即:
[0120][0121]
式中,same代表数据初始相似度,y
t
代表数据历史相似度,x
t
代表相似度计算的误差范围,g代表多链路相似数据数量总数;
[0122]
根据确定的多链路相似数据,利用贝叶斯算法的后验概率计算,确定多链路相似数据的节点概率,可以表示为:
[0123]
p(q=q|u=u)
[0124]
式中,q代表相似节点的集合,u代表查询数据的集合;
[0125]
根据确定的多链路数据相似数据节点概率,构建多链路相似数据的挖掘模型,根据构建的模型,完成相似数据的挖掘,即:
[0126]
wi=ap bp s(a,b)∑p
[0127]
式中,wi代表目标相似链路数据,a代表挖掘的相似性数据的度量值,b代表链路间的相似度,s代表不同数据的权重值。采用贝叶斯网络训练上述相似数据,完成对挖掘后数据的清洗;
[0128]
在此基础上,确定贝叶斯网络的最优结构,将该结构设置为bs,得到:
[0129]
p(bs)=d∑p
[0130]
根据确定的最优网络结构,将上述得到的相似数据以节点的形式输入到该网络中,其中,每一个相似性数据代表一个维度的特征,其集合可以表示为:
[0131]
f={f1,f2,f3,...fm}
[0132]
式中,代表m条记录,然后将所有相似数据中的每个节点的父节点表示为e(vi),通过初始化该节点值使其成为一个空值,该过程如下:
[0133][0134]
根据确定的空集,通过贝叶斯算法设定评分值函数,即:
[0135][0136]
式中,代表评分结果值;
[0137]
在完成对相似数据的评定后,通过求取贝叶斯算法的极大似然值,以该值作为清洗的最优结果,得到:
[0138][0139]
式中,k(d|θ)代表贝叶斯网络结构变量集合,l代表相似数据父节点的结合,p代表父节点的概率,e(vi)代表得到清洗后的数据最大似然值;
[0140]
步骤四:通过设置结构参数设定最优贝叶斯网络,将所有相似数据中每个节点父节点输入其中,确定数据的极大似然值,通过剔除具有极大似然值的数据完成清洗处理。
[0141]
实施例一:
[0142]
选用多链路数据来源于solvakia数据集合,在该结合中共选择数据2000个,其中存在相似数据的数量为800个,其余为正常的数据。实验样本数据的相关参数如表1所示:
[0143][0144]
表一 实验样本数据相关参数
[0145]
根据上述设定的实验方案,通过对比的方式,以多链路相似数据的挖掘精度和清洗误差为指标,对第一中方法以及第二种方法的应用性能展开验证;
[0146]
以多链路相似数据的挖掘精度为关键指标,对第一种猴方法以及第二种方法的性能展开对比。不同方法的相似数据挖掘精度如图3所示;
[0147]
根据图3中的实验数据可以看出,第一种方法以及第二种方法对样本数据的挖掘精度存在一定差异。其中本发明的挖掘精度是三种方法中最高的,其挖掘精度最高可达到98.51%。由此可以认为,本文方法能够更精确地挖掘多链路中存在的相似数据,能够为后续的数据清洗环节奠定良好的数据基础;
[0148]
在保证多链路相似数据挖掘精度基础上,进一步验证第一种方法以及第二种方法对相似数据的清洗误差。不同方法的清洗误差结果如图4所示;
[0149]
根据图4中的实验数据可以看出,采用第一种方法以及第二种方法对多链路中相似数据进行清洗的误差存在不同。其中,第一种方法的清洗误差最低约为3.85%,第二种方法的清洗误差最低约为2.01%,而本发明清洗的误差最低约为1.22%。对比之下,本文方法的清洗误差较低,这是由于本文方法借助贝叶斯算法构建最优网络,确定了数据的最大似然值,从而提升了数据清洗的效果。
[0150]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献