基于自回归模型的多源动态数据在线真值发现系统

2022-04-30 17:28:01 来源：中国专利 TAG：

1.本发明属于数据挖掘和数据库技术领域，具体涉及一种在多源动态冲突数据中挖掘潜在真实数据的在线真值发现系统。

背景技术：

2.随着网络技术的发展以及科学技术的进步，在现实世界中每天都会产生海量的数据。这些数据或来自网络，或来自真实物理世界的传感器收集，或是一些人力的手工记录。
3.由于客观世界中无法避免的存在噪声，人们获取的数据可能并不是真实的。尤其当人们从多个来源来获取某一事物的数据时，往往不同的数据源对同一事物会产生相互冲突的数据。
4.造成这一问题的原因有很多，客观上由于收集设备的精度造成和实际真实数据的偏差；主观上，由于数据收集者的错误操作，亦或是故意地对数据造假都将导致人们得到的数据与实际真实数据存在偏差。同时，不同的数据源对于同一信息，也存在着不同的可靠性，人们有理由相信来自知名的媒体所报道的新闻，比起来自于从未听说的某不知名自媒体的新闻要可信很多。
5.真值发现的目的就是为了从多个冲突的数据源中挖掘出最有可能正确的潜在真实数据。近些年来，真值发现问题吸引了大量研究者的关注，研究人员从不同的角度，提出了各种各样的真值发现方法。例如，最简单的voting、average、median算法，分别采取投票、求平均值、中位数的方式来寻找真值。然而，这类算法忽视了一个基本问题：所有的数据源并不具有相同的可靠性。显然，这三种算法都没有考虑数据源的可靠性，即把所有数据源的可靠性都视作是相同的。因而，这类算法虽然简单，但实际表现往往不是很好。
6.考虑到数据源的可靠性，现有的crh算法针对不同的数据类型分别设计不同的损失函数、catd算法用于解决在数据中大量存在长尾效应时的真值发现问题；基于概率图模型的ltm算法用贝叶斯方法来研究多源分类数据中的真值发现问题、gtm算法用于解决数值数据中的真值发现问题。
7.然而，现有的多数真值发现算法大多把真值当作是一种静态的数据，这些真值发现算法都是为了静态数据而设计的。这些算法都是一种批量处理算法，适用于处理静态批量数据。这类算法精度虽高，但是复杂度以及计算量都不适合用于动态流动数据中的真值发现问题。这类算法也都忽略了真值发现的一个重要问题——真值演化问题。
8.在许多现实生活场景中，潜在的真值通常随时间的改变而动态变化，而不是保持静止不变。并且，对于动态流数据，利用算法已经计算出的真实数据与数据源提供的数据相比较，应该动态地改变数据源的权重信息，而不是使数据源的权重信息保持不变。
9.基于上述现状，本发明对动态真值发现问题的研究，提出了一种新的在线真值发现技术方案，其利用时间序列分析中的自回归模型来挖掘真值演化过程中的基本模式，利用计算出的历史真值数据来预测出当前时刻可能的真值数据，并将此应用于真值优化的目标函数，将真值演化模式与真值优化问题相结合，从而计算出多源动态冲突数据中的潜在
真值，并能动态地计算出数据源的权重信息。

技术实现要素：

10.基于现有技术存在的不足之处，本发明提供一种基于自回归模型的在线真值发现系统，其用于在多源动态数据中挖掘出潜在真实数据。
11.本发明结合了传统真值发现中的优化技术，也利用了时间序列分析中的自回归模型的特点，挖掘出真值在时间尺度上的演化模式。
12.与传统方法不同的是，本发明涉及到在线算法，仅利用估计出的历史真值数据，而无需利用历史所有数据，就可以快速处理来自不同数据源的动态流动数据，从而高效准确地估计出当前时刻数据真值，以及利用计算出的历史真值信息与数据源提供的数据信息相结合，从而动态地得出不同数据源的权重信息。
13.为了实现上述目的，本发明采用以下技术方案：
14.本发明技术方案涉及如下基本概念：
15.数据源：提供冲突数据的来源，常见的如网站、数据库、传感器等。
16.实体：现实世界中存在的事物，如一个城市、一座山峰等。
17.实体属性：描述实体特征的属性，如一个城市的日平均气温、一座山峰的海拔等。
18.真值：描述实体的客观真实数据信息。
19.本发明通过最小化以下公式来求解源权重与数据真值：
[0020][0021]
其中，
[0022][0023]
式中，ws对应于数据源s的权重、表示将要计算出的实体i在时刻t的潜在真值、为数据源s在时刻t提供的关于实体i的数据信息、表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数、表示在t时刻数据源s能提供数据信息的实体集合、是自回归模型预测的关于数据源s在时刻t的预测真值。
[0024]
本发明一种基于自回归模型的多源动态数据在线真值发现系统，其包括如下模块：
[0025]
数据源，收集多源动态数据；每个数据源可以对多个实体提供数据信息，在任意时刻对同一实体，至多提供1个数据信息；
[0026]
在线真值发现算法模块，实时运行在计算设备上，包括三个子模块：自回归模型子模块、动态数据源权重计算子模块、最优化真值计算子模块；
[0027]
自回归模型子模块，用于从历史真值数据中挖掘出真值演化的时间模式，使计算出的真值信息更加符合真值趋势发展方向；
[0028]
动态数据源权重计算子模块，用于动态更新数据源权重；将最优化真值计算子模块已经计算出的历史真值信息与数据源提供的数据信息相比较，动态调整数据源权重，并传递至最优化真值计算子模块，应用于真值计算中；
[0029]
最优化真值计算子模块，利用动态数据源权重计算子模块获得的信息与自回归模型子模块预测的真值信息，通过最小化目标函数，，动态计算当前时刻的潜在真值。
[0030]
优选的，目标函数如下：
[0031][0032]
优选的，自回归模型子模块通过建模体现真值潜在的演化模式，即优选的，自回归模型子模块通过建模体现真值潜在的演化模式，即其中，表示实体i在当前时刻t的真值；表示实体i在当前时刻t的自回归模型的预测真值；φj是自回归模型的系数；∈
t
为高斯白噪声。在实际预测中，可以除去高斯白噪声项，得到
[0033]
优选的，动态数据源权重计算子模块动态更新数据源权重，数据源s的权重计算公式为：
[0034][0035]
其中，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s在当前时刻t所能提供的数据信息的个数，表示数据源s在当前时刻t所能提供的数据信息的个数，表示在当前时刻t的数据源s的累计误差，当前时刻t的数据源s的累计误差，表示在t时刻数据源s能提供数据信息的实体集合，
[0036]
每次更新数据源s的权重ws时，同时记录与则下次再更新ws时，就可以实现增量式更新，从而大大提高计算速度。
[0037]
优选的，最优化真值计算子模块采用smooth l1损失函数来衡量与之间的差异，形式为：
[0038][0039]
其中，表示将要计算出的实体i在时刻t的潜在真值、为自回归模型预测的关于数据源s在时刻t的预测真值。此损失函数包含于此算法要优化的目标函数中，并决定最终估计真值的计算。
[0040]
优选的，在线多源动态真值发现算法模块具体如下：
[0041]
s1、初始化参数：p、ws，其中s∈{1,2,
…
,s}表示所有的数据源，s是所有数据源的总数量。ws是对应于数据源s的权重，对应于数据源s的可靠性。ws越大，则数据源s所提供的信息就越值得信赖。反之亦然，数据源s如果提供的信息越接近真实信息，则其权重ws就应
该越大。p为自回归模型的阶数。并令当前时刻t＝1，进入s2；
[0042]
s2、如果当前时刻t小于自回归模型阶数p 1，即t《p 1，则分别针对每个实体，在当前时刻t，对于所有数据源s的所有实体，有
[0043][0044]
i表示数据源的第i个实体，表示将要计算出的潜在真值，为第s个数据源在时刻t提供的关于实体i的数据信息，并进入s5；若t≥p 1，则进入s3；
[0045]
s3、计算由自回归模型预测的真值
[0046][0047]
是计算出的第i个实体在时刻t-j的历史真值，φj是自回归模型的系数，且j∈{1,2,
…
,p}，p阶自回归模型共有p个系数。记φ＝[φ1,φ2,
…
,φ
p
]为自回归模型系数向量，为实体i的历史真值矩阵，为实体i的历史真值向量，则φ＝(a
t
a)-1at
x。并进入s4；
[0048]
s4、此步骤根据以上步骤已经计算出的数据源s的权重信息ws、自回归模型预测出的关于数据源s的实体i在当前时刻t的真值以及当前时刻t由数据源s提供的关于实体i的数据信息之间的关系，可以分为以下三种情况分别讨论当前时刻实体i的真值计算：
[0049]
1、如果那么：
[0050][0051]
2、如果那么：
[0052][0053]
3、如果那么：
[0054][0055]
在此步骤中，先从条件1相应公式计算真值，再判断其是否满足条件1。若满足，则直接进入下一步骤s5；若否，则用条件2公式计算真值，再判断其是否满足条件2，若满足，则进入下一步骤s5，若不满足条件2，直接用条件3公式计算真值，后进入s5；
[0056]
s5、针对所有的数据源s∈{1,2,
…
,s}，利用以上步骤计算出的所有实体i的所有历史真值以及当前时刻t数据源s所提供的所有实体的数据信息，计算数据源s的权重信息：
[0057][0058]
其中，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s在当前时刻t所能提供的数据信息的个数，记录记录表示在当前时刻t的数据源s的累计误差，表示在当前时刻t的数据源s的累计误差，表示在t时刻数据源s能提供数据信息的实体集合，记录并进入s6；
[0059]
s6、令t＝t 1，并判断是否继续能接收到新的数据。若没有收到新的数据，则结束；若接收到了新的数据，则返回步骤s2；即实现基于自回归模型的多源动态冲突数据的中真值发现过程。
[0060]
作为本发明的一种优选技术方案：s1中，ws的初始化采用均匀产生方式，即令所有的ws都相等：ws＝1/s，其中s为数据源的总数量。
[0061]
作为本发明的一种优选技术方案：s2中，由于在此发明中自回归模型至少需要p个真值数据来建模，因此，当t《p 1，无需使用自回归模型预测数据真值。
[0062]
作为本发明的一种优选技术方案：s3中，φ是自回归模型的系数向量，由最小二乘估计而出，并且会随着时间的变化而动态变化。
[0063]
作为本发明的一种优选技术方案：s4中，针对三种情况，应先依次由公式(3)或(4)或(5)计算数据真值，再带入相应条件，判断其是否满足条件约束。
[0064]
作为本发明的一种优选技术方案：s5中，依据计算出的历史真值，可以动态的更新数据源的权重信息，并应用于下一时刻的真值计算中。本发明是一种基于自回归模型的多源动态冲突数据的在线真值发现方法及系统，本发明采用以上技术方案，与现有技术相比，具有以下效果：
[0065]
(1)本发明所基于的自回归模型的多源动态冲突数据在线真值发现方法，考虑了真值发现过程中的真值演化问题。将多源动态数据中的真值发现问题视作为一种动态过程，本发明可以挖掘出数据真值在时间尺度上的演化方式，以在线的形式快速计算出来自多个数据源的动态流动数据中的真值数据。
[0066]
(2)本发明所基于的自回归模型的多源动态冲突数据在线真值发现方法，考虑了数据源的可靠性，即数据源的权重信息。利用历史真值与数据源提供的数据信息从而动态地计算数据源的权重信息，并将此权重信息应用于下一时刻的真值计算。
[0067]
(3)本发明所基于的自回归模型的多源动态冲突数据在线真值发现方法，将时间序列分析中的自回归模型与传统真值发现算法中的优化方法相结合，从而同时具备了传统真值发现算法中利用优化方法处理批量静态数据所具有的准确性与时间序列分析中自回归模型的快速性的优点。
附图说明
[0068]
图1是本发明实施例多源动态数据的在线真值发现方法的流程图；
[0069]
图2是本发明实施例多源动态数据的在线真值发现算法的模型示意图；
[0070]
图3是本发明实施例一种基于自回归模型的多源动态数据在线真值发现系统框图。
具体实施方式
[0071]
下面结合说明书与附图对本发明的具体实施方式做进一步更加详细的说明。
[0072]
本发明所要解决的问题是在多个数据来源的动态流动数据中的环境下，挖掘出最可能的真实数据信息，并且同时保证其准确性与快速性。
[0073]
在现实世界中，可以从多个数据源来收集某一实体的信息。然而，直接从这些数据源所收集到的数据，有很大的可能都不是反映实体属性的客观真实数据。并且，由于不同的数据源使用不同的技术、通过不同的方式来收集信息，那么各个数据源对于同一实体所收集到的信息也很有可能互不相同。
[0074]
有些数据也不是静止不变的，这些数据会随着时间流动而不停的产生。因此，传统的批量处理算法由于其时间复杂度而并不合适处理这类动态数据。
[0075]
针对上述问题，本发明实施例提供了一种处理多源动态数据的在线真值技术方案，它可以快速准确地从多个数据源中挖掘出最有可能符合客观事实的真实数据信息。
[0076]
本实施例技术方案将涉及如下基本概念：
[0077]
数据源：提供冲突数据的来源，如各种气象网站。
[0078]
实体：实体是现实世界中存在的事物，如一座城市，例如杭州。
[0079]
实体属性：描述实体特征的属性，如杭州的日平均气温。
[0080]
真值：描述实体的客观真实数据信息，如杭州客观真实的日平均气温。
[0081]
基于对多源动态数据真值发现模型和真实世界数据集上的分析，本实施例基于以下几个原则：
[0082]
(1)数据源s的权重ws反映其可靠性。ws越大，数据源s提供的信息就越可靠。
[0083]
(2)数据源权重ws应随时间动态改变；
[0084]
(3)一个数据源在同一时刻对一个实体属性只能提供一个数据信息。
[0085]
如图3所示，本实施例一种基于自回归模型的多源动态数据在线真值发现系统，其包括如下模块(各模块按图3所示连接)：
[0086]
数据源，收集多源动态数据；每个数据源可以对多个实体提供数据信息，在任意时刻对同一实体，至多提供1个数据信息；
[0087]
在线真值发现算法模块，实时运行在计算设备上，包括三个子模块：自回归模型子模块、动态数据源权重计算子模块、最优化真值计算子模块；
[0088]
自回归模型子模块，用于从历史真值数据中挖掘出真值演化的时间模式，使计算出的真值信息更加符合真值趋势发展方向；
[0089]
动态数据源权重计算子模块，用于动态更新数据源权重；将最优化真值计算子模块已经计算出的历史真值信息与数据源提供的数据信息相比较，动态调整数据源权重，并传递至最优化真值计算子模块，应用于真值计算中；
[0090]
最优化真值计算子模块，利用动态数据源权重计算子模块获得的信息与自回归模型子模块预测的真值信息，通过最小化以下目标函数：
[0091][0092]
态计算当前时刻的潜在真值。
[0093]
在本实施例中，自回归模型子模块通过建模体现真值潜在的演化模式，即在本实施例中，自回归模型子模块通过建模体现真值潜在的演化模式，即其中，表示实体i在当前时刻t的真值；表示实体i在当前时刻t的自回归模型的预测真值；φj是自回归模型的系数；∈
t
为高斯白噪声。在实际预测中，可以除去高斯白噪声项，得到
[0094]
在本实施例中，动态数据源权重计算子模块动态更新数据源权重，数据源s的权重计算公式为：
[0095][0096]
其中，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s从时刻1到当前时刻t所能提供的数据信息的个数，表示数据源s在当前时刻t所能提供的数据信息的个数，表示数据源s在当前时刻t所能提供的数据信息的个数，表示在当前时刻t的数据源s的累计误差，当前时刻t的数据源s的累计误差，表示在t时刻数据源s能提供数据信息的实体集合，
[0097]
每次更新数据源s的权重ws时，同时记录与则下次再更新ws时，就可以实现增量式更新，从而大大提高计算速度。
[0098]
在本实施例中，最优化真值计算子模块采用smooth l1损失函数来衡量与之间的差异，形式为：
[0099][0100]
其中，表示将要计算出的实体i在时刻t的潜在真值、为自回归模型预测的关于数据源s在时刻t的预测真值。此损失函数包含于此算法要优化的目标函数中，并决定最终估计真值的计算。
[0101]
在本实施例中，如图1、2所示，在线多源动态真值发现算法模块具体按如下步骤操作：
[0102]
s1、初始化参数p、ws，其中s∈{1,2,3}表示只有三个的数据源，即数据来源于三个气象网站。ws的初始化采用均匀产生方式，即令所有的ws都相等：ws＝1/s，则三个气象网站的权重：w1＝w2＝w3＝1/3。p为自回归模型的阶数，令p＝2。并令当前时刻t＝1，进入s2；
[0103]
s2、假如当前为第四天，即t＝4。则t＝4》2 1，所以，自回归模型不缺少数据建模，故进入s3；
[0104]
s3、假如已经估计出的前三天的历史日平均气温：
由公式可计算出历史真值矩阵用公式计算出历史真值向量x＝(18,17.5)，由公式φ＝(a
t
a)-1at
x，计算出回归系数向量φ＝[0.93,0.11]。则t＝4时，根据公式(2)，可计算出第四天的日平均气温的预测真值为并进入s4；
[0105]
s4、已知第四天的三个气象网站提供的杭州日平均气温分别为：s4、已知第四天的三个气象网站提供的杭州日平均气温分别为：且在上一次循环中计算出三个数据源的权重分别为：w1＝0.5,w2＝0.1,w3＝0.4。先根据公式(3)计算第四天的日平均气温估计真值
[0106][0107]
且
[0108][0109]
满足相对应条件，故估计出的第四天的日平均气温真值为：并进入s5；
[0110]
s5、现已知三个气象网站提供的前三天杭州地区的日平均气温数据为：s5、现已知三个气象网站提供的前三天杭州地区的日平均气温数据为：则根据以上数据先计算出且由公式可知记录记录由公式可知：可知：可知：记录所以根据公式(6)更新三个气象网站的权重为：所以根据公式(6)更新三个气象网站的权重为：并进入s6；
[0111]
s6、令t＝4 1＝5。并判断当前是否能接收到新的数据。若再24小时之内没有收到新的数据，则结束该算法；若接收到了新的数据，则返回s2，继续下一次循环计算。
[0112]
通过上述实施例可知，本发明能快速准确地计算出多源动态冲突数据中的潜在真值。
[0113]
以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本技术的实施例和实施例中的特征可以任意相
互组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：管网淤堵分析方法、装置、计算机设备及存储介质与流程

基于自回归模型的多源动态数据在线真值发现系统

相关文献

最热文献