一种大数据图谱分析方法及系统与流程

2022-03-26 16:36:08 来源：中国专利 TAG：

1.本发明属于大数据分析技术领域，尤其涉及一种大数据图谱分析方法及系统。

背景技术：

2.如今已经进入了数据大爆发的时代，数据在网络中的存储量越来越大，称为大数据的存储。如何能够很好的挖掘和使用大数据的价值，就需要准确且快速的获取到对应的大数据，并进行大数据的分析和检索等操作。
3.大数据分析已越来越多的应用在计算机网络中，通过大数据分析能够将看似不相干的存储在不同设备中的零散数据转化成和业务息息相关的信息，例如系统间调用关系或用户购买习惯等，如何更快地在大数据分析出想要的结果，就成为了大数据分析的关键，更快地分析意味着能更快的提供确定的大数据给使用者，能更快地知道问题点或业务发展的方向，在计算机网络这个快速发展的行业，快就意味着效益。
4.为了准确获取大数据且保证大数据的获取效率，对大数据的分析可以采用各种方式，具体地说，一般采用以下几种大数据的分析方式：
5.第一种大数据分析方式，对大数据进行拆分后，分库分表存储在计算机网络中的关系型数据库中，比如oracle、mysql数据库等，根据业务编写存储过程从数据库中获取数据并进行分析，形成结果存储在结果表中。关系型数据库实际上就是由关系模式和关系实例组成，关系模式用来描述关系表中的列，关系实例为关系中的各行，因此，是采用一张张具有行和列的表来存储大数据并后续根据表来获取并分析大数据。
6.第二种大数据分析方式，将大数据存储在开源的分布式文件系统中，简称hdfs，即按照时间先后顺序以流的形式将大数据逐条读入到设置的分析程序中，然后汇总存储在hdfs。在获取时，也是运行分析程序，然后按照时间顺序以流的形式将大数据逐条读出。
7.第三种大数据存储方式，将大数据存储在hbase数据库中，编写mapreduce程序对大数据进行分析计算，并将分析计算结果存储到结果表中，hbase数据库是基于hdfs的一个分布式的、面向列的开源数据库，它提供给用户的是一个高可靠性、高性能、列存储、可伸缩及实时读写的数据库系统。
8.采用上述三种大数据分析的方式，都不能保证根据分析结果能够准实时的将大数据分析给用户，准实时的时长为1分钟到5分钟，特别是第一种方式，在大数据场景下，比如几十上百个g的数据，使用存储过程的方式，通常会耗时几十分钟到几天的时间不等，分析大数据的时间比较长。
9.采用第二种方式或第三种方式需要的一个前提条件是，在基础大数据已经全部准备完成的情况下，才能够进行分析计算，得到分析结果。在特定场景下，不能保证在用户查询时，大数据就一定能够全部准备完成，例如：用户查询计算机网络中的客户端和服务器端的一个业务相应调用关系，比如调用耗时和网络耗时等，如果此时服务器端一直在处理大数据并没有返回客户端，那么这次查询需要的大数据就没有准备好，也就不能进行大数据分析并输出分析结果，这为大数据存储带来了时间成本和资源成本。
10.采用第三种方式的开发及维护的成本是相当高的，采用第一种方式对于关系型数据库要求非常高，例如mysql数据库，通常在处理海量大数据时，需要使用集群技术，而mysql数据库一般并不支持集群的，维护这样一个集群需要相当专业的维护人员及开发人员；而采用第二种方式及第三种方式也需要额外学习开发维护流式计算机框架及mapreduce执行程序，这些都是在学习使用hbase数据库之外的开发使用及维护成本。
11.综上，采用上述三种方式对大数据进行分析，存在着时效长且不容易实现的问题。

技术实现要素：

12.本发明的目的在于提供一种大数据图谱分析方法及系统，旨在解决上述背景技术中所提出的问题。
13.为实现上述目的，本发明提供了如下的技术方案。
14.第一方面，在本发明提供的一个实施例中，一种大数据图谱分析方法，应用于服务器，所述分析方法包括以下步骤：
15.步骤s101：将大数据按时间分片存储到分布式数据中；
16.步骤s102：在分布式数据中设置缓存数据临时表及索引表，索引表中设置了大数据在原始数据临时表中的位置信息；
17.步骤s103：在进行大数据分析时，根据服务器中索引表中存储的对应大数据在原始数据临时表中的位置信息，从原始数据临时表调用大数据进行分析，得到分析结果，存储在分布式数据库中。
18.在本发明提供的一个实施例中，在所述步骤s101之前，所述分析方法还包括对大数据的完整性进行验证的步骤。
19.在本发明提供的一个实施例中，所述对大数据的完整性进行验证的步骤包括：
20.步骤301、服务器接收到大数据的日志数据；
21.步骤302、服务器将日志数据按照时间缓存至redis中；
22.步骤303、服务器查询redis，判断日志数据是否为完整数据，如果是，执行步骤305；判断根据设置的数据计数器值；
23.如果否，执行步骤304；
24.步骤304、服务器将数据计数器加1后，返回执行步骤301；
25.步骤305、服务器删除redis中的记录，并将数据保存至本地缓存队列中。
26.在本发明提供的一个实施例中，在所述步骤s101之前，所述分析方法还包括对大数据的合法性进行验证的步骤。
27.在本发明提供的一个实施例中，所述对大数据的合法性进行验证的步骤还包括：
28.步骤306、服务器的本地定时线程每隔设定时间从缓存队列中获取数据；
29.步骤307、服务器判断所获取的数据是否合法：如果否，执行步骤308；如果是，执行步骤309和312，合法性认证根据预设规则进行判断；
30.步骤308、丢弃该日志数据，并输出错误日志信息，返回步骤306执行。
31.在本发明提供的一个实施例中，在所述步骤s102的具体实现中，包括以下步骤：
32.步骤309、获取本地缓存入口方法名及日志数据中的入口方法名；
33.步骤310、判断日志数据的入口方法名是否存在且与本地缓存入口方法名相同，如
果是，执行步骤312；如果否，则执行步骤311；
34.步骤311、将入口方法名缓存到本地，如果不存在入口方法名，则插入入口方法名，返回步骤306；
35.步骤312、将获取的日志数据，拼装rowkey及数据结构，执行步骤313及步骤314；
36.步骤313、保存至hbase数据库，返回步骤306继续执行；
37.步骤314、得到原始数据临时表及索引表。
38.在本发明提供的一个实施例中，在步骤s103中，所述原始数据临时表调用大数据的步骤包括：
39.定时任务启动；
40.从索引表中根据入口方法名及时间查询需要大数据在原始数据临时表中的rowkey；
41.根据查询到的rowkey分条查询原始数据临时表的存储的大数据；
42.将查询到的大数据串联，得到临时表中的大数据。
43.第二方面，本发明的另一个实施例提供了一种大数据图谱分析系统，所述系统包括存储单元、设置单元、分布式数据库及分析单元，其中，
44.所述存储单元，用于将大数据按时间分片存储在分布式数据库；
45.所述设置单元，用于在分布式数据库设置缓存大数据的原始数据临时表及索引表，其中，所述索引表中设置对应大数据在原始数据临时表中的位置信息；
46.所述分布式数据库，用于按照时间分片存储大数据，存储原始数据临时表、索引表以及分析结果表；
47.所述分析单元，用于根据服务器中的索引表中存储的对应大数据在原始数据临时表中的位置。
48.在本发明提供的一个实施例中，所述系统还包括：
49.验证单元，所述验证单元用于在所述大数据存储到分布式数据库之前，对大数据的完整性验证及合法性验证。
50.与现有技术相比，本发明提供的大数据图谱分析方法能够在分析大数据时，耗时短且易于实现，具体的，本发明采用了二级索引技术，即将大数据按时间分片存储在分布式数据库的同时，在服务器本地缓存中设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息，在进行大数据分析时，直接根据服务器中的索引表从原始数据临时表调用大数据，得到分析结果，存储在分布式数据库中的分析结果表中，这样，就不需要直接编写分析程序从存储海量的大数据库中查找并提取数据库中的大数据，不需要对数据库的存储结构考虑，本发明耗时短且易于实现。
附图说明
51.图1为本发明一种大数据图谱分析方法的实现流程图；
52.图2为一种大数据图谱分析方法的一个子流程图；
53.图3为一种大数据图谱分析方法的另一个子流程图；
54.图4为本发明一种大数据图谱分析系统的结构框图；
55.图5为本发明提供的基于图谱的搜索分析方法的实现流程图。
具体实施方式
56.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
57.本发明采用了二级索引技术，即将大数据按时间分片存储在分布式数据库的同时，在服务器本地缓存中设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息，在进行大数据分析时，直接根据服务器中的索引表从原始数据临时表调用大数据，得到分析结果，存储在分布式数据库中的分析结果表中，这样，就不需要如背景技术那样直接编写分析程序从存储海量的大数据库中查找并提取数据库中的大数据，不需要对数据库的存储结构考虑，本发明耗时短且易于实现。
58.以下结合具体实施例对本发明的具体实现进行详细描述。
59.如图1所示，在本发明提供的一个实施例中，一种大数据图谱分析方法，应用于服务器，所述分析方法包括以下步骤：
60.步骤s101：将大数据按时间分片存储到分布式数据中；
61.其中，将大数据按时间分片存储在分布式数据库hbase，时间分片是设置的，优选的，时间分片可以设置为一周，在本实施例中，一周后，服务器调用的大数据则被新的大数据覆盖，在将大数据存储在分布式数据库时，经过redis完成完整性验证；
62.步骤s102：在分布式数据中设置缓存数据临时表及索引表，索引表中设置了大数据在原始数据临时表中的位置信息；
63.步骤s103：在进行大数据分析时，根据服务器中索引表中存储的对应大数据在原始数据临时表中的位置信息，从原始数据临时表调用大数据进行分析，得到分析结果，存储在分布式数据库中。
64.其中，在步骤s103中，分析结果存储在分布式数据库hbase中。
65.具体的，如图2所示，在本发明实施例中，在所述步骤s101之前，所述分析方法还包括对大数据的完整性进行验证的步骤。
66.所述对大数据的完整性进行验证的步骤包括：
67.步骤301、服务器接收到大数据的日志数据；
68.步骤302、服务器将日志数据按照时间缓存至redis中；
69.步骤303、服务器查询redis，判断日志数据是否为完整数据，如果是，执行步骤305；判断根据设置的数据计数器值；
70.如果否，执行步骤304；
71.步骤304、服务器将数据计数器加1后，返回执行步骤301；
72.步骤305、服务器删除redis中的记录，并将数据保存至本地缓存队列中。
73.进一步的，请继续参阅图2，在所述步骤s101之前，所述分析方法还包括对大数据的合法性进行验证的步骤。
74.其中，在本发明提供的优选实施方式中，所述对大数据的合法性进行验证的步骤还包括：
75.步骤306、服务器的本地定时线程每隔设定时间从缓存队列中获取数据；
76.步骤307、服务器判断所获取的数据是否合法：如果否，执行步骤308；如果是，执行
步骤309和312，合法性认证根据预设规则进行判断；
77.步骤308、丢弃该日志数据，并输出错误日志信息，返回步骤306执行。
78.进一步的，请继续参阅图2，在本发明实施例中，在所述步骤s102的具体实现中，包括以下步骤：
79.步骤309、获取本地缓存入口方法名及日志数据中的入口方法名；
80.步骤310、判断日志数据的入口方法名是否存在且与本地缓存入口方法名相同，如果是，执行步骤312；如果否，则执行步骤311；
81.步骤311、将入口方法名缓存到本地，如果不存在入口方法名，则插入入口方法名，返回步骤306；
82.步骤312、将获取的日志数据，拼装rowkey及数据结构，执行步骤313及步骤314；
83.步骤313、保存至hbase数据库，返回步骤306继续执行；
84.步骤314、得到原始数据临时表及索引表。
85.具体的，如图3所示，在本发明提供的一个实施例中，在步骤s103中，所述原始数据临时表调用大数据的步骤包括：
86.步骤s501：定时任务启动；
87.步骤s502：从索引表中根据入口方法名及时间查询需要大数据在原始数据临时表中的rowkey；
88.步骤s503：根据查询到的rowkey分条查询原始数据临时表的存储的大数据；
89.步骤s504：将查询到的大数据串联，得到临时表中的大数据。
90.本发明实施例只需要根据入口方法及时间查询索引表，得到对应的在原始数据临时表的rowkey，就能够得到原始数据临时表存储的大数据，避免了大范围的在hbase数据库中的扫描和验证，为准实时数据分析节约了查询数据的时间，随着大数据的数据量的发展，可以将时间分片缩小到30秒或10秒，利于未来业务的扩展而不必大范围的改动代码及设计。
91.在这里，是采用原始数据临时表的rowkey查询时，涉及到了查询方式，hbase数据库提供了多种数据过滤查询方式，效率最高的是get方式，可设置范围查询及设置过滤其进行查询，由于会对某一个或几个分区的数据进行扫描过滤，所以在大多数情况下，查询效率会受到影响，所以本发明实施例不会采用过多的过滤器作为查询条件。
92.采用索引表调用原始数据临时表中的数据，得到分析后的结果数据，保存至结果表中，方便前端查询。
93.第二方面，如图4所示，本发明的另一个实施例提供了一种大数据图谱分析系统，所述系统包括存储单元701、设置单元702、分布式数据库703及分析单元704。
94.在本发明实施例中，所述存储单元701用于将大数据按时间分片存储在分布式数据库；
95.在本发明实施例中，所述设置单元702用于在分布式数据库设置缓存大数据的原始数据临时表及索引表，其中，所述索引表中设置对应大数据在原始数据临时表中的位置信息；
96.在本发明实施例中，所述分布式数据库703用于按照时间分片存储大数据，存储原始数据临时表、索引表以及分析结果表；
97.所述分析单元704，用于根据服务器中的索引表中存储的对应大数据在原始数据临时表中的位置。
98.另外，在本发明提供的一个实施例中，所述系统还包括验证单元，所述验证单元用于在所述大数据存储到分布式数据库之前，对大数据的完整性验证及合法性验证。
99.综上所述，本发明提供的大数据图谱分析方法能够在分析大数据时，耗时短且易于实现。
100.具体的，本发明采用了二级索引技术，即将大数据按时间分片存储在分布式数据库的同时，在服务器本地缓存中设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息，在进行大数据分析时，直接根据服务器中的索引表从原始数据临时表调用大数据，得到分析结果，存储在分布式数据库中的分析结果表中，这样，就不需要直接编写分析程序从存储海量的大数据库中查找并提取数据库中的大数据，不需要对数据库的存储结构考虑，本发明耗时短且易于实现。
101.另外，在现有技术中，自然语言处理领域许多应用都提出了跨语言搜索的需求，如文献翻译、机器翻译等方法用于解决跨语言的问题，但仍然未能达到让用户满意的效果，不能满足当前全球化背景下的跨语言信息交互需求。
102.为此，本发明对于分布式数据库中获得的结果，又再次基于图谱的搜索分析方法，通过构建中英翻译模型，提供一个供应用层调用的底层关系图谱，在用户输入搜索语句后，基于底层关系图谱实现对搜索语句的实体翻译和转换，基于翻译后的实体进行中英文的双语言精准搜索，有效解决现有技术中跨语言搜索的问题，提高了翻译搜索结果的准确率以及翻译搜索结果与目标语言搜索结果之间的一致性。
103.具体的，如图5所示，提供了基于图谱的搜索分析方法，所述搜索分析方法包括：
104.步骤s901:搜集数据集，获取到中英对齐的中英双语句子
105.步骤s902:构建transformer翻译模型，将获取到的中英双语句子输入transformer翻译模型进行训练，得到训练好的中英翻译模型
106.步骤s903:基于中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体
107.步骤s904:根据中英双语实体构建关联关系，经映射获得底层关系图谱
108.步骤s905:根据用户输入的搜索语句进行实体抽取、翻译，并与底层关系图谱进行匹配，得到搜索结果。
109.在本发明实施例提供的搜索分析方法的具体实现中，
110.搜集数据集，获取到中英双语句子；
111.其中，在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据，得到中英对齐的中英双语句子；中英双语句子中，汉语句子中存在的实体都可在英语句子中找到相对应的实体。
112.构建transformer翻译模型，将获取到的中英双语句子输入transformer翻译模型进行训练，得到训练好的中英翻译模型；
113.transform是完全基于注意力机制来加速深度学习训练过程的现有算法模型，主要分为编码和解码两个模块；通过将句子输入到编码器中不断计算，直到计算到最后一层，再映射到解码模块中进行解码，最后输出结果；
114.因此，分别对中英双语句子中不同类型(包括基于不同语言的文字、图片、表格)的
实体进行抽取、筛分、过滤得到所需实体；基于transformer翻译模型对所需实体进行机器翻译，得到中英翻译模型。
115.基于中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体；
116.其中，抽取中英双语句子中一种语言句子的实体；基于中英翻译模型对抽取出的实体进行翻译，从而匹配出另一种语言的实体，将中英语言实体对齐；
117.根据中英双语实体构建关联关系，经映射获得底层关系图谱；其中，计算实体之间的关联关系是基于图表示模型，将得到的实体关联关系进行图谱表示；
118.根据用户输入的搜索语句进行实体抽取、翻译，并与底层关系图谱进行匹配，得到搜索结果。采用开源的汉语实体抽取工具或汉语命名实体识别模型抽取中英双语模型中的汉语句子中的实体；采用翻译软件与transformer翻译模型相结合，对抽取到的实体进行翻译，将翻译后的实体与底层关系图谱进行匹配，分析匹配结果进行推荐。
119.在本发明的再一个优选实施方式中，提供了一种计算机设备，所述的计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述实施例所提供的一种大数据图谱分析方法，其中，所述的大数据图谱分析方法包括将大数据按时间分片存储到分布式数据中；在分布式数据中设置缓存数据临时表及索引表，索引表中设置了大数据在原始数据临时表中的位置信息；在进行大数据分析时，根据服务器中索引表中存储的对应大数据在原始数据临时表中的位置信息，从原始数据临时表调用大数据进行分析，得到分析结果，存储在分布式数据库中。
120.此外，本发明实施例提供的所述计算机设备还可具有通讯接口，通讯接口用于接收控制指令。
121.在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
122.在本发明的一个典型的配置中，终端、服务网络的设备和计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
123.以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种实现多种数据源联合查询的方法及系统与流程

一种大数据图谱分析方法及系统与流程

相关文献

最热文献