一种基于知识图谱的数据处理方法及系统与流程

2022-04-14 01:02:53 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，具体是一种基于知识图谱的数据处理方法及系统。

背景技术：

2.互联网广告的对象是与互联网相连的所有计算机终端客户，通过互联网将产品、服务等信息传送到世界各地，其世界性广告覆盖范围使其它广告媒介望尘莫及。此外，互联网广告采用文字、声音、影像、图像、颜色、音乐等于一体的丰富表现手段，具有报纸、电视的各种优点，更加吸引受众。因此，互联网广告也越来越多。
3.随着计算机设备的普及，我们每个人都主动或被动的与互联网接触，每人每天接收到的广告非常多，其中，有一类广告发生在用户的主动搜索过程中，尤其是购物搜索过程，比如搜索土豆，出现的相关产品就是一类广告，这一类广告的收益很高，相应的，其广告成本也很高。可以想到，广告成本高，该商品的利润也不会低。此外，由于相关产品的推送是需要成本的，谁的预算多，谁就越靠前，这就导致用户在搜索一项产品时，出现的相关产品甚至会是风马牛不相及的产品，这也会使得广告效果适得其及。因此，如何优化相关产品的推送过程是本发明技术方案想要解决的技术问题。

技术实现要素：

4.本发明的目的在于提供一种基于知识图谱的数据处理方法及系统，以解决上述背景技术中提出的问题。
5.为实现上述目的，本发明提供如下技术方案：一种基于知识图谱的数据处理方法，所述方法包括：接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表；其中，所述查询语句的尾部为语句标签；根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标；获取用户的账户信息，基于所述账户信息确定相关用户，读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表；根据查询指标确定待检字表各元素的权重，根据所述权重和所述扩充表生成并显示查询图谱。
6.作为本发明进一步的方案：所述接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表的步骤包括：接收用户输入的含有查询语句的查询请求，根据查询语句的语句标签确定语句架构；读取查询语句，将所述查询语句和所述语句架构输入训练好的词性分析模型，得到含有词性标记的查询语句；
将所述含有词性标记的查询语句输入训练好的敏感分析模型，根据敏感分析结果对所述查询语句进行内容转换；根据词性标记提取内容转换后的查询语句中的关键词，确定待检字表。
7.作为本发明进一步的方案：所述根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标的步骤包括：依次提取所述待检字表中的元素，基于该元素遍历训练好的近义词库，提取近义词组；根据预设的提取规则在所述近义词组中提取近义词，作为该元素的参考字；统计所述参考字，得到参考字表；基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询频率与最近查询时间；其中，所述查询数据库的元素项由所述预设的提取规则确定。
8.作为本发明进一步的方案：所述获取用户的账户信息，基于所述账户信息确定相关用户的步骤包括：获取用户的账户信息中的身份信息，根据所述身份信息确定用户检测范围；获取用户的账户信息中的浏览信息，根据所述浏览信息确定用户类型；在所述用户检测范围内根据所述用户类型查询相关用户，得到相关用户表；获取用户的账户信息中的社交信息，根据所述社交信息对所述相关用户表进行修正。
9.作为本发明进一步的方案：所述获取用户的账户信息中的社交信息，根据所述社交信息对所述相关用户表进行修正的步骤包括：获取用户终端的读取权限，基于所述读取权限获取各app在预设时间范围内的屏幕占用时间；基于所述屏幕占用时间提取预设数量的app，获取提取到的app中的通讯列表；读取所述相关用户表，将所述相关用户表与所述通讯列表进行逻辑运算，确定通讯列表与相关用户表之间的重复用户和非重复用户；在相关用户表中标记重复用户，将非重复用户插入相关用户表。
10.作为本发明进一步的方案：所述读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表的步骤包括：获取相关用户的账户信息，根据所述账户信息获取相关用户的查询记录；其中，所述查询记录含有时间信息，所述查询记录为通过训练好的映射关系转换后的查询记录；根据所述时间信息对同一相关用户的查询记录进行排序，在排序后的查询记录中定位出现在所述参考字表中的查询内容，作为目标字；以目标字为中心在所述排序后的查询记录中提取预设数量的查询内容；根据提取到的查询内容扩充所述参考字表。
11.作为本发明进一步的方案：所述根据提取到的查询内容扩充所述参考字表的步骤包括：计算提取到的查询内容与目标字之间的时间差；
根据预设的转换公式将所述时间差转换为步长；建立以所述目标字为索引的扩充表；所述扩充表中包含查询内容项与步长项；其中，所述目标字为查询记录与参考字表中相同的元素。
12.本发明技术方案还提供了一种基于知识图谱的数据处理系统，所述系统包括：待检字表确定模块，用于接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表；其中，所述查询语句的尾部为语句标签；查询指标确定模块，用于根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标；扩充表确定模块，用于获取用户的账户信息，基于所述账户信息确定相关用户，读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表；查询图谱生成模块，用于根据查询指标确定待检字表各元素的权重，根据所述权重和所述扩充表生成并显示查询图谱。
13.作为本发明进一步的方案：所述扩充表确定模块包括：记录查询单元，用于获取相关用户的账户信息，根据所述账户信息获取相关用户的查询记录；其中，所述查询记录含有时间信息，所述查询记录为通过训练好的映射关系转换后的查询记录；排序单元，用于根据所述时间信息对同一相关用户的查询记录进行排序，在排序后的查询记录中定位出现在所述参考字表中的查询内容，作为目标字；内容提取单元，用于以目标字为中心在所述排序后的查询记录中提取预设数量的查询内容；处理执行单元，用于根据提取到的查询内容扩充所述参考字表。
14.作为本发明进一步的方案：所述处理执行单元包括：计算子单元，用于计算提取到的查询内容与目标字之间的时间差；转换子单元，用于根据预设的转换公式将所述时间差转换为步长；建表子单元，用于建立以所述目标字为索引的扩充表；所述扩充表中包含查询内容项与步长项；其中，所述目标字为查询记录与参考字表中相同的元素。
15.与现有技术相比，本发明的有益效果是：本发明对用户输入查询语句进行内容识别，然后获取用户的账户信息，确定相关用户，确定扩充表，根据内容识别结果确定待检字表各元素的权重，根据所述权重和所述扩充表生成并显示查询图谱，提供了更加契合用户的推送内容。
附图说明
16.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。
17.图1示出了基于知识图谱的数据处理方法的流程框图。
18.图2示出了基于知识图谱的数据处理方法的第一子流程框图。
19.图3示出了基于知识图谱的数据处理方法的第二子流程框图。
20.图4示出了基于知识图谱的数据处理方法的第三子流程框图。
21.图5示出了基于知识图谱的数据处理方法的第四子流程框图。
22.图6示出了基于知识图谱的数据处理系统的组成结构框图。
23.图7示出了基于知识图谱的数据处理系统中扩充表确定模块的组成结构框图。
24.图8示出了扩充表确定模块中处理执行单元的组成结构框图。
具体实施方式
25.为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
26.实施例1图1示出了基于知识图谱的数据处理方法的流程框图，本发明实施例中，一种基于知识图谱的数据处理方法，所述方法包括步骤s100至步骤s400：步骤s100：接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表；其中，所述查询语句的尾部为语句标签；本发明技术方案的功能是，接收用户的查询请求，然后输出知识图谱形式的数据反馈，步骤s100是数据接收过程，接收用户输入的查询语句和查询请求；对查询语句进行识别，可以提取查询语句的关键句和关键字，进而确定待检字表；需要说明的是，所述语句标签可以是句尾的符号，如果是问号，就代表该语句是一个问句，如果是句号，就代表该语句是一个陈述句；如果没有符号，就将该语句默认为一个词组。
27.步骤s200：根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标；步骤s200的目的是对待检字表进行归一化处理，因为待检字的种类有很多，如果对所有的词进行备案，那么服务器会非常的冗余，对于一些意思相近的词，可以通过一个统一的词来代替，这样可以有效地提高计算资源的利用率。
28.值得一提的是，查询数据库中包含所有用户的查询信息，对于现在的服务端来说，几乎都具备数据存储的功能，就算存储设备的容量有限，也可以借助云端实现这一存储过程。具体的，现有的各app中的每日热点推送功能，就是上述查询数据库的一种实际应用。
29.步骤s300：获取用户的账户信息，基于所述账户信息确定相关用户，读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表；步骤s300的目的是对所述参考字表进行扩充，扩充的原理是，获取与该用户的相似度较高或紧密性较高的用户，关于该查询语句的相关搜索内容，从而建立一个查询索引。
30.步骤s400：根据查询指标确定待检字表各元素的权重，根据所述权重和所述扩充表生成并显示查询图谱。
31.查询索引的一种较优的显示方式就是采取图谱的方式进行显示，如果用圆表示待检字表中的元素，权重就代表着该圆的大小，相应的，扩充表是与该圆相连的小圆。
32.图2示出了基于知识图谱的数据处理方法的第一子流程框图，所述接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表的步骤包括步骤s101至步骤s104：
步骤s101：接收用户输入的含有查询语句的查询请求，根据查询语句的语句标签确定语句架构；步骤s102：读取查询语句，将所述查询语句和所述语句架构输入训练好的词性分析模型，得到含有词性标记的查询语句；步骤s103：将所述含有词性标记的查询语句输入训练好的敏感分析模型，根据敏感分析结果对所述查询语句进行内容转换；步骤s104：根据词性标记提取内容转换后的查询语句中的关键词，确定待检字表。
33.步骤s101至步骤s104对待检字表的生成过程进行了具体的限定，首先，根据语句标签确定语句架构，如果查询语句是疑问句，那么可以将查询语句中的一些语气助词剔除，根据语句架构可以使得待检字表确定过程的规律性更强。
34.然后，对查询语句进行词性分析，将查询语句中的内容标记为名词、动词或副词等等。最后，对这些词进行敏感分析，如果是一些不合适的内容，那么就将该词标记为无效词汇，不进行后续的操作。统计词性分析和脱敏后的查询语句，即可得到待检字表。
35.图3示出了基于知识图谱的数据处理方法的第二子流程框图，所述根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标的步骤包括步骤s201至步骤s204：步骤s201：依次提取所述待检字表中的元素，基于该元素遍历训练好的近义词库，提取近义词组；步骤s202：根据预设的提取规则在所述近义词组中提取近义词，作为该元素的参考字；步骤s203：统计所述参考字，得到参考字表；步骤s204：基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询频率与最近查询时间；其中，所述查询数据库的元素项由所述预设的提取规则确定。
36.步骤s201至步骤s204提供了一种查询指标的确定方案，通过将待检字表中的元素都转换为统一的近义词，生成参考字表，然后，在预设的查询数据库确定参考字表中各元素的查询指标，所述查询指标包括查询频率与最近查询时间；当用户数量足够多时，最近查询时间与当前时刻的差距几乎为零，因此，真正重要的查询指标就是查询频率。
37.需要说明的是，所述预设的提取规则由人为确定，规则种类有很多，比如按照首字母顺序排序，提取首项元素，作为参考字，又或者按照笔划顺序进行排序，提取首项元素，作为参考字。因此，具体的提取规则并不重要，提取规则的统一性才是必要的。
38.作为本发明技术方案的一个优选实施例，所述获取用户的账户信息，基于所述账户信息确定相关用户的步骤包括：获取用户的账户信息中的身份信息，根据所述身份信息确定用户检测范围；获取用户的账户信息中的浏览信息，根据所述浏览信息确定用户类型；在所述用户检测范围内根据所述用户类型查询相关用户，得到相关用户表；获取用户的账户信息中的社交信息，根据所述社交信息对所述相关用户表进行修正。
39.进一步的，所述获取用户的账户信息中的社交信息，根据所述社交信息对所述相
关用户表进行修正的步骤包括：获取用户终端的读取权限，基于所述读取权限获取各app在预设时间范围内的屏幕占用时间；基于所述屏幕占用时间提取预设数量的app，获取提取到的app中的通讯列表；读取所述相关用户表，将所述相关用户表与所述通讯列表进行逻辑运算，确定通讯列表与相关用户表之间的重复用户和非重复用户；在相关用户表中标记重复用户，将非重复用户插入相关用户表。
40.在本发明技术方案的一个实例中，对相关用户的确定过程进行了具体的限定，首先，根据所述身份信息确定用户检测范围，所述身份信息中最重要的是年龄和性别，当然，也可以有其它因变量，比如教育水平；然后，根据所述浏览信息确定用户类型，如果一个用户经常浏览的信息是体育信息，那么就可以将该用户定义为体育爱好者；根据用户检测范围和用户类型可以初步确定相关用户，最后，再根据社交信息对确定的相关用户进行标记或补充即可。
41.值得一提的是，与用户各方面相似的用户优先级最高，也就是上述标记的重复用户。
42.图4示出了基于知识图谱的数据处理方法的第三子流程框图，所述读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表的步骤包括步骤s301至步骤s304：步骤s301：获取相关用户的账户信息，根据所述账户信息获取相关用户的查询记录；其中，所述查询记录含有时间信息，所述查询记录为通过训练好的映射关系转换后的查询记录；步骤s302：根据所述时间信息对同一相关用户的查询记录进行排序，在排序后的查询记录中定位出现在所述参考字表中的查询内容，作为目标字；步骤s303：以目标字为中心在所述排序后的查询记录中提取预设数量的查询内容；步骤s304：根据提取到的查询内容扩充所述参考字表。
43.步骤s301至步骤s304提供了一种具体的生成扩充表的技术方案，步骤s301和步骤s302判断相关用户的查询记录是否有参考字表中的元素，如果有，就将该元素标记为目标字；值得一提的是，相关用户的查询记录也经过训练好的映射关系的处理。
44.步骤s303和步骤s304以目标字为中心，在排序后的查询记录中提取预设数量的查询内容，排序的基准是时间信息，提取到的查询内容的基准也是时间信息。
45.图5示出了基于知识图谱的数据处理方法的第四子流程框图，所述根据提取到的查询内容扩充所述参考字表的步骤包括步骤s3041至步骤s3043：步骤s3041：计算提取到的查询内容与目标字之间的时间差；步骤s3042：根据预设的转换公式将所述时间差转换为步长；步骤s3043：建立以所述目标字为索引的扩充表；所述扩充表中包含查询内容项与步长项；其中，所述目标字为查询记录与参考字表中相同的元素。
46.上述内容对具体的扩充过程进行了限定，它的目的是确定步长，本发明技术方案
的最终目的是生成查询图谱，确定查询图谱的参数至少有两个，一是节点的大小，二是节点之间的距离，所述权重就是节点的大小，所述步长就是节点之间的距离。
47.需要说明的是，所述权重只需要区别待检字表中的不同元素即可。
48.值得一提的是，参考字表与待检字表为映射关系，参考字表与待检字表的元素项是对应的，参考字表经过一系列操作比对过程后，确定了参考字表的扩充表，然后还需要逆转换为扩充表与待检字表的关系，在参考字表与待检字表的元素项是对应的前提下，这一逆转换过程并不困难。
49.实施例2图6示出了基于知识图谱的数据处理系统的组成结构框图，本发明实施例中，一种基于知识图谱的数据处理系统，所述系统10包括：待检字表确定模块11，用于接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表；其中，所述查询语句的尾部为语句标签；查询指标确定模块12，用于根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标；扩充表确定模块13，用于获取用户的账户信息，基于所述账户信息确定相关用户，读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表；查询图谱生成模块14，用于根据查询指标确定待检字表各元素的权重，根据所述权重和所述扩充表生成并显示查询图谱。
50.图7示出了基于知识图谱的数据处理系统中扩充表确定模块的组成结构框图，所述扩充表确定模块13包括：记录查询单元131，用于获取相关用户的账户信息，根据所述账户信息获取相关用户的查询记录；其中，所述查询记录含有时间信息，所述查询记录为通过训练好的映射关系转换后的查询记录；排序单元132，用于根据所述时间信息对同一相关用户的查询记录进行排序，在排序后的查询记录中定位出现在所述参考字表中的查询内容，作为目标字；内容提取单元133，用于以目标字为中心在所述排序后的查询记录中提取预设数量的查询内容；处理执行单元134，用于根据提取到的查询内容扩充所述参考字表。
51.图8示出了扩充表确定模块中处理执行单元的组成结构框图，所述处理执行单元134包括：计算子单元1341，用于计算提取到的查询内容与目标字之间的时间差；转换子单元1342，用于根据预设的转换公式将所述时间差转换为步长；建表子单元1343，用于建立以所述目标字为索引的扩充表；所述扩充表中包含查询内容项与步长项；其中，所述目标字为查询记录与参考字表中相同的元素。
52.所述基于知识图谱的数据处理方法所能实现的功能均由计算机设备完成，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述基于知识图谱的数据处理方法的功能。
53.处理器从存储器中逐条取出指令、分析指令，然后根据指令要求完成相应操作，产生一系列控制命令，使计算机各部分自动、连续并协调动作，成为一个有机的整体，实现程序的输入、数据的输入以及运算并输出结果，这一过程中产生的算术运算或逻辑运算均由运算器完成；所述存储器包括只读存储器（read-only memory，rom），所述只读存储器用于存储计算机程序，所述存储器外部设有保护装置。
54.示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。
55.本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。
56.所称处理器可以是中央处理单元（central processing unit，cpu），还可以是其他通用处理器、数字信号处理器（digital signal processor，dsp）、专用集成电路（application specific integrated circuit，asic）、现成可编程门阵列（field-programmable gate array，fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，上述处理器是上述终端设备的控制中心，利用各种接口和线路连接整个用户终端的各个部分。
57.上述存储器可用于存储计算机程序和/或模块，上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如信息采集模板展示功能、产品信息发布功能等）等；存储数据区可存储根据泊位状态显示系统的使用所创建的数据（比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（smart media card，smc），安全数字（secure digital，sd）卡，闪存卡（flash card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
58.终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例系统中的全部或部分模块/单元，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个系统实施例的功能。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、电载波信号、电信信号以及软件分发介质等。
59.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
60.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：插卡式机箱设备的软件管理方法、计算机设备及存储介质与流程

一种基于知识图谱的数据处理方法及系统与流程

相关文献

最热文献