一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语句检索的方法及装置、电子设备、存储介质与流程

2022-11-12 21:20:28 来源:中国专利 TAG:


1.本技术涉及数据检索技术领域,特别涉及一种语句检索的方法及装置、电子设备、存储介质。


背景技术:

2.在当前的大数据时代,数据的重要性越来越高。而在对数据的使用过程中,最重要的就是数据的检索。
3.当前主要数据检索的方式,一种是字符匹配方法,一种则是全文匹配方法。字符匹配方法主要就是,根据用户输入检索条件,逐个字符进行匹配,并根据匹配结果确定检索结果并反馈。全文匹配的方式,则将输入的语句进行分词,然后根据分词进行相似度计算,从而确定出检索结果并反馈。
4.但是字符匹配的方式效率过低,而全文匹配的方式,在语句过长或过短时,所得到的结果的准确性较差。


技术实现要素:

5.基于上述现有技术的不足,本技术提供了一种语句检索的方法及装置、电子设备、存储介质,以解决现有技术效率较低或不够准确的问题。
6.为了实现上述目的,本技术提供了以下技术方案:
7.本技术第一方面提供了一种语句检索的方法,包括:
8.获取用户输入的检索语句;
9.查找目标库中是否存在与所述检索语句相一致的文档语句;其中,所述文档语句为预先将各个文档进行拆分得到的语句;
10.若查找出与所述检索语句相一致的文档语句,则将与所述检索语句相一致的文档语句确定为目标文档语句;
11.若未查找出与所述检索语句相一致的文档语句,则将所述检索语句进行分词,得到检索词集;
12.将所述检索词集与各个所述文档语句对应的词集进行匹配,得到匹配结果,并基于所述匹配结果,从各个所述文档语句中选取出至少一个所述文档语句确定为目标文档语句;
13.分别针对每个所述目标文档语句,将所述目标文档语句所在段落的各个所述文档语句进行拼接,得到所述目标文档语句对应的目标文本;
14.将各个所述目标文档语句及其对应的所述目标文本反馈给所述用户。
15.可选地,在上述的语句检索的方法中,还包括:
16.基于各个业务流程,将多个文档进行串联;
17.将连续的,且共同使用频率超过预先频率阈值的各个所述文档进行合并;
18.将各个所述文档进行拆分,得到的各个所述文档对应的各个所述文档语句;
19.记录各个所述文档的各个所述文档语句的相关项信息;其中,所述相关项信息至少包括所属段落编号以及语句顺序编号;
20.将各个所述文档语句按照所属的所述文档存储至索引库的文档区域,并将各个所述文档语句及其相关项信息存储至所述索引库的索引区域;
21.建立各个所述文档与所述索引区域的各个所述文档语句的映射关系;
22.分别对每个所述文档语句进行分词,得到各个所述文档语句对应的词集;
23.从各个所述文档语句对应的词集中确定出各个所述文档语句的关键词,并将各个所述文档语句的关键词存储至词列表中。
24.可选地,在上述的语句检索的方法中,所述分别针对每个所述目标文档语句,将所述目标文档语句所在段落的各个所述文档语句进行拼接,得到所述目标文档语句对应的目标文本,包括:
25.分别针对每个所述目标文档语句,基于查找出与目标文档语句的所述所属段落编号相一致的各个所述文档语句;
26.按照各个所述文档语句的所述语句顺序编号,将查找出的各个所述文档语句进行拼接,得到所述目标文档语句对应的目标文本。
27.可选地,在上述的语句检索的方法中,所述将所述检索词集与各个所述文档语句对应的词集进行匹配,得到匹配结果,并基于所述批结果,从各个所述文档语句中选取出至少一个所述文档语句确定为目标文档语句,包括:
28.将所述检索词集与各个所述文档语句对应的词集进行匹配,得到第一匹配结果;
29.将所述第一匹配结果中匹配度最大的词集对应的所述文档语句添加至第一语句集合中;
30.若所述第一匹配结果满足扩充条件,则利用扩充词对各个所述文档语句对应的词集和/或所述检索词集进行扩充;
31.将扩充后的各个所述文档语句对应的词集与所述检索词集进行多次匹配,得到多个第二匹配结果;
32.将每个所述第二匹配结果中匹配度最大的词集对应的所述文档语句添加至第二语句集合中;
33.若各个所述第二匹配结果中匹配度大于所述预设匹配度的词集对应的所述文档语句的数量总和大于所述预设数量,则基于所述检索语句中的关键词,确定出多个目标热门文档;
34.利用各个所述目标热门文档中的各个热词对所述检索词集进行二次扩充,得到多个检索扩充词集;
35.分别每个所述检索扩充词集,将所述检索扩充词集与各个所述文档语句对应的词集进行匹配,得到所述检索扩充词集对应的第三次匹配结果;
36.将各个所述第三匹配结果中匹配度最大的词集对应的所述文档语句添加至第三语句集合中;
37.确定所述第一语句集合、第二语句集合以及第三语句集合的交集;
38.将所述交集中的各个所述文档语句确定为所述目标文档语句。
39.可选地,在上述的语句检索的方法中,所述查找目标库中是否存在与所述检索语
句相一致的文档语句之前,还包括:
40.判断所述用户输入的所述检索语句是否属于当前连续的高密度相似搜索语句;
41.若判断出所述用户输入的所述检索语句不属于当前连续的高密度相似搜索语句,则将索引库确定为所述目标库;其中,所述索引库包括全量的文档语句;
42.若判断出所述用户输入的所述检索语句属于当前连续的高密度相似搜索语句,则将当前排他库确定为所述目标库;其中,所述排他库初始包含全量的文档语句,并在每次进行当前的所述高密度相似搜索语句后,将搜索到的各个所述目标文档语句从所述排他库中剔除。
43.本技术第二方面提供了一种语句检索的装置,包括:
44.获取单元,用于获取用户输入的检索语句;
45.第一查找单元,用于查找目标库中是否存在与所述检索语句相一致的文档语句;其中,所述文档语句为预先将各个文档进行拆分得到的语句;
46.第一确定单元,用于在查找出与所述检索语句相一致的文档语句时,将与所述检索语句相一致的文档语句确定为目标文档语句;
47.第一分词单元,用于在未查找出与所述检索语句相一致的文档语句时,将所述检索语句进行分词,得到检索词集;
48.匹配单元,用于将所述检索词集与各个所述文档语句对应的词集进行匹配,得到匹配结果,并基于所述匹配结果,从各个所述文档语句中选取出至少一个所述文档语句确定为目标文档语句;
49.拼接单元,用于分别针对每个所述目标文档语句,将所述目标文档语句所在段落的各个所述文档语句进行拼接,得到所述目标文档语句对应的目标文本;
50.反馈单元,用于将各个所述目标文档语句及其对应的所述目标文本反馈给所述用户。
51.可选地,在上述的语句检索的装置中,还包括:
52.串联单元,用于基于各个业务流程,将多个文档进行串联;
53.合并单元,用于将连续的,且共同使用频率超过预先频率阈值的各个所述文档进行合并;
54.拆分单元,用于将各个所述文档进行拆分,得到的各个所述文档对应的各个所述文档语句;
55.记录单元,用于记录各个所述文档的各个所述文档语句的相关项信息;其中,所述相关项信息至少包括所属段落编号以及语句顺序编号;
56.存储单元,用于将各个所述文档语句按照所属的所述文档存储至索引库的文档区域,并将各个所述文档语句及其相关项信息存储至所述索引库的索引区域;
57.建立单元,用于建立各个所述文档与所述索引区域的各个所述文档语句的映射关系;
58.第二分词单元,用于分别对每个所述文档语句进行分词,得到各个所述文档语句对应的词集;
59.关键词处理单元,用于从各个所述文档语句对应的词集中确定出各个所述文档语句的关键词,并将各个所述文档语句的关键词存储至词列表中。
60.可选地,在上述的语句检索的装置中,所述拼接单元,包括:
61.第二查找单元,用于分别针对每个所述目标文档语句,基于查找出与目标文档语句的所述所属段落编号相一致的各个所述文档语句;
62.拼接子单元,用于按照各个所述文档语句的所述语句顺序编号,将查找出的各个所述文档语句进行拼接,得到所述目标文档语句对应的目标文本。
63.可选地,在上述的语句检索的装置中,所述匹配单元,包括:
64.第一匹配单元,用于将所述检索词集与各个所述文档语句对应的词集进行匹配,得到第一匹配结果;
65.第一添加单元,用于将所述第一匹配结果中匹配度最大的词集对应的所述文档语句添加至第一语句集合中;
66.第一扩充单元,用于在所述第一匹配结果满足扩充条件时,利用扩充词对各个所述文档语句对应的词集和/或所述检索词集进行扩充;
67.第二匹配单元,用于将扩充后的各个所述文档语句对应的词集与所述检索词集进行多次匹配,得到多个第二匹配结果;
68.第二添加单元,用于将每个所述第二匹配结果中匹配度最大的词集对应的所述文档语句添加至第二语句集合中;
69.文档确定单元,用于在各个所述第二匹配结果中匹配度大于所述预设匹配度的词集对应的所述文档语句的数量总和大于所述预设数量时,基于所述检索语句中的关键词,确定出多个目标热门文档;
70.第二扩充单元,用于利用各个所述目标热门文档中的各个热词对所述检索词集进行二次扩充,得到多个检索扩充词集;
71.第三匹配单元,用于分别每个所述检索扩充词集,将所述检索扩充词集与各个所述文档语句对应的词集进行匹配,得到所述检索扩充词集对应的第三次匹配结果;
72.第三添加单元,用于将各个所述第三匹配结果中匹配度最大的词集对应的所述文档语句添加至第三语句集合中;
73.交集运算单元,用于确定所述第一语句集合、第二语句集合以及第三语句集合的交集;
74.第二确定单元,用于将所述交集中的各个所述文档语句确定为所述目标文档语句。
75.可选地,在上述的语句检索的装置中,还包括:
76.判断单元,用于判断所述用户输入的所述检索语句是否属于当前连续的高密度相似搜索语句;
77.第三确定单元,用于在判断出所述用户输入的所述检索语句不属于当前连续的高密度相似搜索语句时,将索引库确定为所述目标库;其中,所述索引库包括全量的文档语句;
78.第四确定单元,用于在判断出所述用户输入的所述检索语句属于当前连续的高密度相似搜索语句时,将当前排他库确定为所述目标库;其中,所述排他库初始包含全量的文档语句,并在每次进行当前的所述高密度相似搜索语句后,将搜索到的各个所述目标文档语句从所述排他库中剔除。
79.本技术第三方面提供了一种电子设备,包括:
80.存储器和处理器;
81.其中,所述存储器用于存储程序;
82.所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的语句检索的方法。
83.本技术第四方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的语句检索的方法。
84.本技术提供了一种语句检索的方法,预先将文档划分为多个文档语句。在检索时,获取用户输入的检索语句。然后查找目标库中是否存在与检索语句相一致的文档语句。若查找出与检索语句相一致的文档语句,则将与检索语句相一致的文档语句确定为目标文档语句。若未查找出与检索语句相一致的文档语句,则将检索语句进行分词,得到检索词集。然后将检索词集与各个文档语句对应的词集进行匹配,得到匹配结果,并基于匹配结果,从各个文档语句中选取出至少一个文档语句确定为目标文档语句。分别针对每个目标文档语句,将目标文档语句所在段落的各个文档语句进行拼接,得到目标文档语句对应的目标文本。最后将各个目标文档语句及其对应的目标文本反馈给用户。从而直接利用语句进行检索提高了检索的效率,并在语句直接不能检索到时,再采用分词匹配的方式进行检索,从而有效提高了检索的准确性。
附图说明
85.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
86.图1为本技术实施例提供的一种语句检索的方法的流程图;
87.图2为本技术实施例提供的一种文档的预处理方法的流程图;
88.图3为本技术实施例提供的一种匹配出目标文档语句的方法的流程图;
89.图4为本技术实施例提供的一种文档语句的合并方法的流程图;
90.图5为本技术实施例提供的一种语句检索的装置的结构示意图;
91.图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
92.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
93.在本技术中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括
没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
94.本技术实施例提供了一种语句检索的方法,如图1所示,包括以下步骤:
95.s101、获取用户输入的检索语句。
96.具体的,用户在前端根据需求输入一个语句并点击搜索,此时系统将获取到该语句,并将其作为检索语句执行后续的步骤。
97.s102、查找目标库中是否存在与检索语句相一致的文档语句。
98.其中,文档语句为预先将各个文档进行拆分得到的语句。
99.需要说明的是,在本技术实施例中预先将各个文档拆分为多个语句,从而得到各个文档对应的文档语句,并将其存储到索引库中。所以可以将索引库作为目标库,从中查找是否存在与检索语句相一致的文档语句。
100.其中,若查找出与检索语句相一致的文档语句,则可以执行步骤s103。当时用户可能无法准确地输入需要检索的语句,所以会存在未查找出与检索语句相一致的文档语句的情况,此时则需要执行步骤s104。
101.当然可选地,为了能提高检索的效率,所以在本技术另一实施例中,在执行步骤s102之前,还可以先进一步执行:
102.判断用户输入的检索语句是否属于当前连续的高密度相似搜索语句。
103.需要说明的是,用于用户输入的检索语句可能不够准确,所以所得到的结果并不是自己想要的,所以其会不断地对检索语句进行修改,然后再次进行检索。所以其在短时间内会频繁输入相似的检索语句进行检索。
104.所以,可以记录用户在当前这一段时间内输入的检索语句,通过对比判断当前输入的是否属于当前连续的高密度相似搜索语句。
105.其中,若判断出用户输入的检索语句不属于当前连续的高密度相似搜索语句,则将索引库确定为目标库。
106.其中,索引库包括全量的文档语句。
107.若判断出用户输入的检索语句属于当前连续的高密度相似搜索语句,则将当前排他库确定为目标库。
108.由于,排他库初始包含全量的文档语句,并在每次进行当前的高密度相似搜索语句后,将搜索到的各个目标文档语句从排他库中剔除,因为用户再次进行相似的检索,说明搜索到的目标文档语句并不是其所需要的,所以将其剔除,这样在下一次检索时,所需要检索的文档语句的数量就会变少,从而提高检索的效率。
109.可选地,本技术另一实施例提供的一种文档的预处理方法,如图2所示,包括:
110.s201、基于各个业务流程,将多个文档进行串联。
111.需要说明的是,在用户办理业务时,会存在办理一项后,必须要办理另一项业务,所以两项业务所使用到的文档通常是共同使用的,所以可以作为一个整体进行处理,因此需要先基于各个业务流程,将多个文档进行串联。
112.s202、将连续的,且共同使用频率超过预先频率阈值的各个文档进行合并。
113.具体的,将连续的,且共同使用频率超过预先频率阈值的各个文档作为关联文档,
而其他的文档则作为普通文档。关联文档需要进行合并,然后进行语句划分后,存储在一起,所以可以将关联文档合并为一个文档。而普通文档则独立进行拆分和存储。
114.s203、将各个文档进行拆分,得到的各个文档对应的各个文档语句。
115.s204、记录各个文档的各个文档语句的相关项信息。
116.其中,相关项信息至少包括所属段落编号以及语句顺序编号。
117.为了便于后续获得目标文档语句属于同一段落的语句,以及将文档语句进行合并,所以在本技术实施例中,还记录了文档语句的所属段落编号以及语句顺序编号等信息。
118.s205、将各个文档语句按照所属的文档存储至索引库的文档区域,并将各个文档语句及其相关项信息存储至索引库的索引区域。
119.s206、建立各个文档与索引区域的各个文档语句的映射关系。
120.s207、分别对每个文档语句进行分词,得到各个文档语句对应的词集。
121.由于后续还可能需要利用词集进行匹配,所以分别对每个文档语句进行分词,分别将每个文档语句拆分后的各个词汇组成该文档语句对应的词集。
122.可选地,可以是先对文档语句进行敏感词停词过滤后,再进行分词,以保证数据安全。
123.s208、从各个文档语句对应的词集中确定出各个文档语句的关键词,并将各个文档语句的关键词存储至词列表中。
124.还需要说明的是,由于后续业务可能存在变更,用户对于文档的使用方式也可能存在变动。所以定时器可以不断对文档的使用情况进行记录,并根据使用情况对上述文档区域和索引区域的数据进行重排和优化等。
125.s103、将与检索语句相一致的文档语句确定为目标文档语句。
126.由于此时已经得到了目标文档语句,所以可以直接执行步骤s106。
127.s104、将检索语句进行分词,得到检索词集。
128.由于用户输入的检索语句不够准确,无法直接查找出其需要检索的语句,所以此时需要将其进行分词,然后通过词汇进行匹配,从而得到最有可能是用户需要检索的语句进行返回。
129.s105、将检索词集与各个文档语句对应的词集进行匹配,得到匹配结果,并基于匹配结果,从各个文档语句中选取出至少一个文档语句确定为目标文档语句。
130.具体的,可以是将检索词集与各个文档语句对应的词集进行匹配,得到检索词集与各个文档语句对应的词集的匹配度,然后基于各个匹配度,选取出至少一个文档语句确定为目标文档语句,然后执行步骤s106。
131.可选地,在本技术另一实施例中,步骤s105的一种具体实施方式,如图3所示,包括:
132.s301、将检索词集与各个文档语句对应的词集进行匹配,得到第一匹配结果。
133.s302、将第一匹配结果中匹配度最大的词集对应的文档语句添加至第一语句集合中。
134.s303、判断第一匹配结果是否满足扩充条件。
135.需要说明的是,由于检测语句不够准确,第一匹配结果的准确度较差,所以可以通过扩充的方式,对各个文档语句对应的词集和/或检索词集进行扩充,以使得两者更加的一
致,从而使得得到结果更加精准。
136.可选地,扩充条件可以为检索语句的长度大于任意一个文档语句的长度,即第一匹配结果中匹配度的最大值小于预设值,或第一匹配结果中匹配度大于预设匹配度的词集对应的文档语句的数量大于预设数量。
137.需要说明的是,若是检索语句过长,其与文档语句的差距明显较大,得到的匹配结果中的匹配度都较低,并不能够准确确定出符合用户需求的文档语句。而检索语句过短时,其会与大量的文档语句的匹配度都比高,无法确定哪些更符合用户的需求,而又不可能都反馈给用户。所以若判断出第一匹配结果满足扩充条件,则执行步骤s304。若是判断出第一匹配结果不满足扩充条件,则说明当前的匹配结果已经能满足要求,所以此时可以直接执行步骤312。
138.s304、利用扩充词对各个文档语句对应的词集和/或检索词集进行扩充。
139.可选地,可以对文档语句对应的词集和检索词集中的一个进行扩充,也可以同时对两个进行扩充。需要说明的是,扩充指的是扩充词集,即得到更多的词集。所以具体可以是在词集中增加词汇,得到新的词集,以能完善语句。也可以是进行词汇的替换,以将描述不统一的词汇,更换为表述统一的词汇。
140.可选地,在本技术另一实施例中,在满足检索语句的长度大于任意一个文档语句的长度的扩充条件时,则分别对各个文档语句对应的词集进行扩充。
141.若第一匹配结果中匹配度大于预设匹配度的词集对应的文档语句的数量大于预设数量,则对检索词集进行扩充。
142.s305、将扩充后的各个文档语句对应的词集与检索词集进行多次匹配,得到多个第二匹配结果。
143.需要说明的是,由于可以用于扩充的扩充词可以包括有多个,所以对各个文档语句对应的词集和/或检索词集可以进行多次扩充,例如,对于某一个事物存在多种称呼,所以对于该事物的名称,则可以替换为多个不同的词汇。并且,在每次扩充后进行一次匹配,每次的匹配结果即为一个第二匹配结果,所以可能会存在多个第二匹配结果。
144.s306、将每个第二匹配结果中匹配度最大的词集对应的文档语句添加至第二语句集合中。
145.本技术实施例中,是选取匹配度最大的词集对应的文档语句作为目标语句,所以先将匹配度最大的词集对应的文档语句添加至第二语句集合中。
146.s307、判断各个第二匹配结果中匹配度大于预设匹配度的词集对应的文档语句的数量总和大于预设数量。
147.可选地,由于扩充词可能不够准确,所以匹配结果还是可能存在不够准确的情况,所以还需要判断各个第二匹配结果中匹配度大于预设匹配度的词集对应的文档语句的数量总和大于预设数量。其中,若判断出各个第二匹配结果中匹配度大于预设匹配度的词集对应的文档语句的数量总和大于预设数量,则执行步骤s308。若判断出各个第二匹配结果中匹配度不大于预设匹配度的词集对应的文档语句的数量总和大于预设数量,则可以执行步骤s312。
148.s308、基于检索语句的关键词,确定出多个目标热门文档。
149.具体的,分别针对检索语句中的每个关键词,根据历史的检索记录,确定在检索的
语句中包括该关键词时,所检索出的热门文档,即被检索出的频率大于预设频率的文档。然后根据各个热门文档被检索到的频率,对各个热门文档进行加权平均,并按照加权平均的结果进行排序,最后将排序在前k位的热门文档确定为目标热门文档。
150.s309、利用各个目标热门文档中的各个热词对检索词集进行二次扩充,得到多个检索扩充词集。
151.需要说明的是,在得到目标热门文档后,说明用户当前检索的检索语句,可能是目标热门文档中的语句,所以可以利用各个目标热门文档中的各个热词对检索词集进行二次扩充。其中,热词指的是用于作为检索语句进行检索的高频词汇。
152.s310、分别每个检索扩充词集,将该检索扩充词集与各个文档语句对应的词集进行匹配,得到该检索扩充词集对应的第三次匹配结果。
153.s311、将各个第三匹配结果中匹配度最大的词集对应的文档语句添加至第三语句集合中。
154.s312、确定第一语句集合、第二语句集合以及第三语句集合的交集。
155.s313、将交集中的各个文档语句确定为目标文档语句。
156.s106、分别针对每个目标文档语句,将目标文档语句所在段落的各个文档语句进行拼接,得到目标文档语句对应的目标文本。
157.用户输入检索语句主要是为了获得检索语句相关的内容,在本技术实施例中,这些相关内容即为该语句所在段落的文本。例如,用户输入的检索语句为“激活信用卡步骤”,而在文档在会包含为“激活信用卡步骤:第一步骤、....;第二步骤、....”。所以需要将其所在段落的各个文档语句进行拼接,得到目标文档语句对应的目标文本。
158.可选地,在采用图2所示的方式对文档进行处理时,相应的,步骤s106的一种具体实施方式,如图4所示,包括:
159.s401、分别针对每个目标文档语句,基于查找出与目标文档语句的所属段落编号相一致的各个文档语句。
160.s402、按照各个文档语句的语句顺序编号,将查找出的各个文档语句进行拼接,得到目标文档语句对应的目标文本。
161.s107、将各个目标文档语句及其对应的目标文本反馈给用户。
162.为能让用户快速获知检索得到的结果是否为自己所需要检索的内容,所以也需要将目标文档语句进行反馈。
163.本技术实施例提供了一种语句检索的方法,预先将文档划分为多个文档语句。在检索时,获取用户输入的检索语句。然后查找目标库中是否存在与检索语句相一致的文档语句。若查找出与检索语句相一致的文档语句,则将与检索语句相一致的文档语句确定为目标文档语句。若未查找出与检索语句相一致的文档语句,则将检索语句进行分词,得到检索词集。然后将检索词集与各个文档语句对应的词集进行匹配,得到匹配结果,并基于匹配结果,从各个文档语句中选取出至少一个文档语句确定为目标文档语句。分别针对每个目标文档语句,将目标文档语句所在段落的各个文档语句进行拼接,得到目标文档语句对应的目标文本。最后将各个目标文档语句及其对应的目标文本反馈给用户。从而直接利用语句进行检索提高了检索的效率,并在语句直接不能检索到时,再采用分词匹配的方式进行检索,从而有效提高了检索的准确性。
164.本技术另一实施例提供了一种语句检索的装置,如图5所示,包括:
165.获取单元501,用于获取用户输入的检索语句。
166.第一查找单元502,用于查找目标库中是否存在与检索语句相一致的文档语句。
167.其中,文档语句为预先将各个文档进行拆分得到的语句。
168.第一确定单元503,用于在查找出与检索语句相一致的文档语句时,将与检索语句相一致的文档语句确定为目标文档语句。
169.第一分词单元504,用于在未查找出与检索语句相一致的文档语句时,将检索语句进行分词,得到检索词集。
170.匹配单元505,用于将检索词集与各个文档语句对应的词集进行匹配,得到匹配结果,并基于匹配结果,从各个文档语句中选取出至少一个文档语句确定为目标文档语句。
171.拼接单元506,用于分别针对每个目标文档语句,将目标文档语句所在段落的各个文档语句进行拼接,得到目标文档语句对应的目标文本。
172.反馈单元507,用于将各个目标文档语句及其对应的目标文本反馈给用户。
173.可选地,在本技术另一实施例提供的语句检索的装置中,还包括:
174.串联单元,用于基于各个业务流程,将多个文档进行串联。
175.合并单元,用于将连续的,且共同使用频率超过预先频率阈值的各个文档进行合并。
176.拆分单元,用于将各个文档进行拆分,得到的各个文档对应的各个文档语句。
177.记录单元,用于记录各个文档的各个文档语句的相关项信息。其中,相关项信息至少包括所属段落编号以及语句顺序编号。
178.存储单元,用于将各个文档语句按照所属的文档存储至索引库的文档区域,并将各个文档语句及其相关项信息存储至索引库的索引区域。
179.建立单元,用于建立各个文档与索引区域的各个文档语句的映射关系。
180.第二分词单元,用于分别对每个文档语句进行分词,得到各个文档语句对应的词集。
181.关键词处理单元,用于从各个文档语句对应的词集中确定出各个文档语句的关键词,并将各个文档语句的关键词存储至词列表中。
182.可选地,在本技术另一实施例提供的语句检索的装置中,拼接单元,包括:
183.第二查找单元,用于分别针对每个目标文档语句,基于查找出与目标文档语句的所属段落编号相一致的各个文档语句。
184.拼接子单元,用于按照各个文档语句的语句顺序编号,将查找出的各个文档语句进行拼接,得到目标文档语句对应的目标文本。
185.可选地,在本技术另一实施例提供的语句检索的装置中,匹配单元,包括:
186.第一匹配单元,用于将检索词集与各个文档语句对应的词集进行匹配,得到第一匹配结果。
187.第一添加单元,用于将第一匹配结果中匹配度最大的词集对应的文档语句添加至第一语句集合中。
188.第一扩充单元,用于在第一匹配结果满足扩充条件时,利用扩充词对各个文档语句对应的词集和/或检索词集进行扩充。
189.第二匹配单元,用于将扩充后的各个文档语句对应的词集与检索词集进行多次匹配,得到多个第二匹配结果。
190.第二添加单元,用于将每个第二匹配结果中匹配度最大的词集对应的文档语句添加至第二语句集合中。
191.文档确定单元,用于在各个第二匹配结果中匹配度大于预设匹配度的词集对应的文档语句的数量总和大于预设数量时,基于检索语句中的关键词,确定出多个目标热门文档。
192.第二扩充单元,用于利用各个目标热门文档中的各个热词对检索词集进行二次扩充,得到多个检索扩充词集。
193.第三匹配单元,用于分别每个检索扩充词集,将检索扩充词集与各个文档语句对应的词集进行匹配,得到检索扩充词集对应的第三次匹配结果。
194.第三添加单元,用于将各个第三匹配结果中匹配度最大的词集对应的文档语句添加至第三语句集合中。
195.交集运算单元,用于确定第一语句集合、第二语句集合以及第三语句集合的交集。
196.第二确定单元,用于将交集中的各个文档语句确定为目标文档语句。
197.可选地,在本技术另一实施例提供的语句检索的装置中,还包括:
198.判断单元,用于判断用户输入的检索语句是否属于当前连续的高密度相似搜索语句。
199.第三确定单元,用于在判断出用户输入的检索语句不属于当前连续的高密度相似搜索语句时,将索引库确定为目标库。其中,索引库包括全量的文档语句。
200.第四确定单元,用于在判断出用户输入的检索语句属于当前连续的高密度相似搜索语句时,将当前排他库确定为目标库。其中,排他库初始包含全量的文档语句,并在每次进行当前的高密度相似搜索语句后,将搜索到的各个目标文档语句从排他库中剔除。
201.需要说明的是,本技术上述实施例提供的各个单元的具体工作过程,可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。
202.本技术另一实施例提供了一种电子设备,如图6所示,包括:
203.存储器601和处理器602。
204.其中,存储器601用于存储程序。
205.处理器602用于执行存储器601存储的程序,该程序被执行时,具体用于实现如上述任意一个实施例提供的语句检索的方法。
206.本技术另一实施例提供了一种计算机存储介质,用于存储计算机程序,该计算机程序被执行时,用于实现如上述任意一个实施例提供的语句检索的方法。
207.计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机
可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
208.需要说明的是,本发明提供的一种语句检索的方法及装置、电子设备、存储介质可用于人工智能领域、大数据领域或金融领域。上述仅为示例,并不对本发明提供的一种语句检索的方法及装置、电子设备、存储介质的应用领域进行限定。
209.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
210.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献