一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

搜索文本处理方法、装置、电子设备及介质与流程

2021-10-24 15:53:00 来源:中国专利 TAG:电子设备 介质 装置 文本 计算机


1.本技术涉及计算机处理技术领域,特别是涉及一种搜索文本处理方法、装置、电子设备及介质。


背景技术:

2.随着网络技术的普及,各种网络平台应运而生,不同的网络平台为用户提供不同的服务。其中,为了方便用户使用网络平台,网络平台一般会为用户提供查询服务,以便用户高效获取到自己所需求的信息。
3.相关技术中,为了能准确响应用户的查询意图,在接收到用户发送的搜索文本后,网络平台会对搜索文本进行纠错处理,这一过程称为查询纠错。具体而言,查询纠错是指对用户搜索的搜索文本中的部分文本片段或全部文本进行纠错,进而搜索到更符合用户真实意图的搜索结果。例如,将用户输入的搜索文本“酉游记”纠错为“西游记”,或者,将用户输入的搜索文本“云南大理骊江”中的“骊江”纠错为“丽江”,其中,“骊江”即为需要纠错的文本片段。
4.相关技术中的查询纠错所采用的方式一般是召回排序的方法,该方法的主要过程是:对需要纠错的文本片段召回一些文本,然后利用语言模型对召回的文本进行打分排序,从而基于排序靠前的文本对需要纠错的文本片段进行纠错。但是,采用此种方式时,主要依靠语言模型对召回的文本进行打分排序,然而,语言模型主要是学习人类表达的规律,但是在一些专注于商户、商品搜索的场景中,商户/商品的取名千奇百怪语言模型很难学习好,因而通过语言模型所确定的用于对搜索文本进行纠错的文本的准确率不高,进而导致查询纠错的准确率不高的问题。


技术实现要素:

5.为了解决上述问题,本技术提供了一种搜索文本处理方法、装置、电子设备及介质,旨提高查询纠错的准确度。
6.本公开实施例的第一方面,提供了一种搜索文本处理方法,所述方法包括:
7.从待处理的搜索文本中确定当前待纠错的纠错文本片段;
8.基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本;
9.分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词;
10.根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。
11.可选地,分别基于所述多个待召回文本,对目标索引库的搜索对象进行检索,包括:
12.基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,其中,所述多种不同粒度至少包括片段文本检索粒度和完整文本检索粒度;
13.根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:
14.根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。
15.可选地,基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,包括:
16.分别以所述多个待召回文本为检索文本,对所述目标索引库的搜索对象进行检索,得到检索到搜索对象的至少一个候选召回文本;
17.将所述搜索文本中的所述纠错文本片段分别替换为所述至少一个候选召回文本,得到与所述至少一个候选召回文本各自对应的候选搜索文本;
18.以所述候选搜索文本为检索文本,对所述目标索引库的搜索对象进行检索;
19.根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:
20.根据各所述候选搜索文本各自对应的检索结果,从所述至少一个候选召回文本中确定所述目标文本。
21.可选地,根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:
22.在所述完整文本检索粒度下,获取各候选搜索文本命中的索引记录所对应的目标搜索对象;其中,候选搜索文本是以待召回文本对所述搜索文本进行纠错处理得到;
23.基于各所述候选搜索文本和对应的目标搜索对象,确定各所述候选搜索文本各自对应的多维度特征;其中,每个候选搜索文本的多维度特征包括候选搜索文本与目标搜索对象的名称之间的相似度特征、目标搜索对象的属性特征、候选召回文本的上下文语言特征;
24.基于各所述候选搜索文本各自对应的多维度特征,从各所述候选搜索文本对应的候选召回文本中筛选出所述目标文本。
25.可选地,在所述纠错文本片段为多个的情况下,所述方法还包括:
26.在确定筛选出的所述目标文本的相似度特征大于或等于相似度阈值时,将所述搜索文本中所述当前待纠错的纠错文本片段替换为所述目标文本,得到纠错后搜索文本;
27.在确定筛选出的所述目标文本的相似度特征小于相似度阈值时,确定下一纠错文本片段对应的目标文本,直到遍历完所有的纠错文本片段,并将搜索文本中所述多个纠错文本片段分别替换为各自对应的目标文本,得到纠错后搜索文本。
28.可选地,所述纠错文本片段是通过以下步骤获得的:
29.获得发送所述搜索文本的用户所在的位置标识;
30.对所述搜索文本进行分词处理和/或实体识别,得到多个文本片段:
31.分别以多个文本片段和所述位置标识为检索文本,对所述目标索引库中的多个索引记录进行检索,得到每个文本片段所命中的索引记录对应的命中搜索对象;
32.根据多个文本片段中每个文本片段对应的命中搜索对象与其他文本片段对应的
命中搜索对象的取交集结果,从多个文本片段确定需要纠错的纠错文本片段。
33.可选地,基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本,包括:
34.从预设的多个文本字典中,确定与所述纠错文本片段关联的多个相近文本,其中,不同的文本字典对应不同的纠错维度,所述纠错维度至少包括音近维度、形近维度;
35.基于预设的语言模型,对所述多个相近文本进行过滤,得到相近文本集合,其中,所述相近文本集合中包括多个过滤后的相近文本;
36.基于所述相近文本集合中各个相近文本与所述纠错文本片段之间的编辑距离,从所述相近文本集合中确定待召回文本。
37.可选地,所述方法还包括:
38.获得多个文本片段对应关系,每个文本片段对应关系是对历史搜索行为数据中用户输入的搜索文本和用户所点击的搜索对象的名称进行对齐处理得到的;
39.从多个文本片段对应关系中,获得所述纠错文本片段对应的名称片段;
40.将所述纠错文本片段对应的名称片段作为相近文本,加入到所述相近文本集合中。
41.可选地,所述目标索引库通过以下步骤获得:
42.获得多个搜索对象样本的样本信息,所述样本信息包括所述搜索对象样本的名称、地址和标识;
43.对每个搜索对象样本的名称进行分词处理,得到多个描述词;
44.获得多个描述词中每个描述词所属的搜索对象样本;
45.以每个描述词为索引项,并基于该描述词所属的搜索对象样本的样本信息,构建该描述词的索引记录,得到所述目标索引库;其中,每个索引记录中至少包括该描述词所属的搜索对象样本的标识、类别和地址。
46.本技术实施例的第二方面,提高一种搜索文本处理装置,所述装置包括:
47.纠错文本确定模块,用于从待处理的搜索文本中确定当前待纠错的纠错文本片段;
48.召回模块,用于基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本;
49.检索模块,用于分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词;
50.目标文本获得模块,用于根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本
51.本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如的一方面所述的搜索文本处理方法。
52.此外,本技术实施例还提供一种计算机可读存储介质,其存储的计算机程序使得处理器执行如第一方面所述的搜索文本处理方法。
53.本技术实施例中的搜索文本处理方法,可以从待处理的搜索文本中确定当前待纠
错的纠错文本片段;并基于纠错文本片段进行文本召回,得到纠错文本片段对应的多个待召回文本;之后,再基于多个待召回文本为检索词,对目标索引库的搜索对象进行检索,根据多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。
54.采用本技术实施例,至少可以从以下方面提高查询纠错的准确率:
55.一方面,由于本技术在得到多个待召回文本后,以待召回文本为检索词,对目标索引库的搜索对象进行检索,这样,通过对目标索引库的检索,可以获得以待召回文本为检索词进行搜索的搜索质量,例如,可以获得所搜索出的搜索对象的数量、准确度等,如此,可以通过待召回文本的检索结果,可以更加准确地评估待召回文本用于检索的检索质量,从而提高用于对纠错文本片段进行纠错的目标文本的准确度,提高纠错准确率。
56.另一方面,由于在目标索引库中的各个索引记录是以搜索对象的名称中的分词为索引,这样,在基于待召回文本,对目标索引库进行搜索时,便是以待召回文本和名称之间的相似关系为搜索依据,如此,即使商户/商品的取名千奇百怪,也不影响对待召回文本用于检索的检索质量的正确评估,从而可以提高对待召回文本进行后续排序的准确性,从而提高纠错准确率。
附图说明
57.为了更清楚地说明本技术实施例的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
58.图1是本技术一实施例示出的构建目标索引库的步骤流程图;
59.图2是本技术一实施例示出的一种搜索文本处理方法的框架流程图;
60.图3是本技术一实施例示出的一种搜索文本处理方法的步骤流程示意图;
61.图4是本技术一实施例示出的一种搜索文本处理方法的整体流程示意图;
62.图5是本技术一实施例示出的基于多个文本字典进行召回得到多个待召回文本的整体流程图;
63.图6本技术一实施例示出的基于多个文本字典进行召回得到多个待召回文本的步骤流程图
64.图7是本技术一实施例示出的两种不同粒度下的检索步骤流程图;
65.图8是本技术一实施例示出的根据候选搜索文本对应的检索结果确定所述目标文本的步骤流程示意图;
66.图9是本技术一实施例示出的确定纠错文本片段的步骤流程图;
67.图10是本技术一实施例示出的搜索文本处理的装置的框架示意图。
具体实施方式
68.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本技术保护的范围。
69.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
70.有鉴于相关技术中存在的查询纠错的准确率低的问题,本技术出了一种搜索文本处理方法,采用的核心技术构思是:将商户/商品等知识类数据,以商户/商品的名称中的各个分词所索引,构建多个索引记录,得到可以用于检索的目标索引库,从而根据待召回文本对目标索引库的检索结果,对待召回文本进行排序评估,缓解了只利用传统的语言模型去对待召回文本进行排序,偏向生成自然语言表述无法应对商户/商品名的丰富性的问题,进而提高用于进行查询纠错的召回文本的准确性,提高纠错准确度。
71.首先,对如何构建本技术所需的目标索引库进行介绍,参照图1所示,示出了构建目标索引库的步骤流程图,如图1所示,具体可以包括以下步骤:
72.步骤s101:获得多个搜索对象样本的样本信息,所述样本信息包括所述搜索对象样本的名称、地址和标识。
73.本实施例中,搜索对象样本可以是指商户、地址、酒店、景点、菜品、商品、电影等对象样本,当然,在具体实施时可以不限于上述对象。其中,描述搜索对象样本的样本信息可以是指描述上述对象的一些特征的信息,可以不限于对象的名称、对象所在的地址、对象的属性、标识以及对象的联系信息等。具体在获取搜索对象样本的样本信息时,可以从网络平台后台的数据库中获取所存储的商品信息。
74.步骤s102:对每个搜索对象样本的名称进行分词处理,得到多个描述词。
75.其中,在一些实际情况中,获取的搜索对象样本的样本信息可能是分散的,例如,商户的名称、商户的地址可能统计在不同的文件中,因此,可以按照搜索对象样本对样本信息进行整理,以将相同搜索对象样本的样本信息归于一类,从而根据每个搜索对象样本的样本信息构建相应的索引记录。
76.实际中,不同搜索对象的名称之间可能具有重复的词语,例如,“云南丽江大酒店”与“云南丽江大理石”有重复的词语,实际中,可以对搜索对象样本的名称进行分词处理,继而将名称拆分为多个描述词,然后针对每个描述词,构建一个索引记录,并以描述词为索引。由此,在检索时,由于描述词是索引项,一个描述词可能出现在多个搜索对象样本中,则可以检索出多个搜索对象样本,进而提高对目标索引库的检索覆盖率。
77.其中,一个搜索对象样本的多个描述词可以通过对搜索对象样本的名称进行分词处理得到。例如,搜索对象样本的名称为“云南大理丽江大酒店”,则可以对“云南大理丽江大酒店”进行分词处理,得到“云南”、“大理”、“丽江”“大酒店”四个描述词、或者,可以得到“云南”、“大理”、“丽江”“大”、“酒店”四个描述词。
78.其中,对搜索对象的名称进行分词处理的方式可以以惯常的组词习惯进行分词,例如,云南、大理、丽江是地名,惯常组词会组成为一个词语,酒店是用于描述商户的服务类型,也是惯常的组词方式。
79.本实施例中搜索对象样本的名称可以是搜索对象样本的完整名称。
80.步骤s103:获得多个描述词中每个描述词所属的搜索对象。
81.本实施例中,由于可以分别对多个搜索对象样本的名称进行分词处理,这样,可以得到数量庞大的描述词,在一些实施例中,可以对得到的多个描述词进行去重处理,从而得到去重处理后的多个描述词。
82.如上述所述,一个描述词可能出现在多个搜索对象样本中,因此,对于每个描述词,其可以属于多个搜索对象样本。进而,在得到的多个描述词后,可以确定每个描述词所属的搜索对象。例如,对于描述词“云南”,可以确定所属的搜索对象为“云南大理丽江大酒店”以及“云南丽江大理石”。
83.步骤s104:以每个描述词为索引项,并基于该描述词所属的搜索对象样本的样本信息,构建该描述词的索引记录;其中,每个索引记录中至少包括该描述词所属的搜索对象样本的标识、类别。
84.本实施例中,由于得到了每个搜索对象样本的多个描述词,且得到了多个描述词分别所属的搜索对象,则可以基于该描述词所属的搜索对象样本的样本信息,构建该描述词的索引记录。具体而言,可以将该描述词所属的搜索对象样本的标识、类别作为索引记录中的内容。
85.示例地,以搜索对象样本的名称为“云南大理丽江大酒店”为例,得到“云南”、“大理”、“丽江”“大酒店”四个描述词。则可以构建每个描述词对应的如下索引记录:
86.{key_word":"云南",poi_count":2,"data":[[103013894,10],[124314127,10]。其中,key_word是描述词,poi_count是对应的商户个数,data是具体的商户id以及类型。同理会有以“大理”、“丽江”、“大酒店”为索引项的索引记录。
[0087]
其中,在一些实际情况中,同一描述词可能出现在位于不同地方的搜索对象中,则在一个实施例中,可以在构建索引记录时,可以以搜索对象所在地址为基准,构建描述词

地址的索引项,即key_word是描述词和搜索对象所在地址id的组合;以细化索引记录的粒度,如此,可以对位于不同地区的搜索对象进行整理。
[0088]
具体地,对于每个描述词,可以对该描述词所属的多个搜索对象样本按照所在地址进行分类,以将同一地址的搜索对象样本划分到一类,进而构建具有统一描述词且位于同一地区的搜索对象的索引记录。
[0089]
示例地,搜索对象样本“云南大理丽江大酒店”位于云南丽江,搜索对象样本“桂林山水大酒店”位于桂林,虽然都有同一描述词“大酒店”,但是其在以“大酒店”为描述词的不同索引记录中,其中,该索引记录的索引项key_word可以表述为“大酒店

101”、“大酒店

102”。
[0090]
采用上述实施例的目标索引库构建方案,使得同一搜索对象可以存在于不同的索引记录中,而同一索引记录可以搜索到多个不同的搜索对象。如此,利用关键词进行检索时,如果命中其中一条索引记录,则可以搜索到多个搜索对象。例如,命中了“大理”的索引记录,则可以同时得到“云南大理丽江大酒店”以及“云南丽江大理石”的搜索对象。当然,上述所列举的示例仅为示例性说明,实际中,对于数量众多的搜索对象样本,一个描述词可能对应更多的搜索对象样本。
[0091]
在得到目标索引库之后,便可以利用目标索引库进行查询纠错。具体地,参照图2
所示,示例性示出了本技术实施例一种搜索文本处理方法的框架流程图,如图2所示,图2以待处理的搜索文本为“云南大理骊江大酒店”为例,对本技术的搜索文本处理进行了总体说明,可以理解的是图1作为示例的搜索文本不应构成对本技术的限制。
[0092]
下面,结合图2所示,对本技术的一种搜索文本处理方法进行介绍,参照图3所示,示出了本技术的一种搜索文本处理方法的步骤流程示意图,其中,本技术的搜索文本处理方法可以应用于网络平台的后台服务器中,如图3所示,具体可以包括以下步骤:
[0093]
步骤s301:从待处理的搜索文本中确定当前待纠错的纠错文本片段。
[0094]
本实施例中,待处理的搜索文本可以是前端发送的文本,该待处理的搜索文本可以是用户在搜索框输入相应的文本后得到的,对于该待处理的搜索文本,可以确定出其中需要纠错的纠错文本片段。
[0095]
具体的,纠错文本片段可以是搜索文本中的分词,例如,搜索文本是“云南骊江大酒店”,则通过检错,可以确定出“骊江”是需要纠错的纠错文本片段。实际中,可以利用相关技术中的检错模型确定出搜索文本中需要纠错的纠错文本片段。在一些实施例中,一个搜索文本中可以存在一个或多个纠错文本片段,在具有多个纠错文本片段时,可以依次对每个纠错文本片段进行纠错处理。这样,本技术所指的当前待纠错的纠错文本片段可以是指当前需要进行纠错处理的文本片段。
[0096]
步骤s302:基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本。
[0097]
本实施例中,可以针对该纠错文本片段,进行文本召回,具体地,可以从一些词库中获得与纠错文本片段相似的候选文本,作为待召回文本,在词库中可以存储有多个文本,在从词库中得到待召回文本时,可以确定词库中各个文本与待召回文本之间的相似度,进而将相似度高于设定阈值的文本作为待召回文本。
[0098]
其中,确定出的与待召回文本相似的待召回文本,可以是读音与待召回文本相似的文本,例如,“漓江”与“骊江”相似,或者字形与待召回文本相似的文本,例如,“俪江”与“骊江”相似。
[0099]
示例地,以纠错文本片段为“骊江”为例,可以召回与“骊江”相似的多个待召回文本,如“丽江”、“漓江”、“俪江”。
[0100]
当然,实际中,也可以通过其他方式得到多个待召回文本。
[0101]
步骤s303:分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索。
[0102]
其中,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词。
[0103]
本实施例中,由于目标索引库中存储有以描述词为索引的多条索引记录,一条索引记录可以对应该描述词所属的多个搜索对象,而描述词是搜索对象的名称中的分词。这样,可以分别以多个待召回文本为检索词,对目标索引库进行检索,从而得到命中的索引记录所对应的搜索对象,进而得到多个搜索对象,本实施例中,一个待召回文本命中一条索引记录,便可以得到多条搜索对象。
[0104]
示例地,以待召回文本片段为“丽江”、“漓江”、“俪江”为例,可以分别“丽江”、“漓江”、“俪江”为检索词,到目标索引库中进行检索,得到与“丽江”对应的多个搜索对象,与“漓江”对应的多个搜索对象,以及与“俪江”对应的多个搜索对象。
[0105]
步骤s304:根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。
[0106]
本实施例中,由于多个待召回文本分别对应各自的多个搜索对象,则检索结果便可以是指每个待召回文本所检索到的多个搜索对象。进而对于多个待召回文本可以按照其各自检索出的多个搜索对象的数量、准确度等,对多个待召回文本进行排序。
[0107]
具体实施时,对于多个待召回文本,可以根据其分别所检索出的搜索对象的名称与待处理的搜索文本之间的相似性,对多个待召回文本进行排序。例如,检索出的搜索对象的名称与待处理的搜索文本之间具有较高的相似性,则表征利用相应待召回文本可以搜索出较高准确率的结果,由此,可以将该相应待召回文本排序靠前。
[0108]
当然,在其他一些实施例中,还可以根据多个待召回文本分别所检索出的搜索对象的数量以及与与待处理的搜索文本之间的相似性,对多个待召回文本进行排序。这样,搜索出的搜索对象越多,则表征相应待召回文本可以检索出更丰富的结果,则可以将相应待召回文本靠前排序;与待处理的搜索文本之间具有较高的相似性,则表征利用相应待召回文本可以搜索出较高准确率的结果,结合数量和相似性对多个待召回文本进行排序,从而得到更准确的排序结果。
[0109]
其中,在从多个待召回文本中确定用于对纠错文本片段进行纠错的目标文本时,可以将排序靠前的一个或多个待召回文本作为目标文本。之后,可以将待处理的搜索文本中的纠错文本片段替换为目标文本,以实现对搜索文本的改错。
[0110]
采用本技术实施例的技术方案,至少可以从以下两个方面提高查询纠错的准确度:
[0111]
一方面,由于本技术在得到多个待召回文本后,以待召回文本为检索词,对目标索引库的搜索对象进行检索,这样,通过对目标索引库的检索,可以获得以待召回文本为检索词进行搜索的搜索质量,例如,可以获得所搜索出的搜索对象的数量、准确度等,如此,可以通过待召回文本的检索结果,可以更加准确地评估待召回文本用于检索的检索质量,从而提高用于对纠错文本片段进行纠错的目标文本的准确度,提高纠错准确率。
[0112]
另一方面,由于在目标索引库中的各个索引记录是以搜索对象的名称中的分词为索引,这样,在以待召回文本为检索词,对目标索引库进行搜索时,便是以待召回文本和名称之间的重合关系为搜索依据,如此,即使商户/商品的取名千奇百怪,也不影响对待召回文本的排序,可以召回更加准确的目标文本以用于纠错,从而提高纠错准确率。
[0113]
参照图4所示,示出了本技术实施例提出的一种搜索文本处理方法的整体流程示意图,如图4所示,示例性给出了基于纠错文本片段进行文本召回直至确定得到用于纠错的目标文本的过程。
[0114]
其中,在文本召回阶段,可以结合片段召回、多种文本字典中的一种或两种召回一些相似文本,之后,根据相似文本与纠错文本片段之间的编辑距离,对相似文本进行排序,从而得到后续的待召回文本。
[0115]
其中,在根据待召回文本的检索结果,确定目标文本的阶段,可以基于多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,例如,可以先根据待召回文本是否检索到对象,对待召回文本进行进一步过滤,接着,再基于过滤后的待召回文本,对原始的搜索文本进行初次的纠错处理,从而构建出完整的搜索文本,以完整的搜索文本为检索
词,再次对目标索引库进行检索,并根据完整的搜索文本的检索结果,最终确定出目标文本。
[0116]
当然,在根据完整的搜索文本的检索结果,最终确定出目标文本的阶段时,可以结合检索结果与完整的搜索文本之间的匹配程度对待召回文本进行排序打分,从而得到目标文本。
[0117]
下面,结合图4所示的流程图,对本技术的一种搜索文本处理方法的各个步骤进行分区块的说明。
[0118]
首先,对文本召回阶段进行介绍,在该阶段,可以结合片段对齐处理和多个文本字典进行召回。具体地,实际中,可以选择多个文本字典进行召回,也可以选择基于片段对齐处理进行召回,当然,也可以结合二者同时进行召回。参照图5所示,示出了基于多个文本字典进行召回得到多个待召回文本的整体流程图,参照图6所示,示出了基于多个文本字典进行召回得到多个待召回文本的步骤流程图,如图6所示,具体可以包括以下步骤:
[0119]
步骤s601:从预设的多个文本字典中,确定与所述纠错文本片段关联的多个相近文本。
[0120]
其中,不同的文本字典对应不同的纠错维度,所述纠错维度至少包括音近维度、形近维度。
[0121]
本实施例中,如图4所示,多个文本字典中可以包括音近字典和形近字典,音近字典可以帮助从与待召回文本相似读音的维度,召回与待召回文本相似读音的相近文本,形近字典可以帮助从与待召回文本相似字形的维度,例如,具有相同的偏旁部首,召回与待召回文本相似字形的相近文本。其中,在音近维度上构建的文本字典主要考虑了同音同调、同音不同调、不同音不同调但易混淆这三种类型;而在形近维度上构建的文本字典主要是将字拆分成词根后再算两者之间的编辑距离作为相似度。
[0122]
当然,除了上述音近字典和形近字典外,如图4所示,还可以包括易错的文本字典,该易错的文本字典中可以存储书写易错的字。
[0123]
具体实施时,可以以待召回文本片段中的每个字为基础,从不同的文本字典中召回该字相近的字,进而,再将该相近的字拼会到待召回文本中,得到一个相近文本。
[0124]
示例地,以“骊江”为例,可以先从不同的文本字典中召回与“骊”字相近的字,例如,例、俪、丽、里、驯;接着,将召回的这些字与“江”拼接,得到对应的多个相近文本,同理,可以再从不同的文本字典中召回与“江”字相近的字,又得到多个相近文本。
[0125]
步骤s602:基于预设的语言模型,对所述多个相近文本进行过滤,得到相近文本集合。
[0126]
其中,所述相近文本集合中包括多个过滤后的相近文本。
[0127]
本实施例中,语言模型可以是以多个携带标签的文本样本为训练样本,对预设模型进行训练得到的,其中,语言模型主要是学习人类表达的规律,采用的核心算法是学习词与词之间出现的频率,相应的,本技术的语言模型可以用于判断输入的文本是否是符合读写习惯的组词,例如,“丽江”是地名,是符合读写习惯的组词,而“地捞”是不符合读写习惯的组词。
[0128]
如图5所示,通过语言模型,可以判断得到的多个相近文本是否是符合读写习惯的组词,这样,可以把不符合读写习惯的组词的相近文本滤除,得到经过滤后的相近文本集
合,其中,相近文本集合中存储的均为被语言模型保留的相近文本。
[0129]
步骤s603:基于所述相近文本集合中各个相近文本与所述纠错文本片段之间的编辑距离,从所述相近文本集合中确定待召回文本。
[0130]
本实施例中,可以基于多个过滤后的相近文本各自与纠错文本片段之间的编辑距离,对多个过滤后相近文本进行排序,其中,过滤后的相近文本与纠错文本片段之间的编辑距离可以理解为是:在相近文本与纠错文本片段之间,由相近文本转成纠错文本片段所需要的最少编辑操作次数。
[0131]
具体实施时,可以按照编辑距离由短到长的顺序,对相近文本集合中的多个相近文本进行排序,从而将排列在前的预设数量个相近文本确定为待召回文本。
[0132]
采用本技术实施例的实施方式时,引入音近、形近的字段进行文本召回,同时融合语言模型对召回的相近文本进行过滤,使得相近文本集合中保留的过滤后的相近文本可以偏向于自然语言表述,并融合编辑距离进行排序,从而提高了待召回文本与纠错文本片段之间的关联性,提高召回质量。
[0133]
当然,如图5所示,在一些实施例中,在文本召回阶段,可以结合片段召回、多种文本字典中的一种或两种召回一些相似文本,例如,也可以结合多个文本字典和片段对齐进行召回。
[0134]
具体实施时,可以获得多个文本片段对应关系,其中,每个文本片段对应关系是对历史搜索行为数据中用户输入的搜索文本和用户所点击的搜索对象的名称进行对齐处理得到的;并从多个文本片段对应关系中,获得所述纠错文本片段具有对应关系的名称片段之后,将所述纠错文本片段对应的名称片段作为相近文本,加入到所述相近文本集合中。
[0135]
本实施方式中,每个文本片段对应关系表征搜索文本中的一个文本片段与搜索对象的名称中的一个文本片段的对应关系,示例地,假设用户输入的搜索文本是“喆啡酒店浦建路”,而用户点击的搜索对象的名称是“喆咖酒店浦建路”,则对“喆啡酒店浦建路”和“喆咖酒店浦建路进行对齐,得到“喆啡酒店
”‑
>“喆咖酒店”的对应关系。
[0136]
这样,一个文本片段对应关系可以反映用户输入的搜索文本和用户真实所点击的搜索对象之间具有差异的文本片段,从而可以实现基于用户行为数据的文本召回,可以更大概率召回表征用户真实搜索意图的召回文本。进而,如图5所示,有了多个文本片段对应关系,便可以召回与纠错文版片段具有对应关系的名称片段。
[0137]
示例地,以纠错文本片段是“骊江”为例,假设多个文本片段对应关系中存在“骊江
”‑
>“漓江”、“骊江
”‑
>“丽江”的对应关系,则在多个文本片段对应关系中,与“骊江”具有对应关系的名称片段便可以包括:“漓江”和“丽江”。
[0138]
具体实施时,多个文本片段对应关系可以是通过以下过程获取的:
[0139]
首先,可以获得多个搜索行为数据,所述搜索行为数据中包括用户输入的搜索文本和用户所点击的搜索对象的名称。接着,对每个搜索行为数据中用户输入的搜索文本和用户所点击的搜索对象的名称进行对齐处理,得到多个搜索文本片段和名称片段之间的对应关系,该搜索文本片段和名称片段之间的对应关系便为文本片段对应关系。
[0140]
则相应地,在得到纠错文本片段对应的名称片段后,可以将纠错文本片段对应的名称片段添加到相近文本集合中,作为相近文本集合中的相近文本,参与到后续的基于各个相近文本与纠错文本片段之间的编辑距离,确定待召回文本的过程。
[0141]
接下来,对根据待召回文本的检索结果,确定目标文本的阶段进行介绍。
[0142]
在这个阶段,可以基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,其中,所述多种不同粒度至少包括以待召回文本为检索词的粒度、以候选搜索文本为检索词的粒度,所述候选搜索文本为以待召回文本对所述搜索文本进行纠错处理得到的。
[0143]
相应地,在根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本时,可以根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。
[0144]
其中,在以候选搜索文本为检索词时,候选候选搜索文本可以是将搜索文本中的纠错文本片段替换为待召回文本后得到的。示例地,以搜索文本为“云南大理骊江大酒店”为例,可以将待召回文本“漓江”替换掉“骊江”,从而得到“云南大理漓江大酒店”。
[0145]
本实施方式中,可以以待召回文本为基础,对目标索引库的搜索对象进行多种不同粒度的检索,其中,粒度可以是指检索用的检索词的长度大小,本实施例中,可以包括片段文本检索粒度和完整文本检索粒度,不同粒度下,检索用的检索词的长度大小不同,由于检索词的长度大小不同的情况下,其包含的内容的丰富性也不同,因此,可以得到不同的检索结果。
[0146]
示例地,以“漓江”为检索词检索出的结果,与以“漓江大酒店”为检索词检索出的结果便可以不同,前者检索出的搜索对象的数量更多,而后者检索出的搜索对象的数量较少。
[0147]
具体实施时,片段文本检索粒度可以是以待召回文本为检索词的粒度,完整文本检索粒度可以是以候选搜索文本为检索词的粒度。具体地,可以以待召回文本为检索词进行检索,从而得到待召回文本的检索结果,并以候选搜索文本为检索词进行检索,从而得到候选搜索文本的检索结果,实际中,可以根据待召回文本的检索结果和候选搜索文本的检索结果,对待召回文本进行排序。
[0148]
一些具体实现中,在根据待召回文本的检索结果和候选搜索文本的检索结果,对待召回文本进行排序时,可以对待召回文本的检索结果和候选搜索文本的检索结果取交集,进而根据交集后得到的搜索对象,对待召回文本进行排序。
[0149]
示例地,假设待召回文本“漓江”召回了50个搜索对象,而“云南大理漓江大酒店”召回了20个搜索对象,取交集后,得到10个搜索对象。则可以根据10个搜索对象对“漓江”进行排序。
[0150]
如图4所示,在一些实施例中,在基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索时,可以先分别以待召回文本为检索词进行检索,并根据检索结果对待召回文本进行进一步过滤,接着,再基于过滤后的待召回文本对待处理的搜索文本进行纠错处理,以纠错处理后得到的候选搜索文本为检索词,到目标索引库中进行检索。参照图7所示,示出了两种不同粒度下的检索步骤流程图,如图7所示,具体可以包括以下步骤:
[0151]
步骤s701:分别以所述多个待召回文本为检索词,对目标索引库的搜索对象进行检索,得到检索到搜索对象的至少一个候选召回文本。
[0152]
如图4所示,本实施例中,在以多个待召回文本为检索词,对目标索引库的搜索对象进行检索时,若待召回文本命中了索引记录,则会得到命中的索引记录对应的搜索对象,表征有结果;若未命中索引记录,则不会搜索到搜索对象,表征待召回文本无法获取到搜索结果,即无结果,由此,可以将未检索到搜索对象的待召回文本丢弃。
[0153]
通过上述方式,可以得到检索到搜索对象的至少一个候选召回文本,实现对多个待召回文本的过滤,如此,可以过滤掉一些不合理的待召回文本。
[0154]
步骤s702:将所述搜索文本中的所述纠错文本片段分别替换为所述至少一个候选召回文本,得到与所述至少一个候选召回文本各自对应的候选搜索文本。
[0155]
步骤s703:以所述候选搜索文本为检索词,对所述目标索引库进行搜索对象检索。
[0156]
本实施例中,对于每个候选召回文本,可以将待处理的搜索文本中的纠错文本片段替换为该候选召回文本,得到该候选召回文本对应的候选搜索文本。接着,以候选搜索文本为检索词,到目标索引库中进行检索。
[0157]
其中,在以候选搜索文本为检索词,到目标索引库中进行检索时,可以将候选搜索文本进行分词处理,从而得到多个用于检索的检索文本片段,接着,将各个检索文本片段所命中的索引记录对应的搜索对象取交集,得到了所命中的搜索对象,则命中的搜索对象即为候选搜索文本的检索结果。
[0158]
示例地,以候选搜索文本为“云南大理丽江大酒店”为例,可以分别得到“云南”、“大理”、“丽江”、“大酒店”在目标索引库中所命中的索引记录,各个索引记录对应的搜索对象共有100个,可以对100个搜索对象取交集,例如,通过查重处理,可以得到存在于不同命中的索引记录中的同一搜索对象,这些同一搜索对象即可以作为“云南大理丽江大酒店”的检索结果。
[0159]
相应地,在根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本时,可以根据各所述候选搜索文本各自对应的检索结果,从所述至少一个候选召回文本中确定所述目标文本。
[0160]
本实施方式中,由于候选搜索文本是基于保留的候选召回文本,对待处理的搜索文本进行纠错得到的,并且可以得到候选搜索文本的检索结果,在一些实施例中,则可以根据候选搜索文本所搜索到的搜索对象,对候选搜索文本中的候选召回文本进行打分排序,从而根据打分排序的结果,从候选召回文本中确定目标文本。
[0161]
在一些实施例中,如图4所示,在根据各所述候选搜索文本各自对应的检索结果,即在以候选搜索文本为检索词的粒度下,从所述至少一个候选召回文本中确定所述目标文本时,可以确定候选搜索文本各自对应的多维度特征,继而根据多维度特征进行目标文本的筛选。
[0162]
参照图8所示,示出了根据候选搜索文本对应的检索结果确定所述目标文本的步骤流程示意图,如图8所示,具体可以包括以下步骤:
[0163]
步骤s801:获取各所述候选搜索文本各自对应的检索结果,其中,每个候选搜索文本所对应的检索结果至少包括:命中的索引记录所对应的目标搜索对象。
[0164]
本实施例中,若前述实施例所述,在以候选搜索文本为检索词,到目标索引库中进行检索时,候选搜索文本的检索结果包括了所命中的搜索对象,该被命中的搜索对象即为目标搜索对象。
[0165]
步骤s802:基于各所述候选搜索文本和对应的目标搜索对象,确定各所述候选搜索文本各自对应的多维度特征。
[0166]
其中,每个候选搜索文本的多维度特征包括候选搜索文本与目标搜索对象的名称之间的相似度特征、目标搜索对象的属性特征、候选召回文本的上下文语言特征。
[0167]
本实施例中,由于一个搜索对象可以包括多个属性,不同的属性可以反映搜索对象的特征,进而可以反映候选搜索文本的搜索质量。如图4所示,搜索对象的多个属性可以包括商户属性、商品属性,在目标搜索对象是商户时,还可以获得目标搜索对象的评价标签,例如,星级标签等,在目标搜索对象是商品时,还可以获得商品的类别,例如,药品、生活用品、菜品等。
[0168]
其中,相似度特征可以反映目标搜索对象的名称与候选搜索文本之间的相似度,相似度越高,表征搜索越准确。
[0169]
其中,属性特征可以反映利用候选搜索文本搜索出的目标搜索对象的搜索质量,当然,搜索质量可以根据搜索场景进行判断,例如,在美食探店搜索场景下,是菜品的目标对象相较于是商户的目标对象的搜索质量较差,而在地区美食搜索场景下,是菜品的目标对象相较于是商户的目标对象的搜索质量较高。
[0170]
其中,上下文语言特征可以是将候选召回文本以及候选召回文本的上下文特征分别输入到语言模型得到的,该上下文特征可以反映候选召回文本与候选搜索文本中其他文本片段之间的合理性,例如,候选召回文本是“漓江”,候选搜索文本中与“漓江”相邻的上下文是“大理”和“大酒店”,因而可以通过语言模型,得到候选召回文本的上下文特征。
[0171]
具体实现时,候选搜索文本各自的多维度特征可以用于对候选搜索文本进行打分排序,在一示例中,如图4所示,多维度特征可以是多维度得分,具体地,可以通过以下步骤获得候选搜索对象的多维度特征:
[0172]
首先,可以根据目标搜索对象的属性,确定所述候选搜索文本对应的候选召回文本的第一得分;所述属性至少包括商户属性、商品属性。不同的属性可以对应不同的第一得分。
[0173]
接着,将所述候选搜索文本对应的候选召回文本,以及所述候选召回文本的上下文特征分别输入到语言模型,得到对应于候选召回文本的第二得分,以及对应于候选召回文本的上下文特征的第三得分。根据所述第一得分、所述第二得分和第三得分,确定所述候选搜索文本的多维度特征。具体地,可以根据第一得分对应的权重、第二得分对应的权重和第三得分对应的权重,对第一得分、第二得分和第三得分进行加权求和,从而得到多维度得分,进而根据各个候选召回文本的多维度得分,对各个候选召回文本进行排序。
[0174]
步骤s803:基于各所述候选搜索文本各自对应的多维度特征,从各所述候选搜索文本对应的候选召回文本中筛选出所述目标文本。
[0175]
本实施例中,由于得到了候选搜索文本各自对应的多维度特征,则可以根据多维度特征对多个候选搜索文本进行排序,其中,多维度特征可以为是候选搜索文本的多维度得分,则可以按照得分从高到低的顺序,对多个候选搜索文本各自对应的候选召回文本进行排序,实际中,可以将排序第一的候选召回文本作为目标文本,或者,可以将排序在前的预设数量个候选召回文本作为目标文本。
[0176]
采用本技术实施方式的技术方案,可以利用待召回文本,对目标索引库进行不同
粒度的检索,由于不同粒度的检索可以从局部和整体上反映待召回文本的检索能力,如此,可以提高对待召回文本进行排序评估的准确性。并且,在根据候选搜索文本对应的检索结果筛选目标文本时,可以结合搜索出的目标搜索对象的商品属性、目标搜索对象的名称与候选搜索文本之间的相似度、候选召回文本的上下文特征以及候选召回文本本身的自然语言表述的合理性,对候选召回文本进行排序,从而从文本相似性的维度、自然语言维度、目标搜索对象的质量维度,综合性地对候选召回文本进行排序,提高了排序的合理性和准确性。
[0177]
在一些实际情况中,一个搜索文本中需要纠错的纠错文本片段可能有多个,此种情况下,可以根据多个纠错文本片段在搜索文本中的位置,确定多个纠错文本片段的纠错顺序,进而按照该纠错顺序,依次针对每个纠错文本片段执行上述实施例的步骤以确定出每个纠错文本片段对应的目标文本,进而将搜索文本中所述多个纠错文本片段分别替换为各自对应的目标文本,得到纠错后搜索文本。
[0178]
需要说明的是,在纠错文本片段是多个的情况下,下一纠错文本片段所依据的待处理的搜索文本可以是:基于前面的纠错文本片段对应的目标文本对原始的搜索文本进行纠错得到的,也可以理解为是一种迭代纠错方式,即对下一个纠错文本片段的纠错是在上一个纠错文本片段的纠错结果上进行的。
[0179]
如图4所示,具体实施时,在进入到以候选搜索文本为检索词,对目标索引库进行检索的阶段时,该候选搜索文本可以是基于前面的纠错文本片段对应的目标文本和该下一个纠错文本片段对应的候选召回文本,对搜索文本进行纠错得到的。
[0180]
示例地,以“云南大理骊江大洒店府城分点”为例,纠错片段包括“骊江”、“洒店”、“分点”,当纠错到“洒店”时,已经可以确定“骊江”、对应的目标文本“丽江”,当前“洒店”对应的候选召回文本包括“洒点”、“酒店”,则得到的候选搜索文本是“云南大理丽江大酒店府城分点”。
[0181]
其中,在又一些实施例中,为了提高纠错效率,可以在依次针对每个纠错文本片段执行上述实施例的步骤时,还可以在确定出当前待纠错的纠错文本片段对应的目标文本时,可以判断所述目标文本的相似度特征是否不小于相似度阈值。
[0182]
如图4所示,由于相似度特征可以反映目标搜索对象的名称与候选搜索文本之间的相似度,相似度越高,表征搜索越准确,实际中可以表示该候选搜索文本能搜索出完整准确的搜索对象,如此,可以在确定筛选出的目标文本的相似度特征大于或等于相似度阈值时,将搜索文本中所述当前待纠错的纠错文本片段替换为所述目标文本,得到纠错后搜索文本。如图4所示,实际中,可以将对应的目标文本返回,并一并返回此种情况下搜索到的目标搜索对象,实际中,可以将此种情况下搜索到的目标搜索对象作为待处理的搜索文本的搜索结果返回给用户。
[0183]
此种情况下,可以结束对后续的纠错文本片段的纠错,从而将该纠错后搜索文本作为待处理的搜索文本的纠错文本用于后续的搜索。
[0184]
其中,在确定筛选出的目标文本的相似度特征小于相似度阈值时,确定下一纠错文本片段对应的目标文本,直到遍历完所有的纠错文本片段,并将搜索文本中多个纠错文本片段分别替换为各自对应的目标文本,得到纠错后搜索文本。
[0185]
此种情况下,表征该候选搜索文本搜索出的目标搜索对象并不是完整和准确的搜
索对象,需要对后续的纠错文本片段继续纠错,如此,可以按照上述实施例的方案,确定下一纠错文本片段对应的目标文本,直到遍历完所有的纠错文本片段为止,从而将搜索文本中多个纠错文本片段分别替换为各自对应的目标文本,得到纠错后搜索文本。
[0186]
当然,在一些实际情况中,如果在确定后续的纠错文本片段对应的目标文本的过程中,得到了相似度达到相似度阈值的目标文本,则也可以结束纠错,进而,基于前面纠错过程中各个纠错文本片段对应的目标文本对搜索文本进行纠错处理。
[0187]
示例地,以“云南大理骊江大洒店府城分点”为例,纠错片段包括“骊江”、“洒店”、“分点”,当纠错到“洒店”时,便实现了搜索出的目标对象对应的相似度大于相似度阈值,如此,便可以结束纠错,从而将“骊江”、“洒店”替换为各自对应的目标文本“丽江”、“酒店”,得到最终的纠错后搜索文本“云南大理丽江大酒店府城分点”。
[0188]
采用此种实施方式时,可以提高对具有多个纠错文本片段的搜索文本的纠错效率和准确率。
[0189]
以上内容,对本技术的如果对待纠错的纠错文本片段进行纠错进行了介绍。实际中,由于本技术提供了目标索引库,则也可以基于目标索引库,定位出搜索文本中需要纠错的纠错文本片段。在一种实施例中,参照图9所示,示出了确定纠错文本片段的步骤流程图,具体可以包括以下步骤:
[0190]
步骤s901:获得发送所述搜索文本的用户所在的位置标识。
[0191]
本实施例中,待处理的搜索文本中可以包括用户所在的位置标识,该位置标识可以是地区的编号,假设云南的编号是101,则搜索文本中可以携带标识101。
[0192]
步骤s902:对所述搜索文本进行分词处理和/或实体识别,得到多个文本片段。
[0193]
本实施例中,可以基于两种粒度对搜索文本进行分段处理,一种是分词处理,另一种是实体识别,其中,分词处理可以是以自然语言描述的词语为粒度,而实体识别可以是以搜索文本中各文本片段的词语属性为粒度,例如,云南是地名属性,而酒店是商户属性。
[0194]
其中,可以对搜索文本进行分词处理,得到多个文本片段,例如,以“云南大理骊江大酒店”搜索文本为例,对“云南大理骊江大酒店”进行分词处理后,可以得到“云南”、“大理”、“骊江”、“大”、“酒店”的文本片段。进而,对这些文本片段进行检错。
[0195]
其中,也可以对搜索文本进行实体识别,得到多个文本片段,例如,以“云南大理骊江大酒店”搜索文本为例,对“云南大理骊江大酒店”进行实体识别后,可以得到“云南大理”、“骊江”、“大酒店”的文本片段。进而,对这些文本片段进行检错。
[0196]
步骤s903:分别以多个文本片段和所述位置标识为检索词,对所述目标索引库中的多个索引记录进行检索,得到每个文本片段所命中的索引记录对应的命中搜索对象。
[0197]
本实施例中,如上述构建目标索引库的实施例所述,目标索引库可以以描述词

地址为索引项,则可以将每个文本片段和位置标识作为检索词,对目标索引库中的多个索引记录进行检索,得到所命中的索引记录对应的多个搜索对象,即多个命中搜索对象。
[0198]
其中,每个文本片段都可能命中一个或多个命中搜索对象,也可能未命中搜索对象。
[0199]
步骤s904:根据多个文本片段中每个文本片段对应的命中搜索对象与其他文本片段对应的命中搜索对象的取交集结果,从多个文本片段确定需要纠错的纠错文本片段。
[0200]
本实施例中,对于每个文本片段,可以将该文本片段对应的命中搜索对象与其他
文本片段对应的命中搜索对象取交集,取交集可以是指查重处理,即确定二个文本片段是否对应有同一命中搜索对象。通过取交集的处理,可以查找出与其他文本片段代表的含义差异较大的纠错文本片段。
[0201]
若该文本片段与其他文本片段均存在命中搜索对象的交集,则可以确定该文本片段不需要纠错;若该文本片段与其他文本片段均不存在命中搜索对象的交集,则可以确定该文本片段需要纠错。当然,若该文本片段与部分文本片段均存在命中搜索对象的交集,而与其他部分文本片段不存在命中搜索对象的交集,则也可以确定该文本片段不需要纠错。
[0202]
为充分理解本技术基于目标索引库的检错,下面列举一个示例说明,当然,该示例仅仅是方便理解而列举,不代表对实际情况的限定:
[0203]
仍然以“云南大理骊江大酒店”搜索文本为例,对“云南大理骊江大酒店”进行分词处理后,可以得到“云南”、“大理”、“骊江”、“大”、“酒店”的文本片段,也得到了“云南”、“大理”、“骊江”、“大”、“酒店”各自的命中搜索对象,其中,对于“云南”而言,其与“大理”、“大”、“酒店”均对应有同一个命中搜索对象,则排除“云南”;若“骊江”与“云南”、“大理”、“酒店”的文本片段均不存在对应同一个命中搜索对象的情况,则可以将“骊江”确定为需要纠错的文本片段,此种情况下,表征“骊江”的性质与搜索文本中其他文本片段的性质具有较大的差异,标注“骊江”存在于这个搜索文本中是不合理的,因此,需要纠错。
[0204]
当然,在一些实际情况中,可以分别得到对搜索文本进行分词处理的多个文本片段,和对搜索文本进行实体识别的多个文本片段,进而分别对两种方式下得到的多个文本片段进行分别检错,从而得到分词处理下需要纠错的文本片段,和实体识别下需要纠错的文本片段,若这两个纠错的文本片段是包含关系,则可以将分词处理下需要纠错的文本片段,或者实体识别下需要纠错的文本片段确定为最终的纠错文本片段,若这两个纠错的文本片段是不同的片段,则可以将分词处理下需要纠错的文本片段,或以及实体识别下需要纠错的文本片段均确定为最终的纠错文本片段。
[0205]
通过上述实施方式,便可以实现利用该目标索引库对搜索文本的检错,由于在目标索引库中的各个索引记录是以搜索对象的名称中的分词为索引,其可以反映搜索对象的正确名称,由此,利用目标索引库进行检错,可以检错准确率,在提高检错准确率的情况下,则纠错文本片段是需要被纠错的片段的概率越高,可以避免漏检和错检,由此可以提高对搜索文本进行查询纠错的准确率。
[0206]
采用本技术实施例的技术方案,具有以下优点:
[0207]
1、从检错阶段提高检错准确率,避免漏检和错检的问题。
[0208]
由于在目标索引库中的各个索引记录是以搜索对象的名称中的分词为索引,其可以反映搜索对象的正确名称,由此,利用目标索引库进行检错,避免错检的问题。且由于在检错过程中对搜索文本进行了不同粒度的分段,由此,可以提高检错的灵活性,从而更易检出需要纠错的文本片段,避免漏检的问题。
[0209]
2、从文本召回阶段提高召回文本的准确性,从而提高后续查询纠错的准确率。
[0210]
一方面,引入音近、形近的字段进行文本召回,同时融合语言模型对召回的相近文本进行过滤,使得相近文本集合中保留的过滤后的相近文本可以偏向于自然语言表述,并融合编辑距离进行排序,从而提高了待召回文本与纠错文本片段之间的关联性,提高召回质量。
[0211]
另一方面,由于可以对用户搜索行为数据进行挖掘,得到文本片段对应关系,其可以反映用户输入的搜索文本和用户真实所点击的搜索对象之间具有差异的文本片段,从而可以实现基于用户行为数据的文本召回,可以更大概率召回表征用户真实搜索意图的召回文本,从而提高召回准确性。
[0212]
3、从对召回文本排序的阶段提高排序准确性,从而提高获得的用于纠错的目标文本的准确性。
[0213]
由于在得到多个待召回文本后,以待召回文本为检索词,对目标索引库的搜索对象进行检索,这样,通过对目标索引库的检索,可以获得以待召回文本为检索词进行搜索的搜索质量,例如,可以获得所搜索出的搜索对象的数量、准确度等,并且可以结合命中的搜索对象的相似度特征、属性特征和上下文语言特征对召回文本进行排序,由此,缓解了只利用传统语言模型去打分,偏向生成自然语言表述,对新的词语(例如,商户具有创意的取名)统计频次不高等缺陷,可以更加准确地评估待召回文本用于检索的检索质量,从而提高用于对纠错文本片段进行纠错的目标文本的准确度,提高纠错准确率。
[0214]
4、可以有效应对多成分的复杂纠错文本片段的纠错。
[0215]
一方面,本技术对搜索文本片段中的多个纠错文本片段分别纠错,且对下一个纠错文本片段的纠错是在上一个纠错文本片段的纠错结果上进行的,在多个纠错文本片段的特性不同的情况下,将多成分的多个纠错文本片段简化为单成分的单个纠错文本片段进行纠错,从而有效应对多成分的复杂纠错文本片段的纠错。
[0216]
5、可以提高纠错效率。
[0217]
由于在具有多个纠错文本片段的情况下,可以在某一个纠错文本片段存在对应的相似度高于相似度阈值的召回文本时,便可以结束召回,从而在保证召回文本的召回准确率的情况下,提高纠错效率。
[0218]
基于与上述实施例同一发明构思,本公开实施例的第二方面,提供了一种记账请求处理方法,参照图10所示,示出了搜索文本处理装置的框架示意图,如图10所示,具体可以包括以下模块:
[0219]
纠错文本确定模块1001,用于从待处理的搜索文本中确定当前待纠错的纠错文本片段;
[0220]
召回模块1002,用于基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本;
[0221]
检索模块1003,用于分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词;
[0222]
目标文本获得模块1004,用于根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。
[0223]
可选地,所述检索模块1003,具体可以用于基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,其中,所述多种不同粒度至少包括片段文本检索粒度和完整文本检索粒度;
[0224]
所述目标文本获得模块1004,具体可以用于根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的
目标文本。
[0225]
可选地,所述检索模块1003,具体可以包括以下单元:
[0226]
第一粒度检索单元,用于分别以所述多个待召回文本为检索文本,对所述目标索引库的搜索对象进行检索,得到检索到搜索对象的至少一个候选召回文本;
[0227]
处理单元,用于将所述搜索文本中的所述纠错文本片段分别替换为所述至少一个候选召回文本,得到与所述至少一个候选召回文本各自对应的候选搜索文本;
[0228]
第二粒度检索单元,用于以所述候选搜索文本为检索文本,对所述目标索引库的搜索对象进行检索;
[0229]
所述目标文本获得模块1004,具体可以用于根据各所述候选搜索文本各自对应的检索结果,从所述至少一个候选召回文本中确定所述目标文本。
[0230]
可选地,所述目标文本获得模块1004,具体可以包括以下单元:
[0231]
搜索结果获取单元,用于在所述完整文本检索粒度下,获取各候选搜索文本命中的索引记录所对应的目标搜索对象;其中,候选搜索文本是以待召回文本对所述搜索文本进行纠错处理得到;
[0232]
特征确定单元,用于基于各所述候选搜索文本和对应的目标搜索对象,确定各所述候选搜索文本各自对应的多维度特征;其中,每个候选搜索文本的多维度特征包括候选搜索文本与目标搜索对象的名称之间的相似度特征、目标搜索对象的属性特征、候选召回文本的上下文语言特征;
[0233]
筛选单元,用于基于各所述候选搜索文本各自对应的多维度特征,从各所述候选搜索文本对应的候选召回文本中筛选出所述目标文本。
[0234]
可选地,在所述纠错文本片段为多个的情况下,所述装置还可以包括以下模块:
[0235]
第一处理模块,用于在确定筛选出的所述目标文本的相似度特征大于或等于相似度阈值时,将所述搜索文本中所述当前待纠错的纠错文本片段替换为所述目标文本,得到纠错后搜索文本;
[0236]
第二处理模块,用于在确定筛选出的所述目标文本的相似度特征小于相似度阈值时,确定下一纠错文本片段对应的目标文本,直到遍历完所有的纠错文本片段,并将搜索文本中所述多个纠错文本片段分别替换为各自对应的目标文本,得到纠错后搜索文本。
[0237]
可选地,所述装置还可以包括检错模块,所述检测模块具体可以包括以下单元:
[0238]
位置获得单元,用于获得发送所述搜索文本的用户所在的位置标识;
[0239]
识别单元,用于对所述搜索文本进行分词处理和/或实体识别,得到多个文本片段:
[0240]
检索单元,用于分别以多个文本片段和所述位置标识为检索文本,对所述目标索引库中的多个索引记录进行检索,得到每个文本片段所命中的索引记录对应的命中搜索对象;
[0241]
确定单元,用于根据每个文本片段对应的命中搜索对象与其他文本片段对应的命中搜索对象的取交集结果,从多个文本片段确定需要纠错的纠错文本片段。
[0242]
所述召回模块具体可以包括以下单元:
[0243]
第一召回单元,用于从预设的多个文本字典中,确定与所述纠错文本片段关联的多个相近文本,其中,不同的文本字典对应不同的纠错维度,所述纠错维度至少包括音近维
度、形近维度;
[0244]
过滤单元,用于基于预设的语言模型,对所述多个相近文本进行过滤,得到相近文本集合,其中,所述相近文本集合中包括多个过滤后的相近文本;
[0245]
确定单元,用于基于所述相近文本集合中各个相近文本与所述纠错文本片段之间的编辑距离,从所述相近文本集合中确定待召回文本。
[0246]
可选地,所述装置还具体包括以下模块:
[0247]
获得模块,用于获得多个文本片段对应关系,每个文本片段对应关系是对历史搜索行为数据中用户输入的搜索文本和用户所点击的搜索对象的名称进行对齐处理得到的;
[0248]
第二召回模块,用于从多个文本片段对应关系中,获得所述纠错文本片段对应的名称片段;
[0249]
添加模块,用于将所述纠错文本片段对应的名称片段作为相近文本,加入到所述相近文本集合中。
[0250]
可选地,所述装置还可以包括索引库构建模块,具体包括:
[0251]
样本信息获得单元,用于获得多个搜索对象样本的样本信息,所述样本信息包括所述搜索对象样本的名称、地址和标识;
[0252]
信息处理单元,用于对每个搜索对象样本的名称进行分词处理,得到多个描述词;
[0253]
分类单元,用于获得多个描述词中每个描述词所属的搜索对象样本;
[0254]
构建单元,用于以每个描述词为索引项,并基于该描述词所属的搜索对象样本的样本信息,构建该描述词的索引记录,得到所述目标索引库;其中,每个索引记录中至少包括该描述词所属的搜索对象样本的标识、类别和地址。
[0255]
本发明实施例还提供了一种电子设备,该电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为执行所述的搜索文本处理方法。
[0256]
本技术实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行一种以实现本技术上述的搜索文本处理方法所执行的操作。
[0257]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0258]
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0259]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中
指定的功能的装置。
[0260]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0261]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0262]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0263]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0264]
以上对本发明所提供的一种搜索文本处理方法、装置、电子设备及计算机存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜