一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

搜索文本处理方法、装置、电子设备及介质与流程

2021-10-24 15:53:00 来源:中国专利 TAG:电子设备 介质 装置 文本 计算机

技术特征:
1.一种搜索文本处理方法,其特征在于,所述方法包括:从待处理的搜索文本中确定当前待纠错的纠错文本片段;基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本;分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词;根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。2.根据权利要求1所述的方法,其特征在于,分别基于所述多个待召回文本,对目标索引库的搜索对象进行检索,包括:基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,其中,所述多种不同粒度至少包括片段文本检索粒度和完整文本检索粒度;根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。3.根据权利要求2所述的方法,其特征在于,基于所述多个待召回文本,对目标索引库的搜索对象进行多种不同粒度的检索,包括:分别以所述多个待召回文本为检索文本,对所述目标索引库的搜索对象进行检索,得到检索到搜索对象的至少一个候选召回文本;将所述搜索文本中的所述纠错文本片段分别替换为所述至少一个候选召回文本,得到与所述至少一个候选召回文本各自对应的候选搜索文本;以所述候选搜索文本为检索文本,对所述目标索引库的搜索对象进行检索;根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:根据各所述候选搜索文本各自对应的检索结果,从所述至少一个候选召回文本中确定所述目标文本。4.根据权利要求2或3所述的方法,其特征在于,根据所述多个待召回文本各自对应的不同粒度的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本,包括:在所述完整文本检索粒度下,获取各候选搜索文本命中的索引记录所对应的目标搜索对象;其中,候选搜索文本是以待召回文本对所述搜索文本进行纠错处理得到;基于各所述候选搜索文本和对应的目标搜索对象,确定各所述候选搜索文本各自对应的多维度特征;其中,每个候选搜索文本的多维度特征包括候选搜索文本与目标搜索对象的名称之间的相似度特征、目标搜索对象的属性特征、候选召回文本的上下文语言特征;基于各所述候选搜索文本各自对应的多维度特征,从各所述候选搜索文本对应的候选召回文本中筛选出所述目标文本。5.根据权利要求4所述的方法,其特征在于,在所述纠错文本片段为多个的情况下,所
述方法还包括:在确定筛选出的所述目标文本的相似度特征大于或等于相似度阈值时,将所述搜索文本中所述当前待纠错的纠错文本片段替换为所述目标文本,得到纠错后搜索文本;在确定筛选出的所述目标文本的相似度特征小于相似度阈值时,确定下一纠错文本片段对应的目标文本,直到遍历完所有的纠错文本片段,并将搜索文本中所述多个纠错文本片段分别替换为各自对应的目标文本,得到纠错后搜索文本。6.根据权利要求1

5任一项或7所述的方法,其特征在于,所述纠错文本片段是通过以下步骤获得的:获得发送所述搜索文本的用户所在的位置标识;对所述搜索文本进行分词处理和/或实体识别,得到多个文本片段:分别以多个文本片段和所述位置标识为检索文本,对所述目标索引库中的多个索引记录进行检索,得到每个文本片段所命中的索引记录对应的命中搜索对象;根据每个文本片段对应的命中搜索对象与其他文本片段对应的命中搜索对象的取交集结果,从多个文本片段确定需要纠错的纠错文本片段。7.根据权利要求1

5任一所述的方法,其特征在于,基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本,包括:从预设的多个文本字典中,确定与所述纠错文本片段关联的多个相近文本,其中,不同的文本字典对应不同的纠错维度,所述纠错维度至少包括音近维度、形近维度;基于预设的语言模型,对所述多个相近文本进行过滤,得到相近文本集合,其中,所述相近文本集合中包括多个过滤后的相近文本;基于所述相近文本集合中各个相近文本与所述纠错文本片段之间的编辑距离,从所述相近文本集合中确定待召回文本。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:获得多个文本片段对应关系,每个文本片段对应关系是对历史搜索行为数据中用户输入的搜索文本和用户所点击的搜索对象的名称进行对齐处理得到的;从多个文本片段对应关系中,获得所述纠错文本片段对应的名称片段;将所述纠错文本片段对应的名称片段作为相近文本,加入到所述相近文本集合中。9.根据权利要求1

5任一所述的方法,其特征在于,所述目标索引库通过以下步骤获得:获得多个搜索对象样本的样本信息,所述样本信息包括所述搜索对象样本的名称、地址和标识;对每个搜索对象样本的名称进行分词处理,得到多个描述词;获得多个描述词中每个描述词所属的搜索对象样本;以每个描述词为索引项,并基于该描述词所属的搜索对象样本的样本信息,构建该描述词的索引记录,得到所述目标索引库;其中,每个索引记录中至少包括该描述词所属的搜索对象样本的标识、类别和地址。10.一种搜索文本处理装置,其特征在于,所述装置包括:纠错文本确定模块,用于从待处理的搜索文本中确定当前待纠错的纠错文本片段;召回模块,用于基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的
多个待召回文本;检索模块,用于分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词;目标文本获得模块,用于根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。11.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1

9任一项所述的搜索文本处理方法。12.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1

9任一项所述的搜索文本处理方法。

技术总结
本申请实施例提供了一种搜索文本处理方法、装置、电子设备及介质,旨在提高查询纠错的准确率,所述方法包括:从待处理的搜索文本中确定当前待纠错的纠错文本片段;基于所述纠错文本片段进行文本召回,得到所述纠错文本片段对应的多个待召回文本;分别基于所述多个待召回文本,对目标索引库中的搜索对象进行检索,所述目标索引库存储有分别以描述词为索引的多条索引记录;其中,一条索引记录对应一个或多个搜索对象,所述描述词为搜索对象的名称中的分词;根据所述多个待召回文本各自对应的检索结果,从所述多个待召回文本中确定用于对所述纠错文本片段进行纠错的目标文本。述纠错文本片段进行纠错的目标文本。述纠错文本片段进行纠错的目标文本。


技术研发人员:钱昉
受保护的技术使用者:北京三快在线科技有限公司
技术研发日:2021.06.22
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜