一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本信息检索方法及设备与流程

2022-02-22 08:43:16 来源:中国专利 TAG:

技术特征:
1.一种文本信息检索方法,其特征在于,所述方法包括:根据待检索文本信息的所属第一技术领域,确定多个词语,并基于所述多个词语构建种子词库;对所述种子词库进行语义泛化,并基于第一预设词语选择条件对语义泛化后的词语进行筛选,得到一级泛化词库;基于所述一级泛化词库进行文本信息检索,确定所述一级泛化词库中各词语分别对应的文本信息的数量,并基于所述文本信息的数量对所述一级泛化词库中的词语进行筛选,得到二级泛化词库;对所述二级泛化词库进行语义泛化,并基于第二预设词语选择条件对泛化后的词语进行筛选,得到三级泛化词库,以基于所述三级泛化词库进行文本信息检索。2.根据权利要求1所述的一种文本信息检索方法,其特征在于,所述基于第一预设词语选择条件对语义泛化后的词语进行筛选,得到一级泛化词库,具体包括:基于语义泛化后的词语与预设核心语料库中的词语,确定出第一核心词语;确定所述语义泛化后的词语与所述第一核心词语之间的相似值,以及确定所述相似值大于第一预设相似值的词语的数量;在所述大于第一预设相似值的词语的数量,符合所述第一预设词语选择条件时,将所述相似值对应的词语组成所述一级泛化词库。3.根据权利要求1所述的一种文本信息检索方法,其特征在于,所述基于所述文本信息的数量对所述一级泛化词库中的词语进行筛选,具体包括:确定所述一级泛化词库中,各词语分别对应的检索出的文本信息的数量,并将所述文本信息的数量作为所述各词语对应的反权重系数;在任一词语对应的所述文本信息的数量,大于第一预设数量值的情况下,对所述反权重系数进行调节,以对所述检索出的文本信息的数量进行调节,并通过调节后的文本信息的数量对所述一级泛化词库中的词语进行筛选。4.根据权利要求3所述的一种文本信息检索方法,其特征在于,所述对所述反权重系数进行调节,以对所述检索出的文本信息的数量进行调节,并通过调节后的文本信息的数量对所述一级泛化词库中的词语进行筛选,具体包括:减小所述词语对应的反权重系数,以减少所述词语对应的检索出的文本信息的数量;对所述反权重系数进行调整后,重新进行文本信息检索,并在所述一级泛化词库中的任一词语对应的所述文本信息的数量,小于第二预设数量值的情况下,将所述词语进行删除处理。5.根据权利要求1所述的一种文本信息检索方法,其特征在于,所述对所述二级泛化词库进行语义泛化,并基于第二预设词语选择条件对泛化后的词语进行选择,得到三级泛化词库,具体包括:对所述二级泛化词库中的词语进行语义泛化,并将语义泛化后出现的重复词语进行剔除;基于剔除后剩余的词语与预设核心语料库中的词语,确定出第二核心词语;确定所述剩余的词语与所述第二核心词语之间的相似值,以及确定所述相似值大于第二预设相似值的词语的数量;
在所述大于第二预设相似值的词语的数量,符合所述第二预设词语选择条件时,将所述相似值对应的词语组成所述三级泛化词库。6.根据权利要求1所述的一种文本信息检索方法,其特征在于,所述基于所述三级泛化词库进行文本信息检索之后,所述方法还包括:基于所述三级泛化词库中的词语,确定相应的第二技术领域,并基于预设文本语料库,确定所述第二技术领域对应的参考词语;其中,所述第二技术领域为所述第一技术领域的任一子领域;所述预设文本语料库包括有多个参考词语以及所述多个词语分别对应的领域类别;获取所述三级泛化词库对应的检索出的文本信息,并确定出所述文本信息中的参考词语;将所述文本信息中的参考词语,与所述第二技术领域对应的参考词语进行比对,确定所述文本信息中的参考词语分别对应的领域类别;通过所述文本信息中的参考词语分别对应的领域类别,对所述检索出的文本信息进行分类。7.根据权利要求6所述的一种文本信息检索方法,其特征在于,所述通过所述文本信息中的参考词语分别对应的领域类别,对所述检索出的文本信息进行分类,具体包括:对每一个文本信息中的参考词语进行数量统计,并按照数量从多至少的顺序对所述参考词语进行排序;获取序列号小于预设序列号的多个参考词语,并确定所述多个参考词语分别对应的领域类别,以将数量最多的所述参考词语所对应的所述领域类别,作为当前文本信息的领域类别;将所述领域类别相同的所述文本信息进行聚类,以实现对所述检索出的文本信息的分类。8.根据权利要求1所述的一种文本信息检索方法,其特征在于,所述对所述种子词库进行语义泛化,具体包括:通过预先训练的语言模型对多个样本词语进行向量化计算,得到多个特征向量;对所述多个特征向量中的每两个特征向量之间的关联度进行计算,以根据所述关联度构建概念树;基于所述概念树对所述种子词库进行语义泛化。9.根据权利要求8所述的一种文本信息检索方法,其特征在于,所述基于所述概念树对所述种子词库进行语义泛化,具体包括:对所述种子词库中的词语进行向量化计算,获得分词向量;在所述概念树中筛选出与所述分词向量的关联度超过预设关联度阈值的词语向量,并获取所述词语向量对应的相似词语,以通过所述相似词语对所述种子词库进行语义泛化。10.一种文本信息检索设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
根据待检索文本信息的所属第一技术领域,确定多个词语,并基于所述多个词语构建种子词库;对所述种子词库进行语义泛化,并基于第一预设词语选择条件对语义泛化后的词语进行筛选,得到一级泛化词库;基于所述一级泛化词库进行文本信息检索,确定所述一级泛化词库中各词语分别对应的文本信息的数量,并基于所述文本信息的数量对所述一级泛化词库中的词语进行筛选,得到二级泛化词库;对所述二级泛化词库进行语义泛化,并基于第二预设词语选择条件对泛化后的词语进行筛选,得到三级泛化词库,以基于所述三级泛化词库进行文本信息检索。

技术总结
本申请实施例公开了一种文本信息检索方法及设备。根据待检索文本信息的所属第一技术领域,确定多个词语,并基于所述多个词语构建种子词库;对所述种子词库进行语义泛化,并基于第一预设词语选择条件对语义泛化后的词语进行筛选,得到一级泛化词库;基于所述一级泛化词库进行文本信息检索,确定所述一级泛化词库中各词语分别对应的文本信息的数量,并基于所述文本信息的数量对所述一级泛化词库中的词语进行筛选,得到二级泛化词库;对所述二级泛化词库进行语义泛化,并基于第二预设词语选择条件对泛化后的词语进行筛选,得到三级泛化词库,以基于所述三级泛化词库进行文本信息检索。通过上述方法,提高检索效率。提高检索效率。提高检索效率。


技术研发人员:张传锋 井焜 朱锦雷 张琨 潘玲玲
受保护的技术使用者:神思电子技术股份有限公司
技术研发日:2021.11.29
技术公布日:2022/2/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献