一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语料库的构建方法及装置、电子设备和介质与流程

2022-11-30 10:27:58 来源:中国专利 TAG:

技术特征:
1.一种语料库的构建方法,其特征在于,包括:获取第一文本集合,所述第一文本集合包括多个文本;根据所述第一文本集合中的所述多个文本的语义信息,对所述多个文本进行聚类,以得到多个第一文本子集;针对所述多个第一文本子集中的至少一部分第一文本子集,获取所述至少一部分第一文本子集的至少一个第一关键词;基于所述第一关键词,获取近义关键词集合,所述近义关键词集合包括与所述第一关键词词义相近的多个近义关键词;以及获取所述第一文本集合中与所述近义关键词集合相匹配的文本,以作为所述语料库中的语料子集。2.根据权利要求1所述的方法,其特征在于,根据所述第一文本集合中的所述多个文本的语义信息,对所述多个文本进行聚类,以得到多个第一文本子集包括:从所述第一文本集合中提取第一文本子集,并对第一文本集合进行更新,在该第一文本子集中,不同文本之间的语义相似度大于第一阈值;迭代地执行以下操作,直到更新后的第一文本集合中的文本之间的语义相似度不大于所述第一阈值:从经更新的第一文本集合中提取下个第一文本子集,并再次对第一文本集合进行更新,在该下个第一文本子集中,不同文本之间的语义相似度大于所述第一阈值。3.根据权利要求1或2所述的方法,其特征在于,还包括:根据预设规则从所述多个第一文本子集中获取所述至少一部分第一文本子集。4.根据权利要求3所述的方法,其特征在于,所述预设规则包括:所述第一文本子集所包括的文本数量大于第二阈值。5.根据权利要求1所述的方法,其特征在于,针对所述多个第一文本子集中的至少一部分第一文本子集,获取所述至少一部分第一文本子集的至少一个第一关键词包括:从所述至少一部分第一文本子集中获取第一标准文本;将所述第一标准文本输入语义相似度模型,获取所述语义相似度模型所输出的与所述第一标准文本语义相似的至少一个第一相似文本;以及基于所述至少一部分第一文本子集中的至少一个文本和所述至少一个第一相似文本,获取所述至少一个第一关键词。6.根据权利要求5所述的方法,其特征在于,基于所述至少一部分第一文本子集中的至少一个文本和所述至少一个第一相似文本,获取所述至少一个第一关键词包括:从所述至少一个文本和所述至少一个第一相似文本中去除预设词汇,以获取中间文本集合;以及基于所述中间文本集合,获取至少一个第一关键词。7.根据权利要求6所述的方法,其特征在于,基于所述中间文本集合,获取至少一个第一关键词包括:基于所述中间文本集合中各个词的词频,获取所述至少一个第一关键词。8.根据权利要求5所述的方法,其特征在于,基于所述至少一部分第一文本子集中的至少一个文本和所述至少一个第一相似文本,获取所述至少一个第一关键词包括:
通过词频-逆文本频率指数tf-idf方法,从所述至少一部分第一文本子集中的至少一个文本和所述至少一个第一相似文本中获取所述至少一个第一关键词。9.根据权利要求1所述的方法,其特征在于,获取所述第一文本集合中与所述近义关键词集合相匹配的文本,以作为所述语料库中的语料子集包括:以正则表达式的方式从所述第一文本集合中获取其中包括所述近义关键词集合中任意近义关键词的文本,并将所获取的文本作为语料子集。10.根据权利要求1所述的方法,其特征在于,还包括:从所述第一文本集合中采样得到第二文本集合;根据所述第二文本集合中的所述多个文本的语义信息,对所述第二文本集合中的所述多个文本进行聚类,以得到多个第二文本子集;以及针对所述多个第二文本子集,获取至少一个第二关键词,其中,基于所述第一关键词,获取近义关键词集合包括:基于所述第一关键词以及所述至少一个第二关键词,获取所述近义关键词集合。11.根据权利要求10所述的方法,其特征在于,针对所述多个第二文本子集,获取至少一个第二关键词包括:从所述多个第二文本子集中获取第二标准文本;将所述第二标准文本输入语义相似度模型,获取所述语义相似度模型所输出的与所述第二标准文本语义相似的至少一个第二相似文本;以及基于所述多个第二文本子集中的至少一个文本和所述至少一个第二相似文本,获取至少一个第二关键词。12.根据权利要求1所述的方法,其特征在于,还包括:从所述语料子集中获取至少一个标准语料;从所述语料子集中匹配得到与所述至少一个标准语料对应的多个相似语料;以及利用所述至少一个标准语料和所述多个相似语料训练模型。13.一种语料库的构建装置,其特征在于,包括:文本集合获取单元,被配置为获取第一文本集合,所述第一文本集合包括多个文本;聚类单元,被配置为根据所述第一文本集合中的所述多个文本的语义信息,对所述多个文本进行聚类,以得到多个第一文本子集;关键词获取单元,被配置为针对所述多个第一文本子集中的至少一部分第一文本子集,获取所述至少一部分第一文本子集的至少一个第一关键词;关键词集合获取单元,被配置为基于所述第一关键词,获取近义关键词集合,所述近义关键词集合包括与所述第一关键词词义相近的多个近义关键词;以及文本匹配单元,被配置为获取所述第一文本集合中与所述近义关键词集合相匹配的文本,以作为所述语料库中的语料子集。14.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-12中任一项所述的方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-12中任一项所述的方法。16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。

技术总结
本公开提供了语料库的构建方法及装置、电子设备和介质,涉及计算机技术领域,尤其涉及问答系统技术领域。实现方案为:获取第一文本集合;根据第一文本集合中的多个文本的语义信息,对多个文本进行聚类,以得到多个第一文本子集;针对多个第一文本子集中的至少一部分第一文本子集,获取所述至少一部分第一文本子集的至少一个第一关键词;基于所述第一关键词,获取近义关键词集合;以及获取第一文本集合中与近义关键词集合相匹配的文本,以作为语料库中的语料子集。中的语料子集。中的语料子集。


技术研发人员:赵新歌
受保护的技术使用者:胜斗士(上海)科技技术发展有限公司
技术研发日:2022.08.30
技术公布日:2022/11/29
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献