一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

特征文本匹配方法及装置、电子设备和存储介质与流程

2022-02-22 19:30:06 来源:中国专利 TAG:

技术特征:
1.一种特征文本匹配方法,其特征在于,包括:根据输入文件的类别信息,在文件数据库的多个文件集中,确定所述输入文件所属的目标文件集,其中,每个文件集中包括相关联的历史文件;通过预训练的特征文本分类模型,确定所述输入文件的特征文本;通过预训练的特征文本匹配模型,确定所述输入文件的特征文本与所述目标文件集中各历史文件的特征文本之间的匹配得分;根据所述匹配得分,在所述目标文件集中各历史文件的特征文本中,确定与所述输入文件匹配的目标特征文本。2.根据权利要求1所述的方法,其特征在于,所述类别信息包括所述历史文件记载的相关方、所述历史文件记载的文档名称、所述历史文件记载的文档编号中的至少一项,所述方法还包括:生成所述文件数据库中多个历史文件对应的初始文件集,其中,所述初始文件集包括对应的一个历史文件;根据第一初始文件集和其他初始文件集中的历史文件记载的类别信息,分别确定所述第一初始文件集和其他初始文件集中的历史文件的相关性分数,所述第一初始文件集为任意一个初始文件集;将其他初始文件集中,所述相关性分数大于或等于第一阈值的初始文件集合并至第一初始文件集,获得合并后的第一文件集;将未合并的初始文件集中的任意一个作为新的第一初始文件集,重复确定所述第一初始文件集和其他初始文件集中的历史文件的相关性分数的步骤,和获得合并后的第一文件集的步骤,直至不存在未合并的初始文件集;根据多个合并后的第一文件集,获得所述多个文件集。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据样本文件中的多个样本文本,获得与各样本文本对应的文本窗口,其中,所述文本窗口包括对应的样本文本,以及样本文本的上句样本文本和/或下句样本文本;通过自然语言处理模型,获得所述文本窗口的第一文本特征信息;通过特征文本分类模型,对所述第一文本特征信息进行处理,获得所述文本窗口的分类结果,其中,所述分类结果包括所述文本窗口对应的样本文本是否为特征文本;根据所述分类结果,以及所述文本窗口的标注信息,确定所述特征文本分类模型的分类损失函数;根据所述分类损失函数,训练所述特征文本分类模型。4.根据权利要求3所述的方法,其特征在于,所述样本文本具有标注信息,所述文本窗口与对应的样本文本的标注信息一致,所述标注信息用于表示所述样本文本否为特征文本。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:通过预训练的特征文本分类模型,确定所述文件数据库中多个历史文件的特征文本。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取同一文件集中至少两个历史文件的特征文本;确定所述至少两个历史文件的特征文本的匹配度标注;
通过自然语言处理模型,获得所述至少两个历史文件的所述特征文本的第二文本特征信息;通过特征文本匹配模型,确定特征文本之间的样本匹配得分;根据所述样本匹配得分和所述特征文本的匹配度标注,确定匹配损失函数;根据所述匹配损失函数,训练所述特征文本匹配模型。7.根据权利要求1所述的方法,其特征在于,所述匹配得分包括所述输入文件的多个特征文本与所述目标文件集中各历史文件的多个特征文本之间的匹配得分矩阵。8.一种特征文本匹配装置,其特征在于,包括:归类模块,用于根据输入文件的类别信息,在文件数据库的多个文件集中,确定所述输入文件所属的目标文件集,其中,每个文件集中包括相关联的历史文件;特征文本确定模块,用于通过预训练的特征文本分类模型,确定所述输入文件的特征文本;匹配得分确定模块,用于通过预训练的特征文本匹配模型,确定所述输入文件的特征文本与所述目标文件集中各历史文件的特征文本之间的匹配得分;目标确定模块,用于根据所述匹配得分,在所述目标文件集中各历史文件的特征文本中,确定与所述输入文件匹配的目标特征文本。9.一种电子设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至8中任意一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。

技术总结
本公开涉及一种特征文本匹配方法及装置、电子设备和存储介质,所述方法包括:据输入文件的类别信息,确定所述输入文件所属的目标文件集;通过特征文本分类模型,确定输入文件的特征文本;通过特征文本匹配模型,确定输入文件的特征文本与历史文件的特征文本之间的匹配得分;根据匹配得分,确定与所述输入文件匹配的目标特征文本。根据本公开的实施例的特征文本匹配方法,可提取输入文件的特征文本,并与目标文件集中的多个历史文件的特征文本进行匹配处理,可有效地提取输入文件多个方面的特征,以对多种特征进行更加全方面的匹配,且匹配可精确定位到文本层面,而不仅限于找到匹配的文件,从而提升检索效率和匹配准确性。从而提升检索效率和匹配准确性。从而提升检索效率和匹配准确性。


技术研发人员:张敏 卢瑞麟 马为之 刘奕群 马少平
受保护的技术使用者:清华大学
技术研发日:2021.11.29
技术公布日:2022/2/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献