一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本相似度检测方法、计算设备及存储介质与流程

2022-05-26 23:55:31 来源:中国专利 TAG:

技术特征:
1.一种文本相似度检测方法,其特征在于,包括:将新增文本拆分成多个最小单元,其中,所述新增文本包括新增财务文本,所述最小单元包括多个所述财务文本的文本信息;为所述最小单元配置摘要算法并确定所述最小单元的摘要特征值;根据所述摘要特征值确定所述新增文本与历史文本的相似度。2.根据权利要求1所述的文本相似度检测方法,其特征在于,所述为每个所述最小单元配置摘要算法并确定所述最小单元的摘要特征值包括:根据k临近算法和所述最小单元的所述文本信息配置所述摘要算法;根据所述摘要算法和所述文本信息对应的预设基准值确定所述摘要特征值。3.根据权利要求2所述的文本相似度检测方法,其特征在于,所述摘要算法包括:其中,k表示所述摘要特征值,n1至nn分别表示多个所述文本信息,z1至zn分别表示多个所述文本信息分别对应的所述预设基准值。4.根据权利要求1-3任一项所述的文本相似度检测方法,其特征在于,所述根据所述摘要特征值确定所述新增文本与历史文本的相似度包括:获取与所述最小单元对应的预设权重系数;根据所述预设权重系数和所述摘要特征值确定新增文本指标值;根据所述新增文本指标值确定所述相似度。5.根据权利要求4所述的文本相似度检测方法,其特征在于,所述新增文本指标值包括多个单元组合指标值,所述根据所述预设权重系数和所述摘要特征值确定新增文本指标值包括:将多个所述最小单元组合成多个单元组合,其中,所述单元组合包括相同或不同的所述最小单元;分别确定所述单元组合内各个所述最小单元的所述预设权重系数和所述摘要特征值的乘积;根据所述乘积确定所述单元组合的所述单元组合指标值。6.根据权利要求5所述的文本相似度检测方法,其特征在于,所述根据所述新增文本指标值确定所述相似度包括:将所述新增文本指标值与所述历史文本的历史文本指标值对比,其中,所述对比的方式包括确定所述新增文本指标值与所述历史文本指标值的差值,和/或确定所述新增文本指标值与所述历史文本指标值的比值;根据所述对比的结果确定所述新增文本与所述历史文本的相似度。7.根据权利要求6所述的文本相似度检测方法,其特征在于,所述根据所述对比的结果确定所述新增文本与所述历史文本的相似度包括:当所述新增文本指标值与所述历史文本指标值的差值的绝对值小于第一预设对比值,以及所述新增文本指标值与所述历史文本指标值的比值小于第二预设对比值时,判定所述相似度为高相似度。8.根据权利要求1-3和5-7中任一项所述的文本相似度检测方法,其特征在于,所述新
增财务文本包括新增财务凭证,所述文本信息包括凭证主体信息和/或凭证分录信息。9.一种计算设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当所述处理器执行所述程序时,实现如权利要求1-8中任一项所述的文本相似度检测方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的文本相似度检测方法。

技术总结
本发明提供一种文本相似度检测方法、计算设备及存储介质,涉及数据核对技术领域。该方法包括:将新增文本拆分成多个最小单元,其中,所述新增文本包括新增财务文本,所述最小单元包括多个财务文本的文本信息;为所述最小单元配置摘要算法并确定所述最小单元的摘要特征值;根据所述摘要特征值确定所述新增文本与历史文本的相似度。本发明的有益效果:可以有效的判断文本相似度,及时分辨出不同文本,如发现新增财务文本中的造假,进而可有效降低风险。险。险。


技术研发人员:储小凡 张研
受保护的技术使用者:安徽航天信息有限公司
技术研发日:2021.12.31
技术公布日:2022/5/25
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献