一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本信息的重复检测方法及装置与流程

2022-02-22 18:48:57 来源:中国专利 TAG:

技术特征:
1.一种文本信息的重复检测方法,其特征在于,包括:分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句;获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合,任一文本信息对应的语句集合为拆分该文本信息得到的多个语句中包括字符数量最多的预设数量个语句组成的集合;分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句,获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串;分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串,计算所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值;根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值,确定所述第一文本信息和所述第二文本信息是否为重复的文本信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在获取所述第一文本信息对应的语句集合之前,删除拆分所述第一文本信息得到的各个语句中的特殊字符;在获取所述第二文本信息对应的语句集合之前,删除拆分所述第二文本信息得到的各个语句中的特殊字符。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值,确定所述第一文本信息和所述第二文本信息是否为重复的文本信息,包括:判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同;若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值相同,则确定所述第一文本信息与所述第二文本信息为重复的文本信息;若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值不同,则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值,确定所述第一文本信息和所述第二文本信息是否为重复的文本信息,包括:判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同;若第一文本信息的语句哈希值与第二文本信息的语句哈希值不同,则获取所述第一文本信息的标题和所述第二文本信息的标题;分别根据所述第一文本信息的标题和所述第一文本信息的标题计算所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值;根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值,确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前,删除所述第一文本信息的标题中的特殊字符;在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前,删除所述
第二文本信息的标题中的特殊字符。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前,获取所述第一文本信息的标题中的各个字符的字符数据库ucd分类,删除所述第一文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符;在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前,获取所述第二文本信息的标题中的各个字符的ucd分类,删除所述第二文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符。7.根据权利要求4所述的方法,其特征在于,所述根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值,确定所述第一文本信息与所述第二文本信息是否为重复的文本信息,包括:判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同;若所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值相同,则确定所述第一文本信息与所述第二文本信息为重复的文本信息;若所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值不同,则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。8.根据权利要求4所述的方法,其特征在于,所述根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值,确定所述第一文本信息与所述第二文本信息是否为重复的文本信息,包括:判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同;若所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值不同,分别将所述第一文本信息和所述第二文本信息拆分多个词汇;获取所述第一文本信息对应的词汇集合和所述第二文本信息对应的词汇集合,任一文本信息对应的词汇集合为拆分该文本信息得到的词汇中属于关键词表且不属于停用词表的词汇,所述关键词表包括多个在历史文本信息中的逆文档频率的大于阈值的词汇,所述停用词表包括多个停用词;获取所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串,任一文本信息对应的第二字符串组合该文本信息对应的词汇集合中的各个词汇组成的字符串;分别根据所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串,计算所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值;根据所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值,确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。9.一种文本信息的重复检测装置,其特征在于,包括:拆分单元,用于分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句;获取单元,用于获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合,任一文本信息对应的语句集合为拆分该文本信息得到的多个语句中包括字符数量最多的预设数量个语句组成的集合;
拼接单元,分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句,获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串;计算单元,用于分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串,计算所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值;处理单元,用于根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值,确定所述第一文本信息和所述第二文本信息是否为重复的文本信息。10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所述电子设备实现权利要求1-8任一项所述的文本信息的重复检测方法。

技术总结
本发明实施例提供了一种文本信息的重复检测方法及装置,涉及数据处理技术领域。该方法包括:分别基于预设标点符号将第一、第二文本信息拆分为多个语句;获取第一、第二文本信息对应的语句集合;分别拼接第一、第二文本信息对应的语句集合中的语句,获取第一、第二文本信息对应的语句字符串;分别根据第一、第二文本信息对应的语句字符串,计算第一、第二文本信息的语句哈希值;根据第一、第二文本信息的语句哈希值,确定第一、第二文本信息是否为重复的文本信息。本发明实施例可以在保证效率的情况下提升文本信息的重复检测的准确率,并可以在不同场景中通过不同的容忍度确定文本信息是否重复。信息是否重复。信息是否重复。


技术研发人员:王德鑫 郑伟 陈永飞
受保护的技术使用者:山东库睿科技有限公司
技术研发日:2021.11.02
技术公布日:2022/2/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献