一种文本信息的重复检测方法及装置与流程

2022-02-22 18:48:57 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，尤其涉及一种文本信息的重复检测方法及装置。

背景技术：

2.由于互联网上的信息常常被相互转载，因此互联网中存在大量重复信息，这些重复信息不但浪费了大量存储资源，而且还加重了用户检索和阅读的负担，而且给信息存储、检索、处理带来了诸多不便，因此发现并去除重复信息的研究工作具有非常重要的意义。
3.现有技术中的一种文本信息的重复检测方式为：计算文本信息对应的哈希值，并基于文本信息对应的哈希值判断文本信息之间是否属于重复信息。例如：对文本形式的新闻进行重复检测时，计算新闻的标题或正文的哈希值，并基于计算得到的哈希值判断新闻之间是否属于重复新闻。然而，这种重复检测方式只有文本信息的内容完全一致时才能得到相同的哈希值，即使两个文本信息之间只有细微的差异，也会计算出不同的哈希值，因此现有技术中这种重复检测方式的准确率较低。为了提高重复检测的准确率，现有技术中提出的另一种文本信息的重复检测方式为：提取文本信息的特征向量，并根据文本信息的特征向量之间的距离或夹角余弦值计算文本信息的相似度，进而确定文本信息之间是否属于重复的文本信息。这种通过特征向量进行重复检测的方式虽然在一定程度上提高了重复检测的准确率，但其计算复杂度非常高，效率低下，无法在短时间内对大量文本信息进行重复检测。综上所述，现有技术中的文本信息的重复检测方式分别存在准确率低和效率低的缺陷，因此如何在保证效率的情况下提升文本信息的重复检测的准确率是一个亟待解决的问题。

技术实现要素：

4.有鉴于此，本发明提供了一种文本信息的重复检测方法及装置，用于在保证效率的情况下提升文本信息的重复检测的准确率。
5.为了实现上述目的，本发明实施例提供技术方案如下：
6.第一方面，本发明的实施例提供了一种文本信息的重复检测方法，包括：
7.分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句；
8.获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合，任一文本信息对应的语句集合为拆分该文本信息得到的多个语句中包括字符数量最多的预设数量个语句组成的集合；
9.分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句，获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串；
10.分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，计算所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值；
11.根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值，确定所
述第一文本信息和所述第二文本信息是否为重复的文本信息。
12.作为本发明实施例一种可选的实施方式，所述方法还包括：
13.在获取所述第一文本信息对应的语句集合之前，删除拆分所述第一文本信息得到的各个语句中的特殊字符；
14.在获取所述第二文本信息对应的语句集合之前，删除拆分所述第二文本信息得到的各个语句中的特殊字符。
15.作为本发明实施例一种可选的实施方式，所述根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息，包括：
16.判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同；
17.若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值相同，则确定所述第一文本信息与所述第二文本信息为重复的文本信息；
18.若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值不同，则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
19.作为本发明实施例一种可选的实施方式，所述根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息，包括：
20.判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同；
21.若第一文本信息的语句哈希值与第二文本信息的语句哈希值不同，则获取所述第一文本信息的标题和所述第二文本信息的标题；
22.分别根据所述第一文本信息的标题和所述第一文本信息的标题计算所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值；
23.根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。
24.作为本发明实施例一种可选的实施方式，所述方法还包括：
25.在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前，删除所述第一文本信息的标题中的特殊字符；
26.在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前，删除所述第二文本信息的标题中的特殊字符。
27.作为本发明实施例一种可选的实施方式，所述方法还包括：
28.在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前，获取所述第一文本信息的标题中的各个字符的字符数据库ucd分类，删除所述第一文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符；
29.在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前，获取所述第二文本信息的标题中的各个字符的字符数据库ucd分类，删除所述第二文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符。
30.作为本发明实施例一种可选的实施方式，所述根据所述第一文本信息的标题哈希
值和所述第二文本信息的标题哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息，包括：
31.判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同；
32.若所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值相同，则确定所述第一文本信息与所述第二文本信息为重复的文本信息；
33.若所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值不同，则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
34.作为本发明实施例一种可选的实施方式，所述根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息，包括：
35.判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同；
36.若所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值不同，分别将所述第一文本信息和所述第二文本信息拆分多个词汇；
37.获取所述第一文本信息对应的词汇集合和所述第二文本信息对应的词汇集合，任一文本信息对应的词汇集合为拆分该文本信息得到的词汇中属于关键词表且不属于停用词表的词汇，所述关键词表包括多个在历史文本信息中的逆文档频率的大于阈值的词汇，所述停用词表包括多个停用词；
38.获取所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串，任一文本信息对应的第二字符串组合该文本信息对应的词汇集合中的各个词汇组成的字符串；
39.分别根据所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串，计算所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值；
40.根据所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。
41.第二方面，本发明的实施例提供了一种文本信息的重复检测装置，包括：
42.拆分单元，用于分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句；
43.获取单元，用于获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合，任一文本信息对应的语句集合为拆分该文本信息得到的多个语句中包括字符数量最多的预设数量个语句组成的集合；
44.拼接单元，分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句，获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串；
45.计算单元，用于分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，计算所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值；
46.处理单元，用于根据所述第一文本信息的语句哈希值和所述第二文本信息的语句
哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息。
47.作为本发明实施例一种可选的实施方式，所述获取单元，还用于在获取所述第一文本信息对应的语句集合之前，删除拆分所述第一文本信息得到的各个语句中的特殊字符；在获取所述第二文本信息对应的语句集合之前，删除拆分所述第二文本信息得到的各个语句中的特殊字符。
48.作为本发明实施例一种可选的实施方式，所述处理单元，具体用于判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同；若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值相同，则确定所述第一文本信息与所述第二文本信息为重复的文本信息；若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值不同，则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
49.作为本发明实施例一种可选的实施方式，所述处理单元，具体用于判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同；若第一文本信息的语句哈希值与第二文本信息的语句哈希值不同，则获取所述第一文本信息的标题和所述第二文本信息的标题；分别根据所述第一文本信息的标题和所述第一文本信息的标题计算所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值；根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。
50.作为本发明实施例一种可选的实施方式，所述处理单元，还用于在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前，删除所述第一文本信息的标题中的特殊字符；在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前，删除所述第二文本信息的标题中的特殊字符。
51.作为本发明实施例一种可选的实施方式，所述处理单元，还用于在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前，获取所述第一文本信息的标题中的各个字符的字符数据库ucd分类，删除所述第一文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符；在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前，获取所述第二文本信息的标题中的各个字符的ucd分类，删除所述第二文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符。
52.作为本发明实施例一种可选的实施方式，所述处理单元，具体用于判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同；若所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值相同，则确定所述第一文本信息与所述第二文本信息为重复的文本信息；若所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值不同，则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
53.作为本发明实施例一种可选的实施方式，所述处理单元，具体用于判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同；若所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值不同，分别将所述第一文本信息和所述第二文本信息拆分多个词汇；获取所述第一文本信息对应的词汇集合和所述第二文本信息对应的词汇集合，任一文本信息对应的词汇集合为拆分该文本信息得到的词汇中属于关键词表且不属于停用词表的词汇，所述关键词表包括多个在历史文本信息中的逆文档频率的大于阈值的词汇，所述停用词表包括多个停用词；获取所述第一文本信息对应的词汇字符串
和所述第二文本信息对应的词汇字符串，任一文本信息对应的第二字符串组合该文本信息对应的词汇集合中的各个词汇组成的字符串；分别根据所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串，计算所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值；根据所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。
54.第三方面，本发明实施例提供一种电子设备，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在执行计算机程序时，使得所述电子设备实现上述任一实施方式所述的文本信息的重复检测方法。
55.第四方面，本发明实施例提供一种计算机可读存储介质，当所述计算机程序被计算设备执行时，使得所述计算设备实现上述任一实施方式所述的文本信息的重复检测方法。
56.第五方面，本发明实施例提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机实现上述任一实施方式所述的文本信息的重复检测方法。
57.本发明实施例提供的文本信息的重复检测方法，包括：首先分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句；然后获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合，并分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句，获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，再分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，计算所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值；最后根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息。由于本发明实施例是基于文本信息中包括字符数量最多的预设数量个语句计算的语句哈希值，确定文本信息之间是否为重复的文本信息的，因此相比于根据全部内容或标题的哈希值确定文本信息之间是否为重复的文本信息，本发明实施例可以在一定程度上避免细微的差异导致的哈希值不同，进而提升重复检测的准确率，相比于根据文本信息的特征向量之间的距离或夹角余弦值确定文本信息之间是否为重复的文本信息，本发明实施例可以提升重复检测的效率，因此本发明实施例提供的文本信息的重复检测方法可以在保证效率的情况下提升文本信息的重复检测的准确率。
附图说明
58.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
59.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
60.图1为本发明实施例提供的文本信息的重复检测方法的步骤流程图之一；
61.图2为本发明实施例提供的文本信息的重复检测方法的步骤流程图之二；
62.图3为本发明实施例提供的文本信息的重复检测方法的步骤流程图之三；
63.图4为本发明实施例提供的文本信息的重复检测方法的步骤流程图之四；
64.图5为本发明实施例提供的文本信息的重复检测方法的步骤流程图之五；
65.图6为本发明实施例提供的文本信息的重复检测装置的结构示意图；
66.图7为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
67.为了能够更清楚地理解本发明的上述目的、特征和优点，下面将对本发明的方案进行进一步描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。
68.在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。
69.在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。此外，在本发明实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。
70.本发明实施例提供了一种文本信息的重复检测方法，参照图1所示，该文本信息的重复检测方法包括如下步骤：
71.s11、分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句。
72.示例性的，本发明实施例中的预设标点符号可以包括：中文格式的句号“。”以及英文格式的句号“.”。
73.本发明实施例中的文本信息可以为文本格式的新闻、文本格式的通知，文本格式的文章等本发明实施例对此不做限定，以第一文本信息和第二文本信息均为由多个字符串构成的信息为准。
74.s12、获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合。
75.其中，任一文本信息对应的语句集合为拆分该文本信息得到的多个语句中包括字符数量最多的预设数量个语句组成的集合。
76.可选的，预设数量可以为5。
77.示例性的，当预设数量可以为5，拆分第一文本信息得到了10个语句，该10个语句分别为：语句1、语句2、语句3、语句4、语句5、语句6、语句7、语句8、语句9、语句10；且该10个语句包括的字符的数量分别为：6、10、13、15、7、11、8、27、16、22，则拆分第一文本信息得到的10个语句中字符数量最多的5量个语句分别为：语句8、语句10、语句9、语句4以及语句3，因此第一文本信息对应的语句集为：{语句3，语句4，语句8，语句9，语句10}。
78.作为本发明实施例一种可选的实施方式，本发明实施例提供的文本信息的重复检测方法还包括：
79.在获取所述第一文本信息对应的语句集合之前，删除拆分所述第一文本信息得到的各个语句中的特殊字符；
80.在获取所述第二文本信息对应的语句集合之前，删除拆分所述第二文本信息得到
的各个语句中的特殊字符。
81.具体的，本发明实施例中的特殊字符是相对于传统或常用的字符外，使用频率较少字符且难以直接输入的符号，包括但不限于标点符号、特殊标识等字符。
82.示例性的，特殊字符可以包括：
ā
、
á
、
ǎ
、
à
、
ō
、
ó
、
ǒ
、
ò
、
ê
、
ē
、
é
、
ě
、
è
、
ī
、
í
、
ǐ
、
ì
、
ū
、
ú
、
ǔ
、
ù
、
ǖ
、
ǘ
、
ǚ
、
ǜ
、
ü
、
ń
、
ň
、
ɑ
、
ɡ
等拼音字符，还可以包括：
⊕
、
⊙
、
▽
、
▼
、
§
、〃、〒、
※
、
♀
、
♂
、
×
、∫、∮、∵、∴、ω等特殊符号。
83.上述实施例在获取所述文本信息对应的语句集合之前，删除拆分所述文本信息得到的各个语句中的特殊字符，因此上述实施例可以避免特殊字符对文本信息的语句哈希值的影响，进而避免特殊字符对重复检测准确率的影响，提高重复检测的准确率。
84.s13、分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句，获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串。
85.作为本发明实施例一种可选的实施方式，拼接文本信息对应的语句集合中的语句的实现方式可以为：按照包括的字符的数量对文本信息对应的语句集合中的语句进行降序排序，按照排序结果依次拼接文本信息对应的语句集合中的语句。
86.作为本发明实施例一种可选的实施方式，拼接文本信息对应的语句集合中的语句的实现方式可以为：按照包括的字符的数量对文本信息对应的语句集合中的语句进行升序排序，按照排序结果依次拼接文本信息对应的语句集合中的语句。
87.作为本发明实施例一种可选的实施方式，拼接文本信息对应的语句集合中的语句的实现方式可以为：按照语句在文本信息中的出现顺序对文本信息对应的语句集合中的语句进行排序，按照排序结果依次拼接文本信息对应的语句集合中的语句。
88.承上示例所述，第一文本信息对应的语句集为：{语句3，语句4，语句8，语句9，语句10}，当拼接文本信息对应的语句集合中的语句的实现方式为：按照包括的字符的数量对文本信息对应的语句集合中的语句进行升序排序，按照排序结果依次拼接文本信息对应的语句集合中的语句时，第一文本信息对应的语句字符串为：语句8语句10，语句9语句4语句3。
89.s14、分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，计算所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值。
90.即，分别通过预设的哈希算法计算第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，并分别将计算结果作为第一文本信息的语句哈希值和所述第二文本信息的语句哈希值。
91.s15、根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息。
92.本发明实施例提供的文本信息的重复检测方法，包括：首先分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句；然后获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合，并分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句，获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，再分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，计算所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值；最后根据所述第一文本信息的语句哈希值和所述第二
文本信息的语句哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息。由于本发明实施例是基于文本信息中包括字符数量最多的预设数量个语句计算的语句哈希值，确定文本信息之间是否为重复的文本信息的，因此相比于根据全部内容或标题的哈希值确定文本信息之间是否为重复的文本信息，本发明实施例可以在一定程度上避免细微的差异导致的哈希值不同，进而提升重复检测的准确率，相比于根据文本信息的特征向量之间的距离或夹角余弦值确定文本信息之间是否为重复的文本信息，本发明实施例可以提升重复检测的效率，因此本发明实施例提供的文本信息的重复检测方法可以在保证效率的情况下提升文本信息的重复检测的准确率。
93.作为本发明实施例一种可选的实施方式，在上述步骤s11至s14的基础上，参照图2所示，上述步骤s15(根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息)的实现方式可以包括如下步骤：
94.s21、判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同。
95.在上述步骤s21中，若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值相同，则执行如下步骤s22，而若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值不同，则执行如下步骤s23。
96.s22、确定所述第一文本信息与所述第二文本信息为重复的文本信息。
97.s23、确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
98.即，若两个文本信息的语句哈希值相同，则确认该两个文本信息相同，而若两个文本信息的语句哈希值不同，则确认该两个文本信息不同。
99.示例性的，图2所示实施例可以用于对搜索场景下的文本信息进行重复检测。
100.作为本发明实施例一种可选的实施方式，在上述步骤s11至s14的基础上，参照图3所示，上述步骤s15(根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息)的实现方式可以包括如下步骤：
101.s31、判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同。
102.在上述步骤s31中，若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值相同，则执行如下步骤s32，而若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值不同，则执行如下步骤s33-s35。
103.s32、确定所述第一文本信息与所述第二文本信息为重复的文本信息。
104.s33、获取所述第一文本信息的标题和所述第二文本信息的标题。
105.s34、分别根据所述第一文本信息的标题和所述第一文本信息的标题计算所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值。
106.作为本发明实施例一种可选的实施方式，本发明实施例提供的文本信息的重复检测方法还包括：
107.在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前，删除所述第一文本信息的标题中的特殊字符；
108.在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前，删除所述第二文本信息的标题中的特殊字符。
109.上述实施例在获取所述文本信息对应的语句集合之前，删除拆分所述文本信息得到的各个语句中的特殊字符，因此上述实施例可以避免特殊字符对文本信息的标题哈希值的影响，进而避免特殊字符对重复检测准确率的影响，提高重复检测的准确率。
110.作为本发明实施例一种可选的实施方式，本发明实施例提供的文本信息的重复检测方法还包括：
111.在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前，获取所述第一文本信息的标题中的各个字符的字符数据库(unicode character database，ucd)分类，删除所述第一文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符；
112.在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前，获取所述第二文本信息的标题中的各个字符的字符数据库ucd分类，删除所述第二文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符。
113.具体的，ucd中定义了所有字符的字符分类，可以获取文本信息的标题中各个字符在ucd里的分类，并确定各个字符的ucd分类是否属于预设的构成消息主体文字的ucd分类，若是，则确定字符的ucd分类为构成消息主体的ucd分类，若否，则确定字符的ucd分类为不属于构成消息主体的ucd分类。
114.上述实施例在获取所述文本信息对应的语句集合之前，删除标题中ucd分类为不属于构成消息主体的ucd分类的字符，因此上述实施例可以避免ucd分类为不属于构成消息主体的ucd分类的字符对文本信息的标题哈希值的影响，进而避免ucd分类为不属于构成消息主体的ucd分类的字符对重复检测准确率的影响，提高重复检测的准确率。
115.s35、根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。
116.作为本发明实施例一种可选的实施方式，在图3所示实施例的基础上，参照图4所示，上述步骤s35(根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息)的实现方式可以包括如下步骤：
117.s41、判断所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值是否相同。
118.在上述步骤s41中，若所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值相同，则执行如下步骤s42，而若所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值不同，则执行如下步骤s43。
119.s42、确定所述第一文本信息与所述第二文本信息为重复的文本信息。
120.s43、确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
121.即，若两个文本信息的语句哈希值和标题哈希值均不同，则确认该两个文本信息不为重复的文本信息，而若两个文本信息的语句哈希值或标题哈希值相同，则确认该两个文本信息为重复的文本信息。
122.上述实施例在确认第一文本信息和第二文本信息的语句哈希值不同时，还会进一
步确认第一文本信息和第二文本信息的标题哈希值是否相同，以及在第一文本信息和第二文本信息的标题哈希值相同时，确认第一文本信息与第二文本信息为重复的文本信息，在第一文本信息和第二文本信息的标题哈希值不同时，确认第一文本信息与第二文本信息不为重复的文本信息，因此上述实施例可以更加严格的对文本信息进行重复检测，进而使本发明实施例可以应用于对重复检测要求更加严格的场景中。
123.示例性的，图4所示实施例可以用于对导航页面、分类页面等场景下的文本信息进行重复检测。
124.作为本发明实施例一种可选的实施方式，在图3所示实施例的基础上，参照图5所示，上述步骤s35(根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息)的实现方式可以包括如下步骤：
125.s51、判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同。
126.在上述步骤s51中，若所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值相同，则执行如下步骤s52，而若所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值不同，则执行如下步骤s53-s57。
127.s52、确定所述第一文本信息与所述第二文本信息为重复的文本信息。
128.s53、分别将所述第一文本信息和所述第二文本信息拆分多个词汇。
129.s54、获取所述第一文本信息对应的词汇集合和所述第二文本信息对应的词汇集合。
130.其中，任一文本信息对应的词汇集合为拆分该文本信息得到的词汇中属于关键词表且不属于停用词表的词汇。所述关键词表包括多个在历史文本信息中的逆文档频率(inverse document frequency，idf)的大于阈值的词汇。所述停用词表包括多个停用词。
131.具体的，一个特定词的idf可以由总文件数目除以包含该词语的文件数据，再将得到的商取对数得到，用于表征该词汇的重要程度。如果一个词汇在所有历史文本信息中出现的频率较低，则该词汇的idf较大，该词汇的重要程度较高，反之如果一个词汇在所有历史文本信息中出现的频率较高，则该词汇的idf较小，该词汇的重要程度较低。
132.本发明实施例中的停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉的词汇。具体实施时，可以根据第一文本信息和第二文本信息所属的语言，预先生成停用词表。例如：第一文本信息和第二文本信息为英语的文本信息，则预先生成英语的停用词表。再例如：第一文本信息和第二文本信息为阿拉伯语的文本信息，则预先生成阿拉伯语语的停用词表。
133.s55、获取所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串。
134.其中，任一文本信息对应的第二字符串组合该文本信息对应的词汇集合中的各个词汇组成的字符串。
135.即，将文本信息对应词汇集合中的各个词汇拼接为文本信息对应的词汇字符串。
136.s56、分别根据所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串，计算所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值。
137.s57、根据所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。
138.作为本发明实施例一种可选的实施方式，上述步骤s57(根据所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息)包括：
139.判断所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值是否相同；
140.若所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值相同，则确定所述第一文本信息与所述第二文本信息为重复的文本信息；
141.若所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值不同，则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
142.即，若第一文本信息与第二文本信息的语句哈希值、标题哈希值以及词汇哈希值均不同，则确定所述第一文本信息与所述第二文本信息不为重复的文本信息，若第一文本信息与第二文本信息的语句哈希值或标题哈希值或词汇哈希值均相同，则确定所述第一文本信息与所述第二文本信息为重复的文本信息。
143.上述实施例在确认第一文本信息和第二文本信息的标题哈希值不同时，还会进一步确认第一文本信息和第二文本信息的词汇哈希值是否相同，以及在第一文本信息和第二文本信息的词汇哈希值相同时，确认第一文本信息与第二文本信息为重复的文本信息，在第一文本信息和第二文本信息的词汇哈希值不同时，确认第一文本信息与第二文本信息不为重复的文本信息，因此上述实施例可以更加严格的对文本信息进行重复检测，进而使本发明实施例可以应用于对重复检测要求更加严格的场景中。
144.示例性的，图5所示实施例可以用于对推荐首页等场景下的文本信息进行重复检测。
145.基于同一发明构思，作为对上述方法的实现，本发明实施例还提供了一种文本信息的重复检测装置，该实施例与前述方法实施例对应，为便于阅读，本实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。
146.本发明实施例提供了一种文本信息的重复检测装置，图6为该文本信息的重复检测装置的结构示意图，如图6所示，该文本信息的重复检测装置600包括：
147.拆分单元61，用于分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句；
148.获取单元62，用于获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合，任一文本信息对应的语句集合为拆分该文本信息得到的多个语句中包括字符数量最多的预设数量个语句组成的集合；
149.拼接单元63，分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句，获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串；
150.计算单元64，用于分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串，计算所述第一文本信息的语句哈希值和所述第二文本信息的语句
哈希值；
151.处理单元65，用于根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值，确定所述第一文本信息和所述第二文本信息是否为重复的文本信息。
152.作为本发明实施例一种可选的实施方式，所述获取单元62，还用于在获取所述第一文本信息对应的语句集合之前，删除拆分所述第一文本信息得到的各个语句中的特殊字符；在获取所述第二文本信息对应的语句集合之前，删除拆分所述第二文本信息得到的各个语句中的特殊字符。
153.作为本发明实施例一种可选的实施方式，所述处理单元65，具体用于判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同；若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值相同，则确定所述第一文本信息与所述第二文本信息为重复的文本信息；若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值不同，则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
154.作为本发明实施例一种可选的实施方式，所述处理单元65，具体用于判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同；若第一文本信息的语句哈希值与第二文本信息的语句哈希值不同，则获取所述第一文本信息的标题和所述第二文本信息的标题；分别根据所述第一文本信息的标题和所述第一文本信息的标题计算所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值；根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。
155.作为本发明实施例一种可选的实施方式，所述处理单元65，还用于在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前，删除所述第一文本信息的标题中的特殊字符；在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前，删除所述第二文本信息的标题中的特殊字符。
156.作为本发明实施例一种可选的实施方式，所述处理单元65，还用于在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前，获取所述第一文本信息的标题中的各个字符的字符数据库ucd分类，删除所述第一文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符；在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前，获取所述第二文本信息的标题中的各个字符的ucd分类，删除所述第二文本信息的标题中ucd分类为不属于构成消息主体的ucd分类的字符。
157.作为本发明实施例一种可选的实施方式，所述处理单元65，具体用于判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同；若所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值相同，则确定所述第一文本信息与所述第二文本信息为重复的文本信息；若所述第一文本信息的标题哈希值与所述第二文本信息的标题哈希值不同，则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。
158.作为本发明实施例一种可选的实施方式，所述处理单元65，具体用于判断所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值是否相同；若所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值不同，分别将所述第一文本信息和所述第二文本信息拆分多个词汇；获取所述第一文本信息对应的词汇集合和所述第二文本信息对应的词汇集合，任一文本信息对应的词汇集合为拆分该文本信息得到的词汇中属于关键
词表且不属于停用词表的词汇，所述关键词表包括多个在历史文本信息中的逆文档频率的大于阈值的词汇，所述停用词表包括多个停用词；获取所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串，任一文本信息对应的第二字符串组合该文本信息对应的词汇集合中的各个词汇组成的字符串；分别根据所述第一文本信息对应的词汇字符串和所述第二文本信息对应的词汇字符串，计算所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值；根据所述第一文本信息的词汇哈希值和所述第二文本信息的词汇哈希值，确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。
159.本实施例提供的文本信息的重复检测装置可以执行上述方法实施例提供的文本信息的重复检测方法，其实现原理与技术效果类似，此处不再赘述。
160.基于同一发明构思，本发明实施例还提供了一种电子设备。图7为本发明实施例提供的电子设备的结构示意图，如图7所示，本实施例提供的电子设备包括：存储器701和处理器702，所述存储器701用于存储计算机程序；所述处理器702用于在执行计算机程序时执行上述实施例提供的文本信息的重复检测方法。
161.基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当计算机程序被处理器执行时，使得所述计算设备实现上述实施例提供的文本信息的重复检测方法。
162.基于同一发明构思，本发明实施例还提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算设备实现上述实施例提供的文本信息的重复检测方法。
163.本领域技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
164.处理器可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
165.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。
166.计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。根据本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号
和载波。
167.最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：车辆调度策略的评估方法、装置、电子设备和存储介质与流程

一种文本信息的重复检测方法及装置与流程

相关文献

最热文献