一种文本聚合方法以及文本推荐方法

2022-05-08 04:21:47 来源：中国专利 TAG：

1.本发明涉及数据处理领域，具体来说涉及文本相似性分析领域，更具体地说，涉及一种文本聚合方法以及文本推荐方法。

背景技术：

2.在文本推荐领域，通常需要计算文本相似性。文本相似性检测算法主要有k-shingle算法、minhash算法和simhash算法。下面对这三种算法分别进行介绍：
3.假设文档doc＝[w1,w2,
…
,wn]是由n个词语组成的。k-shingle算法中，将文档表示为k(k值的大小可以根据需要设置)个连续的词语组成的词组，即k-shingle＝[wi,w
i 1
,
…
,w
i k-1
]，其中，i≥1,i k-1≤n。对比文档a和文档b的k-shingle，将同时出现在文档a和文档b中的词组记作a∩b，将出现在文档a或者文档b中的词组记作a∪b，通过jaccard 相似度计算文档a和b的相似度为：k-shingle算法中k值设置得越大，对文档语义的表达能力越强，计算出的相似度越可靠；反之相似度越不可靠。假设文档集合包含t个文档，为了计算所有文档两两间的相似度，需要计算次。
[0004]
minhash算法对k-shingle算法进行了改进，使用所有文档的 k-shingle词组构建倒排索引i＝[c1,c2,
…
,cm]。将文档doci的k-shingle 词组转为{0，1}表示的m维向量(如果doci的k-shingle词组中存在c1，那么向量的第一位为1，以此类推)。然后将m维向量进行哈希运算进行重新排序。从排序结果中，随机取n个非零元素的下标，构成n维向量(一般n远小于倒排索引长度m和词组长度k)。minhash算法虽然仍需要比较次，但是降低了待比较的向量维度，与k-shingle算法相比，提升了计算效率。
[0005]
simhash算法将文章中的词语加权计算生成二进制向量，作为文章指纹数据。文章内容相似度其中，d表示两个文章指纹数据的海明距离，len表示指纹数据的二进制位数。如果为长文，可取词频较高的len个词作为计算依据，进一步降低需要计算的向量维度到常数级别。在实际工程实践时，可以利用抽屉原理优化simhash的对比次数：例如，文章指纹数据为64位时，指纹数据的海明距离小于等于3认为文章相似；如果将指纹数据分为相等长度的4段，那么两个相似的文章，它们的指纹数据至少有一段是相等的。因此，有一个段相等才可能是相似文章，那么通过对比指纹段，可以快速定位到可能相似的文章集合t
′
(t
′
≤t，t为文档集合中的文档总数)。simhash算法与minhash算法相比，可以在仅增加常数倍的存储的条件下，显著减少比较次数。simhash算法计算文章的指纹数据时，只与词语权重数据相关，与其他文档无关，适合流式计算场景。
[0006]
传统的文章集合排序方法，使用词频和文章长度计算，得分的计算方式为：
[0007][0008]
其中，cfi表示第i个特征词的词频，doc_len表示文章中的总词数，n表示特征词的总数。该方法仅考虑了特征词和文章长度进行排序，特征词占比越高的文章，得分越高。
[0009]
在流式数据处理场景中，由于文档集合数量通常较大，使用k-shingle 算法方法时间复杂度高；此外，k-shingle算法在对比文章相似度时，需要记录下所有文档的k-shingle词组，占用存储空间，时间复杂度和空间复杂度均较高，无法有效的完成本场景任务。minhash算法会因为新文章的k-shingle词组出现新词，导致倒排索引发生变化，需要重新计算所有文章与当前文章的相似度，存在大量的重复计算。simhash算法减少了比较的次数和向量维度，也能重复利用上次计算的文章指纹数据作为后续相似对比的基础，但是在短文本数据为长文本数据子集的场景(例如新闻简讯和后续的详细报道)中，表现欠佳。
[0010]
文章集合排序时，传统方法仅考虑了特征词和文章长度等文本表层因素，没有考虑语义和业务场景因素，导致排序结果与实际期望差距较大。

技术实现要素：

[0011]
因此，本发明的目的在于克服上述现有技术的缺陷，提供一种文本聚合方法以及文本推荐方法。
[0012]
本发明的目的是通过以下技术方案实现的：
[0013]
根据本发明的第一方面，提供一种文本聚合方法，包括：获取待处理的文本；利用经改进的simhash算法计算文本的指纹信息，其中，经改进的simhash算法在对文本中相应词语的哈希值进行加权时，利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权；利用领域权值对文本的领域关联性进行打分，得到文本的领域分值；将文本的指纹信息分为多个指纹段，基于指纹段的数值构建倒排索引，其中，倒排索引对应的键值对中，键存储指纹段的数值，值存储文本相关信息，文本相关信息包括文本的指纹信息和领域分值。
[0014]
在本发明的一些实施例中，每个领域中，词语的领域权值按照以下方式预先计算得到：获取该领域的领域语料，其中，领域语料包括预先收集的属于该领域的多篇样本文章；提取领域语料中的多个关键特征词，构成领域特征词组；针对领域特征词组中的每个词语，依据领域语料中的总词数、总文章数、相应词语在领域语料中出现的次数以及领域语料中包含相应词语的文章数计算相应词语的领域权值。
[0015]
在本发明的一些实施例中，词语的领域权值按照以下方式计算得到：
[0016][0017]
其中，表示词语ci的领域权值，表示词语ci在领域语料中出现的次数，c
total
表示领域语料中的总词数，d
total
表示领域语料中的总文章数，表示领域语料中包含相应词语的文章数，k表示领域权值调节系数。
[0018]
在本发明的一些实施例中，所述利用经改进的simhash算法计算文本的指纹信息
的步骤包括：对文本进行处理，计算其包括的多个词语的哈希值；将每个词语的哈希值按比特位分别乘以该词语在该文本内的权值以及在该文本所处领域中该词语的领域权值，得到各词语的加权哈希值；将各词语的加权哈希值在同一比特位的值进行累加后降维，形成文本的指纹信息。
[0019]
在本发明的一些实施例中，文本的领域分值按照以下方式确定：根据文本的领域对应的实体词典，获取文本中的人物实体信息、地点实体信息、机构实体信息，其中，每个领域的实体词典可独立设置；根据文本中的人物实体信息、地点实体信息、机构实体信息，确定文本中的不同人物实体数量、不同地点实体数量以及不同机构实体数量；根据文本中的不同人物实体数量、不同地点实体数量、不同机构实体数量、文本特征词组中的词语的词频以及文本特征词组中的词语的领域权值，确定文本的领域分值。
[0020]
在本发明的一些实施例中，文本的领域分值按照以下方式确定：
[0021][0022]
其中，ep表示文本中的不同人物实体数量，α表示ep的权重系数，ea 表示文本中的不同地点实体数量，β表示ea的权重系数，eo表示文本中的不同机构实体数量，γ表示eo的权重系数，cfi表示文本特征词组中的词语i 在文本中出现的次数，wi表示文本特征词组中的词语i的领域权值，doc_len 表示文本的总词数。
[0023]
在本发明的一些实施例中，所述方法还包括：根据倒排索引查找与文本相似的其他文本，确定相似簇，其中，相似簇中存储属于该相似簇的各文本的指纹信息。
[0024]
根据本发明的第二方面，提供一种文本推荐方法，包括：从数据流中获取输入的文本；利用第一方面所述的文本聚合方法对输入的文本进行处理，构建倒排索引；根据倒排索引查找与文本相似的其他文本，确定相似簇，其中，相似簇中存储属于该相似簇的各文本的指纹信息；根据输入的文本对应的相似簇中各文本的指纹信息，从倒排索引中确定各文本的领域分值；根据相似簇中各文本的领域分值，推荐输入的文本的相似文本。
[0025]
根据本发明的第三方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储可执行指令；所述一个或多个处理器被配置为经由执行所述可执行指令以实现第一方面或者第二方面所述方法的步骤。
附图说明
[0026]
以下参照附图对本发明实施例作进一步说明，其中：
[0027]
图1为根据本发明实施例的文本聚合方法的流程示意图；
[0028]
图2为根据本发明实施例的文本聚合方法中指纹信息的计算原理示意图；
[0029]
图3为根据本发明实施例的文本聚合方法中构建倒排索引的示意图；
[0030]
图4为根据本发明实施例的文本聚合方法中建立的倒排索引的示意图。
具体实施方式
[0031]
为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0032]
如在背景技术部分提到的，文章集合排序时，传统方法仅考虑特征词和文章长度等文本表层因素，没有考虑语义和业务场景因素，导致排序结果与实际期望差距较大。在处理实时流数据内容重复检测和排序时，发明人研究发现很多传统的算法都针对数据集固定的场景，在数据集合动态增加时，传统算法的时间复杂度和空间复杂度均会随着文档数量呈现二次方增长，无法有效处理此场景中内容重复检测问题。本发明提供一种文本聚合方法，该方法利用经改进的simhash算法在对文本中相应词语的哈希值进行加权时，相应词语的哈希值在乘以该词语在该文本内的权值以外，还乘以在该文本所处领域中该词语的领域权值，可以更好地发现、聚合领域内的相似文本；此外，本发明还通过领域权重对文本进行打分，并构建倒排索引，以避免后期推荐相似文本时重复处理数据库内的文本，极大地提升了处理效率。
[0033]
实施方式1：
[0034]
根据本发明的一个实施例，提供一种文本聚合方法，包括s1、s2、s3、 s4四个步骤，具体来说：
[0035]
步骤s1：获取待处理的文本以及文本的编号；
[0036]
根据本发明的一个实施例，待处理的文本和/或文本的编号可以数据流的方式传来。待处理的文本例如是用户近期查看过的新闻文章、技术文章、历史文献、健康相关文章、游戏玩法文章等。
[0037]
s2、利用经改进的simhash算法计算文本的指纹信息，其中，经改进的simhash算法在对文本中相应词语的哈希值进行加权时，相应词语的哈希值乘以该词语在该文本内的权值以及在该文本所处领域中该词语的领域权值。
[0038]
根据本发明的一个实施例，步骤s2包括：对文本进行处理，计算其包括的多个词语的哈希值；将每个词语的哈希值按比特位分别乘以该词语在该文本内的权值以及在该文本所处领域中该词语的领域权值，得到各词语的加权哈希值；将各词语的加权哈希值在同一比特位的值进行累加后降维，形成文本的指纹信息。在本领域，应当理解，对文本进行处理包括预处理，得到文本特征词组。计算其包括的多个词语的哈希值中，是指对文本提取的文本特征词组中的多个词语计算哈希值。应当理解，将每个词语的哈希值按比特位分别乘以该词语在该文本内的权值时，若词语的哈希值的某一个比特位为0则视为-1。根据本发明的一个实施例，步骤s2包括：对文本进行预处理，得到文本特征词组，其中，所述预处理包括分词、去停用词；对文本特征词组中的词语进行向量化，得到各词语的特征向量；根据各词语的特征向量，计算各词语的哈希值；对各词语的哈希值进行加权，得到各词语的加权哈希值，其中，利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权；将各词语的加权哈希值在同一比特位的值进行累加后降维，形成文本的指纹信息。该实施例至少具有以下有益效果：本发明改进simhash算法，重新定义加权方式，在原有的利用词语在该文本内的权值进行加权之外，增加利用该词语的领域权值进行加权的过程，利用领域语义相似性来减少一些相似文本被归于不相似的情况。另外，发明人在研究过程中发现，simhash算法在处理长文本数据和子集短文本时，会误判长文本与子集短文本相似度不超过阈值，出现检测失误；利用领域权值进行加权后，可以在短文本数据为长文本数据子集的场景中，更准确将领域内短文本和相似长文本聚合为相似文本，也可以更好地将领域内综述性文章和子观点章聚合为相似文本。
[0039]
例如，从数据流接入文本doci，对文本进行包括分词、去停用词的预处理，得到文本特征词组gi＝{t1,t2,
…
,tn}，其中，ti表示特征词，即文本特征词组中的词语。
[0040]
参见图2，假设输入文本“央行：人民币汇率不会因为
…
出现单边升值”，此处为了简化说明，将指纹信息的向量维度设置为5维(实际通常设为64维)。
[0041]
假设预处理后得到文本特征词组“央行/人民币/汇率/
…
/升值”；
[0042]
将文本特征词组中的词语进行向量化以及求哈希值，得到各词语的哈希值“10101/10110/01101/
…
/00101”；
[0043]
基于各词语在文本内的权值“t1/t2/t3/
…
/tm”进行加权，其中，词语的哈希值为0时视为-1，得到
ꢀ“
t1,-t1,t1,-t1,t1/t2,-t2,t2,t2,-t2/-t3,t3,t3,-t3,t3/
…
/-tm,-tm ,tm,-tm,tm”,并基于领域权值“w1,w2,w3,
…
,wm”进行加权，得到
ꢀ“
t1*w1,-t1*w1,t1*w1,-t1*w1,t1*w1/t2*w2,-t2*w2,t2*w2,t2*w2,-t2* w2/-t3*w3,t3*w3,t3*w3,-t3*w3,t3*w3/
…
/-tm*wm,-tm*wm,tm*wm,-tm*w m,tm*wm”；
[0044]
将各词语的加权哈希值在同一比特位的值进行累加，以第一个比特位为例，累加方式为：t1*w1 t2*w2 (-t3*w3)
…
(-tm*wm)；假设累加后得到1
×
5维的向量“16，8，-3,6,118”；
[0045]
对累加后的向量进行降维，其中，将值大于0的比特位置1，其余比特位置0，例如，对前述向量“16，8，-3,6,118”进行降维，得到文本的指纹信息“11011”。
[0046]
根据本发明的一个实施例，词语的领域权值是根据预先收集的领域语料计算得到的词语在领域中的重要程度。优选的，不同领域的领域语料独立设置。应当理解，领域的分类可以根据实际的情况或者运营者的需要自定义设置。例如，领域的分类包括：经济、政治、游戏、健康、历史、生活或者其组合。另外，词语的领域权值的计算方式有很多。例如，将词语在领域语料中的词频作为词语的领域权值，或者根据权值计算算法来计算，如：tf-idf算法或者tf-iwf算法。
[0047]
以tf-idf算法为例，根据本发明的一个实施例，每个领域中，词语的领域权值按照以下方式预先计算得到：获取该领域的领域语料，其中，领域语料包括预先收集的属于该领域的多篇样本文章；提取领域语料中的多个关键特征词，构成领域特征词组；针对领域特征词组中的每个词语，依据总文章数、相应词语在领域语料中出现的次数以及领域语料中包含相应词语的文章数计算相应词语的领域权值。根据本发明的一个实施例，词语的领域权值按照以下方式预先计算得到：
[0048][0049]
其中，表示词语ci的领域权值，表示词语ci在领域语料中出现的次数，c
total
表示领域语料中的总词数，d
total
表示领域语料中的总文章数，表示领域语料中包含相应词语的文章数。
[0050]
例如，假设某个领域的领域语料有文章有100篇，“股市”一词在其中59篇文章中出现过，出现的总次数(对应于领域语料中出现的次数) 为600次，领域语料中的总词数为10000个。另一词“人口”在其中9篇文章中出现过，出现的总次数为15次。经过上式的计算，在该领域中，“股市”的领域权值为0.01331，“人口”的领域权值为0.0015。由此也体现出，
该领域内“股市”相比“人口”具有更高的权值，对领域贡献更大，或者说领域的相关性、重要程度更高。
[0051]
为了平衡领域相关权重与其他因素所占比重关系，可增加领域权值调节系数，根据本发明的一个实施例，词语的领域权值按照以下方式预先计算得到：
[0052][0053]
其中，表示词语ci的领域权值，表示词语ci在领域语料中出现的次数，c
total
表示领域语料中的总词数，d
total
表示领域语料中的总文章数，表示领域语料中包含相应词语的文章数，k表示领域权值调节系数。k 为常数。在不同领域，领域语料不同会导致一些领域权值出现偏差，设置领域权值调节系数后可以便于根据需要或者经验调节某些领域权值，以缩放原始的领域权值，平衡领域相关权重与其他因素所占比重关系。
[0054]
步骤s3：利用领域权值对文本的领域关联性进行打分，得到文本的领域分值。
[0055]
根据本发明的一个实施例，文本的领域分值按照以下方式确定：根据文本的文本特征词组中的词语的词频以及文本特征词组中的词语的领域权值，确定文本的领域分值。根据本发明的一个实施例，文本的领域分值按照以下方式确定：其中，cfi表示文本特征词组中的词语i在文本中出现的次数，wi表示文本特征词组中的词语i的领域权值， doc_len表示文本的总词数。
[0056]
在相似内容排序方面，传统方法仅考虑了特征词、文本长度等表层因素，适合在文本篇幅相近，语言使用习惯相似的文本数据，但在实际的数据场景中，文本长短相对随机，各种网络用语和新的表达方式层出不穷，无法很好的处理问题。发明人研究发现，具有特定的实体名的文本，在相似集合中更具有代表性。例如：同样是报道疫情的新闻文本，在文本的特征词关联度相似的情况下，文本中包含某些实体词汇时更具有权威性和代表性。例如，文本内容中包含“国家卫健委”，“疾控中心”等机构名，“xx 山”等典型人物的文本，更具有权威性和代表性，文本的领域分值应更高。因此，提出对文本打分时结合领域特征实体信息，以便在后续推荐过程中选择出更符合领域特性的文本。根据本发明的一个实施例，文本的领域分值按照以下方式确定：根据文本的领域对应的实体词典，获取文本中的人物实体信息、地点实体信息、机构实体信息，其中，每个领域的实体词典可独立设置；根据文本中的人物实体信息、地点实体信息、机构实体信息，确定文本中的不同人物实体数量、不同地点实体数量以及不同机构实体数量；根据文本中的不同人物实体数量、不同地点实体数量、不同机构实体数量、文本特征词组中的词语的词频以及文本特征词组中的词语的领域权值，确定文本的领域分值。
[0057]
根据本发明的一个实施例，为了计算领域分值，对文本特征词组中的词语在文本中出现的次数进行统计和进行实体信息识别。词语在文本中出现的次数进行统计的结果表示为：cfi＝{(c1,cf1),(c2,cf2),
…
(cm,cfm)}, (cm,cfm),其中，cm表示词语cm，cfm表示词语cm在文本中出现的次数。实体信息识别得到的结果表示为：ei＝{p＝{p1,p2,
…
,p
x
},a＝ {a1,a2,
…
,ay},o＝{o1,o2,
…
,oz}}，p
x
表示单个人物实体，p表示人物实体集合，ay表示单个地点实体，a表示地点实体集合，oz表示单个机构实体， o表示机构实体集合。根据实体信息
识别的结果，可以确定文本中的不同人物实体数量、不同地点实体数量以及不同机构实体数量。
[0058]
根据本发明的一个实施例，文本的领域分值按照以下方式确定：其中，ep表示文本中的不同人物实体数量，α表示ep的权重系数，ea表示文本中的不同地点实体数量，β 表示ea的权重系数，eo表示文本中的不同机构实体数量，γ表示eo的权重系数，cfi表示文本特征词组中的词语i在文本中出现的次数，wi表示文本特征词组中的词语i的领域权值，doc_len表示文本的总词数。其中，即表示文本特征词组中的词语i的词频。
[0059]
本发明的上述实施例至少具有以下有益效果：领域分值仅与文本自身以及领域语料有关，而与需要与文本计算相似度的其他文本无关，因此，在其它文本更新后，领域分值也不用重新计算；可见，本发明中，文本的领域分值是与该文本及文本所属领域的领域语料有关的绝对分值；文本的领域分值与其他文本无关，不是与其他文本有关的相对分值，领域分值仅需计算一次，后续不需要额外重复的处理原始文本，极大的提升了处理效率以及后续的文本推荐效率。
[0060]
步骤s4：将文本的指纹信息分为多个指纹段，基于指纹段的数值构建倒排索引，其中，倒排索引对应的键值对中，键存储指纹段的数值，值存储文本相关信息，文本相关信息包括文本的指纹信息、领域分值以及文本的编号。
[0061]
根据本发明的一个实施例，指纹信息以及指纹段的设置可以根据需要设置。通常，将指纹信息设置为64个比特，每16个比特分为一段，即分为4个指纹段。但应当理解，这并非必须，可以设置其他长度的指纹信息，并将指纹段分为3段、4段、5段、6段、7段、8段等；具体的指纹信息的长度和分段数量可以根据需要设置。
[0062]
根据本发明的一个实施例，参见图2，假设将指纹信息分为四个指纹段，分别为h1、h2、h3和h4。在构建倒排索引时，对每个指纹段，需要查找是否有到该指纹段的值相等的键；假设当前有多个键，分别为key1、 key2、
……
、key n；其中，键key1＝h1，则在键key1＝h1对应的值中存储文本相关信息，包括指纹信息simhash、领域分值score、文本的编号doc_id。如果存在多个值，则用链表(后面称为值链表)的形式存储(next指向下一个文本的文本相关信息)。假设当前没有任何键等于h1，则为之新建一个键。指纹信息为s0的4个指纹段构建的倒排索引的示意图如图4所示，其中，针对第一个指纹段，在键为h1对应的值链表中存储有s0(文本的指纹信息)、0.89(文本的领域分值)、abcde(文本的编号)。该实施例至少存在以下有益效果：本发明构建的倒排索引中，键存储指纹段的数值，值存储指纹信息(simhash值)和文本相关信息(包含文本的编号、文本的领域分值等关键信息)，这种结构的映射关系可以用于反查文本详情和避免重复计算，便于基于此结构高效地推荐文本；这种将指纹信息分段存储的结构形式，属于使用simhash结合抽屉原理的方法计算文本相似度，可以在数据流处理任务中，以文档数量无关的时间复杂度计算指纹数据；在后续文本推荐时，可以在常数次比较后，快速缩减需要比较的指纹信息，提高推荐效率。
[0063]
通过以上文本聚合方法建立的倒排索引以及其中存储的文本的指纹信息、领域分值以及文本的编号，可以高效地进行文本推荐，并且推荐的文本更符合业务场景(领域
更适配)。
[0064]
根据本发明的一个实施例，本发明还提供一种文本推荐方法，包括：从数据流中获取输入的文本以及文本的编号；利用前述实施例的文本聚合方法对输入的文本进行处理，构建倒排索引；根据倒排索引查找与文本相似的其他文本，确定相似簇，其中，相似簇中存储属于该相似簇的各文本的指纹信息；根据输入的文本对应的相似簇中各文本的指纹信息，从倒排索引中确定各文本的领域分值；根据相似簇中各文本的领域分值，推荐输入的文本的相似文本。该实施例至少具有以下有益效果：得益于采用上述文本聚合方法，本发明针对数据流传入的文本，可以快速地确定相似簇并从相似簇中实时选择匹配的文本进行推荐；由于引入了领域权值和领域分值，推荐的文本除了与输入的文本具有一定的相似性外，还具有更强的领域适配性，从而更好地实现文本推荐任务；随着数据流的动态传入，相似簇也可以不断动态调整，以为后续的文本更好地进行实时推荐。
[0065]
根据本发明的一个实施例，相似簇的确定可以根据需要设置。例如，相似簇可以设置为：将相应文本的每个指纹段作为键在倒排索引中查找到的值链表对应的文本构成的集合；即：只要是相应文本的4个指纹段中任意一个指纹段对应的键关联的值中记录的文本，均构成相应文本的相似簇的元素。为了更精确地比较相似度，相似簇可以设置为：将相应文本的每个指纹段作为键在倒排索引中查找到的值链表对应的文本的指纹信息与相应文本的指纹信息计算相似度，将相似度达到预定阈值的文本加入相似簇。比如，假设指纹信息是64位比特，预定阈值设为62，则其中62位及以上比特的值一致则认为相似度达到预定阈值。将相似的指纹信息sk加入到相似簇s＝{s0,
…
,sk}。
[0066]
根据本发明的一个实施例，确定文本的相似簇后，相似簇中记录其中各文本的指纹信息，根据各文本的指纹信息，可以从倒排索引中查找到各文本的领域分值和文本的编号，推荐其中领域分值最高或者靠前的文本的编号。例如，如果相似簇s＝{s0,
…
,sk}中，指纹信息sk对应文本的领域分值最高，则将推荐该文本。如果指纹信息中记录了文本的编号，则输出该文本的编号。
[0067]
实施方式2：
[0068]
该实施方式与前述实施方式1的不同之处在于，步骤s1’中不获取文本的编号，步骤s4’中的文本相关信息不保存文本的编号，步骤s2’和步骤s2一致，步骤s3’与步骤s3一致，除此之外，具体的实施细节同实施方式1或者可以借鉴实施方式1，后续不再赘述。
[0069]
根据本发明的一个实施例，本发明还提供一种文本聚合方法，包括： s1’、s2’、s3’、s4’四个步骤，其中，步骤s1’：获取待处理的文本；步骤s2’：利用经改进的simhash算法计算文本的指纹信息，其中，经改进的simhash算法在对文本中相应词语的哈希值进行加权时，相应词语的哈希值乘以该词语在该文本内的权值以及在该文本所处领域中该词语的领域权值；步骤s3’：利用领域权值对文本的领域关联性进行打分，得到文本的领域分值；步骤s4’：将文本的指纹信息分为多个指纹段，基于指纹段的数值构建倒排索引，其中，倒排索引对应的键值对中，键存储指纹段的数值，值存储文本相关信息，文本相关信息包括文本的指纹信息和领域分值。
[0070]
根据本发明的一个实施例，在本发明还提供一种文本推荐方法，包括：从数据流中获取输入的文本；利用实施方式2中前述实施例的文本聚合方法对输入的文本进行处理，构建倒排索引；根据倒排索引查找与文本相似的其他文本，确定相似簇，其中，相似簇
中存储属于该相似簇的各文本的指纹信息；根据输入的文本对应的相似簇中各文本的指纹信息，从倒排索引中确定各文本的领域分值；根据相似簇中各文本的领域分值，推荐输入的文本的相似文本。其中，推荐的相似文本可以是相似文本的指纹信息，通过查询预先构建的各文本的指纹信息与文本的编号的对照表，得到相似文本的编号。
[0071]
除此之外，还有其他可行实施方式，例如，将实施方式1中步骤s1 改为：从数据流中获取输入的文本及其地址，将实施方式1中步骤s4中的文本相关信息改为：文本相关信息包括文本的指纹信息、领域分值和地址。在文本推荐方法中，推荐输入的文本的相似文本时可以直接反馈存储在文本相关信息中的相似文本的地址。
[0072]
需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。
[0073]
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
[0074]
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
[0075]
以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种文本聚合方法以及文本推荐方法

相关文献

最热文献