数据处理方法及装置、计算机可存储介质与流程

2022-02-20 13:21:20 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，特别涉及数据处理方法及装置、计算机可存储介质。

背景技术：

2.相关技术中，编辑用户通常按照自己的理解编辑电子文档，得到包括多个电子文档的文档数据库。搜索引擎在根据搜索用户输入的搜索词对包括多个电子文档的文档库进行搜索时，按照搜索热度对文档数据库中的多个电子文档进行排序，将搜索用户经常搜索到的电子文档，调整到搜索结果的开始部分，从而尽快搜索到与搜索词匹配的电子文档。

技术实现要素：

3.发明人认为：相关技术中，不同搜索用户的输入的搜索词等搜索习惯不同，从而不同搜索用户经常搜索到的电子文档也不同，导致搜索引擎采用按照搜索热度对电子文档进行排序的策略来提高搜索效率的作用不明显，搜索电子文档的效率仍然较低。
4.针对上述技术问题，本公开提出了一种解决方案，提高了电子文档的质量和准确性，进而提高了搜索电子文档的效率。
5.根据本公开的第一方面，提供了一种数据处理方法，包括：获取与电子文档对应的历史搜索数据，所述历史搜索数据包括多个搜索关键词；根据所述历史搜索数据，确定所述电子文档的易搜度，所述易搜度表征所述电子文档是否容易被搜索到；根据所述易搜度，从所述多个搜索关键词中，选取至少一个参考关键词；推荐所述至少一个参考关键词作为所述电子文档的标题和正文中的至少一种的一部分。
6.在一些实施例中，确定所述电子文档的易搜度包括：从所述多个搜索关键词中，分别确定未命中所述电子文档的多个第一关键词和命中所述电子文档的多个第二关键词，所述第一关键词为所述多个搜索关键词中没有位于所述电子文档的标题和正文中的搜索关键词，所述第二关键词为所述多个搜索关键词中位于所述电子文档的标题和正文的至少一种中的搜索关键词；根据所述历史搜索数据，分别计算每个第一关键词的未命中频次和每个第二关键词的命中频次；根据所述多个第一关键词的未命中频次和所述多个第二关键词的命中频次，确定所述易搜度。
7.在一些实施例中，从所述多个搜索关键词中，选取至少一个参考关键词包括：在所述易搜度小于或等于阈值的情况下，获取所述多个搜索关键词中的未命中所述电子文档的多个第一关键词；获取所述多个第一关键词的未命中频次；根据所述多个第一关键词的未命中频次的排序结果，从所述多个第一关键词中，选取至少一个参考关键词。
8.在一些实施例中，从所述多个第一关键词中，选取至少一个参考关键词包括：从未命中频次最高的n个第一关键词中，选取所述至少一个参考关键词，n为正整数。
9.在一些实施例中，所述易搜度包括标题易搜度，所述标题易搜度表征所述电子文档的标题是否容易被搜索到，所述阈值包括标题阈值，所述多个第一关键词包括未命中所述电子文档的标题的多个第一标题关键词，所述未命中频次包括标题未命中频次。
10.在一些实施例中，从所述多个第一关键词中，选取至少一个参考关键词包括：从标题未命中频次最高且命中所述电子文档的正文的m个第一关键词中，选取所述至少一个参考关键词，m为正整数。
11.在一些实施例中，所述易搜度包括正文易搜度，所述正文易搜度表征所述电子文档的正文是否容易被搜索到，所述阈值包括正文阈值，所述多个第一关键词包括未命中所述电子文档的正文的多个第一正文关键词，所述未命中频次包括正文未命中频次。
12.在一些实施例中，从所述多个第一关键词中，选取至少一个参考关键词包括：从正文未命中频次最高且命中所述电子文档的标题的p个第一关键词中，选取所述至少一个参考关键词，p为正整数。
13.在一些实施例中，确定所述易搜度包括：分别对所述多个第一关键词的未命中频次、所述多个第二关键词的命中频次进行求和操作，得到第一求和结果和第二求和结果；计算所述第一求和结果和所述第二求和结果的总和；根据所述第二求和结果与所述总和的比值，确定所述易搜度。
14.在一些实施例中，所述历史搜索数据包括多个搜索记录，每个搜索记录包括多个搜索子记录，计算所述多个第一关键词的未命中频次和多个第二关键词的命中频次包括：对于每个第一关键词，根据包括该第一键词的搜索子记录的个数，确定该第一关键词的未命中频次；对于每个第二关键词，根据包括该第二键词的搜索子记录的个数，确定该第二关键词的命中频次。
15.在一些实施例中，所述历史搜索数据包括多个搜索记录，每个搜索记录包括多个搜索子记录，所述多个搜索子记录包括成功搜索子记录，成功搜索子记录包括点击子记录，与电子文档对应的历史搜索数据为成功子记录中的点击子记录包括所述电子文档的唯一标识的历史搜索数据。
16.根据本公开的第二方面，提供了一种数据处理装置，包括：获取模块，被配置为获取与电子文档对应的历史搜索数据，所述历史搜索数据包括多个搜索关键词；确定模块，被配置为根据所述历史搜索数据，确定所述电子文档的易搜度，所述易搜度表征所述电子文档是否容易被搜索到；选取模块，被配置为根据所述易搜度，从所述多个搜索关键词中，选取至少一个参考关键词；推荐模块，被配置为推荐所述至少一个参考关键词作为所述电子文档的标题和正文中的至少一种的一部分。
17.根据本公开的第三方面，提供了一种数据处理装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的数据处理方法。
18.根据本公开的第四方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的数据处理方法。
19.在上述实施例中，提高了电子文档的质量和准确性，进而提高了搜索电子文档的效率。
附图说明
20.构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。
21.参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：
22.图1是示出根据本公开一些实施例的数据处理方法的流程图；
23.图2是示出根据本公开一些实施例的确定电子文档的易搜度的流程图；
24.图3是示出根据本公开一些实施例的数据处理装置的框图；
25.图4是示出根据本公开另一些实施例的数据处理装置的框图；
26.图5是示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
27.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
28.同时，应当明白，为了便于描述，附图中所示出的多个部分的尺寸并不是按照实际的比例关系绘制的。
29.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。
30.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
31.在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。
32.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
33.图1是示出根据本公开一些实施例的数据处理方法的流程图。
34.如图1所示，数据处理方法包括：步骤s110，获取与电子文档对应的历史搜索数据；步骤s120，确定电子文档的易搜度；步骤s130，选取至少一个参考关键词；和步骤s140，推荐一个参考关键词作为所述电子文档的标题和正文中的至少一种的一部分。
35.在步骤s110中，获取与电子文档对应的历史搜索数据。历史搜索数据包括多个搜索关键词。例如，电子文档为知识文档。
36.在一些实施例中，搜索用户在历史时刻对包括多个知识文档的知识文档库进行搜索时，由搜索引擎生成历史搜索数据，并存储于搜索日志系统或数据库中。例如，从搜索日志系统或数据库中获取与电子文档对应的历史搜索数据。
37.在一些实施例中，历史搜索数据包括多个搜索记录，每个搜索记录包括多个搜索子记录。例如，多个搜索子记录包括成功搜索子记录，成功搜索子记录包括点击子记录，与电子文档对应的历史搜索数据为成功子记录中的点击子记录包括电子文档的唯一标识的历史搜索数据。在一些实施例中，电子文档的唯一标识包括但不限于电子文档的标题或者id(identity document，身份证标识)。
38.例如，知识文档doc[i]的标题为kt[2]＇，i为正整数，与该知识文档doc[i]对应的一个搜索记录采用如下的json(javascript object notation,js对象简谱)串表示：
[0039]
[{
[0040]“搜索次数”:1,
[0041]“搜索子记录”:{
[0042]“搜索关键词”:[{kw[1]},{kw[2]},...,{kw[q]}],
[0043]“返回文档标题”:[{kt[1]},{kt[2]},...,{kt[t]}],
[0044]“客服代表最后点击的知识文档标题”:“kt[t]”,
[0045]
}
[0046]
},{
[0047]“搜索次数”:2,
[0048]“搜索子记录”:{
[0049]“搜索关键词”:[{kw[1]＇},{kw[2]＇},...,{kw[q＇]＇}],
[0050]“返回文档标题”:[{kt[1]＇},{kt[2]＇},...,{kt[t＇]＇}],
[0051]“客服代表最后点击的知识文档标题”:“kt[2]＇”[0052]
}
[0053]
}]。
[0054]
在上述实施例中，与该知识文档doc[i]对应的一个搜索记录包括两个搜索子记录，每个搜索子记录采用搜索次数唯一标识。每个搜索子记录包括多个搜索关键词以及根据这多个搜索关键词返回的文档标题以及客服代表最后点击的知识文档标题。
[0055]
在一些实施例中，第一次搜索的搜索子记录包括搜索关键词kw[1]、kw[2]、...、kw[q]和返回文档标题kt[1]、kt[2]、...、kt[t]。第二次搜索的搜索子记录包括搜索关键词kw[1]＇、kw[2]＇、...、kw[q＇]＇和返回文档标题kt[1]＇、kt[2]＇、...、kt[t＇]＇。例如，每个搜索子记录中的搜索关键词为搜索引擎对客服代表输入的搜索词进行分词得到的多个搜索关键词。搜索引擎根据分词得到的这多个搜索关键词，返回文档标题。q、t、q＇、t＇均为正整数。
[0056]
在一些实施例中，一个搜索记录对应唯一的一个搜索用户，一个搜索用户对应多个搜索记录，每个搜索记录是搜索用户为客户进行电话服务的时候，进行至少一次搜索，每一次搜索生成一个搜索子记录。例如，搜索用户为客服代表。
[0057]
发明人认为，根据客服代表的工作特点，客服代表在一次接通电话服务中，客服代表最后一次阅读的电子文档为满足客户服务需求的、他想要的最终搜索结果。也就是说，假设在一次接通电话服务中，客服代表共计进行了q次搜索，在第q次搜索的结果文档中，客服代表找到了想要的搜索的内容，前q-1次搜索的结果文档，没有他所需要的知识文档或者即使有他所需要的知识文档，这些文档也被排在后面，而没有被客服代表看到，因此不得不进行再次搜索。q为正整数。例如，当q》2时，本公开的历史搜索数据中的每个搜索记录仅存储有2个搜索子记录，即作为失败搜索子记录的第q-1次搜索子记录，以及作为成功搜索子记录的第q次搜索子记录。
[0058]
例如，在上述实施例中，第一次搜索子记录为失败搜索子记录，客服代表最后点击的知识文档标题是失败搜索子记录中的点击子记录。第二次搜索子记录为成功搜索子记录，客服代表最后点击的知识文档标题是成功搜索子记录中的点击子记录。
[0059]
上述实施例只是一个简单的示例，不代表所有情况下的搜索记录。本领域技术人员可以根据本公开的一些实施例合理地设置搜索记录的存储形式或搜索记录中的搜索子记录的个数等内容。
[0060]
例如，对不同的搜索用户u[1]、...、u[u]，他们可能执行多次搜索。因此，对每个搜
索用户u[r](u≥r≥1)的搜索信息，采用json[r,1]、json[r,2]、...、json[r,v]来表示搜集到的该搜索用户的各个搜索记录。r、u、v均为正整数。
[0061]
在步骤s120中，根据历史搜索数据，确定电子文档的易搜度。易搜度表征电子文档是否容易被搜索到。
[0062]
图2是示出根据本公开一些实施例的确定电子文档的易搜度的流程图。
[0063]
如图2所示，确定电子文档的易搜度包括步骤s121-步骤s123。
[0064]
在步骤s121中，从多个搜索关键词中，分别确定未命中电子文档的多个第一关键词和命中电子文档的多个第二关键词。第一关键词为多个搜索关键词中没有位于电子文档的标题和正文中的搜索关键词。第二关键词为多个搜索关键词中位于电子文档的标题和正文的至少一种中的搜索关键词。
[0065]
在步骤s122中，根据历史搜索数据，分别计算每个第一关键词的未命中频次和每个第二关键词的命中频次。
[0066]
在一些实施例中，对于每个第一关键词，根据包括该第一键词的搜索子记录的个数，确定该第一关键词的未命中频次。对于每个第二关键词，根据包括该第二键词的搜索子记录的个数，确定该第二关键词的命中频次。
[0067]
例如，将包括该第一键词的搜索子记录的个数，确定为该第一关键词的未命中频次；将包括该第二键词的搜索子记录的个数，确定为该第二关键词的命中频次。
[0068]
在步骤s123中，根据多个第一关键词的未命中频次和多个第二关键词的命中频次，确定易搜度。
[0069]
在上述实施例中，通过命中频次和未命中频次，确定易搜度，提高易搜度与用户搜索习惯的关联度，进一步提高电子文档的质量和准确性，电子文档的标题或正文与搜索关键词更加匹配，提高电子文档与搜索关键词的匹配度，进而进一步提高了搜索电子文档的效率。
[0070]
在一些实施例中，通过如下方式实现上述步骤s123中的确定易搜度。
[0071]
首先，分别对多个第一关键词的未命中频次、多个第二关键词的命中频次进行求和操作，得到第一求和结果和第二求和结果。
[0072]
然后，计算第一求和结果和第二求和结果的总和。
[0073]
最后，根据第二求和结果与总和的比值，确定易搜度。例如，将第二求和结果与总和的比值，确定为易搜度。
[0074]
在一些实施例中，易搜度包括标题易搜度。标题易搜度表征电子文档的标题是否容易被搜索到。多个第一关键词包括未命中电子文档的标题的多个第一标题关键词。未命中频次包括标题未命中频次。多个第二关键词包括命中电子文档的标题的多个第二标题关键词。命中频次包括标题未命中频次。
[0075]
在另一些实施例中，易搜度包括正文易搜度。正文易搜度表征电子文档的正文是否容易被搜索到。多个第一关键词包括未命中电子文档的正文的多个第一正文关键词。未命中频次包括正文未命中频次。多个第二关键词包括命中电子文档的正文的多个第二标题关键词。命中频次包括正文未命中频次。
[0076]
对于易搜度为标题易搜度或正文易搜度的情况，可以采用与上述实施例中确定易搜度的类似的方式或步骤确定标题易搜度或正文易搜度。
[0077]
下面将结合一个具体的实施例，详细描述确定标题易搜度和正文易搜度的过程。
[0078]
为了便于分析，本实施例引入一个搜索信息节点(下文一般用node表述该节点)。搜索信息节点的字段如下：
[0079]
title_hit_keywords：由形如(keyword，freq)的二元组构成的数组，其中，keyword是第二标题关键词，freq是该第二标题关键词keyword的频次(即用该第一标题关键词keyword进行搜索的次数)，title_hit_keywords用于记录命中知识文档的标题的第二标题关键词及其频次；
[0080]
title_missed_keywords：由形如(keyword，freq)的二元组构成的数组，其中，keyword是第一标题关键词，freq是该第一标题关键词keyword的频次(即用该第一标题关键词keyword进行搜索的次数)，title_missed_keywords用于记录未命中知识文档的标题的第一标题关键词及其频次。
[0081]
text_hit_keywords：由形如(keyword，freq)的二元组构成的数组，其中，keyword是第二正文关键词，freq是该第二正文关键词keyword的频次(即用该第二正文关键词keyword进行搜索的次数)，text_hit_keywords用于记录命中知识文档的正文的第二正文关键词及其频次。
[0082]
text_missed_keywords：由形如(keyword，freq)的二元组构成的数组，其中，keyword是第一正文关键词，freq是该第一正文关键词keyword的频次(即用该第一正文关键词keyword进行搜索的次数)，text_missed_keywords用于记录未命中知识文档的正文的第一正文关键词。
[0083]
同时，本实施例还引入了两个其他的搜索信息节点，用map数据结构表示：map《string，node》succ_data和map《string，node》fail_data。succ_data存储成功的搜索信息，它的第一个元素存储知识文档的标题，第二个元素存储搜索用户在搜索该知识文档时，采用的第二关键词(包括第二标题关键词和第二正文关键词)及其频次；fail_data存储失败的搜索信息，它的第一个元素存储知识文档的标题，第二个元素存储搜索用户在搜索该知识文档时，采用的第一关键词(包括第一标题关键词和第一正文关键词)及其频次。
[0084]
在一些实施例中，succ_data和fail_data均包括多个子节点，每个子节点的第一个元素为知识文档的标题，第二个元素为前述定义的node节点。
[0085]
例如，一知识管理系统或知识文档库中的知识文档为doc[1]、doc[2]、...、doc[n]，其中，对每篇知识文档doc[i](n≥i≥1)，用doc[i].title表示doc[i]的标题，doc[i].text表示doc[i]的正文。n为正整数。
[0086]
对每个搜索用户u[r](u≥i≥1)而言，该搜索用户对知识文档库中的知识文档doc[1]、doc[2]、...,、doc[n]执行了v次搜索，搜索记录分别存储在json[r,1],json[r,2],...,json[r,v]中。
[0087]
例如，对于每个搜索用户u[r](u≥r≥1)的每一次搜索记录json[r,j](v≥j≥1)，json[r,j]中的最大的搜索次数为2。根据客服代表的搜索习惯可知，最后一次搜索子记录为搜索成功的子记录。j为正整数。
[0088]
在json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值不在succ_data中的情况下，执行如下操作：
[0089]
首先，创建一个新的node节点node_a，初始状态下，succ_data的值为空；
[0090]
然后，对于json[r,j]中的第2个搜索子记录中的搜索关键词中的每个kw[a＇]＇(q＇≥a＇≥1)，如果kw[a＇]＇存在于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值中，那么将(kw[a＇]＇，1)加入到node_a节点的title_hit_keywords中，1为频次freq_a＇；否则，将(kw[a＇]＇，1)加入到node_a节点的title_missed_keywords中；如果kw[a＇]＇存在于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题对应的知识文档的正文中，那么将(kw[a＇]＇，1)加入到node_a节点的text_hit_keywords中；否则，将(kw[a＇]＇，1)加入到node_a节点的text_missed_keywords中；
[0091]
最后，将(json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值,node_a)存入到succ_data中。
[0092]
在json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值在succ_data中的情况下(即如果json[r,j]中的第2个搜索记录中的客服代表最后点击的知识文档标题的值已经存在于succ_data中)，执行如下操作：
[0093]
首先，从succ_data找到第一个元素等于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值的记录，记为data_a，设data_a的第二个元素为node_a；
[0094]
然后，对json[r,j]中的第2个搜索子记录中的搜索关键词中的每个kw[a＇]＇(q＇≥a＇≥1)，如果kw[a＇]＇存在于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值中，那么如果node_a的title_hit_keywords存在某个二元组(kw[a＇]＇,freq_a＇)中，那么freq_a＇＝freq_a＇ 1；否则，将(kw[a＇]＇,1)加入到node_a的title_hit_keywords中；如果kw[a＇]＇存在于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题对应的正文中，那么如果node_a的text_hit_keywords存在某个二元组(kw[a＇]＇,freq_a＇)中，那么freq_a＇＝freq_a＇ 1；否则，将(kw[a＇]＇,1)加入到node_a的text_hit_keywords中；
[0095]
最后，将修改后的node_a放回data_a，并且将修改后的data_a放回succ_data中。
[0096]
在json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值不在fail_data中，那么执行如下操作：
[0097]
首先，创建一个新的node节点node_b，初始状态下，fail_data的值为空；
[0098]
然后，将json[r,j]中的第1个搜索子记录中的搜索关键词中的每个kw[a](q≥a≥1)，如果kw[a]存在于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值中，那么将(kw[a]，1)加入到node_b节点的title_hit_keywords中，1为频次freq_a；否则将(kw[a]，1)加入到node_b节点的title_missed_keywords中；如果kw[a]存在于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题对应的知识文档的正文中，那么将(kw[a]，1)加入到node_b节点的text_hit_keywords中；否则将(kw[a]，1)加入到node_b节点的text_missed_keywords中；
[0099]
最后，将(json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值,node_b)存入到fail_data中。
[0100]
在json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值在fail_data中的情况下(即如果json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值已经存在于fail_data中)，执行如下操作：
[0101]
首先，从fail_data找到第一个元素等于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值的记录，记为data_b，设data_b的第二个元素为node_b；
[0102]
然后，对于json[r,j]中的第1个搜索子记录中的搜索关键词中的每个kw[a](q≥a≥1)：如果kw[a]存在于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题的值中，那么如果node_b的title_hit_keywords存在某个二元组(kw[a],freq_a)中，那么freq_a＝freq_a 1；否则，将(kw[a],1)加入到node_b的title_hit_keywords中。如果kw[a]存在于json[r,j]中的第2个搜索子记录中的客服代表最后点击的知识文档标题对应的知识文档的正文中，那么如果node_b的text_hit_keywords存在某个二元组(kw[a],freq_a)中，那么freq_a＝freq_a 1；否则，将(kw[a],1)加入到node_b的text_hit_keywords中；
[0103]
最后，将修改后的node_b放回data_b，并且将修改后的data_b放回fail_data中。
[0104]
在一些实施例中，对于最大的搜索次数为1的用户，判断json[r,j]中的第1个搜索子记录中的客服代表最后点击的知识文档标题的值是否在succ_data中，并根据不同的判断结果执行与最大的搜索次数为2的类似的操作。
[0105]
在一些实施例中，在对所有用户的全部搜索记录执行完上述类似的操作后，对于任意一个知识文档doc[i](n≥i≥1)，分别通过如下方式计算该知识文档的标题易搜索度(etsbt，ease to seach by title)和正文易搜索度(etsbx，ease to seach by text)。
[0106]
在一些实施例中，对于任意一个知识文档doc[i](n≥i≥1)，通过如下方式计算该知识文档的标题易搜索度(etsbt，ease to seachby title)。
[0107]
对succ_data中的第一元素为doc[i].title的子节点中，设该子节点的第二个元素为node_a。类似地，对fail_data的第一元素为知识文档doc[i]的标题doc[i].title的子节点中，设该子节点的第二个元素为node_b。
[0108]
对于该知识文档doc[i]，初始化多个搜索关键词中的多个第二标题关键词的总标题命中频次title_hit_cnt为0，多个搜索关键词中的多个第一标题关键词的总标题未命中频次tilte_missed_cnt为0。总标题命中频次为多个第二标题关键词的标题命中频次的总和，也就是上述实施例中的第二求和结果。总标题未命中频次为多个第一标题关键词的标题未命中频次的总和，也就是上述实施例中的第一求和结果。
[0109]
对node_a中的title_hit_keywords中的每一个二元组(kw[a＇]＇,freq_a＇)，title_hit_cnt＝title_hit_cnt freq_a＇。
[0110]
对node_b中的title_hit_keywords中的每一个二元组(kw[a],freq_a)，title_hit_cnt＝title_hit_cnt freq_a。
[0111]
对node_a中的title_missed_keywords中的每一个二元组(kw[a＇]＇,freq_a＇)，title_missed_cnt＝title_missed_cnt freq_a＇。
[0112]
对node_b的title_hit_keywords中的每一个二元组(kw[a],freq_a)，title_missed_cnt＝title_missed_cnt freq_a。
[0113]
通过上述计算，可确定知识文档doc[i]的多个第二标题关键词的总标题命中频次title_hit_cnt和多个第一标题关键词的总标题未命中频次tilte_missed_cnt。
[0114]
根据知识文档doc[i]的多个第二标题关键词的总标题命中频次title_hit_cnt和
多个第一标题关键词的总标题未命中频次tilte_missed_cnt，就可以确定该知识文档doc[i]的标题易搜度etsbt(doc[i])。
[0115]
知识文档doc[i]的标题易搜度etsbt(doc[i])计算公式为：
[0116][0117]
etsbt(doc[i])的值越大，表示越容易搜索到知识文档doc[i]的标题doc[i].title。
[0118]
在一些实施例中，对于任意一个知识文档doc[i](n≥i≥1)，通过如下方式计算该知识文档的正文易搜索度(etsbx，ease to seach by text)。
[0119]
对succ_data的第一元素为doc[i].title的子节点中，设该子节点的第二个元素为node_a。类似地，对fail_data的第一元素为doc[i].title的子节点中，设该子节点的第二个元素为node_b。
[0120]
对于该知识文档doc[i]，初始化多个搜索关键词中的多个第二正文关键词的总正文命中频次text_hit_cnt为0，多个搜索关键词中的多个第一正文关键词的总正文未命中频次text_missed_cnt为0。总正文命中频次为多个第二正文关键词的正文命中频次的总和，也就是上述实施例中的第二求和结果。总正文未命中频次为多个第一正文关键词的正文未命中频次的总和，也就是上述实施例中的第一求和结果。
[0121]
对node_a中的text_hit_keywords中的每一个二元组(kw[a＇]＇,freq_a＇)，text_hit_cnt＝text_hit_cnt freq_a＇。
[0122]
对node_b中的text_hit_keywords中的每一个二元组(kw[a],freq_a)，text_hit_cnt＝text_hit_cnt freq_a。
[0123]
对node_a中的text_missed_keywords中的每一个二元组(kw[a＇]＇,freq_a＇)，text_missed_cnt＝text_missed_cnt freq_a＇。
[0124]
对node_b中的text_hit_keywords中的每一个二元组(kw[a],freq_a)，text_missed_cnt＝text_missed_cnt freq_a。
[0125]
通过上述计算，可确定知识文档doc[i]的多个搜索关键词的正文命中频次text_hit_cnt和正文未命中频次text_missed_cnt。
[0126]
根据知识文档doc[i]的多个搜索关键词的标题命中频次text_hit_cnt和标题未命中频次text_missed_cnt，即可确定该知识文档doc[i]的标题易搜度etsbt(doc[i])。
[0127]
知识文档doc[i]的标题易搜度etsbt(doc[i])计算公式为：
[0128][0129]
etsbx(doc[i])的值越大，表示越容易搜索到知识文档doc[i]的正文doc[i].text。
[0130]
应当理解，上述实施例只是确定标题易搜度和正文易搜度的一个示例，本领域技术人员可以根据不同的需求采用不同的数据结构记录搜索信息，甚至可以采用不同的流程顺序确定标题易搜度和正文易搜度。
[0131]
返回图1，在确定易搜度后，执行步骤s130。
[0132]
在步骤s130中，根据易搜度，从多个搜索关键词中，选取至少一个参考关键词。
[0133]
例如，通过如下方式实现步骤s130。
[0134]
首先，在易搜度小于或等于阈值的情况下，获取多个搜索关键词中的未命中电子文档的多个第一关键词。例如，可以直接获取图2的步骤s121确定的多个第一关键词。例如，还可以执行与图2所示的步骤s121类似的步骤，从多个搜索关键词中，确定未命中电子文档的多个第一关键词。
[0135]
然后，获取多个第一关键词的未命中频次。例如，可以直接获取图2的步骤s122计算的每个第一关键词的未命中频次。例如，还可以执行与图2所示的步骤s122类似的步骤，根据历史搜索数据，计算每个第一关键词的未命中频次。
[0136]
最后，根据多个第一关键词的未命中频次的排序结果，从多个第一关键词中，选取至少一个参考关键词。
[0137]
在上述实施例中，通过在易搜度小于或等于阈值的情况下，根据多个第一关键词的未命中频次的排序结果，从多个第一关键词中，选取至少一个参考关键词，进一步提高选取参考关键词的准确性，进一步提高了电子文档的质量和准确性，进而进一步提高了搜索电子文档的效率。
[0138]
在一些实施例中，从未命中频次最高的n个第一关键词中，选取至少一个参考关键词。n为正整数。
[0139]
在易搜度为标题易搜度的情况下，阈值包括标题阈值。在一些实施例中，从标题未命中频次最高且命中电子文档的正文的m个第一关键词中，选取至少一个参考关键词。m为正整数。在一些实施例中，标题阈值为0.1，m为5。本领域技术人员可以根据需要合理设置标题阈值和m。
[0140]
例如，对fail_data中的第一元素为doc[i].title的子节点，设该子节点的第二个元素为node_b。向知识文档的采编人员推荐node_b中的title_missed_keywords中频次最高的但是不出现在node_b的text_hit_keywords中的5个搜索关键词，作为修改doc[i].title的参考。
[0141]
在易搜度为正文易搜度的情况下，阈值包括正文阈值。在一些实施例中，从正文未命中频次最高且命中电子文档的标题的p个第一关键词中，选取至少一个参考关键词。p为正整数。在一些实施例中，正文阈值为0.1，n为10。本领域技术人员可以根据需要合理设置正文阈值和n。
[0142]
例如，对fail_data的第一元素为doc[i].title的子节点，设该子节点的第二个元素为node_b。向知识文档的采编人员推荐node_b的text_missed_keywords中的频次最高的但是不出现在node_b的title_hit_keywords中的10个搜索关键词，作为修改doc[i].text的参考。
[0143]
在步骤s140中，推荐至少一个参考关键词作为电子文档的标题和正文中的至少一种的一部分。例如，推荐至少一个参考关键词给知识文档的采编人员，作为采编人员修改知识文档的标题和正文的依据。
[0144]
在上述实施例中，通过根据易搜度从多个搜索关键词中选取至少一个参考关键词，并推荐这至少一个搜索关键词作为电子文档的标题或正文的一部分，提高了电子文档的质量和准确性，使得电子文档的标题或正文与搜索关键词更加匹配，提高电子文档与搜索关键词的匹配度，进而提高了搜索引擎搜索电子文档的效率。上述实施例还间接提高了
搜索用户的搜索体验。
[0145]
图3是示出根据本公开一些实施例的数据处理装置的框图。
[0146]
如图3所示，数据处理装置3包括获取模块31、确定模块32、选取模块33和推荐模块34。
[0147]
获取模块31被配置为获取与电子文档对应的历史搜索数据，例如执行如图1所示的步骤s110。历史搜索数据包括多个搜索关键词。
[0148]
确定模块32被配置为根据历史搜索数据，确定电子文档的易搜度，例如执行如图1所示的步骤s120。易搜度表征电子文档是否容易被搜索到。
[0149]
选取模块33被配置为根据易搜度，从多个搜索关键词中，选取至少一个参考关键词，例如执行如图1所示的步骤s130。
[0150]
推荐模块34被配置为推荐至少一个参考关键词作为电子文档的标题和正文中的至少一种的一部分，例如执行如图1所示的步骤s140。
[0151]
图4是示出根据本公开另一些实施例的数据处理装置的框图。
[0152]
如图4所示，数据处理装置4包括存储器41；以及耦接至该存储器41的处理器42。存储器41用于存储执行数据处理方法对应实施例的指令。处理器42被配置为基于存储在存储器41中的指令，执行本公开中任意一些实施例中的数据处理方法。例如，数据处理装置4和图3的数据处理装置3具有相同或类似的功能和结构。
[0153]
图5是示出用于实现本公开一些实施例的计算机系统的框图。
[0154]
如图5所示，计算机系统50可以通用计算设备的形式表现。计算机系统50包括存储器510、处理器520和连接不同系统组件的总线500。
[0155]
存储器510例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(ram)和/或高速缓存存储器。非易失性存储介质例如存储有执行数据处理方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
[0156]
处理器520可以用通用处理器、数字信号处理器(dsp)、应用专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(cpu)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。
[0157]
总线500可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(isa)总线、微通道体系结构(mca)总线、外围组件互连(pci)总线。
[0158]
计算机系统50还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530、540、550以及存储器510和处理器520之间可以通过总线500连接。输入输出接口530可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为软盘、u盘、sd卡等外部存储设备提供连接接口。
[0159]
这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。
[0160]
这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的
处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
[0161]
这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
[0162]
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
[0163]
通过上述实施例中的数据处理方法及装置、计算机可存储介质，提高了电子文档的质量和准确性，进而提高了搜索电子文档的效率。
[0164]
至此，已经详细描述了根据本公开的数据处理方法及装置、计算机可存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于随机傅里叶特征变换的图像分类方法与流程

数据处理方法及装置、计算机可存储介质与流程

相关文献

最热文献