一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法及装置、计算机可存储介质与流程

2022-02-20 13:21:20 来源:中国专利 TAG:

技术特征:
1.一种数据处理方法,包括:获取与电子文档对应的历史搜索数据,所述历史搜索数据包括多个搜索关键词;根据所述历史搜索数据,确定所述电子文档的易搜度,所述易搜度表征所述电子文档是否容易被搜索到;根据所述易搜度,从所述多个搜索关键词中,选取至少一个参考关键词;推荐所述至少一个参考关键词作为所述电子文档的标题和正文中的至少一种的一部分。2.根据权利要求1所述的数据处理方法,其中,确定所述电子文档的易搜度包括:从所述多个搜索关键词中,分别确定未命中所述电子文档的多个第一关键词和命中所述电子文档的多个第二关键词,所述第一关键词为所述多个搜索关键词中没有位于所述电子文档的标题和正文中的搜索关键词,所述第二关键词为所述多个搜索关键词中位于所述电子文档的标题和正文的至少一种中的搜索关键词;根据所述历史搜索数据,分别计算每个第一关键词的未命中频次和每个第二关键词的命中频次;根据所述多个第一关键词的未命中频次和所述多个第二关键词的命中频次,确定所述易搜度。3.根据权利要求1或2所述的数据处理方法,其中,从所述多个搜索关键词中,选取至少一个参考关键词包括:在所述易搜度小于或等于阈值的情况下,获取所述多个搜索关键词中的未命中所述电子文档的多个第一关键词;获取所述多个第一关键词的未命中频次;根据所述多个第一关键词的未命中频次的排序结果,从所述多个第一关键词中,选取至少一个参考关键词。4.根据权利要求3所述的数据处理方法,其中,从所述多个第一关键词中,选取至少一个参考关键词包括:从未命中频次最高的n个第一关键词中,选取所述至少一个参考关键词,n为正整数。5.根据权利要求3所述的数据处理方法,其中,所述易搜度包括标题易搜度,所述标题易搜度表征所述电子文档的标题是否容易被搜索到,所述阈值包括标题阈值,所述多个第一关键词包括未命中所述电子文档的标题的多个第一标题关键词,所述未命中频次包括标题未命中频次。6.根据权利要求5所述的数据处理方法,其中,从所述多个第一关键词中,选取至少一个参考关键词包括:从标题未命中频次最高且命中所述电子文档的正文的m个第一关键词中,选取所述至少一个参考关键词,m为正整数。7.根据权利要求3所述的数据处理方法,其中,所述易搜度包括正文易搜度,所述正文易搜度表征所述电子文档的正文是否容易被搜索到,所述阈值包括正文阈值,所述多个第一关键词包括未命中所述电子文档的正文的多个第一正文关键词,所述未命中频次包括正文未命中频次。8.根据权利要求7所述的数据处理方法,其中,从所述多个第一关键词中,选取至少一
个参考关键词包括:从正文未命中频次最高且命中所述电子文档的标题的p个第一关键词中,选取所述至少一个参考关键词,p为正整数。9.根据权利要求2所述的数据处理方法,其中,确定所述易搜度包括:分别对所述多个第一关键词的未命中频次、所述多个第二关键词的命中频次进行求和操作,得到第一求和结果和第二求和结果;计算所述第一求和结果和所述第二求和结果的总和;根据所述第二求和结果与所述总和的比值,确定所述易搜度。10.根据权利要求2所述的数据处理方法,其中,所述历史搜索数据包括多个搜索记录,每个搜索记录包括多个搜索子记录,计算所述多个第一关键词的未命中频次和多个第二关键词的命中频次包括:对于每个第一关键词,根据包括该第一键词的搜索子记录的个数,确定该第一关键词的未命中频次;对于每个第二关键词,根据包括该第二键词的搜索子记录的个数,确定该第二关键词的命中频次。11.根据权利要求1所述的数据处理方法,其中,所述历史搜索数据包括多个搜索记录,每个搜索记录包括多个搜索子记录,所述多个搜索子记录包括成功搜索子记录,成功搜索子记录包括点击子记录,与电子文档对应的历史搜索数据为成功子记录中的点击子记录包括所述电子文档的唯一标识的历史搜索数据。12.一种数据处理装置,包括:获取模块,被配置为获取与电子文档对应的历史搜索数据,所述历史搜索数据包括多个搜索关键词;确定模块,被配置为根据所述历史搜索数据,确定所述电子文档的易搜度,所述易搜度表征所述电子文档是否容易被搜索到;选取模块,被配置为根据所述易搜度,从所述多个搜索关键词中,选取至少一个参考关键词;推荐模块,被配置为推荐所述至少一个参考关键词作为所述电子文档的标题和正文中的至少一种的一部分。13.一种数据处理装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如权利要求1至11任一项所述的数据处理方法。14.一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至11任一项所述的数据处理方法。

技术总结
本公开涉及数据处理方法及装置、计算机可存储介质,涉及计算机技术领域。数据处理方法包括:获取与电子文档对应的历史搜索数据,所述历史搜索数据包括多个搜索关键词;根据所述历史搜索数据,确定所述电子文档的易搜度,所述易搜度表征所述电子文档是否容易被搜索到;根据所述易搜度,从所述多个搜索关键词中,选取至少一个参考关键词;推荐所述至少一个参考关键词作为所述电子文档的标题和正文中的至少一种的一部分。根据本公开,提高了电子文档的质量和准确性,进而提高了搜索电子文档的效率。率。率。


技术研发人员:黄智勇 苏小明 董爱刚 陈银星 王薇 肖夏 白东宾 张后力
受保护的技术使用者:中国电信股份有限公司
技术研发日:2020.07.13
技术公布日:2022/1/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献