热词数量的统计方法、装置、电子设备及计算机存储介质与流程

2022-07-16 23:43:03 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别涉及一种热词数量的统计方法、装置、电子设备及计算机存储介质。

背景技术：

2.目前，热词榜的生成方式都是，根据数据源，进行单独开发，按照约定格式获取热榜关键字，并把关键字在数据库中进行存储并计数。
3.在查询热榜数据榜单时，需要对所有数据进行整体排序，并取出top n条数据，进行展示。
4.但是，现有技术中需要根据不同数据格式进行单独开发，并且由于代码灵活性，因此，整体上存在较大的代码重复度，每次单独开发、单独测试十分浪费资源。

技术实现要素：

5.有鉴于此，本技术提供一种热词数量的统计方法、装置、电子设备及计算机存储介质，可以处理多种数据格式的数据源，对热词数量进行统计，进而生成热词榜，从整体上降低技术、测试成本。
6.本技术第一方面提供了一种风险传导速率的预测方法，包括：获取用户选择的热词数据源和热词解析信息；利用所述热词解析信息对所述用户选择的热词数据源进行解析，得到多个热词；针对每一个所述热词，利用信息摘要算法对所述热词进行处理，得到处理结果；取所述处理结果的前两位，作为所述热词的标识；在处理远程字典服务的有序集合中匹配所述热词的标识对应的实例；若可以在处理远程字典服务的有序集合中匹配得到所述热词的标识对应的实例，则所述处理远程字典服务的有序集合中所述热词的统计数量加一；若不可以在处理远程字典服务的有序集合中匹配得到所述热词的标识对应的实例，则在处理远程字典服务的有序集合中新增所述热词，且将所述热词的统计数量加一。
7.可选的，所述热词数量的统计方法，还包括：针对每一个有序集合，选取统计数量前n个热词，作为第一统计结果；其中，n为正整数；选取所述第一统计结果中统计数量前m个的热词，作为第二统计结果；其中，m为正整数；将所述第二统计结果向用户进行展示。
8.可选的，若所述用户选择的热词数据源为文件形式，所述热词解析信息包括目标行列，所述利用所述热词解析信息对所述用户选择的热词数据源进行解析，得到多个热词，包括：按照所述目标行列对对所述用户选择的热词数据源进行解析，得到多个热词。
9.可选的，若所述用户选择的热词数据源为消息队列形式，所述热词解析信息包括目标数据格式和热词路径，所述利用所述热词解析信息对所述用户选择的热词数据源进行解析，得到多个热词，包括：将所述热词路径根据所述目标数据格式转化为对应的定位方式；利用所述定位方式对所述用户选择的热词数据源进行解析，得到多个热词。
10.可选的，若所述用户选择的热词数据源为接口形式，所述热词解析信息包括接口获取数据频率、目标数据格式和热词路径，所述利用所述热词解析信息对所述用户选择的热词数据源进行解析，得到多个热词，包括：按照接口获取数据频率对待解析数据进行获取；将所述热词路径根据所述目标数据格式转化为对应的定位方式；利用所述定位方式对所述待解析数据进行解析，得到多个热词。
11.本技术第二方面提供了一种热词数量的统计装置，包括：获取单元，用于获取用户选择的热词数据源和热词解析信息；解析单元，用于利用所述热词解析信息对所述用户选择的热词数据源进行解析，得到多个热词；处理单元，用于针对每一个所述热词，利用信息摘要算法对所述热词进行处理，得到处理结果；第一确定单元，用于取所述处理结果的前两位，作为所述热词的标识；匹配单元，用于在处理远程字典服务的有序集合中匹配所述热词的标识对应的实例；统计单元，用于若可以在处理远程字典服务的有序集合中匹配得到所述热词的标识对应的实例，则所述处理远程字典服务的有序集合中所述热词的统计数量加一；新增单元，用于若不可以在处理远程字典服务的有序集合中匹配得到所述热词的标识对应的实例，则在处理远程字典服务的有序集合中新增所述热词，且所述统计单元将所述热词的统计数量加一。
12.可选的，所述热词数量的统计装置，还包括：第二确定单元，用于针对每一个有序集合，选取统计数量前n个热词，作为第一统计结果；其中，n为正整数；第三确定单元，用于选取所述第一统计结果中统计数量前m个的热词，作为第二统计结果；其中，m为正整数；展示单元，用于将所述第二统计结果向用户进行展示。
13.可选的，若所述用户选择的热词数据源为文件形式，所述热词解析信息包括目标行列，所述解析单元，包括：第一解析子单元，用于按照所述目标行列对对所述用户选择的热词数据源进行解析，得到多个热词。
14.可选的，若所述用户选择的热词数据源为消息队列形式，所述热词解析信息包括目标数据格式和热词路径，所述解析单元，包括：第一转化单元，用于将所述热词路径根据所述目标数据格式转化为对应的定位方式；
第二解析子单元，用于利用所述定位方式对所述用户选择的热词数据源进行解析，得到多个热词。
15.可选的，若所述用户选择的热词数据源为接口形式，所述热词解析信息包括接口获取数据频率、目标数据格式和热词路径，所述解析单元，包括：第二获取单元，用于按照接口获取数据频率对待解析数据进行获取；第二转化单元，用于将所述热词路径根据所述目标数据格式转化为对应的定位方式；第三解析子单元，用于利用所述定位方式对所述待解析数据进行解析，得到多个热词。
16.本技术第三方面提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面任意一项所述的热词数量的统计方法。
17.本技术第四方面提供了一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如第一方面任意一项所述的热词数量的统计方法。
18.由以上方案可知，本技术提供一种热词数量的统计方法、装置、电子设备及计算机存储介质，所述热词数量的统计方法包括：在获取用户选择的热词数据源和热词解析信息后；利用所述热词解析信息对所述用户选择的热词数据源进行解析，得到多个热词；然后，针对每一个所述热词，利用信息摘要算法对所述热词进行处理，得到处理结果；取所述处理结果的前两位，作为所述热词的标识；最后，在处理远程字典服务的有序集合中匹配所述热词的标识对应的实例；若可以在处理远程字典服务的有序集合中匹配得到所述热词的标识对应的实例，则所述处理远程字典服务的有序集合中所述热词的统计数量加一；若不可以在处理远程字典服务的有序集合中匹配得到所述热词的标识对应的实例，则在处理远程字典服务的有序集合中新增所述热词，且将所述热词的统计数量加一。从而可以处理多种数据格式的数据源，对热词数量进行统计，进而生成热词榜，从整体上降低技术、测试成本。
附图说明
19.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
20.图1为本技术实施例提供的一种热词数量的统计方法的具体流程图；图2为本技术另一实施例提供的一种热词数量的统计方法的流程图；图3为本技术另一实施例提供的一种热词数量的统计方法的流程图；图4为本技术另一实施例提供的一种热词数量的统计方法的流程图；图5为本技术另一实施例提供的一种热词数量的统计装置的示意图；图6为本技术另一实施例提供的一种实现热词数量的统计方法的电子设备的示意图。
具体实施方式
21.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
22.需要注意，本技术中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系，而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
23.首先，对本技术中出现的专业术语进行解释说明：json是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。
24.xml是可扩展标记语言，标准通用标记语言的子集，简称xml。是一种用于标记电子文件使其具有结构性的标记语言。
25.html的全称为超文本标记语言，是一种标记语言。它包括一系列标签．通过这些标签可以将网络上的文档格式统一，使分散的internet资源连接为一个逻辑整体。html文本是由html命令组成的描述性文本，html命令可以说明文字，图形、动画、声音、表格、链接等。也就是常见的网页的代码标识形式。
26.xpath即为xml路径语言（xml path language），它是一种用来确定xml文档中某部分位置的语言。
27.jsonpath如xpath之于xml文档一样，jsonpath为json文档提供了解析能力，通过使用jsonpath，你可以方便的查找节点、获取想要的数据，jsonpath是json版的xpath。
28.css选择器可以对html页面中的元素实现一对一，一对多或者多对一的控制，这就需要用到css选择器。html页面中的元素就是通过css选择器进行定位的。
29.消息队列：是基础数据结构中“先进先出”的一种数据结构。一般用来解决应用解耦，异步消息，流量削峰等问题，实现高性能，高可用，可伸缩和最终一致性架构。
30.本技术实施例提供了一种热词数量的统计方法，如图1所示，具体包括以下步骤：s101、获取用户选择的热词数据源和热词解析信息。
31.其中，热词数据源可以是文件形式、消息队列形式、接口形式等，此处不做限定。
32.需要说明的是，不同的热词数据源需要不同的热词解析信息。热词解析信息包括：目标行列、目标数据格式、热词路径、接口获取数据频率等，此处不做限定。例如：json数据{“a”:{“b”:1}}，xml数据《a》《b》2《/b》《/a》，那么通用路径为a-》b-》[innerdata]，如果数据是json格式$,a.b[innerdata]；如果数据是xml格式/a/b[innerdata]；如果数据是html格式$(
‘
a b’).text()。
[0033]
当用户选择使用文件形式的热词数据源，若是excel，则用户需要指定目标行列；若是逗号分隔值（comma-separated values，csv）文件，则需要按照分隔符进行解析，此处
不做限定。
[0034]
当用户选择使用消息队列形式的热词数据源，用户需要指定目标数据格式，如：json、xml、html等，并指定热词路径，其中，热词路径会根据目标数据格式转化为对应的定位方式，如：jsonpath、xpath、css选择器等，此处不做限定。
[0035]
当用户选择使用接口形式的热词数据源，用户需要指定接口获取数据频率、目标数据格式，如：json、xml、html等，并指定热词路径，其中，热词路径会根据目标数据格式转化为对应的定位方式，如：jsonpath、xpath、css选择器等，此处不做限定。
[0036]
需要说明的是，无论哪种数据定位格式，本质上都是指定一条到达最终元素的路径。而这个路径的公共特征，就是需要表达出路径上的所有元素和元素上的属性，方便解析程序按照路径进行分解。
[0037]
s102、利用热词解析信息对用户选择的热词数据源进行解析，得到多个热词。
[0038]
可选的，在本技术的另一实施例中，若用户选择的热词数据源为文件形式，热词解析信息包括目标行列，步骤s102的一种实施方式，包括：按照目标行列对对用户选择的热词数据源进行解析，得到多个热词。
[0039]
可选的，在本技术的另一实施例中，若用户选择的热词数据源为消息队列形式，热词解析信息包括目标数据格式和热词路径，步骤s102的一种实施方式，如图2所示，包括：s201、将热词路径根据目标数据格式转化为对应的定位方式。
[0040]
例如：目标数据格式为json，则对应的定位方式为jsonpath；目标数据格式为xml，则对应的定位方式为xpath；目标数据格式为html，则对应的定位方式为css选择器。
[0041]
s202、利用定位方式对用户选择的热词数据源进行解析，得到多个热词。
[0042]
可选的，在本技术的另一实施例中，若用户选择的热词数据源为接口形式，热词解析信息包括接口获取数据频率、目标数据格式和热词路径，步骤s102的一种实施方式，如图3所示，包括：s301、按照接口获取数据频率对待解析数据进行获取。
[0043]
s302、将热词路径根据目标数据格式转化为对应的定位方式。
[0044]
例如：目标数据格式为json，则对应的定位方式为jsonpath；目标数据格式为xml，则对应的定位方式为xpath；目标数据格式为html，则对应的定位方式为css选择器。
[0045]
s303、利用定位方式对待解析数据进行解析，得到多个热词。
[0046]
s103、针对每一个热词，利用信息摘要算法对热词进行处理，得到处理结果。
[0047]
其中，信息摘要算法，即md5，是一种被广泛使用的密码散列函数，可以产生出一个128位（16字节）的散列值（hash value），用于确保信息传输完整一致。
[0048]
s104、取处理结果的前两位，作为热词的标识。
[0049]
s105、在处理远程字典服务的有序集合中匹配热词的标识对应的实例。
[0050]
其中，远程字典服务为redis，redis是完全开源的，遵守bsd协议，是一个高性能的key-value数据库。
[0051]
sorted set:是redis的有序集合和集合一样也是string类型元素的集合，且不允许重复的成员。不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。有序集合的成员是唯一的，但分数(score)却可以重复。集合是通过哈希表实现的，所以添加，删除，查找的复杂度都是o(1)。集合中最大的成员
数为232
ꢀ‑
1(4294967295，每个集合可存储40多亿个成员)。
[0052]
s106、若可以在处理远程字典服务的有序集合中匹配得到热词的标识对应的实例，则处理远程字典服务的有序集合中热词的统计数量加一。
[0053]
s107、若不可以在处理远程字典服务的有序集合中匹配得到热词的标识对应的实例，则在处理远程字典服务的有序集合中新增热词，且将热词的统计数量加一。
[0054]
可选的，在本技术的另一实施例中，热词数量的统计方法的一种实施方式，如图4所示，包括：s401、针对每一个有序集合，选取统计数量前n个热词，作为第一统计结果。
[0055]
其中，n为正整数。
[0056]
s402、选取第一统计结果中统计数量前m个的热词，作为第二统计结果。
[0057]
其中，m为正整数。
[0058]
s403、将第二统计结果向用户进行展示。
[0059]
在本技术的实际应用过程中，导入数据之后，系统上需要考虑到大量热词录入并排序的情况。为了同时兼顾排序速度、大数据量的情况，我们可以但不限于将海量热词集合分成了256份，每份数据使用有序集合在不同的实例中进行并行排序。由于最终排行榜是取所有数据的top n，所以，取每份数据有序集合的子集的top n，再合并256份子集top n，最后取出这些数据的top n，即为最终数据排行榜需要的topn。这样一来，每一份数据实例中数据量不会特别大，整体上实例很多又能支持海量数据，同时兼顾了速度和数据量，生成热榜数据。
[0060]
需要说明的是，拆分方式是对热榜关键词进行md5，生成一个含有16个字符的字符串，每个字符是一个数字的16进制表示，即0-f，这样我们可以取这个字符串的前两位组合，映射到一个有序集合数据集合，这样总共16*16种组合，即256个有序集合。
[0061]
由以上方案可知，本技术提供一种热词数量的统计方法：在获取用户选择的热词数据源和热词解析信息后；利用热词解析信息对用户选择的热词数据源进行解析，得到多个热词；然后，针对每一个热词，利用信息摘要算法对热词进行处理，得到处理结果；取处理结果的前两位，作为热词的标识；最后，在处理远程字典服务的有序集合中匹配热词的标识对应的实例；若可以在处理远程字典服务的有序集合中匹配得到热词的标识对应的实例，则处理远程字典服务的有序集合中热词的统计数量加一；若不可以在处理远程字典服务的有序集合中匹配得到热词的标识对应的实例，则在处理远程字典服务的有序集合中新增热词，且将热词的统计数量加一。从而可以处理多种数据格式的数据源，对热词数量进行统计，进而生成热词榜，从整体上降低技术、测试成本。
[0062]
本技术另一实施例提供了一种热词数量的统计装置，如图5所示，具体包括：获取单元501，用于获取用户选择的热词数据源和热词解析信息。
[0063]
解析单元502，用于利用热词解析信息对用户选择的热词数据源进行解析，得到多个热词。
[0064]
可选的，在本技术的另一实施例中，若用户选择的热词数据源为文件形式，热词解析信息包括目标行列，解析单元502，包括：第一解析子单元，用于按照目标行列对对用户选择的热词数据源进行解析，得到多个热词。
[0065]
本技术上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，此处不再赘述。
[0066]
可选的，在本技术的另一实施例中，若用户选择的热词数据源为消息队列形式，热词解析信息包括目标数据格式和热词路径，解析单元502，包括：第一转化单元，用于将热词路径根据目标数据格式转化为对应的定位方式。
[0067]
第二解析子单元，用于利用定位方式对用户选择的热词数据源进行解析，得到多个热词。
[0068]
本技术上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图2所示，此处不再赘述。
[0069]
可选的，若用户选择的热词数据源为接口形式，热词解析信息包括接口获取数据频率、目标数据格式和热词路径，解析单元502，包括：第二获取单元，用于按照接口获取数据频率对待解析数据进行获取。
[0070]
第二转化单元，用于将热词路径根据目标数据格式转化为对应的定位方式。
[0071]
第三解析子单元，用于利用定位方式对待解析数据进行解析，得到多个热词。
[0072]
本技术上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图3所示，此处不再赘述。
[0073]
处理单元503，用于针对每一个热词，利用信息摘要算法对热词进行处理，得到处理结果。
[0074]
第一确定单元504，用于取处理结果的前两位，作为热词的标识。
[0075]
匹配单元505，用于在处理远程字典服务的有序集合中匹配热词的标识对应的实例。
[0076]
统计单元506，用于若可以在处理远程字典服务的有序集合中匹配得到热词的标识对应的实例，则处理远程字典服务的有序集合中热词的统计数量加一。
[0077]
新增单元507，用于若不可以在处理远程字典服务的有序集合中匹配得到热词的标识对应的实例，则在处理远程字典服务的有序集合中新增热词，且统计单元506将热词的统计数量加一。
[0078]
本技术上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图1所示，此处不再赘述。
[0079]
可选的，在本技术的另一实施例中，热词数量的统计装置的一种实施方式，还包括：第二确定单元，用于针对每一个有序集合，选取统计数量前n个热词，作为第一统计结果。
[0080]
其中，n为正整数。
[0081]
第三确定单元，用于选取第一统计结果中统计数量前m个的热词，作为第二统计结果。
[0082]
其中，m为正整数。
[0083]
展示单元，用于将第二统计结果向用户进行展示。
[0084]
本技术上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图4所示，此处不再赘述。
[0085]
由以上方案可知，本技术提供一种热词数量的统计装置：在获取单元501获取用户选择的热词数据源和热词解析信息后；解析单元502利用热词解析信息对用户选择的热词数据源进行解析，得到多个热词；然后，处理单元503针对每一个热词，利用信息摘要算法对热词进行处理，得到处理结果；第一确定单元504取处理结果的前两位，作为热词的标识；最后，匹配单元505在处理远程字典服务的有序集合中匹配热词的标识对应的实例；若可以在处理远程字典服务的有序集合中匹配得到热词的标识对应的实例，则统计单元506在处理远程字典服务的有序集合中热词的统计数量加一；若不可以在处理远程字典服务的有序集合中匹配得到热词的标识对应的实例，则新增单元507在处理远程字典服务的有序集合中新增热词，且统计单元506将热词的统计数量加一。从而可以处理多种数据格式的数据源，对热词数量进行统计，进而生成热词榜，从整体上降低技术、测试成本。
[0086]
本技术另一实施例提供了一种电子设备，如图6所示，包括：一个或多个处理器601。
[0087]
存储装置602，其上存储有一个或多个程序。
[0088]
当所述一个或多个程序被所述一个或多个处理器601执行时，使得所述一个或多个处理器601实现如上述实施例中任意一项所述的热词数量的统计方法。
[0089]
本技术另一实施例提供了一种计算机存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述实施例中任意一项所述的热词数量的统计方法。
[0090]
在本技术公开的上述实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0091]
另外，在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，直播设备，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0092]
专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，
而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于液晶屏的表情互动的显示方法、介质、仪表和装置与流程

热词数量的统计方法、装置、电子设备及计算机存储介质与流程

相关文献

最热文献