话题评分方法、装置、服务器及计算机可读存储介质与流程

2022-04-30 13:39:27 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，具体而言，涉及一种话题评分方法、装置、服务器及计算机可读存储介质。

背景技术：

2.播客应用是一种播放音频或视频的应用软件，用户既能收听他人录制上传的音视频节目，也可以将自己录制的音视频节目上传至播客上进行分享。随着播客应用的普及和商用化，网络上的播客话题(即播客内容)越来越多。一般的，播客应用对播客内容进行理解和质量评分之后，才能根据评分结果进行搜索或推荐。
3.目前，通常抽取播客内容话题文本的话题或关键词之后，对抽取的话题或关键词进行评分，并将评分结果作为播客内容的质量评分结果。但是，这种评分方法存在难以反应出话题广度质量的问题。

技术实现要素：

4.有鉴于此，本发明的目的在于提供一种话题评分方法、装置、服务器及计算机可读存储介质，其能够改善现有的话题评分方法存在的难以反应出话题广度质量的问题。
5.为了实现上述目的，本发明实施例采用的技术方案如下。
6.第一方面，本发明实施例提供一种话题评分方法，采用如下的技术方案。
7.一种话题评分方法，所述方法包括：
8.获取待评分的话题文本；
9.对所述话题文本进行预处理，得到话题列表，所述话题列表包括所述话题文本的多个话题词；
10.利用预设的词向量生成模型，生成所述话题列表中的每个所述话题词的话题向量；
11.根据所有所述话题向量，计算出包含所有所述话题向量的最小球，将所述最小球的半径作为广度评分。
12.进一步地，所述根据所有所述话题向量，计算出包含所有所述话题向量的最小球的步骤，包括：
13.基于所述所有话题向量，采用最小球覆盖算法，计算出包含所有所述话题向量的最小球。
14.进一步地，所述对所述话题文本进行预处理，得到话题列表的步骤，包括：
15.利用预设的文本分类模型，对所述话题文本进行分类，得到第一话题分类结果；
16.对所述话题文本进行关键词抽取，得到第二话题分类结果；
17.将所述第一话题分类结果和所述第二话题分类结果合并，得到话题列表。
18.进一步地，所述对所述话题文本进行关键词抽取，得到第二话题分类结果的步骤，包括：
19.对所述话题文本进行分词，得到多个词项；
20.计算每个所述词项的词频，将所述词频大于预设值的词项作为话题词，以得到第二话题分类结果，所述第二话题分类结果包括话题词。
21.进一步地，所述获取待评分的话题文本的步骤，包括：
22.获取待评分的音频文件，对所述音频文件进行解码，得到待评分的话题文本。
23.进一步地，所述方法还包括获得词向量生成模型的步骤，该步骤包括：
24.获取通用语料，将所述通用语料进行分词，得到多个词项；
25.计算出每个词项的词频，根据所述词频建立霍夫曼树，所述霍夫曼树以各所述词项作为节点，以所述词频作为权值；
26.基于所述霍夫曼树，对词向量相关模型进行无监督训练，得到词向量生成模型。
27.进一步地，所述基于所述霍夫曼树，对词向量相关模型进行无监督训练，得到词向量生成模型的步骤，包括：
28.初始化词向量相关模型的参数；
29.将各所述词项的词向量作为输入，以输出所述霍夫曼树作为目标，对所述词向量相关模型进行训练，得到词向量生成模型。
30.第二方面，本发明提供一种话题评分装置，采用如下的技术方案。
31.一种话题评分装置，包括接收处理模块和评分模块；
32.所述接收处理模块，用于获取待评分的话题文本，以及用于对所述话题文本进行预处理，得到话题列表，所述话题列表包括所述话题文本的多个话题词；
33.所述评分模块，用于利用预设的词向量生成模型，生成所述话题列表中的每个所述话题词的话题向量，根据所有所述话题向量，计算出包含所有所述话题向量的最小球，将所述最小球的半径作为广度评分。
34.第三方面，本发明实施例提供一种服务器，采用如下的技术方案。
35.一种服务器，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现如第一方面所述的话题评分方法。
36.第四方面，本发明实施例提供一种计算机可读存储介质，采用如下的技术方案。
37.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的话题评分方法。
38.本发明实施例提供的话题评分方法、装置、服务器及计算机可读存储介质，通过对待评分的话题文本进行预处理，得到包括多个话题词的话题列表，从而利用词向量生成模型，得到每个话题词的话题向量，进而计算出包含所有话题向量的最小球，并将最小球的半径作为广度评分，通过计算最小球能够考虑各个话题词之间的差异性，从而能够更为客观地反应话题的真实广度，进而能够改善现有的话题评分方法存在的难以反应出话题广度质量的问题。
39.为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
40.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
41.图1示出了本发明实施例提供的话题评分系统的方框示意图。
42.图2示出了图1中服务器的方框示意图。
43.图3示出了本发明实施例提供的话题评分方法的部分步骤的流程示意图。
44.图4示出了图3中步骤s103的部分子步骤的流程示意图。
45.图5示出了图4中步骤s103-2的部分子步骤的流程示意图。
46.图6示出本发明实施例提供的话题评分方法的另一部分步骤的流程示意图。
47.图7示出了图6中步骤s303的部分子步骤的流程示意图。
48.图8示出了本发明实施例提供的话题评分装置的方框示意图。
49.图标：100-话题评分系统；110-服务器；120-客户端；130-存储器；140-处理器；150-通信模块；160-话题评分装置；170-接收处理模块；180-评分模块。
具体实施方式
50.下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
51.因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
52.需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
53.播客应用是一种播放音频或视频的应用软件，用户既能收听他人录制上传的音视频节目，也可以将自己录制的音视频节目上传至播客进行分享。随着播客应用的普及和商用化，网络上的播客话题(即播客内容)越来越多。一般的，播客应用对播客内容进行理解和质量评分之后，才能根据评分结果进行搜索或推荐。
54.播客内容质量评分的关键技术之一是对播客的话题广度进行评分。目前，文本话题抽取大多只能抽取出话题或关键词，导致无法得到精确的话题广度评分。并且，一般只计算包含的话题数目，没有考虑各个话题之间的差异性，使得这种评分方法难以反应出话题的真实广度质量。
55.基于上述考虑，本发明实施例提供一种话题评分方案，能够改善目前的话题评分
方法难以翻译出话题的真实广度质量的问题。以下，将从话题评分方法和话题评分装置160等角度，对本发明提供的话题评分方案进行介绍。
56.请参照图1，为话题评分系统100的方框示意图，本发明实施例提供的话题评分方法应用于该话题评分系统100。该话题评分系统100包括服务器110和多个客户端120，服务器110通过网络与多个客户端120通信连接。通过客户端120将待评分的话题文本发送至服务器110后，服务器110采用本发明实施例提供的话题评分方法，对待评分的话题文本进行广度评分，以改善目前话题评分方法所存在的难以反应话题广度质量的问题。
57.服务器110中可以部署有播客分享平台，客户端120可以通过网络登录该播客分享平台，以上传音视频信息至播客分享平台，或共享播客分享平台中的播客内容。
58.其中，客户端120可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器110可以用独立服务器110或者是多个服务器110组成的服务器110集群来实现。
59.请参照图2，是服务器110的方框示意图。服务器110包括存储器130、处理器140及通信模块150。存储器130、处理器140以及通信模块150各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
60.其中，存储器130用于存储程序或者数据。存储器130可以但不限于是，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)等。
61.处理器140用于读/写存储器130中存储的数据、计算机程序或机器可执行指令，并执行相应地功能。在本实施例中，处理器140读取并执行存储器130存储的计算机程序或机器可执行指令，实现本发明提供的话题评分方法。
62.通信模块150用于通过网络建立所述服务器110与其它通信终端之间的通信连接，并用于通过网络收发数据。
63.应当理解的是，图2所示的结构仅为服务器110的结构示意图，服务器110还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
64.在一种实施方式中，如图3所示，提供了一种话题评分方法。本实施方式主要以该方法应用于图1中的服务器110来举例说明，包括如下步骤。
65.s101，获取待评分的话题文本。
66.客户端120可以登录服务器110上的播客分享平台，以将待评分的话题文本上传至服务器110，服务器110接收该话题文本。
67.s103，对话题文本进行预处理，得到话题列表。
68.其中，话题列表包括话题文本的多个话题词。话题词可以是话题文本的关键词、主题词、内容词或主旨词等。多个话题词能够反应出话题文本的主要内容或关键内容等。
69.s105，利用预设的词向量生成模型，生成话题列表中的每个话题词的话题向量。
70.s107，根据所有话题向量，计算出包含所有话题向量的最小球，将最小球的半径作
为广度评分。
71.上述话题评分方法中，通过对待评分的话题文本进行预处理，得到包括多个话题词的话题列表，从而利用词向量生成模型，得到每个话题词的话题向量，进而计算出包含所有话题向量的最小球，并将最小球的半径作为广度评分，通过计算最小球能够考虑各个话题词之间的差异性，从而能够更为客观地反应话题的真实广度，进而能够改善现有的话题评分方法存在的难以反应出话题广度质量的问题。
72.应当理解的是，最小球为包含所有话题词的最小球，因此，最小球能够考虑各个话题词之间的差异性，进而反应待评分的话题文本的真实广度。
73.针对s101，获取待评分的话题文本的方式可以灵活选择，例如，可以由客户端120直接发送待评分的话题文本至服务器110，也可以服务器110从播客应用软件中提取待评分的话题文本或播客音频。在一种实施方式中，获取待评分的话题文本可以包括：获取待评分的音频文件，对音频文件进行解码，得到待评分的话题文本。
74.进一步地，服务器110获取待评分的音频文件后，可以采用语音识别技术或音频解码技术对音频文件进行解码，得到待评分的话题文本。
75.得到话题文本后，服务器110对话题文本进行预处理的方式可以灵活选择，例如，可以为采用已训练好的模型提取出话题词，也可以对话题文本进行分词得到话题词。
76.在一种实施方式中，参照图4，图4为上述步骤s103的部分子步骤的流程示意图，通过以下子步骤实现对话题文本进行预处理，得到话题列表。
77.s103-1，利用预设的文本分类模型，对话题文本进行分类，得到第一话题分类结果。
78.s103-2，对话题文本进行关键词抽取，得到第二话题分类结果。
79.s103-3，将第一话题分类结果和第二话题分类结果合并，得到话题列表。
80.通过上述步骤s103-1至s103-3，利用文本分类模型，对话题文本进行分类，得到第一话题分类结果，该第一话题分类结果中的话题词为粗话题，即为拆解、分析较为粗糙的话题词。对话题文本进行关键词抽取，得到第二话题分类结果，第二话题分类结果中的话题词为细话题，即为拆解、分析更为细致(拆分粒度更细于第一话题分类结果)的话题词。
81.最后将第一话题分类结果和第二话题分类结果进行合并，得到的话题列表既包括粗话题词，也包括细话题词，从而使得话题列表尽可能地包含话题文本的各种语义，进而有助于更真实地反应话题广度。
82.其中，文本分类模型可以根据实际需求进行选择，可以但不限于是：textcnn模型、fasttext模型、textrnn模型等文本分类模型。
83.进一步地，针对s103-2，抽取关键词的方式可以灵活选择，如可以采用关键词抽取技术对话题文本进行关键词抽取，采用tf-idf算法抽取话题文本的关键词，也可以采用神经网络抽取关键词。
84.在一种实施方式中，参照图5，为s103-2的部分子步骤的流程示意图，通过以下步骤实现对话题文本进行关键词抽取，得到第二话题分类结果。
85.s201，对话题文本进行分词，得到多个词项。
86.采用分词方法，对话题文本进行分词，得到多个词项。其中，分词方法可以根据需求进行选择，例如，可以但不限于是：神经网络、基于词典分词算法和基于统计的机器学习
算法。
87.s202，计算每个词项的词频，将词频大于预设值的词项作为话题词，以得到第二话题分类结果。
88.其中，第二话题分类结果包括话题词，预设值可以包括词频值或排名。
89.当预设值为词频值时，将词频大于词频值的词项作为话题词。
90.当预设值为排名时，将词项根据词频进行排序，选择排序属于排名范围内的词项作为话题词。
91.例如，排名为前5，则将排序为前5的词项作为话题词。
92.进一步地，本发明实施例提供的话题评分方法还包括获得词向量生成模型的步骤，参照图6，为该步骤的部分子步骤的流程示意图，包括如下步骤。
93.s301，获取通用语料，将通用语料进行分词，得到多个词项。
94.通用语料可以为收集的语料，也可以为从通用语料库中得到的语料。
95.s302，计算出每个词项的词频，根据词频建立霍夫曼树。
96.其中，霍夫曼树以各词项作为节点，以词项的词频作为权值。
97.霍夫曼树的根节点到子节点的词频可以层层递减，即越深的子节点，其词频越小。
98.s303，基于霍夫曼树，对词向量相关模型进行无监督训练，得到词向量生成模型。
99.其中，词向量相关模型可以选择但不限于是：word2vec算法和glove算法等训练方法，来进行训练。
100.在一种实施方式中，词向量相关模型选择word2vec算法进行训练。在此基础上，参照图7，为上述s303的部分子步骤的流程示意图，包括如下步骤。
101.s303-1，初始化词向量相关模型的参数。
102.s303-2，将各词项的词向量作为输入，以输出霍夫曼树作为目标，对词向量相关模型进行训练，得到词向量生成模型。
103.其中，词向量可以存储于batch数据库中，基于此s303-2可以包括以下步骤：从batch数据库取出数据作为输入；进行前向传播，求似然函数的值；利用梯度下降法更新模型参数。循环上述步骤，直至模型达到收敛。
104.从而采用步骤，结合通用语料和word2vec算法训练出词向量生成模型。
105.进一步地，针对s107，计算最小球的方法可以灵活选择。在一种实施方式中，通过以下步骤，可实现计算出包含所有话题向量的最小球：基于所有话题向量，采用最小球覆盖算法，计算出包含所有话题向量的最小球。
106.可选的，最小覆盖球算法可包括如下步骤。
107.s1，将所有话题向量进行排序，令前i-1个话题向量的最小覆盖球为c。
108.s2，判断第i个话题向量是否在c内。若是，则执行s3。否则执行s4。
109.s3，判定前i个话题向量的最小覆盖球也是c。
110.s4，确定前i个话题向量的最小覆盖球c1。
111.其中，s4可以包括以下方法：设当前球心为pi，半径为0，将第i个话题向量(即话题向量pi)作为点进行固定；寻找出另一个不在当前最小覆盖球上的话题向量pj，设当前球心为(pi pj)/2，半径为∣pipj∣/2，并求第j个话题向量pj和第i个话题向量pi的最小球覆盖；若不存在话题向量pj和话题向量pi都在圆上的最小球，则继续寻找出不在当前最小球上的
话题向量pk，设当前最小覆盖球为话题向量pi,pj,pk的外接球，以求出话题向量pi,pj和pk的最小覆盖球。
112.应当理解的是，寻找出三个话题向量后，根据三点定圆原理，必能得到三个话题向量都在圆上的最小覆盖球。
113.如此，迭代i的值，重复s2-s4，即可确定出包含所有话题向量的最小覆盖球。
114.本发明实施例提供的话题评分方法，通过将待评分的话题文本采用文本分类模型进行粗分类，得到第一话题分类结果，并根据词频从话题文本中抽取关键词，即细分类，得到第二话题分类结果，将第一话题分类结果和第二话题分类结果融合后得到话题列表，使得话题列表尽可能地包含话题文本的各种语义信息。进而采用预设的词向量生成模型，得到对话题列表中的各话题词的话题向量，并求出包含所有话题向量的最小球，以最小球半径作为广度评分，能够考虑各个话题词之间的差异性，实现更为客观地反应话题的真实广度。
115.应该理解的是，虽然图3-图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3-图7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
116.为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种话题评分装置160的实现方式，可选地，该话题评分装置160可以采用上述图2所示的服务器110的器件结构。进一步地，请参阅图8，图8为本发明实施例提供的一种话题评分装置160的功能模块图。需要说明的是，本实施例所提供的话题评分装置160，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该话题评分装置160包括接收处理模块170和评分模块180。
117.接收处理模块170，用于获取待评分的话题文本，以及用于对话题文本进行预处理，得到话题列表。
118.其中，话题列表包括话题文本的多个话题词。
119.评分模块180，用于利用预设的词向量生成模型，生成话题列表中的每个话题词的话题向量，根据所有话题向量，计算出包含所有话题向量的最小球，将最小球的半径作为广度评分。
120.可选地，上述模块可以软件或固件(firmware)的形式存储于图2所示的存储器130中或固化于该服务器110的操作系统(operating system，os)中，并可由图2中的处理器140执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器130中。
121.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执
行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
122.另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
123.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
124.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像处理装置以及图像处理方法与流程

话题评分方法、装置、服务器及计算机可读存储介质与流程

相关文献

最热文献