目标文本类别的确定方法、装置、电子设备和存储介质与流程

2022-08-17 06:37:22 来源：中国专利 TAG：

1.本技术涉及文本领域，尤其涉及一种目标文本类别的确定方法、装置、电子设备和存储介质。

背景技术：

2.随着互联网的发展，越来越多的用户在各大社交媒体平台上发布言论内容，包括但不限于公众号文章、个人动态和评论留言，运营人员需要根据实际情况筛选出某些特定的文本类别的言论内容，从而对这些言论内容进行处理。例如，对于一些垃圾内容，需要进行删除或屏蔽等处理，对于一些积极内容，需要推送给更多的用户。
3.目前确定文本类别的方式为：通过人工检测全文中的特定词汇，然后根据该特定词汇确定文本类别，但人工检测导致文本类别准确率低。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本技术提供了一种目标文本类别的确定方法、装置、电子设备和存储介质。
5.第一方面，本技术提供了一种目标文本类别的确定方法，所述方法包括：
6.从待检测文本中选取至少一个目标词汇；
7.根据目标检测模型对所述至少一个目标词汇进行处理，得到所述目标词汇的词汇分值，其中，所述目标检测模型是基于q矩阵得到的；
8.根据所述至少一个目标词汇的词汇分值，确定所述待检测文本的文本分值；
9.根据预设的预设分值范围和文本类别之间的对应关系，将所述文本分值对应的文本类别作为所述待检测文本的目标文本类别。
10.可选地，将所述文本分值对应的文本类别作为所述待检测文本的目标文本类别之后，所述方法还包括：
11.将所述目标词汇和所述目标文本类别作为训练样本，对回报矩阵进行更新，其中，所述回报矩阵中的回报值是基于样本词汇和样本文本的文本类别确定的，所述样本词汇存在于所述样本文本中；
12.根据更新后的回报矩阵生成更新后的q矩阵；
13.根据更新后的q矩阵得到更新后的目标检测模型。
14.可选地，根据目标检测模型对含有目标词汇的待检测文本进行处理之前，所述方法还包括：
15.建立初始q矩阵和初始回报矩阵，其中，所述初始q矩阵和所述初始回报矩阵中均包括n
×
n个初始化为0的元素值，n为按照预设方式排列的样本词汇的数量；
16.基于所述初始回报矩阵，通过样本词汇和样本文本的样本类别确定回报矩阵，；
17.针对每个样本文本中的词汇排列顺序，基于初始q矩阵和所述回报矩阵构建q矩阵，其中，所述q矩阵中的每行指示一个词汇，所述q矩阵中的每列指示从当前词汇跳转到下
一个词汇的动作；
18.通过所述q矩阵生成所述目标检测模型。
19.可选地，所述基于所述初始回报矩阵，通过样本词汇和样本文本的样本类别确定回报矩阵包括：
20.确定所述样本词汇的邻接词汇，其中，所述邻接词汇指示所述样本词汇在所述初始回报矩阵中的下一个词汇，所述初始回报矩阵和所述回报矩阵具有相同的样本词汇；
21.在所述样本词汇和所述邻接词汇不属于同一样本文本的情况下，确定所述样本词汇的回报值为第一预设值，其中，所述第一预设值不指示奖励或惩罚；
22.在所述样本词汇和所述邻接词汇属于同一样本文本的情况下，确定所述样本文本的样本类别；
23.根据所述样本类别确定所述回报值为第二预设值，其中，所述第二预设值指示奖励或惩罚；
24.基于所述第一预设值和所述第二预设值构建所述回报矩阵。
25.可选地，所述根据所述样本类别确定所述回报值为第二预设值包括：
26.在所述样本类别为预设类别的情况下，确定回报矩阵中的回报值为奖励值；
27.在所述样本类别为非预设类别的情况下，确定回报矩阵中的回报值为惩罚值；
28.将所述奖励值和所述惩罚值作为所述第二预设值。
29.可选地，所述针对每个样本文本中的词汇排列顺序，基于初始q矩阵和所述回报矩阵构建q矩阵包括：
30.采用如下方式遍历每个样本文本中每个样本词汇：
31.确定所述样本文本中的当前词汇；
32.按照所述样本文本中的词汇排列顺序，确定所述当前词汇对应的预设词汇，其中，所述预设词汇为所述当前词汇在所述样本文本中的下一个词汇；
33.基于所述当前词汇在所述回报矩阵中的回报值，和所述预设词汇在所述初始q矩阵中的矩阵值，确定所述当前词汇的矩阵值；
34.基于每个矩阵值构建所述q矩阵。
35.可选地，所述根据预设的预设分值范围和文本类别之间的对应关系，将所述文本分值对应的文本类别作为所述待检测文本的目标文本类别包括：
36.获取数据库中存储的预设分值范围和文本类别之间的对应关系；
37.从所述预设分值范围中选取出所述文本分值所在的目标分值范围；
38.根据所述对应关系，将目标分值范围对应的文本类别作为所述待检测文本的目标文本类别。
39.第二方面，提供了一种目标文本类别的确定装置，所述装置包括：
40.选取模块，用于从待检测文本中选取至少一个目标词汇；
41.处理模块，用于根据目标检测模型对所述至少一个目标词汇进行处理，得到所述待检测文本的文本类别，其中，所述目标检测模型是基于回报矩阵得到的，所述回报矩阵是基于训练样本中的样本词汇和样本类别确定的；
42.更新模块，用于将所述目标词汇和所述文本类别作为新的训练样本对所述回报矩阵进行更新，以得到更新后的目标检测模型；
43.确定模块，用于基于所述更新后的目标检测模型确定新的待检测文本的文本类别。
44.第三方面，提供了一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
45.存储器，用于存放计算机程序；
46.处理器，用于执行存储器上所存放的程序时，实现任一的方法步骤。
47.第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一的方法步骤。
48.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：
49.本技术实施例提供的该方法，服务器可以根据q矩阵得到目标检测模型，从而通过目标检测模型得到目标词汇的词汇分值，再根据至少一个目标词汇的词汇分值得到待检测文本的文本分值，根据文本分值确定待检测文本的目标文本类别。本技术相对于人工确定文本类别，采用q矩阵确定生成的目标检测模型确定文本类别，提高了文本类别检测的准确性。
附图说明
50.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
51.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
52.图1为本技术实施例提供的一种目标文本类别的确定方法的流程图；
53.图2为本技术实施例提供的一种目标文本类别的确定方法流程示意图；
54.图3为本技术实施例提供的一种目标文本类别的确定装置的结构示意图；
55.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
56.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
57.本技术实施例提供了一种目标文本类别的确定方法，可以应用于终端或服务器，用于确定包含有目标词汇的待检测文本的文本类别。
58.下面将结合具体实施方式，以应用于服务器为例，对本技术实施例提供的一种目标文本类别的确定方法进行详细的说明，如图1所示，具体步骤如下：
59.步骤101：从待检测文本中选取至少一个目标词汇。
60.在本技术实施例中，服务器采用分词方式对待获取文本进行词汇拆分，拆分后的词汇包括有效词汇和无效词汇，无效词汇并无实际意义，如语气词、“的”等。服务器按照预设选取方案从多个分词中选取出有效词汇，并将有效词汇作为目标词汇。其中，预设选取方
案可以是根据词汇的词性选取的，也可以是根据数据库中的有效词汇进行匹配得到的。
61.步骤102：根据目标检测模型对至少一个目标词汇进行处理，得到目标词汇的词汇分值。
62.其中，目标检测模型是基于q矩阵得到的；
63.服务器根据q矩阵生成目标检测模型后，目标检测模型对至少一个目标词汇进行处理，得到目标词汇的矩阵值，然后将该矩阵值作为目标词汇的词汇分值。
64.步骤103：根据至少一个目标词汇的词汇分值，确定待检测文本的文本分值。
65.服务器根据至少一个目标词汇的词汇分值得到待检测文本的文本分值包括至少两种方式：可以将每个词汇分值的总分值作为文本分值，也可以将每个词汇分值的平均分值作为文本分值，本技术对文本分值的具体确定方式不做限定。
66.步骤104：根据预设的预设分值范围和文本类别之间的对应关系，将文本分值对应的文本类别作为待检测文本的目标文本类别。
67.数据库中预先存储有预设分值范围和文本类别之间的对应关系，服务器从预设分值范围中选取出文本分值所在的目标分值范围，然后根据目标分值范围对应的文本类别，确定待检测文本的目标文本类别。
68.示例性地，文本分值为89分，数据库中预先存储的对应关系为[0-80]—非优秀文本，[81-100]—优秀文本。那么文本分值位于[81-100]这个分值范围内，待检测文本对应的目标文本类别为优秀文本。
[0069]
示例性地，若目标词汇为垃圾词汇，那么包含垃圾词汇的待检测文本的文本类别为垃圾文本或非垃圾文本，例如，垃圾文本可以为包含推销词汇的推销文本。若目标词汇为非垃圾词汇，那么包含该非垃圾词汇的待检测文本的文本类别为垃圾文本或非垃圾文本。本技术可以通过目标检测模型，检测包含垃圾词汇的待检测文本是否为垃圾文本，从而可以对垃圾文本做出删除等处理。
[0070]
示例性地，若目标词汇为优秀词汇，那么包含优秀词汇的待检测文本的文本类别为优秀文本或非优秀文本，例如，优秀文本可以为包含歌颂词汇的推送文本。若目标词汇为非优秀词汇，那么包含该非优秀词汇的待检测文本的文本类别为优秀文本或非优秀文本。本技术可以通过目标检测模型，检测包含优秀词汇的待检测文本是否为优秀文本，从而可以对优秀文本做出推送等处理。本技术对目标词汇和文本类别不做具体限制。
[0071]
在本技术中，服务器可以根据q矩阵得到目标检测模型，从而通过目标检测模型得到目标词汇的词汇分值，再根据至少一个目标词汇的词汇分值得到待检测文本的文本分值，根据文本分值确定待检测文本的目标文本类别。本技术相对于人工确定文本类别，采用q矩阵确定生成的目标检测模型确定文本类别，提高了文本类别检测的准确性。
[0072]
可选地，将文本分值对应的文本类别作为待检测文本的目标文本类别之后，方法还包括：将目标词汇和目标文本类别作为训练样本，对回报矩阵进行更新，其中，回报矩阵中的回报值是基于样本词汇和样本文本的文本类别确定的，样本词汇存在于所述样本文本中；根据更新后的q矩阵生成更新后的q矩阵；根据更新后的q矩阵得到更新后的目标检测模型。
[0073]
在本技术实施例中，回报矩阵中的回报值是根据训练样本中的样本词汇和样本文本的样本类别确定的，服务器将目标词汇和目标文本类别作为新的训练样本，对回报矩阵
进行更新。针对同一目标词汇，其对应的样本类别可以包括至少两种，如包括第一样本类别和第二样本类别。若第一样本类别出现的概率大，表示样本文本为第一样本类别的准确率较高，随着训练次数的增多，回报矩阵中基于目标词汇和第一样本类别生成的回报值出现的次数较多，即回报值准确的次数会增多。由于q矩阵是基于回报矩阵生成的，那么随着训练次数的增多，q矩阵的矩阵值也会更加准确，根据更新后的q矩阵得到的目标检测模型，也会更加准确的输出待检测文本的文本类别。
[0074]
在本技术实施例中，服务器得到更新后的目标检测模型后，对新输入的待检测文本进行处理，根据待检测文本中每个目标词汇的词汇分值，得到待检测文本的文本分值，从而根据文本分值得到对应的目标文本类别。然后根据该新输入的待检测文本中的目标词汇、目标文本类别，继续更新回报矩阵，得到再次更新后的目标检测模型，采用上述方式不断循环，从而不断对目标检测模型进行更新。
[0075]
本技术采用强化学习算法，强化学习包括环境、智能体(agent)和控制策略三要素，强化学习的目的是构造一个控制策略，使得agent行为预测可能性能达到最大，从而通过学习对目标进行行为进行分析预测。
[0076]
在本技术中，服务器通过将目标检测模型的输入(目标词汇)和输出(目标文本类别)作为训练样本，对回报矩阵进行更新，从而得到更新后的目标检测模型，这样可以使更新后的目标检测模型输出的文本类别更加准确。本技术通过强化学习，以最新的训练样本不断提高目标检测模型的准确性，从而提高检测到的目标文本类别的准确性。
[0077]
作为一种可选的实施方式，根据目标检测模型对至少一个目标词汇进行处理之前，方法还包括：建立初始q矩阵和初始回报矩阵，其中，初始q矩阵和初始回报矩阵中均包括n
×
n个初始化为0的元素值，n为按照预设方式排列的样本词汇的数量；基于初始回报矩阵，通过样本词汇和样本文本的样本类别确定回报矩阵，；针对每个样本文本中的词汇排列顺序，基于初始q矩阵和回报矩阵构建q矩阵，其中，q矩阵中的每行指示一个词汇，q矩阵中的每列指示从当前词汇跳转到下一个词汇的动作；通过q矩阵生成目标检测模型。
[0078]
在本技术实施例中，服务器先建立初始q矩阵和初始r矩阵，其中，初始q矩阵和初始r矩阵中均包括n
×
n个初始化为0的元素值。然后通过训练样本中的样本词汇和样本类别得到回报矩阵(r矩阵)中的回报值，再基于初始q矩阵和r矩阵得到q矩阵，最后根据q矩阵生成目标检测模型。
[0079]
具体的，服务器先根据预设词库中词汇的数量确定n，其中，预设词库中的词汇是从文本中选取出来的，文本指该词汇所属的句子。例如，有五条文本，每条文本中包括五个有效词汇，那么根据这25个有效词汇构建预设词库。预设词库中包含尽可能多的词汇，这样可以得到的初始q矩阵中的词汇也尽量多，能够覆盖任意一篇文本。
[0080]
其中，预设词库中词汇的顺序是按照预设方式确定的，无需按照文本的排列顺序，也无需按照文本中词汇的排列顺序。预设方式可以为随机确定，也可以为按照词汇的拼音首字母排序确定，本技术对预设方式不做具体限制。
[0081]
例如，预设词库中包括五个词汇abcde，那么这五个词汇的排列顺序可以为a c edb，也可以为acebd。
[0082]
服务器建立n
×
n的初始q矩阵q(s，a)，初始q矩阵中的词汇来源于预设词库，初始q矩阵中的词汇也是按照预设方式排列的，初始q矩阵的每一行表示一个词汇is，初始q矩阵
的每一列表示每个词汇对应的一种动作，跳转到其他(n-1)个词汇中的任一个词汇或原地不动，动作a表示从词汇is跳转到任意一个词汇ia的动作。
[0083]
这样我们就构建了一个n
×
n的矩阵q，并将矩阵q中的矩阵值初始化为0，如下。
[0084][0085]
若针对样本文本进行词汇跳转，跳转顺序是按照样本文本中的词汇排列顺序确定的，那么在跳转过程中，动作a表示从当前词汇is跳转到预设词汇ia的动作，其中，预设词汇ia是样本文本中当前词汇is的下一个词汇。
[0086]
示例性地，初始q矩阵中的排布如表一所示，可以看出，初始q矩阵中，可以从当前词汇跳转到任一词汇。若第一样本文本的词汇顺序为xyz，那么在初始q矩阵中，可以确定x跳转到y的矩阵值，和y跳转到z的矩阵值(表一中用r表示该矩阵值)。若第二样本文本的词汇顺序为z yx，那么在初始q矩阵中，可以确定z跳转到y的矩阵值，和y跳转到x的矩阵值。
[0087] xyzx0r0y00rz000
[0088]
表一
[0089]
服务器建立初始r矩阵，初始r矩阵中的矩阵值初始化为0，服务器通过训练样本中的样本词汇和样本类别得到回报值，从而得到r矩阵r(s，a)。
[0090]
在本技术实施例中，初始r矩阵中的样本词汇和初始q矩阵中的词汇相同，初始r矩阵和r矩阵中词汇和词汇的排列顺序是相同的，仅回报值不完全相同。初始r矩阵中的回报值均为0，本技术通过样本词汇和样本文本的样本类别确定回报矩阵中的回报值。
[0091]
服务器从训练样本中获取包含有样本词汇的样本文本，其中，训练样本来自历史数据，每个样本文本具有预先标注好的样本类别。样本词汇具有对应的邻接词汇，邻接词汇为样本词汇在回报矩阵中的下一个词汇。
[0092]
服务器若确定样本词汇和邻接词汇属于一个样本文本，则服务器确定样本文本的类别。若检测到样本类别为预设类别，则确定当前的样本词汇对应的回报矩阵中的回报值为奖励值，示例性地，r(s，a)＝1；服务器若检测到样本类别为非预设类别，则确定当前的样本词汇对应的回报矩阵中的回报值为惩罚值，示例性地，r(s，a)＝-1。
[0093]
服务器若确定样本词汇和邻接词汇不属于一个样本文本，则将当前的样本词汇对应的回报矩阵中的回报值作为第一预设值，第一预设值不指示奖励或惩罚。示例性地，r(s，a)＝0。
[0094]
服务器将奖励值和惩罚值称为第二预设值，第二预设值指示奖励或惩罚，服务器根据第一预设值和第二预设值构建回报矩阵。
[0095]
示例性地，样本词汇包括x y z，x和y属于同一个样本文本a，z属于样本文本b，x为
垃圾词汇，y为非垃圾词汇，z为垃圾词汇，a为垃圾文本，b为垃圾文本。
[0096][0097][0098]
表二
[0099]
以x为例进行说明，如表二所示，由于x和y属于同一个样本文本a，且x为垃圾词汇，a为垃圾文本，那么从x跳转到y的动作对应的回报值为-1；由于x和z不属于同一个样本文本，那么从x跳转到z的动作对应的回报值为0；从x跳转到x的动作对应的回报值为0。
[0100]
服务器采用上述方式得到每个回报值，然后基于该回报值构建n
×
n的回报矩阵r(s，a)。
[0101]
示例性地，若样本词汇为垃圾词汇，那么样本文本为垃圾文本时，服务器设定回报值为惩罚值；样本文本为非垃圾文本时，服务器设定回报值为奖励值。若样本词汇为非垃圾词汇，那么样本文本为垃圾文本时，服务器设定回报值为惩罚值；样本文本为非垃圾文本时，服务器设定回报值为奖励值。
[0102]
示例性地，若样本词汇为优秀词汇，那么样本文本为优秀文本时，服务器设定回报值为奖励值；样本文本为非优秀文本时，服务器设定回报值为惩罚值。若样本词汇为非优秀词汇，那么样本文本为优秀文本时，服务器设定回报值为奖励值；样本文本为非优秀文本时，服务器设定回报值为惩罚值。
[0103]
服务器根据q-learning状态转移方程得到q矩阵，其中，q-learning状态转移方程的公式为：
[0104][0105]
其中，γ为贪婪因子(0《γ《1)，s表示当前状态，a表示当前动作，表示下一状态，表示下一动作。
[0106]
q矩阵的学习过程如下
[0107]
针对一个样本文本，执行步骤一至步骤六。
[0108]
步骤一：设置一个当前词汇is；
[0109]
步骤二：根据当前词汇is确定行为a，该行为a指示跳转到预设词汇，预设词汇为当前词汇在样本文本中的下一个词汇；
[0110]
步骤三：利用这个指定的行为a，由此得到了预设词汇ia；
[0111]
步骤四：按照上述公式进行计算，得到当前词汇is的回报值和预设词汇ia在初始q矩阵中的矩阵值，然后将回报值和预设词汇ia的矩阵值的和值，作为当前词汇is的q(s，a)新值，这样就得到了q矩阵中的一个q值。
[0112]
步骤五：从预设词汇ia开始，采用步骤二至步骤四，可以得到预设词汇ia的q新值。
[0113]
步骤六：按照上述方式，针对该样本文本中的所有词汇，得到q矩阵中q值。
[0114]
由于一篇样本文本不能覆盖q矩阵中的所有词汇，因此，还需要采用其他样本文本，重复执行步骤一至步骤六，直至得到完整的q矩阵，该q矩阵包括n
×
n个q值(矩阵值)。
[0115]
示例性地，矩阵q如下
[0116][0117]
作为一种可选的实施方式，通过目标检测模型中的q矩阵，确定每个目标词汇的词汇分值包括：服务器确定目标词汇，目标词汇对应的动作会指示跳转到待检测文本中目标词汇的下一个词汇，根据q-learning状态转移方程，可以确定目标词汇的回报值和下一个词汇的矩阵值，服务器将回报值和下一个词汇的矩阵值相加的和值作为目标词汇的矩阵值，并将该矩阵值作为目标词汇的词汇分值，这样就采用q-learning状态转移方程得到了每个目标词汇的词汇分值。
[0118]
基于相同的技术构思，本技术实施例还提供了一种目标文本类别的确定方法流程，如图2所示，流程包括：
[0119]
步骤201：建立初始q矩阵。
[0120]
步骤202：建立初始r矩阵。
[0121]
步骤203：通过训练样本中的样本词汇和样本类别得到r矩阵。
[0122]
步骤204：根据初始q矩阵和r矩阵得到q矩阵，并生成目标检测模型。
[0123]
步骤205：将含有目标词汇的待检测文本输入目标检测模型，输出待检测文本的文本类别。
[0124]
步骤206：将目标词汇和文本类别作为训练样本，返回步骤203。
[0125]
其中，步骤201和步骤202的顺序不分先后。
[0126]
基于相同的技术构思，本技术实施例还提供了一种目标文本类别的确定装置，如图3所示，该装置包括：
[0127]
选取模块301，用于从待检测文本中选取至少一个目标词汇；
[0128]
处理模块302，用于根据目标检测模型对至少一个目标词汇进行处理，得到目标词汇的词汇分值，其中，目标检测模型是基于q矩阵得到的；
[0129]
确定模块303，用于根据至少一个目标词汇的词汇分值，确定待检测文本的文本分值；
[0130]
作为模块304，用于根据预设的预设分值范围和文本类别之间的对应关系，将文本分值对应的文本类别作为待检测文本的目标文本类别。
[0131]
可选地，该装置还用于：
[0132]
将目标词汇和目标文本类别作为训练样本，对回报矩阵进行更新，其中，回报矩阵
中的回报值是基于样本词汇和样本文本的文本类别确定的，样本词汇存在于样本文本中；
[0133]
根据更新后的回报矩阵生成更新后的q矩阵；
[0134]
根据更新后的q矩阵得到更新后的目标检测模型；
[0135]
基于更新后的目标检测模型确定新的待检测文本的文本类别。
[0136]
可选地，该装置还包括：
[0137]
建立模块，用于建立初始q矩阵和初始回报矩阵，其中，初始q矩阵和初始回报矩阵中均包括n
×
n个初始化为0的元素值，n为按照预设方式排列的样本词汇的数量；
[0138]
确定模块，用于基于初始回报矩阵，通过样本词汇和样本文本的样本类别确定回报矩阵，；
[0139]
构建模块，用于针对每个样本文本中的词汇排列顺序，基于初始q矩阵和回报矩阵构建q矩阵，其中，q矩阵中的每行指示一个词汇，q矩阵中的每列指示从当前词汇跳转到下一个词汇的动作；
[0140]
生成模块，用于通过q矩阵生成目标检测模型。
[0141]
可选地，确定模块用于：
[0142]
确定样本词汇的邻接词汇，其中，邻接词汇指示样本词汇在初始回报矩阵中的下一个词汇，初始回报矩阵和回报矩阵具有相同的样本词汇；
[0143]
在样本词汇和邻接词汇不属于同一样本文本的情况下，确定样本词汇的回报值为第一预设值，其中，第一预设值不指示奖励或惩罚；
[0144]
在样本词汇和邻接词汇属于同一样本文本的情况下，确定样本文本的样本类别；
[0145]
根据样本类别确定回报值为第二预设值，其中，第二预设值指示奖励或惩罚；
[0146]
基于第一预设值和第二预设值构建回报矩阵。
[0147]
可选地，确定模块还用于：
[0148]
在样本类别为预设类别的情况下，确定回报矩阵中的回报值为奖励值；
[0149]
在样本类别为非预设类别的情况下，确定回报矩阵中的回报值为惩罚值；
[0150]
将奖励值和惩罚值作为第二预设值。
[0151]
可选地，构建模块用于：
[0152]
采用如下方式遍历每个样本文本中每个样本词汇：
[0153]
确定样本文本中的当前词汇；
[0154]
按照样本文本中的词汇排列顺序，确定当前词汇对应的预设词汇，其中，预设词汇为当前词汇在样本文本中的下一个词汇；
[0155]
基于当前词汇在回报矩阵中的回报值，和预设词汇在初始q矩阵中的矩阵值，确定当前词汇的矩阵值；
[0156]
基于每个矩阵值构建q矩阵。
[0157]
可选地，作为模块304用于：
[0158]
获取数据库中存储的预设分值范围和文本类别之间的对应关系；
[0159]
从预设分值范围中选取出文本分值所在的目标分值范围；
[0160]
根据对应关系，将目标分值范围对应的文本类别作为待检测文本的目标文本类别。
[0161]
基于相同的技术构思，本发明实施例还提供了一种电子设备，如图4所示，包括处
理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，
[0162]
存储器403，用于存放计算机程序；
[0163]
处理器401，用于执行存储器403上所存放的程序时，实现上述步骤。
[0164]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect，pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类别的总线。
[0165]
通信接口用于上述电子设备与其他设备之间的通信。
[0166]
存储器可以包括随机存取存储器(randomaccessmemory，ram)，也可以包括非易失性存储器(non-volatilememory，nvm)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0167]
上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0168]
在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。
[0169]
在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一方法。
[0170]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
[0171]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设
备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0172]
以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据存储方法、装置及网络设备与流程

目标文本类别的确定方法、装置、电子设备和存储介质与流程

相关文献

最热文献