一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本分类方法、装置、计算机设备和计算机可读存储介质与流程

2022-07-22 23:50:01 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,尤其涉及一种文本分类方法、装置、计算机设备和计算机可读存储介质。


背景技术:

2.随着人工智能的不断发展,基于深度学习的自然语言处理(natural language processing,nlp)相关技术取得了很大的进步,文本分类是nlp领域中的一个重要应用方向,文本分类是指对包含文本的数据进行分类,从而确定每个文本所属的类别,使得用户能够方便地获取需要的文本。相关技术中通常利用标注的文本语料训练模型,若标注的文本语料数量不足或质量不佳,会导致训练后的模型分类效果变差,另外,由于文本的语义较为复杂,同一个词在不同的语义组合中可能有着完全相反的含义,使得文本的语义表达能力不佳,影响文本分类的准确性。


技术实现要素:

3.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种文本分类方法、装置、计算机设备和计算机可读存储介质,能够达到更强的语义表达能力,提高文本分类的准确性。
4.第一方面,本发明实施例提供了一种文本分类方法,包括:
5.获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;
6.获取待分类文本;
7.根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;
8.获取预先训练至收敛状态的文本分类模型;
9.基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;
10.根据所述预测概率分布确定所述待分类文本的文本类型。
11.在上述的文本分类方法中,所述根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表,包括:
12.根据所述关键词列表生成与所述关键词列表长度一致的第一特征列表;
13.根据所述关键词列表中的关键词对所述待分类文本进行匹配;
14.若存在匹配成功的关键词,确定匹配成功的关键词在所述关键词列表的第一位置,根据所述第一位置在所述第一特征列表中确定对应的第二位置,将所述第二位置的特征设为第一预设值,否则设为第二预设值。
15.在上述的文本分类方法中,所述文本分类模型通过以下步骤训练得到:
16.获取所述文本分类任务的训练集,其中,所述训练集包括多条携带有预设分类标签的原始语料;
17.根据所述关键词列表对每条所述原始语料进行关键词匹配,生成对应的第二特征列表;
18.根据所述关键词列表、每条所述原始语料和对应的第二特征列表训练所述文本分类模型,直至所述文本分类模型达到收敛状态。
19.在上述的文本分类方法中,所述对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,包括:
20.对所述第一特征列表进行线性回归计算得到第一预测结果;
21.根据所述关键词列表和所述第一特征列表计算得到第二预测结果;
22.对所述待分类文本进行语义分析得到第三预测结果;
23.根据所述第一预测结果、所述第二预测结果和所述第三预测结果计算得到预测概率分布。
24.在上述的文本分类方法中,所述关键词由多个字组成,所述根据所述关键词列表和所述第一特征列表计算得到第二预测结果,包括:
25.对所述关键词进行处理得到每个字的第一字向量;
26.根据多个所述第一字向量计算得到对应的关键词的关键词词向量;
27.根据所述关键词列表中每个关键词的关键词词向量和所述第一特征列表计算得到第二预测结果。
28.在上述的文本分类方法中,所述根据多个所述第一字向量计算得到对应的关键词的关键词词向量,包括:
29.根据所述关键词中的每个字和多个所述第一字向量计算得到每个字的第二字向量;
30.确定所述关键词的词长度,根据多个所述第二字向量和所述词长度计算得到关键词词向量。
31.在上述的文本分类方法中,所述对所述待分类文本进行语义分析得到第三预测结果,包括:
32.对所述待分类文本进行处理得到每个字的第三字向量;
33.根据多个所述第三字向量计算得到所述待分类文本的文本语义向量;
34.根据所述文本语义向量和所述文本分类模型预设的第一模型参数计算得到第三预测结果。
35.第二方面,本发明实施例还提供了一种文本分类装置,包括:
36.第一获取模块,用于获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;
37.第二获取模块,用于获取待分类文本;
38.匹配模块,用于根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;
39.第三获取模块,用于获取预先训练至收敛状态的文本分类模型;
40.预测概率模块,用于基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;
41.分类模块,用于根据所述预测概率分布确定所述待分类文本的文本类型。
42.第三方面,本发明实施例还提供了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的文本分类方法。
43.第四方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的文本分类方法。
44.本发明实施例包括:获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;获取待分类文本;根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;获取预先训练至收敛状态的文本分类模型;基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;根据所述预测概率分布确定所述待分类文本的文本类型。根据本发明实施例的技术方案,通过获取关键词列表和待分类文本,利用关键词列表中的关键词对待分类文本进行关键词匹配,生成的第一特征列表能够反映待分类文本的关键词特征,通过利用预先训练至收敛状态的文本分类模型,对待分类文本进行识别,同时结合关键词列表和第一特征列表进行处理,能够考虑到待分类文本中关键词的语义组合,从而达到更强的语义表达能力,根据文本分类模型输出的预测概率分布可以确定待分类文本的文本类型,有利于提高文本分类的准确性。
45.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
46.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
47.图1是本发明一个实施例提供的文本分类方法的流程图;
48.图2是本发明另一个实施例提供的文本分类方法的流程图;
49.图3是本发明另一个实施例提供的文本分类方法的流程图;
50.图4是本发明另一个实施例提供的文本分类方法的流程图;
51.图5是本发明另一个实施例提供的文本分类方法的流程图;
52.图6是本发明另一个实施例提供的文本分类方法的流程图;
53.图7是本发明另一个实施例提供的文本分类方法的流程图;
54.图8是本发明一个实施例提供的文本分类装置的结构示意图;
55.图9是本发明一个实施例提供的计算机设备的结构示意图。
具体实施方式
56.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
57.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻
辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
58.下面结合附图,对本发明实施例作进一步阐述。
59.如图1所示,本发明第一方面实施例提供一种文本分类方法,文本分类方法包括但不限于有步骤s110至步骤s160:
60.步骤s110:获取关键词列表,其中,关键词列表包括多个与文本分类任务相关的关键词;
61.需要说明的是,关键词列表包含多个与文本分类任务相关的关键词,关键词通常可以由前期业务积累,或者针对语料的数据分析得到,能够有效地反映文本的类型。对于不同的文本分类任务可以获取对应的关键词列表,以情感二分类任务为例,[“很好”,“好极了”,“不”,“开心”]是一个包含四个关键词的关键词列表。
[0062]
步骤s120:获取待分类文本;
[0063]
通过获取待分类文本以确定每个文本所属的文本类型,使得用户能够方便地获取需要的文本,在实际应用中,可以对待分类文本进行分词处理,方便后续文本分类的识别。
[0064]
步骤s130:根据关键词列表对待分类文本进行关键词匹配,生成对应的第一特征列表;
[0065]
需要说明的是,关键词列表包括有多个关键词,对待分类文本进行关键词匹配,生成的第一特征列表能够反映待分类文本的关键词特征,关键词特征可以反映文本类型的特征信息,同时能够有效解决文本分类任务冷启动(第一次上线)分类困难的问题。
[0066]
步骤s140:获取预先训练至收敛状态的文本分类模型;
[0067]
步骤s150:基于文本分类模型,对关键词列表、待分类文本和第一特征列表进行处理,得到预测概率分布,其中,预测概率分布包括多个预设分类标签的概率;
[0068]
随着业务语料的积累,将文本分类模型训练至收敛状态,将关键词列表、待分类文本和第一特征列表输入至文本分类模型进行处理,得到多个预设分类标签的概率,即得到预测概率分布,每个预设分类标签对应一个文本类型。例如,[“正向情感”,“负向情感”]是情感二分类任务的预设分类标签,文本分类模型输出的预测概率分布包括待分类文本属于“正向情感”和“负向情感”的概率。
[0069]
可以理解的是,待分类文本对应的预测概率分布同时受关键词列表、第一特征列表的影响,通过将关键词列表引入文本分类模型的预测计算中,无需大量的训练数据,能够有效解决因训练文本语料数量不足导致文本分类模型效果不佳的问题。另外,由于文本的语义较为复杂,同一个词在不同的语义组合中可能有着完全相反的含义,而第一特征列表能够反映出待分类文本的关键词特征,结合关键词列表和第一特征列表能够考虑到关键词
的语义组合,从而达到更强的语义表达能力。
[0070]
步骤s160:根据预测概率分布确定待分类文本的文本类型。
[0071]
根据文本分类模型输出的预测概率分布,可以得到各个预设分类标签的概率,而预设分类标签对应文本类型,通过预设分类标签的概率大小,可以确定待分类文本的文本类型。具体地,在得到各个预设分类标签的概率后,可以采用排序的方式,从预测概率分布中选取概率最大的预设分类标签为最终预测标签,从而能够确定待分类文本的文本类型。例如,文本分类任务是情感二分类任务,将预设分类标签分为正向情感标签和负向情感标签,若待分类文本为“今天的天气好极了”,文本分类模型输出的预测概率分布为[0.8,0.2],其中,0.8为正向情感标签的概率,0.2为负向情感标签的概率,则可以确定待分类文本为正向情感。
[0072]
进一步地,当确定待分类文本的文本类型,可以将相应的预设分类标签标注在待分类文本上,有利于提高文本的查询和检索效率。
[0073]
上述第一方面的文本分类方法,通过获取关键词列表和待分类文本,利用关键词列表中的关键词对待分类文本进行关键词匹配,生成的第一特征列表能够反映待分类文本的关键词特征,通过利用预先训练至收敛状态的文本分类模型,对待分类文本进行识别,同时结合关键词列表和第一特征列表进行处理,能够考虑到待分类文本中关键词的语义组合,从而达到更强的语义表达能力,根据文本分类模型输出的预测概率分布可以确定待分类文本的文本类型,有利于提高文本分类的准确性。
[0074]
在上述的文本分类方法中,步骤s130中根据关键词列表对待分类文本进行关键词匹配,生成对应的第一特征列表,包括但不限于步骤s210至步骤s230:
[0075]
步骤s210:根据关键词列表生成与关键词列表长度一致的第一特征列表;
[0076]
步骤s220:根据关键词列表中的关键词对待分类文本进行匹配;
[0077]
步骤s230:若存在匹配成功的关键词,确定匹配成功的关键词在关键词列表的第一位置,根据第一位置在第一特征列表中确定对应的第二位置,将第二位置的特征设为第一预设值,否则设为第二预设值。
[0078]
需要说明的是,当获取到关键词列表后,确定关键词列表的长度,并生成与关键词列表长度一致的第一特征列表,再根据关键词列表中的关键词对待分类文本进行精确匹配,若待分类文本中存在匹配成功的关键词,确定被匹配成功的关键词在关键词列表的第一位置,由于第一特征列表的长度和关键词列表的长度一致,则根据第一位置在第一特征列表中确定对应的第二位置,即第一位置和第二位置是一一对应的,这样能够有效地反映待分类文本的关键词特征。
[0079]
具体地,关键词列表为[“很好”,“好极了”,“不”,“开心”],待分类文本为“今天的天气好极了”,最终得到的第一特征列表为[0,1,0,0],其中,第一预设值为1,第二预设值为0,待分类文本中存在匹配成功的关键词“好极了”,则根据“好极了”在关键词列表的第一位置确定对应在第一特征列表中的第二位置,“好极了”处于关键词列表的第二位,则将第一特征列表第二位的特征设为1,其余位置为0。例如,若待分类文本为“我不开心了”,则生成对应的第一特征列表为[0,0,1,1]。
[0080]
可以理解的是,在根据关键词对待分类文本进行匹配时,可能存在同一关键词多次匹配成功的情况,则根据关键词匹配成功的次数和第一预设值确定第二位置的特征,例
如,第一预设值为1,若关键词“好极了”在待分类文本中出现了两次,则第二位置的特征为2,从而使得第一特征列表可以反映待分类文本的词频特征。
[0081]
在上述的文本分类方法中,文本分类模型通过以下步骤训练得到:
[0082]
步骤s310:获取文本分类任务的训练集,其中,训练集包括多条携带有预设分类标签的原始语料;
[0083]
步骤s320:根据关键词列表对每条原始语料进行关键词匹配,生成对应的第二特征列表;
[0084]
步骤s330:根据关键词列表、每条原始语料和对应的第二特征列表训练文本分类模型,直至文本分类模型达到收敛状态。
[0085]
为了完成文本分类任务,需要对文本分类模型进行训练,首先获取文本分类任务的训练集,训练集中包括多条原始语料,每条原始语料是一个句子,且每条原始语料携带有预设分类标签,通常由人工进行标注得到,根据关键词列表中的关键词对每条原始语料进行关键词匹配,生成的第二特征列表能够反映原始语料的关键词特征,提高模型的学习效果,同时利用关键词列表和标注有预设分类标签的原始语料来训练文本分类模型,可以有效解决因训练语料少而影响模型训练效果的问题,根据关键词列表、每条原始语料和对应的第二特征列表按批次训练文本分类模型,当达到收敛状态,表示文本分类模型已训练好,然后可以采用训练得到的文本分类模型对待分类文本进行分类,有利于快速有效地实现文本分类。
[0086]
需要说明的是,第二特征列表的生成过程可参照上述第一特征列表的生成过程。
[0087]
在上述的文本分类方法中,步骤s150中对关键词列表、待分类文本和第一特征列表进行处理,得到预测概率分布,包括但不限于步骤s410至步骤s440:
[0088]
步骤s410:对第一特征列表进行线性回归计算得到第一预测结果;
[0089]
步骤s420:根据关键词列表和第一特征列表计算得到第二预测结果;
[0090]
步骤s430:对待分类文本进行语义分析得到第三预测结果;
[0091]
步骤s440:根据第一预测结果、第二预测结果和第三预测结果计算得到预测概率分布。
[0092]
文本分类模型包括有单特征模块、特征组合模块和文本语义模块,将第一特征列表输入至单特征模块,单特征模块对第一特征列表进行线性回归计算返回第一预测结果,能够反映待分类文本的关键词特征,通过特征组合模块对关键词列表和第一特征列表进行计算得到第二预测结果,能够考虑到关键词特征的组合,根据文本语义模块对待分类文本进行语义分析得到第三预测结果,能够充分考虑到文本的语义特征,通过将第一预测结果、第二预测结果和第三预测结果融合,计算得到最终的预测概率分布。
[0093]
需要说明的是,若仅采用关键词规则对待分类文本进行关键词匹配,通常只考虑单个关键词,没有考虑到关键词特征的组合,而由于文本的语义较为复杂,同一个词在不同的语义组合中可能有着完全相反的含义,例如“开心”这一个关键词,通常代表该句子为正向情感,而当“开心”和“不”两个关键词同时出现时,通常该句子为负向情感,通过结合关键词列表和第一特征列表组合计算,可以达到更强的语义表达能力,有利于提高文本分类准确性。
[0094]
在上述的文本分类方法中,关键词由多个字组成,步骤s420中根据关键词列表和
第一特征列表计算得到第二预测结果,包括但不限于步骤s510至步骤s530:
[0095]
步骤s510:对关键词进行处理得到每个字的第一字向量;
[0096]
步骤s520:根据多个第一字向量计算得到对应的关键词的关键词词向量;
[0097]
步骤s530:根据关键词列表中每个关键词的关键词词向量和第一特征列表计算得到第二预测结果。
[0098]
通过对关键词进行转化处理得到每个字的第一字向量,采用多个第一字向量计算得到对应的关键词的关键词词向量,能够更好地建模低频关键词特征,通过将关键词列表中每个关键词的关键词词向量和第一特征列表计算得到第二预测结果,能够充分考虑不同关键词之间的组合关系。
[0099]
需要说明的是,第一字向量可以采用word2vec模型对文字进行转化得到。
[0100]
在上述的文本分类方法中,步骤s520中根据多个第一字向量计算得到对应的关键词的关键词词向量,包括但不限于步骤s610和步骤s620:
[0101]
步骤s610:根据关键词中的每个字和多个第一字向量计算得到每个字的第二字向量;
[0102]
步骤s620:确定关键词的词长度,根据多个第二字向量和词长度计算得到关键词词向量。
[0103]
需要说明的是,关键词词向量为关键词中每个字的平均字向量,在计算关键词词向量时,首先根据关键词中的每个字和关键词中的多个第一字向量计算得到第二字向量,第二字向量表示字的模型嵌入(embedding)向量表示,可以反映字与字之间的相互影响程度,通过确定关键词的词长度,根据多个第二字向量和词长度计算得到关键词词向量,通过建模关键词的显式组合,可以达到更强的语义表达能力。
[0104]
具体地,将第一特征列表r(长度为l)和关键词列表k(长度为l)输入至特征组合模块,关键词词向量根据以下公式计算得到:
[0105][0106]
其中,为关键词词向量,leni为关键词的词长度,ki表示关键词列表k中第i位置的关键词,k
i,j
表示关键词ki的第j个字,e
word
表示文本分类模型中的第一字向量,其大小为(|v|,h),v为整个词表,|v|为词表大小,h为embedding维度,lookup(k,e
word
)表示字k的embedding表示。
[0107]
第二预测结果根据以下公式计算得到:
[0108][0109]
其中,y
fm
表示第二预测结果,l为关键词列表的长度,为关键词列表k中第i位的关键词的关键词词向量,为关键词列表k中第j位的关键词的关键词词向量,r表示第一特征列表,ri为r中位置i的取值,rj为r中位置j的取值。
[0110]
需要说明的是,由于部分关键词为低频词,容易影响文本分类模型的学习效果。以情感识别为例,“好极了”和“很好”这两个词均为正向情感关键词,两者词义接近,其中“很
好”较为常见,“好极了”较为少见,因为“好极了”在语料中很少,现有方法对于该关键词的学习效果较差,而本技术的文本分类模型考虑关键词的词义进行学习,通过获取关键词中每个字的第一字向量,默认每个字出现的频率相同,再根据多个第一字向量计算得到对应的关键词的关键词词向量,可以提升文本分类模型对低频词规则的学习效果。
[0111]
在上述的文本分类方法中,步骤s430中对待分类文本进行语义分析得到第三预测结果,包括但不限于步骤s710至步骤s730:
[0112]
步骤s710:对待分类文本进行处理得到每个字的第三字向量;
[0113]
步骤s720:根据多个第三字向量计算得到待分类文本的文本语义向量;
[0114]
步骤s730:根据文本语义向量和文本分类模型预设的第一模型参数计算得到第三预测结果。
[0115]
通过对待分类文本进行转化处理得到每个字的第三字向量,可以首先对待分类文本进行分词处理,再对文字进行转化得到,根据多个第三字向量计算得到待分类文本的文本语义向量,能够考虑到待分类文本上下文之间、字与字之间的语义信息,使得用于表示待分类文本的文本语义向量的特征信息更加丰富,并根据文本语义向量和文本分类模型预设的第一模型参数计算得到第三预测结果,进而使得最终的文本分类结果更加精确。需要说明的是,第三字向量的获取过程可以与第一字向量的获取过程相同。
[0116]
具体地,文本语义模块包括有预训练模型,第三预测结果可以采用基于变换器的双向编码器表示技术(bidirectional encoder representations from transformers,bert)预训练模型计算得到,bert是一种深度双向的、无监督的语言表示,仅使用纯文本语料库进行预训练的模型,本发明实施例选择bert预训练模型,在处理一个词的时候,能考虑到该词前面词和后面词的信息,从而获取上下文的语义。将待分类文本t和标识符cls传入bert预训练模型,首先获取到每个字的第三字向量,根据多个第三字向量提取得到待分类文本的文本语义向量,其中,文本语义向量为bert模型cls位置的语义向量表示,是一个大小为h的向量,通常和embedding大小一致,第一模型参数是文本分类模型预设的参数,在训练过程中学习可得,根据文本语义向量和文本分类模型预设的第一模型参数计算得到第三预测结果。
[0117]
第三预测结果根据以下公式计算得到:
[0118]ytext
=《bert(t)
[cls]
,w
text

[0119]
其中,y
text
表示第三预测结果,bert(t)
[cls]
为bert模型cls位置的语义向量表示,即文本语义向量,w
text
为文本分类模型预设的第一模型参数,是一个大小为h的向量,h为embedding维度。
[0120]
可以理解的是,第三预测结果还可以采用其它预训练模型计算得到,例如采用textcnn预训练模型,用户可以根据实际需求选择不同的预训练模型,本发明实施例不作具体限制。
[0121]
需要说明的是,特征组合模块和文本语义模块共享字向量,第一字向量和第三字向量可以是相同的,例如,特征组合模块中计算关键词“很好”中“好”字的字向量和待分类文本“我今天过得很好”中“好”字的字向量相同,通过进一步计算出“很好”的词向量,并计算得到对应的文本语义向量,能够充分考虑到待分类文本的语义特征,且能够更好地建模低频关键词特征,有利于提高文本分类模型分类结果的准确性。
[0122]
在上述的文本分类方法中,将第一特征列表输入至单特征模块,根据第一特征列表和文本分类模型预设的第二模型参数计算得到第一预测结果,第三预测结果根据以下公式计算得到:
[0123][0124]
其中,y
lr
表示第一预测结果,r表示第一特征列表,l表示第一特征列表的长度,ri为r中位置i的取值,w
linear
为文本分类模型预设的第二模型参数,以向量的形式存在,w
ilinear
为w
linear
位置i的取值,对应于ri。
[0125]
在上述的文本分类方法中,将关键词列表、待分类文本和第一特征列表输入至文本分类模型中,单特征模块、特征组合模块和文本语义模块分别输出第一预测结果、第二预测结果和第三预测结果,对三个模块的结果融合,得到最终的预测概率分布,预测概率分布根据以下公式计算得到:
[0126]
y=σ(y
lr
y
fm
y
text
b)
[0127]
其中,y表示预测概率分布,σ为sigmoid函数,返回结果为0-1之间的数值,y
lr
表示第一预测结果,y
fm
表示第二预测结果,y
text
表示第三预测结果,b为文本分类模型的可学习参数,仅为1维。
[0128]
需要说明的是,本发明实施例的文本分类模型基于wide&deep网络结构,通过利用可学习的第一模型参数和第二模型参数,考虑关键词的词义和组合关系进行学习,大大提升文本分类模型的学习效果,另外,本发明实施例区别于现有技术的文本分类模型,并没有增加太多额外参数,在单特征模块,只引入特征列表长度的参数个数,在特征组合模块,主要利用文本分类模型计算的字向量,没有引入新的模型参数,大大减少额外参数,有利于提高模型的计算速率。
[0129]
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本发明实施例的文本分类方法可以对文本进行情感分类,例如,正向情感或负向情感的分类,还可以是对医疗文本进行分类,例如,个人健康档案、处方、检查报告等,还可以是对含有企业名称及经营范围的文本进行行业标签分类,需要说明的是,本发明实施例的实际应用场景并不仅限于上述情景。
[0130]
基于上述文本分类方法,下面分别提出本发明的文本分类装置、计算机设备和计算机可读存储介质的各个实施例。
[0131]
如图8所示,本发明第二方面实施例提供一种文本分类装置800,图8是本发明一个实施例提供的文本分类装置800的结构示意图。本发明实施例的文本分类装置800包括但不限于第一获取模块810、第二获取模块820、匹配模块830、第三获取模块840、预测概率模块850、分类模块860。第一获取模块810用于获取关键词列表,其中,关键词列表包括多个与文
本分类任务相关的关键词;第二获取模块820用于获取待分类文本;匹配模块830用于根据关键词列表对待分类文本进行关键词匹配,生成对应的第一特征列表;第三获取模块840用于获取预先训练至收敛状态的文本分类模型;预测概率模块850用于基于文本分类模型,对关键词列表、待分类文本和第一特征列表进行处理,得到预测概率分布,其中,预测概率分布包括多个预设分类标签的概率;分类模块860用于根据预测概率分布确定待分类文本的文本类型。
[0132]
根据本发明实施例的文本分类装置,通过获取关键词列表和待分类文本,利用关键词列表中的关键词对待分类文本进行关键词匹配,生成的第一特征列表能够反映待分类文本的关键词特征,通过利用预先训练至收敛状态的文本分类模型,对待分类文本进行识别,同时结合关键词列表和第一特征列表进行处理,能够考虑到待分类文本中关键词的语义组合,从而达到更强的语义表达能力,根据文本分类模型输出的预测概率分布可以确定待分类文本的文本类型,有利于提高文本分类的准确性。
[0133]
在上述的文本分类装置中,根据关键词列表对待分类文本进行关键词匹配,生成对应的第一特征列表,具体包括:
[0134]
根据关键词列表生成与关键词列表长度一致的第一特征列表;
[0135]
根据关键词列表中的关键词对待分类文本进行匹配;
[0136]
若存在匹配成功的关键词,确定匹配成功的关键词在关键词列表的第一位置,根据第一位置在第一特征列表中确定对应的第二位置,将第二位置的特征设为第一预设值,否则设为第二预设值。
[0137]
在上述的文本分类装置中,文本分类模型通过以下步骤训练得到:
[0138]
获取文本分类任务的训练集,其中,训练集包括多条携带有预设分类标签的原始语料;
[0139]
根据关键词列表对每条原始语料进行关键词匹配,生成对应的第二特征列表;
[0140]
根据关键词列表、每条原始语料和对应的第二特征列表训练文本分类模型,直至文本分类模型达到收敛状态。
[0141]
在上述的文本分类装置中,对关键词列表、待分类文本和第一特征列表进行处理,得到预测概率分布,具体包括:
[0142]
对第一特征列表进行线性回归计算得到第一预测结果;
[0143]
根据关键词列表和第一特征列表计算得到第二预测结果;
[0144]
对待分类文本进行语义分析得到第三预测结果;
[0145]
根据第一预测结果、第二预测结果和第三预测结果计算得到预测概率分布。
[0146]
在上述的文本分类装置中,关键词由多个字组成,根据关键词列表和第一特征列表计算得到第二预测结果,具体包括:
[0147]
对关键词进行处理得到每个字的第一字向量;
[0148]
根据多个第一字向量计算得到对应的关键词的关键词词向量;
[0149]
根据关键词列表中每个关键词的关键词词向量和第一特征列表计算得到第二预测结果。
[0150]
在上述的文本分类装置中,根据多个第一字向量计算得到对应的关键词的关键词词向量,具体包括:
[0151]
根据关键词中的每个字和多个第一字向量计算得到每个字的第二字向量;
[0152]
确定关键词的词长度,根据多个第二字向量和词长度计算得到关键词词向量。
[0153]
在上述的文本分类装置中,对待分类文本进行语义分析得到第三预测结果,具体包括:
[0154]
对待分类文本进行处理得到每个字的第三字向量;
[0155]
根据多个第三字向量计算得到待分类文本的文本语义向量;
[0156]
根据文本语义向量和文本分类模型预设的第一模型参数计算得到第三预测结果。
[0157]
需要说明的是,本发明实施例的文本分类装置的具体实施方式及对应的技术效果,可对应参照上述文本分类方法的具体实施方式及对应的技术效果。
[0158]
如图9所示,本发明的第三方面实施例还提供了一种计算机设备900,该计算机设备900包括:存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序。
[0159]
处理器920和存储器910可以通过总线或者其他方式连接。存储器910作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器910可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器910可选包括相对于处理器920远程设置的存储器,这些远程存储器可以通过网络连接至该发号器组件。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。本领域技术人员可以理解的是,图9中示出的计算机设备900并不构成对本发明实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。实现上述实施例的命名实体识别方法所需的非暂态软件程序以及指令存储在存储器910中,当被处理器920执行时,执行上述实施例的文本分类方法,例如,执行以上描述的图1中的方法步骤s110至s160、图2中的方法步骤s210至s230、图3中的方法步骤s310至s330、图4中的方法步骤s410至s440、图5中的方法步骤s510至s530、图6中的方法步骤s610和s620以及图7中的方法步骤s710至s730。
[0160]
根据本发明实施例的计算机设备,通过获取关键词列表和待分类文本,利用关键词列表中的关键词对待分类文本进行关键词匹配,生成的第一特征列表能够反映待分类文本的关键词特征,通过利用预先训练至收敛状态的文本分类模型,对待分类文本进行识别,同时结合关键词列表和第一特征列表进行处理,能够考虑到待分类文本中关键词的语义组合,从而达到更强的语义表达能力,根据文本分类模型输出的预测概率分布可以确定待分类文本的文本类型,有利于提高文本分类的准确性。
[0161]
另外,本发明的第四方面实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于执行上述的文本分类方法。例如,被上述文本分类装置的一个处理器执行,可使得上述处理器执行上述实施例中的文本分类方法,例如,执行以上描述的图1中的方法步骤s110至s160、图2中的方法步骤s210至s230、图3中的方法步骤s310至s330、图4中的方法步骤s410至s440、图5中的方法步骤s510至s530、图6中的方法步骤s610和s620以及图7中的方法步骤s710至s730。
[0162]
根据本发明实施例的计算机可读存储介质,通过获取关键词列表和待分类文本,利用关键词列表中的关键词对待分类文本进行关键词匹配,生成的第一特征列表能够反映
待分类文本的关键词特征,通过利用预先训练至收敛状态的文本分类模型,对待分类文本进行识别,同时结合关键词列表和第一特征列表进行处理,能够考虑到待分类文本中关键词的语义组合,从而达到更强的语义表达能力,根据文本分类模型输出的预测概率分布可以确定待分类文本的文本类型,有利于提高文本分类的准确性。
[0163]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0164]
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献