一种文本分类的方法、装置、设备和可读存储介质与流程

2022-07-02 11:48:47 来源：中国专利 TAG：

1.本技术涉及文本分类的领域，具体而言，涉及一种文本分类的方法、装置、设备和可读存储介质。

背景技术：

2.随着信息时代的飞速发展，互联网中累积了大量的文本信息，为了能有效管理和利用这些分布的海量信息，对文本进行分类成为备受关注的领域。
3.目前，文本分类的方法主要是通过抽取文本信息中的特征数据，根据文本信息包含的特征数据对整个文本进行分类存储。
4.上述文本分类的方法只是根据文本包含的信息对文本进行分类，因此，对复杂文本分类得到的结果存在不准确的现象。
5.因此，如何对复杂文本进行准确的分类处理，是一个需要解决的技术问题。

技术实现要素：

6.本技术实施例的目的在于提供一种文本分类的方法，通过本技术的实施例的技术方案可以达到对复杂文本进行准确的分类处理的效果。
7.第一方面，本技术实施例提供了一种文本分类的方法，包括，计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值；基于多个差值和多个词语对应的多个向量，确定待分类文本对应的向量矩阵；基于向量矩阵，确定待分类文本对应的多个类别和每一类别对应的置信度；基于待分类文本对应的多个类别和每一类别对应的置信度，将置信度最高的对应的类别作为待分类文本的所属类别。
8.在上述过程中，通过计算多个词语中的相邻两个词语对应向量的多个差值，通过数据的形式可以体现两个词语之间的实际含义关系，通过分析复杂关系给出对应的矩阵，来完成文本的分类，可以达到对复杂文本进行准确的分类处理的效果。
9.一种实施例中，基于多个差值和多个词语对应的多个向量，确定待分类文本对应的向量矩阵，包括：
10.基于多个差值的比例，在待分类文本中多个词语中的相邻两个词语对应向量之间插入对应数量的插值向量；
11.将插入的插值向量和待分类文本中多个词语对应的向量转化成向量矩阵。
12.在上述过程中，确定了不同词向量之间的差值比例，根据不同的差值占比在两个词向量之间插入对应数量的插值向量，可以通过插入不同数量的插值向量的方式，可以准确的通过数据的方式表示两个词语之间的复杂关系。
13.一种实施例中，计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值，包括：
14.将待分类文本中多个词语转化成词向量，并进行归一化处理，得到处理后的多个词向量；
15.计算多个词向量中相邻两个词向量的差值。
16.在上述过程中，通过归一化的处理，可以通过几何图形的方式将每一词向量表示，可以更明显的体现两个词语之间的复杂关系。
17.一种实施例中，在计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值之前，方法还包括：
18.将初始文本进行预处理，得到待分类文本，其中，预处理包括：去除标点和格式统一化。
19.在上述过程中，对初始文本进行预处理之后，可以在将文本中词语转化成词向量和计算相邻两个词语对应向量的差值时，得到的结果更加准确。
20.第二方面，本技术实施例提供了一种文本分类的装置，包括：
21.计算模块，用于计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值；
22.第一确定模块，用于基于多个差值和多个词语对应的多个向量，确定待分类文本对应的向量矩阵；
23.第二确定模块，用于基于向量矩阵，确定待分类文本对应的多个类别和每一类别对应的置信度；
24.分类模块，用于基于待分类文本对应的多个类别和每一类别对应的置信度，将置信度最高的对应的类别作为待分类文本的所属类别。
25.可选的，第一确定模块具体用于：
26.基于多个差值的比例，在待分类文本中多个词语中的相邻两个词语对应向量之间插入对应数量的插值向量；
27.将插入的插值向量和待分类文本中多个词语对应的向量转化成向量矩阵。
28.可选的，计算模块具体用于：
29.将待分类文本中多个词语转化成词向量，并进行归一化处理，得到处理后的多个词向量；
30.计算多个词向量中相邻两个词向量的差值。
31.可选的，所述装置还包括：
32.预处理模块，用于所述计算模块在计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值之前，将初始文本进行预处理，得到待分类文本，其中，预处理包括：去除标点和格式统一化。
33.第三方面，本技术实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。
34.第四方面，本技术实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
35.本技术的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
36.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
37.图1为本技术实施例提供的一种文本分类的方法的流程图；
38.图2为本技术实施例提供的一种通过球形特征表示向量之间关系的示意图；
39.图3为本技术实施例提供的又一种通过球形特征表示向量之间关系的示意图；
40.图4为本技术实施例提供的一种文本分类的装置的示意框图；
41.图5为本技术实施例提供的一种文本分类的装置的结构示意框图。
具体实施方式
42.下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和显示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
43.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
44.首先对本技术实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。
45.文本卷积神经网络text convolutional neural networks，(textcnn)，其目标是将原本广泛应用在图像领域的卷积神经网络通过词向量矩阵模拟图像的方式应用在文本上。
46.其次，针对本技术涉及的技术领域以及背景进行详细说明。
47.本技术应用于文本分类的场景，具体场景主要为语音文本的分类，例如，可以是用户和坐席之间产生的录音，根据场景以及语音中的特征信息对语音文本进行分类，对用户语音的分类可以是实际问题、虚拟问题、价格问题和其它等，价格问题又可以是价格调研问题和价格敏感问题等，对坐席语音的分类一般为介绍服务、促成和其它等，在保险客服中介绍的类别有很多，例如：非车-座位险，非车-爱健康等，还可以是重要会议上录制的一些录音，例如：学校会议、家庭会议和公司会议等会议录制的语音，根据学校的会议的分类可以是制度会议和奖惩会议的分类，还可以是教师会议和学生会议等内容的分类，上课时，还可以对老师讲的内容进行录音，这类语音的分类可以是根据不同学科进行分类，家庭会议可以根据不同的成员有关内容进行分类，更可以是直接对一段文字文本进行直接的分类，除此之外，凡是能用到有关文字文本、语音文本和录音文本等进行分类的内容都属于本技术保护的范围。
48.但是在目前的文本分类的基础上，都只是仅仅根据整个文本或者文本中的词语进行分析，通过抽取文本信息中的特征数据，根据文本信息包含的特征数据对整个文本进行
分类存储。但是这种文本分类的方法只是根据文本包含的信息对文本进行分类，因此，对复杂文本分类得到的结果存在不准确的现象，没有根据词语跟词语之间的内在联系进行文本分类，丢失了文本的结构信息，很难发现文本中的转折关系等复杂的词语之间的关系。
49.为此本技术通过计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值；基于多个差值和多个词语对应的多个向量，确定待分类文本对应的向量矩阵；基于向量矩阵，确定待分类文本对应的多个类别和每一类别对应的置信度；基于待分类文本对应的多个类别和每一类别对应的置信度，将置信度最高的对应的类别作为待分类文本的所属类别。可以达到对复杂文本进行准确的分类处理的效果。
50.本技术实施例中，执行主体可以为文本分类系统中的文本分类设备，实际应用中，文本分类设备可以为终端设备和服务器设备等电子设备，在此不做限制。
51.下面结合图1对本技术实施例的文本分类的方法进行详细描述。
52.请参看图1，图1为本技术实施例提供的一种文本分类的方法的流程图，如图1所示的文本分类的方法包括：
53.步骤110：计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值。
54.在上述过程中，通过计算两个相邻词语对应向量的差值，可以获取两个词语之间的关系差异。
55.其中，待分类文本可以是用户与坐席通话过程中用户的语音文本，或者是坐席的语音文本，也可以是文字文本，还可以是会议录音文本和上课的录音文本等，凡是能够转化成文本的信息，都属于本技术保护的范围。差值代表两个向量在数据上的差异，其中，向量的方向、向量的距离、向量长度和向量的起始点等都可以体现差异，同时也可以表示两个词语之间的关联，包括两个词语的含义差异和结构差异等，例如，向量的距离长度差异越大，可以认为两个词语的含义相差就越大，本技术不限于此。
56.具体的，在执行步骤110之前，还可以采用以下步骤：
57.将初始文本进行预处理，得到待分类文本。
58.在上述过程中，对初始文本进行预处理之后，可以在将文本中词语转化成词向量和计算相邻两个词语对应向量的差值时，得到的结果更加准确。
59.其中，预处理包括：去除标点和格式统一化，还可以包括，除噪、截取和删除等处理。
60.具体的，在执行步骤110时，可以采用以下步骤：
61.步骤1101：将待分类文本中多个词语转化成词向量，并进行归一化处理，得到处理后的多个词向量。
62.步骤1102：计算多个词向量中相邻两个词向量的差值。
63.在上述过程中，通过归一化的处理，可以通过几何图形的方式将每一词向量表示，可以更明显的体现两个词语之间的复杂关系。
64.其中，归一化处理是将每个词向量的模设置为1，可以让每一个词向量通过几何图形的方式在几何图形上表示，例如，可以是近似球形的几何图形，对此，该“球形”为类似球形的一个球状空间，由多维的向量组合而成，一般为300维或者500维等，通过在球形上的每一个向量，可以明确两个词语之间的差异，当两个向量在球形上的距离越远，代表两个词语的差异就越大，反之，代表两个词语之间的差异就越小。
65.步骤120：基于多个差值和多个词语对应的多个向量，确定待分类文本对应的向量矩阵。
66.在上述过程中，通过差值和每一词语对应的向量得到的向量矩阵，不仅包含了每一词语的特征，词语和词语之间的特征也包含在向量矩阵之内，例如，矩阵中两个词语的向量位置的远近可以代表两个词语的含义差距，多个词语向量的方向不同代表多个词语不同或者含义不同等。
67.其中，向量矩阵可以是特征向量矩阵，整个矩阵包含了整个文本的特征、每一词语的特征以及词语之间的关系特征等。
68.具体的，在执行步骤120时，可以采用以下步骤：
69.步骤1201：基于多个差值的比例，在待分类文本中多个词语中的相邻两个词语对应向量之间插入对应数量的插值向量。
70.步骤1202：将插入的插值向量和待分类文本中多个词语对应的向量转化成向量矩阵。
71.在上述过程中，确定了不同词向量之间的差值比例，根据不同的差值占比在两个词向量之间插入对应数量的插值向量，可以通过插入不同数量的插值向量的方式，可以准确的通过数据的方式表示两个词语之间的复杂关系。
72.其中，向量矩阵可以根据需求设置，例如：假设词向量为300维的词向量，待分类文本有5个字，则矩阵为5*300的矩阵，插值向量用于表示两个词语之间的差异特征，在几何图形中，插值向量表示两个词语对应向量在几何图形上的点之间的连线上的点与零点之间形成的向量，差值的比例可以用在几何图形中距离的长短计算，例如，在“球形”上标识出每一向量的位置，通过位置之间的多个距离的值计算该差值比例。下面以球体为几何图形对该方法计算差值比例的方式进行详细描述。
73.请参看图2，图2为本技术实施例提供的一种通过球形特征表示向量之间关系的示意图，通过如图2所示的几何图形特征计算词向量之间的差值比例的方法如下：
74.以“我吃饭了”这句话为例，可以将其分为“我”、“吃饭”和“了”三个词，转化成对应向量并进行归一化之后，映射在近似球体的几何图形上，可以看出，三个词之间连线的长度相等，因此这三个词向量之间的差值比例为1：1：1，也就代表三个词之间相互的关系差别(可以是含义差别或者是结构差别等)都是一样的。
75.基于上述差值比例的算法，下面根据图3描述如何在两个词之间插入插值，并将词语和插值对应的向量转化成向量矩阵。
76.请参看图3，图3为本技术实施例提供的又一种通过球形特征表示向量之间关系的示意图，通过图3所示的几何图形特征将对应的词向量转化成矩阵的方法如下：
77.以“我今天吃饭了”这句话为例，可以将其分为“我”、“今天”、“吃饭”和“了”四个词，转化成对应向量并进行归一化之后，映射在近似球体的几何图形上，如图3中的a可以测量出，四个词之间连线的长度比例为4：3：2，因此这四个词向量之间的差值比例为4：3：2，所以根据上述比例可以在词语之间插入对应数量的插值，如图3中的b：我，插值，插值，插值，插值，今天，插值，插值，插值，吃饭，插值，插值，了，例如，“我”和“今天”之间插入四个插值，“今天”和“吃”之间插入三个插值，“吃饭”和“了”之间插入两个插值，对应的将词语和插值转化成向量，转化的向量表示几何图形上两个词对应的点之间的连线上所有的点与几何中
心的零点形成的向量，将所有的向量最后转化成对应的矩阵。
78.步骤130：基于向量矩阵，确定待分类文本对应的多个类别和每一类别对应的置信度。
79.在上述过程中，通过矩阵的特征，可以得到该待分类文本可能属于那些类别，和这些类别对应的置信度。
80.其中，可以是通过textcnn对向量矩阵的处理，直接得到该待分类文本可能属于那些类别和这些类别对应的置信度，该方法相较于传统textcnn分类的精确和效率均有较大提升，并且能够处理更复杂的文本分类任务。
81.步骤140：基于待分类文本对应的多个类别和每一类别对应的置信度，将置信度最高的对应的类别作为待分类文本的所属类别。
82.在上述过程中，在得到的该待分类文本可能属于哪些类和这些类对应的置信度中，置信度最高的那类就是该待分类文本的所属类别，使最终的分类结果更具可信度。
83.其中，还可以根据每一类别对应的置信度，将多个类别进行排序，其中第一个为置信度最高的类别，也就是待分类文本的所属类别。
84.前文结合图1-图3描述了文本分类的方法，下面结合图3-图4描述文本分类的装置。
85.请参照图4，为本技术实施例中提供的一种文本分类的装置400的示意框图，该装置400可以是电子设备上的模块、程序段或代码。该装置400与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置400具体的功能可以参见下文中的描述，为避免重复，此处适当省略详细描述。
86.可选的，所述装置400包括：
87.计算模块，用于计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值；
88.第一确定模块410，用于基于多个差值和多个词语对应的多个向量，确定待分类文本对应的向量矩阵；
89.第二确定模块420，用于基于向量矩阵，确定待分类文本对应的多个类别和每一类别对应的置信度；
90.分类模块430，用于基于待分类文本对应的多个类别和每一类别对应的置信度，将置信度最高的对应的类别作为待分类文本的所属类别。
91.可选的，第一确定模块具体用于：
92.基于多个差值的比例，在待分类文本中多个词语中的相邻两个词语对应向量之间插入对应数量的插值向量；
93.将插入的插值向量和待分类文本中多个词语对应的向量转化成向量矩阵。
94.可选的，计算模块具体用于：
95.将待分类文本中多个词语转化成词向量，并进行归一化处理，得到处理后的多个词向量；
96.计算多个词向量中相邻两个词向量的差值。
97.可选的，所述装置还包括：
98.预处理模块，用于所述计算模块在计算待分类文本中多个词语中的相邻两个词语
对应向量的多个差值之前，将初始文本进行预处理，得到待分类文本，其中，预处理包括：去除标点和格式统一化。
99.请参照图5为本技术实施例中提供的一种文本分类的装置500的结构示意框图，该装置可以包括存储器510和处理器520。可选的，该装置还可以包括：通信接口530和通信总线540。该装置与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置具体的功能可以参见下文中的描述。
100.具体的，存储器510，用于存储计算机可读指令。
101.处理器520，用于处理存储器存储的可读指令，能够执行图1方法实施例110至140各个步骤。
102.通信接口530，用于与其他节点设备进行信令或数据的通信。例如：用于与服务器或者终端的通信，或者与其它设备节点进行通信，本技术实施例并不限于此。
103.通信总线540，用于实现上述组件直接的连接通信。
104.其中，本技术实施例中设备的通信接口530用于与其他节点设备进行信令或数据的通信。存储器510可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器510可选的还可以是至少一个位于远离前述处理器的存储装置。存储器510中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器520执行时，电子设备执行上述图1所示方法过程。处理器520可以用于装置400上，并且用于执行本技术中的功能。示例性地，上述的处理器520可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，本技术实施例并不局限于此。
105.本技术实施例还提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图1所示方法实施例中电子设备所执行的方法过程。
106.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。
107.综上所述，本技术实施例提供一种文本分类的方法、装置、电子设备和可读存储介质，该方法包括，计算待分类文本中多个词语中的相邻两个词语对应向量的多个差值；基于多个差值和多个词语对应的多个向量，确定待分类文本对应的向量矩阵；基于向量矩阵，确定待分类文本对应的多个类别和每一类别对应的置信度；基于待分类文本对应的多个类别和每一类别对应的置信度，将置信度最高的对应的类别作为待分类文本的所属类别。通过该方法可以达到对复杂文本进行准确的分类处理的效果。
108.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也
可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
109.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
110.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
111.以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
112.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。
113.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于深度学习的方面级情感分类方法

一种文本分类的方法、装置、设备和可读存储介质与流程

相关文献

最热文献