一种文本处理方法、装置、设备和存储介质与流程

2022-04-02 06:31:20 来源：中国专利 TAG：

1.本技术涉及计算机技术，具体涉及一种文本处理方法、装置、设备和存储介质。

背景技术：

2.各大媒体平台会产生与公司相关的正面或负面的舆情。这些舆情对公司的影响力巨大。需要感知并能精准分辨这些舆情的类型。
3.目前，舆情可能会以文本形式体现。相关技术中，一般会先将待处理文本拆分为若干文本序列，然后针对每一条文本序列进行编码(编码可以理解为特征提取)，得到编码后的文本序列，然后再汇总每一条编码后的文本序列，得到所述待处理文本的编码结果，并基于待处理文本的编码结果进行待处理文本的分类。
4.以上操作过程中，在针对每一条文本序列进行编码时，只会依据当前文本序列包含的文本数据进行编码，其感受野(参考卷积处理中的感受野的概念)比较局限，编码效果并不理想，进而影响到待处理文本的分类效果。

技术实现要素：

5.有鉴于此，本技术至少公开一种文本处理方法。该方法可以包括：对待处理文本进行切分操作，得到n个文本序列；针对所述n个文本序列中的每一文本序列，基于所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列；对编码后的n个所述文本序列进行编码，得到所述待处理文本对应的编码结果，并根据所述编码结果，确定所述待处理文本的文本类型。
6.在一些实施例中，所述针对所述n个文本序列中的每一文本序列，结合所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列，包括：针对所述n个文本序列执行多轮编码操作，得到编码后的n个所述文本序列；其中，每一轮编码操作如下：针对上一次编码操作得到的所述n个文本序列中的每一文本序列，将所述文本序列，与其前后相邻的文本序列中的至少部分文本数据进行组合，得到组合文本序列，对所述组合文本序列进行编码，得到编码后的组合文本序列，在所述编码后的组合文本序列中，删除与所述至少部分文本数据对应的编码数据，得到本次编码操作后的所述文本序列。
7.在一些实施例中，所述文本序列的长度为第一预设文本长度；所述针对上一次编码操作得到的所述n个文本序列中的每一文本序列，将所述文本序列，与其前后相邻的文本序列中的至少部分文本数据进行组合，得到组合文本序列，包括：从所述n个文本序列的第一个文本序列开始，将预设窗口以所述第一预设文本长度为步长在所述n个文本序列中进行滑动，并将每次滑动之后，所述预设窗口内包含的片段确定为所述组合文本序列；所述预设窗口的窗口大小为第二预设文本长度；所述第二预设文本长度为所述第一预设文本长度与所述至少部分文本数据的数据长度之和。
8.在一些实施例中，所述文本序列包含指示所述文本序列语义信息的预设字符；所
述对编码后的n个所述文本序列进行编码，得到所述待处理文本对应的编码结果，包括：将n个所述文本序列中每一文本序列包含的预设字符进行汇总，得到与所述待处理文本对应的字符序列；对所述字符序列进行编码，得到所述待处理文本对应的编码结果。
9.在一些实施例中，所述针对所述n个文本序列中的每一文本序列，基于所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列，包括：基于预设的第一编码单元，针对所述n个文本序列中的每一文本序列，结合所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列；所述对编码后的n个所述文本序列进行编码，得到所述待处理文本对应的编码结果，包括：基于预设的第二编码单元，对编码后的n个所述文本序列进行编码，得到所述待处理文本对应的编码结果。
10.在一些实施例中，所述第一编码单元与所述第二编码单元包括bert模型，所述bert模型包含至少一个transformer层；所述对所述组合文本序列进行编码，包括：利用所述第一编码单元包含的与本次编码操作对应的transformer层对所述组合文本序列进行编码；所述对所述字符序列进行编码，包括：利用所述第二编码单元包含的至少一个transformer层对所述字符序列进行编码。
11.在一些实施例中，所述bert模型为通过文本训练样本集进行预训练得到的模型。
12.在一些实施例中，所述bert模型的输入长度为第三预设文本长度；所述第三预设文本长度大于所述第二预设文本长度；所述利用所述第一编码单元包含的与本次编码操作对应的transformer层对所述组合文本序列进行编码，包括：将所述组合文本序列进行字符补全操作，得到第三预设文本长度的第一输入序列；将所述第一输入序列输入所述第一编码单元包含的与本次编码操作对应的transformer层进行编码；所述利用所述第二编码单元包含的至少一个transformer层对所述字符序列进行编码，包括：将所述字符序列进行字符补全操作，得到第三预设文本长度的第二输入序列；将所述第二输入序列输入所述第二编码单元包含的至少一个transformer层进行编码。
13.本技术还提出一种文本处理装置，包括：切分模块，对待处理文本进行切分操作，得到n个文本序列；第一编码模块，针对所述n个文本序列中的每一文本序列，基于所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列；第二编码与分类模块，对编码后的n个所述文本序列进行编码，得到所述待处理文本对应的编码结果，并根据所述编码结果，确定所述待处理文本的文本类型。
14.本技术还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如前述任一实施例示出的文本处理方法。
15.本技术还提出一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于使处理器执行如前述任一实施例示出的文本处理方法。
16.前述方案中，第一，先将待处理文本切分为多个文本序列，然后对每个文本序列进行编码后，再对多个文本序列的编码结果进行编码，得到表征所述待处理文本语义的编码结果，最后在基于所述编码结果对待处理文本进行分类。从而可以实现长文本的分类。
17.第二，在针对待处理文本的每一文本序列进行编码的过程中，可以结合所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后
的所述文本序列，如此相当于扩大了对文本序列进行编码时候的感受野，与相关技术相比，可以得到更精确的文本序列编码效果，进而可以得到更好的文本分类效果。
18.第三，通过针对所述n个舆情序列执行多轮编码操作，得到编码后的n个所述舆情序列，其中每次编码的输入均结合前后舆情序列的至少部分数据，编码的输出均会删除与所述至少部分数据对应的编码数据，如此操作类似于卷积操作，随着编码操作次数加深，舆情序列可以看到的更多的上下文信息，解决舆情切分带来的信息丢失问题，相当于进一步扩大了对舆情序列进行编码时候的感受野，得到更精确的舆情序列编码效果，进而可以得到更好的舆情分类效果。
19.第四，可以采用bert模型进行编码，可以利用其包含的transformer的自注意力机制层，在进行针对输入舆情的目标字符进行编码时，可以结合所述目标字符与所述输入舆情包含的其它字符之间的语义信息，得到准确的编码结果，进而得到准确的舆情分析结果。
20.第五，可以采用使用了大量训练样本进行预训练后的bert模型进行编码，有效的将文本通识语知识迁移学习到当前的文本任务，提升编码效果。
21.应当理解的是，以上所述的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
22.为了更清楚地说明本技术一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
23.图1为本技术实施例示出的一种文本处理方法的方法流程示意图；
24.图2为本技术实施例示出的一种多轮编码操作示意图；
25.图3为本技术实施例示出的一种多轮编码操作示意图；
26.图4为本技术实施例示出的一种舆情分析流程示意图；
27.图5为本技术实施例示出的一种文本处理装置的结构示意图；
28.图6为本技术实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
29.下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的设备和方法的例子。
30.在本技术使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在可以包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
31.基于此，本技术提出一种文本处理方法。该方法中在针对待处理文本的每一文本
序列进行编码的过程中，可以结合所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列，如此相当于扩大了对文本序列进行编码时候的感受野，与相关技术相比，可以得到更精确的文本序列编码效果，进而可以得到更好的文本分类效果。
32.请参见图1，图1为本技术实施例示出的一种文本处理方法的方法流程示意图。图1示出的文本处理方法可以应用于电子设备中。其中，所述电子设备可以通过搭载与所述文本处理方法对应的软件逻辑执行所述文本处理方法。所述电子设备的类型可以是笔记本电脑，计算机，服务器，手机，掌上电脑(personal digital assistant，pda)等。在本技术中不特别限定所述电子设备的类型。所述电子设备也可以是客户端设备或服务端设备，在此不作特别限定。
33.如图1所示，所述方法可以包括s102-s106。除特别说明外，本技术不特别限定这些步骤的执行顺序。
34.其中，s102，对待处理文本进行切分操作，得到n个文本序列。
35.所述待处理文本为需要识别类型的文本。在不同的场景中所述待处理文本可以具有不同的分类。例如，在舆情分析场景中，所述待处理文本可以是舆情文本。示例性的，舆情文本可以包括正面文本与负面文本。当然在一些实施例中也可以对正面文本和负面文本再进行细分类。再例如，在新闻分类场景中，所述待处理文本可以是新闻文本。示例性的，新闻文本可以包括体育，文化，教育等类型。
36.按照一定的文本长度统计方法，可以得到文本长度。示例性的，所述文本长度统计方法可以包括将文本包括的字符数量作为文本长度。其中，一个汉字作为一个字符，一个单词(包括英文，法文等)也作为一个字符。例如，“这条评论很nice”的文本长度为6。
37.s102中，可以按照第一预设文本长度，对待处理文本进行切分操作，得到n个文本序列。
38.所述第一预设文本长度为经验长度，可以根据需求进行设定。
39.在一些实施方式中，s102中，可以采用窗口滑动的方法进行所述切分操作。示例性的，可以设置窗口大小和移动步长均为所述第一预设文本长度的滑动窗口；从所述待处理文本第一个字符开始，按照所述移动步长移动所述滑动窗口，并在每次移动后，将所述滑动窗口内的字符确定为一个文本序列；当滑动窗口完成滑动即可得到n个所述第一预设文本长度的文本序列。可以理解的是，如果第n个文本序列的长度达不到所述第一预设文本长度，可以采用没有含义的空白字符(例如，pad字符)进行补全操作。
40.s104，针对所述n个文本序列中的每一文本序列，结合所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列。
41.基于编码机制，进行编码后得到的编码后的所述文本序列可以指示所述文本序列的语义信息。
42.本步骤中，可以根据需求，预先设定所述至少部分文本数据的数据长度。
43.然后可以从所述n个文本序列的第一个文本序列开始，依次将每一文本序列作为当前文本序列，然后执行以下步骤：
44.获取所述当前文本序列的前一个文本序列中，与所述数据长度匹配的第一字符，以及所述当前文本序列的后一个文本序列中，与所述数据长度匹配的第二字符；需要说明
的是，针对第一个文本序列对应的第一字符和末尾文本序列对应的第二字符可以采用无意义的字符(例如pad字符)进行填充。
45.将所述第一字符，所述当前文本序列，所述第二字符进行组合，得到组合文本序列；
46.将所述组合文本序列进行编码，得到编码后的组合文本序列，在所述编码后的组合文本序列中，删除与所述第一字符和第二字符分别对应的编码数据，得到编码后的所述文本序列。
47.本步骤中涉及的编码是指利用神经网络进行特征提取的过程。本步骤中可以通过自然语言处理(nlp，natural language processing)模型进行所述编码。在一些实施例中，可以采用基于自主力机制的transformer进行所述编码。
48.所述transformer中包含很多个自注意力机制层，在进行针对输入文本的目标字符进行编码时，可以结合所述目标字符与所述输入文本包含的其它字符之间的语义信息，得到准确的编码结果。
49.请参见图2，图2为本技术实施例示出的一种多轮编码操作示意图。
50.假设对待处理文本分成了4个文本序列。如图2所示，针对2号文本序列，如图2中括号示意的范围，可以将1号文本序列中位置靠前的一部分第一字符，2号文本序列，以及3号文本序列中位置靠后的一部分第二字符，进行组合得到组合文本序列，然后可以将组合文本序列输入transformer层进行编码，得到编码后的组合文本序列，并去除与所述第一字符和第二字符分别对应的编码数据，得到编码后的2号文本序列。如此可以在编码过程中，结合文本序列上下文信息，扩宽编码感受野，提升编码效果。
51.s106，对编码后的n个所述文本序列进行编码，得到所述待处理文本对应的编码结果，并根据所述编码结果，确定所述待处理文本的文本类型。
52.本步骤中，可以汇总编码后的n个所述文本序列，得到汇总结果，然后对实施汇总结果进行编码得到所述待处理文本对应的编码结果。所述编码结果结合了n个所述文本序列的编码信息，可以指示所述待处理文本的语义信息，可以用于针对所述待处理文本的文本分类。
53.在一些实施例中，所述文本序列可以包含指示所述文本序列的语义信息的预设字符。可以将n个所述文本序列中每一文本序列包含的预设字符进行汇总，得到与所述待处理文本对应的字符序列。由此可以简化得到所述编码结果的运算量，提升文本处理效率。
54.在一些实施方式中，可以在对所述文本序列进行编码之前，在所述文本序列中添加所述预设字符(比如，cls字符)。所述预设字符可以作为所述文本序列的首字符。然后再将所述文本序列进行编码，得到编码后的文本序列，基于编码机制，所述预设字符可以指示所述文本序列的语义信息。之后s106中，可以对编码后的每一文本序列包含的所述预设字符进行汇总，得到可以表征待处理文本语义的字符序列，即所述编码结果。
55.以transformer编码为例。可以在文本序列中添加cls字符。然后基于所述transformer编码后，所述cls字符可以指示所述文本序列的语义信息。在s106中，可以对编码后的每一文本序列包含的所述cls字符进行汇总，得到可以表征待处理文本语义的cls字符序列，即所述编码结果。
56.得到所述编码结果后，可以根据所述编码结果，确定所述待处理文本的文本类型。
57.所述编码结果可以很好的指示待处理文本的语义信息，将所述编码结果输入分类器，即可得到所述待处理文本的文本类型。所述分类器可以经过一些标注了文本类型的文本样本进行有监督训练得到。所述文本样本可以为利用s102-s106进行编码后得到的编码结果，所述文本类型为文本样本的真实类型。
58.例如，以需要区分正面舆情和负面舆情为例。所述分类器为基于softmax函数构建的二分类器，在对分类器训练时，可以获取若干舆情样本。所述舆情样本包括利用s102-s106得到对应的编码结果，以及标注信息(指示该舆情样本为正面舆情还是负面舆情)。然后可以基于所述舆情样本，对所述二分类器进行有监督训练(有监督训练过程可以参照相关技术，在此不坐下详述)。完成训练的二分类器即具备区分正面舆情和负面舆情的能力。
59.根据s102-s106记载的方案，在针对待处理文本的每一文本序列进行编码的过程中，可以结合所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列，如此相当于扩大了对文本序列进行编码时候的感受野，与相关技术相比，可以得到更精确的文本序列编码效果，进而可以得到更好的文本分类效果。
60.此外，该方法中，先将待处理文本切分为多个文本序列，然后对每个文本序列进行编码后，再对多个文本序列的编码结果进行编码，得到表征所述待处理文本语义的编码结果，最后在基于所述编码结果对待处理文本进行分类。从而可以实现长文本的分类。
61.以需要区分正面舆情和负面舆情为例。根据s102-s106，可以将待处理舆情拆分为n个舆情序列，然后，针对每一舆情序列可以结合其前后舆情序列的语义信息，拓宽感受野，得到编码后的舆情序列，之后，可以对编码后的舆情序列进行汇总，得到待处理舆情的编码结果，最后可以将所述编码结果输入预先训练的二分类器，得到所述待处理文本的舆情类型。不难发现，在对每一舆情序列进行编码的过程中，可以结合其前后舆情序列的语义信息，拓宽了感受野，可以得到更精确的舆情序列编码效果，进而可以得到更好的舆情分类效果。
62.在一些实施例中，为了进一步拓宽编码时的感受野，可以参考卷积处理，重复执行多轮编码操作，随着编码操作次数加深，文本序列可以看到的更多的上下文信息，解决文本切分带来的信息丢失问题，相当于进一步扩大了对文本序列进行编码时候的感受野，得到更精确的文本序列编码效果，进而可以得到更好的文本分类效果。
63.在s104中，可以针对所述n个文本序列执行多轮编码操作，得到编码后的n个所述文本序列。
64.其中，在第一轮编码操作中，可以针对s102切分得到的n各文本序列中的每一文本序列，将所述文本序列，与其前后相邻的文本序列中的至少部分文本数据进行组合，得到组合文本序列，对所述组合文本序列进行编码，得到编码后的组合文本序列，在所述编码后的组合文本序列中，删除与所述至少部分文本数据对应的编码数据，得到第一轮编码操作后的所述文本序列。
65.从第二次所述编码操作开始，每一轮编码操作的输入为上一次编码操作得到的所述n个文本序列中的每一文本序列，其余操作可以参照第一轮编码操作，在此不做详述。
66.通过针对所述n个文本序列执行多轮编码操作，得到编码后的n个所述文本序列，其中每次编码的输入均结合前后文本序列的至少部分数据，编码的输出均会删除与所述至
少部分数据对应的编码数据，如此操作类似于卷积操作，随着编码操作次数加深，文本序列可以看到的更多的上下文信息，解决文本切分带来的信息丢失问题，相当于进一步扩大了对文本序列进行编码时候的感受野，得到更精确的文本序列编码效果，进而可以得到更好的文本分类效果。
67.请参见图3，图3为本技术实施例示出的一种多轮编码操作示意图。示例性的，图3示意出前两轮编码操作的流程。后续编码操作与示出的编码操作类似，未在图3中示出。
68.在一些实施例中，可以采用窗口滑动的方式获取组合文本序列。
69.具体的，可以将预设窗口以第一预设文本长度为步长在所述n个文本序列中进行滑动，并将每次滑动之后，所述预设窗口内包含的片段确定为所述组合文本序列；所述预设窗口的窗口大小为第二预设文本长度；所述第二预设文本长度为所述第一预设文本长度与所述至少部分文本数据的数据长度之和。所述第一预设文本长度为所述文本序列的长度。
70.在一些实施方式中，可以将所述预设窗口的窗口中心置于所述n个文本序列的第一个文本序列的中心，以所述第一预设文本长度为步长在所述n个文本序列中进行滑动，并将每次滑动之后，所述预设窗口内包含的片段确定为所述组合文本序列。
71.如图3所示，在第一轮编码操作中，可以使所述预设窗口从1号文本序列开始进行滑动，经过4次滑动后，即可得到图3示出的4个组合文本序列。比如针对2号文本序列，可以得到由一部分1号文本序列，2号文本序列，和一部分3号文本序列组成的组合文本序列。
72.得到组合文本序列后，可以将文本组合文本序列分别输入transformer层进行编码，得到对应的编码后的组合文本序列。
73.之后可以进行数据删减操作，在编码后的组合文本序列删除与所述至少部分数据对应的编码数据，得到编码操作后的所述文本序列。比如针对与2号文本序列对应的组合文本序列，可以删除其中与1号文本序列和3号文本序列对应的编码数据，得到编码后的2号文本序列。可以理解的是由于2号文本序列编码时结合了上下文信息，因此编码后的所述2号文本序列中也会涵盖1号文本序列和3号文本序列的部分语义信息。
74.将编码后的各文本序列进行组合即可得到第一轮编码之后的4个文本序列。
75.接下来可以第一轮编码之后的4个文本序列作为输入，重复第一编码操作的流程，得到第二次编码之后的4个文本序列操作。比如针对2号文本序列会结合1号文本序列和3号文本序列的部分数据。而3号文本序列已经经过编码，即已包含4号文本序列的部分语义，则在第二次编码操作过程中，2号文本序列的感受野已经扩大到4号文本序列，即感受野更大，以此类推，随着编码次数加深，文本序列的感受野会更大，从而可以得到更精确的文本序列编码效果，进而可以得到更好的文本分类效果。
76.以下结合舆情分析场景进行实施例说明。
77.该场景中，可以针对公司的相关舆情，识别其为正面舆情还是负面舆情。该场景中可以将每一条相关舆情作为待处理舆情，进行分类。该舆情分析场景可以通过舆情分析系统实现。所述舆情分析系统可以包括编码部分与分类部分。
78.所述编码部分可以包含预设的第一编码单元和预设的第二编码单元。分类部分可以采用预先训练的基于softmax构建的二分类器。所述二分类器可以用于区分正面舆情和负面舆情。
79.所述第一编码单元用于对切分得到的舆情序列进行编码，所述第二编码单元用于
对第一编码单元输出的编码后的各舆情序列进行汇总与编码，得到待处理舆情的编码结果。所述第二编码单元的输出可以作为二分类器的输入，得到针对待处理舆情的分类结果。
80.所述第一编码单元与所述第二编码单元可以包括bertt或者albert模型。以下以采用bert模型进行编码为例。所述bert模型为一种nlp模型，该模型可以用于对文本的编码(特征提取)。所述bert模型包含至少一个transformer层。所述transformer层用于执行具体的编码任务。transformer的输入的字符和输出的字符一一对应。
81.所述bert模型可以为通过文本训练样本集进行预训练得到的模型(预训练过程可以参照相关技术，在此不做详述)。由此可以采用使用了大量训练样本进行预训练后的bert模型进行编码，有效的将文本通识语义知识迁移学习到当前的文本任务，提升编码效果。
82.所述bert模型的输入长度为第三预设文本长度；所述第三预设文本长度大于所述第二预设文本长度(第一预设文本长度和至少部分数据的长度之和)。
83.请参见图4，图4为本技术实施例示出的一种舆情分析流程示意图。如图4所示所述方法可以包括s401-s404。
84.s401，根据第一预设文本长度，对待处舆情进行拆分，得到n个舆情序列。
85.本步骤中，可以采用窗口滑动的方法进行所述拆分，可以参照s102相关说明，在此不做详述。
86.s402，利用第一编码单元，针对n个舆情序列进行多轮第一编码，得到多轮第一编码后的n个舆情序列。
87.图4仅示意了利用第一编码单元对sj号舆情序列进行最后一次第一编码的过程。如图4所示，在最后一次第一编码之前，可以先得到sj号舆情序列对应的组合舆情序列。该组合舆情序列中w0至wk-1为sj-1号舆情文本包含的k个第一字符，wk至wn为sj号舆情序列，wn 1至wn k为sj 1号舆情文本包含的k个第二字符。
88.在进行第一编码之前，可以将所述组合舆情序列进行字符补全操作，得到第三预设文本长度的第一输入序列。如图4所示，补全操作中，可以添加用于表征sj语义的第一cls字符，用于指示舆情序列界限的sep字符，以及pad字符。
89.然后可以将所述第一输入序列输入所述第一编码单元包含的与本次编码操作对应的transformer层，即第一编码单元包含的最后一个transformer层进行编码，得到第一编码后的组合舆情序列。可以理解的是，对于最后一次编码后输出的组合舆情序列，可以选择去除第一字符与第二字符对应的编码数据，得到编码后的舆情序列，也可以选择保留输出的所述组合舆情序列。不论是否进行所述去除编码数据的处理，表征语义信息的第一cls字符需要被保留下来。
90.针对n个舆情序列均会进行多轮第一编码，得到多轮第一编码后的n个舆情序列。其中n个舆情序列中均保留了表征语义的第一cls字符。
91.s403，基于第二编码单元，根据编码后的n个所述舆情序列，得到所述待处理舆情对应的编码结果。
92.本步骤中，可以获取n个所述舆情序列对应的第一cls字符，并进行汇总，得到与所述待处理舆情对应的字符序列。
93.可以将所述字符序列进行字符补全操作，得到第三预设文本长度的第二输入序列。本次补全操作，可以添加用于指示所述待处理舆情语义信息的第二cls字符。
94.然后可以将所述第二输入序列输入所述第二编码单元包含的至少一个transformer层进行第二编码，得到所述编码结果。所述编码结果包括所述第二cls字符。
95.s404，根据所述编码结果，确定所述待处理舆情的舆情类型。
96.本步骤中，可以将所述编码结果包括的第二cls字符输入二分类器中，得到将所述待处理舆情预测为正面舆情的第一置信度和预测为负面舆情的第二置信度，并选择两个置信度中较高的置信度对应的舆情类型作为所述待处理舆情的舆情类型。
97.根据前述方案，第一，先将待处理文本切分为多个文本序列，然后对每个文本序列进行编码后，再对多个文本序列的编码结果进行编码，得到表征所述待处理文本语义的编码结果，最后在基于所述编码结果对待处理文本进行分类。从而可以实现长文本的分类。
98.第二，可以采用bert模型进行编码，可以利用其包含的transformer的自注意力机制层，在进行针对输入舆情的目标字符进行编码时，可以结合所述目标字符与所述输入舆情包含的其它字符之间的语义信息，得到准确的编码结果，进而得到准确的舆情分析结果。
99.第三，可以采用使用了大量训练样本进行预训练后的bert模型进行编码，有效的将文本通识语义知识迁移学习到当前的文本任务，提升编码效果。
100.第四，通过针对所述n个舆情序列执行多轮编码操作，得到编码后的n个所述舆情序列，其中每次编码的输入均结合前后舆情序列的至少部分数据，编码的输出均会删除与所述至少部分数据对应的编码数据，如此操作类似于卷积操作，随着编码操作次数加深，舆情序列可以看到的更多的上下文信息，解决舆情切分带来的信息丢失问题，相当于进一步扩大了对舆情序列进行编码时候的感受野，得到更精确的舆情序列编码效果，进而可以得到更好的舆情分类效果。
101.与所述任一实施例相对应的，本技术还提出一种文本处理装置500。
102.请参见图5，图5为本技术实施例示出的一种文本处理装置的结构示意图。如图5所示，所示装置500可以包括：
103.切分模块510，对待处理文本进行切分操作，得到n个文本序列；
104.第一编码模块520，针对所述n个文本序列中的每一文本序列，基于所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列；
105.第二编码与分类模块530，对编码后的n个所述文本序列进行编码，得到所述待处理文本对应的编码结果，并根据所述编码结果，确定所述待处理文本的文本类型。
106.在一些实施例中，所述第一编码模块520具体用于：
107.针对所述n个文本序列执行多轮编码操作，得到编码后的n个所述文本序列；其中，每一轮编码操作如下：
108.针对上一次编码操作得到的所述n个文本序列中的每一文本序列，将所述文本序列，与其前后相邻的文本序列中的至少部分文本数据进行组合，得到组合文本序列，对所述组合文本序列进行编码，得到编码后的组合文本序列，在所述编码后的组合文本序列中，删除与所述至少部分文本数据对应的编码数据，得到本次编码操作后的所述文本序列。
109.在一些实施例中，所述第一编码模块520具体用于：
110.从所述n个文本序列的第一个文本序列开始，将预设窗口以所述第一预设文本长度为步长在所述n个文本序列中进行滑动，并将每次滑动之后，所述预设窗口内包含的片段
确定为所述组合文本序列；所述预设窗口的窗口大小为第二预设文本长度；所述第二预设文本长度为所述第一预设文本长度与所述至少部分文本数据的数据长度之和。
111.在一些实施例中，所述第二编码与分类模块530具体用于：
112.将n个所述文本序列中每一文本序列包含的预设字符进行汇总，得到与所述待处理文本对应的字符序列；
113.对所述字符序列进行编码，得到所述待处理文本对应的编码结果。
114.在一些实施例中，所述第一编码模块520具体用于：
115.基于预设的第一编码单元，针对所述n个文本序列中的每一文本序列，结合所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列；
116.所述第二编码与分类模块530具体用于：
117.基于预设的第二编码单元，对编码后的n个所述文本序列进行编码，得到所述待处理文本对应的编码结果。
118.在一些实施例中，所述第一编码单元与所述第二编码单元包括bert模型，所述bert模型包含至少一个transformer层；
119.所述第一编码模块520具体用于：利用所述第一编码单元包含的与本次编码操作对应的transformer层对所述组合文本序列进行编码；
120.所述第二编码与分类模块530具体用于：利用所述第二编码单元包含的至少一个transformer层对所述字符序列进行编码。
121.在一些实施例中，所述bert模型为通过文本训练样本集进行预训练得到的模型。
122.在一些实施例中，所述bert模型的输入长度为第三预设文本长度；所述第三预设文本长度大于所述第二预设文本长度；
123.所述第一编码模块520具体用于：
124.将所述组合文本序列进行字符补全操作，得到第三预设文本长度的第一输入序列；
125.将所述第一输入序列输入所述第一编码单元包含的与本次编码操作对应的transformer层进行编码；
126.所述第二编码与分类模块530具体用于：
127.将所述字符序列进行字符补全操作，得到第三预设文本长度的第二输入序列；
128.将所述第二输入序列输入所述第二编码单元包含的至少一个transformer层进行编码。
129.前述方案中，第一，先将待处理文本切分为多个文本序列，然后对每个文本序列进行编码后，再对多个文本序列的编码结果进行编码，得到表征所述待处理文本语义的编码结果，最后在基于所述编码结果对待处理文本进行分类。从而可以实现长文本的分类。
130.第二，在针对待处理文本的每一文本序列进行编码的过程中，可以结合所述文本序列前后相邻的文本序列中的至少部分文本数据，对所述文本序列进行编码，得到编码后的所述文本序列，如此相当于扩大了对文本序列进行编码时候的感受野，与相关技术相比，可以得到更精确的文本序列编码效果，进而可以得到更好的文本分类效果。
131.第三，通过针对所述n个舆情序列执行多轮编码操作，得到编码后的n个所述舆情
序列，其中每次编码的输入均结合前后舆情序列的至少部分数据，编码的输出均会删除与所述至少部分数据对应的编码数据，如此操作类似于卷积操作，随着编码操作次数加深，舆情序列可以看到的更多的上下文信息，解决舆情切分带来的信息丢失问题，相当于进一步扩大了对舆情序列进行编码时候的感受野，得到更精确的舆情序列编码效果，进而可以得到更好的舆情分类效果。
132.第四，可以采用bert模型进行编码，可以利用其包含的transformer的自注意力机制层，在进行针对输入舆情的目标字符进行编码时，可以结合所述目标字符与所述输入舆情包含的其它字符之间的语义信息，得到准确的编码结果，进而得到准确的舆情分析结果。
133.第五，可以采用使用了大量训练样本进行预训练后的bert模型进行编码，有效的将文本通识语知识迁移学习到当前的文本任务，提升编码效果。
134.本技术示出的文本处理装置的实施例可以应用于电子设备上。相应地，本技术公开了一种电子设备，该设备可以包括：处理器。
135.用于存储处理器可执行指令的存储器。
136.其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现前述任一实施例示出的文本处理方法。
137.请参见图6，图6为本技术实施例示出的一种电子设备的硬件结构示意图。
138.如图6所示，该电子设备可以包括用于执行指令的处理器，用于进行网络连接的网络接口，用于为处理器存储运行数据的内存，以及用于存储文本处理装置对应指令的非易失性存储器。
139.其中，所述装置的实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。
140.可以理解的是，为了提升处理速度，所述文本处理装置对应指令也可以直接存储于内存中，在此不作限定。
141.本技术提出一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可以用于使处理器执行前述任一实施例示出的文本处理方法。
142.本领域技术人员应明白，本技术一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本技术一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
143.本技术中的“和/或”表示至少具有两者中的其中一个，例如，“a和/或b”可以包括三种方案：a、b、以及“a和b”。
144.本技术中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
145.以上对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
146.本技术中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、可以包括本技术中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本技术中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
147.本技术中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如fpga(现场可编程门阵列)或asic(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。
148.适合用于执行计算机程序的计算机可以包括，例如通用和/或专用微处理器，或任何其他类型的cpu(处理器)。通常，cpu将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的cpu以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将可以包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(pda)、移动音频或视频播放器、游戏操纵台、全球定位系统(gps)接收机、或例如通用串行总线(usb)闪存驱动器的便携式存储设备，仅举几例。
149.适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备，例如可以包括半导体存储器设备(例如eprom、eeprom和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及cd rom和dvd-rom盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
150.虽然本技术包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本技术内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。
151.类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操
作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，所述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。
152.由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。
153.以上仅为本技术一个或多个实施例的较佳实施例而已，并不用以限制本技术一个或多个实施例，凡在本技术一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术一个或多个实施例保护的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：审核任务的分配方法、装置、系统、电子设备及存储介质与流程

一种文本处理方法、装置、设备和存储介质与流程

相关文献

最热文献