文本处理方法、装置、电子设备及计算机可读存储介质与流程

2022-03-26 12:32:27 来源：中国专利 TAG：

1.本技术涉及自然语言处理技术领域，具体而言，本技术涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。
3.通常，机器翻译的方法主要包括基于统计的方法和基于人工神经网络的方法；其中，基于人工神经网络的机器翻译在译文流畅度方面有一定提升。但是目前机器翻译的输出都会存在一定的语法错误导致翻译的准确率较低；比如，当目标语言为英文时，其中动词的时态容易发生错误。

技术实现要素：

4.本技术实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质，可以解决机器翻译的准确率较低的问题。所述技术方案如下：
5.根据本技术实施例的一个方面，提供了一种文本处理方法，该方法包括：
6.获取待校正的第一文本数据；
7.将第一文本数据输入至目标处理器，得到第一文本数据的处理结果；其中，目标处理器对第一文本数据进行动词识别，得到待校正动词，并对所识别的待校正动词进行时态校正，得到待校正动词对应的目标动词；处理结果中包括目标动词。
8.可选的，上述对所识别的待校正动词进行时态校正，得到待校正动词对应的目标动词，包括：
9.根据预设的时态词典，确定待校正动词的每个备选时态；以及对第一文本数据中的待校正动词进行掩码处理，得到掩码文本；其中，掩码文本包括待校正动词的上下文信息；
10.将掩码文本输入至预设预测模型，预测得到每个备选时态的预测概率；
11.根据预测概率，确定备选时态中的目标时态以及待校正动词在目标时态下的目标动词。
12.可选的，上述将掩码文本输入至预设预测模型，预测得到每个备选时态的预测概率，包括：
13.将掩码文本进行词嵌入处理，生成掩码文本对应的词向量；
14.基于预测模型对词向量进行预测，得到每个备选时态的预测概率。
15.可选的，上述获取待校正的第一文本数据，包括：
16.将待翻译的原始文本数据输入翻译器，获取翻译器输出的第一文本数据。
17.可选的，上述确定备选时态中的目标时态，包括：
18.从预测概率中，获取待校正动词对应的备选时态的预测概率，作为第一概率；
19.获取预测概率最大的备选时态作为校正时态，并将最大的预测概率作为第二概率；
20.基于第一概率和第二概率确定备选时态中的目标时态。
21.可选的，上述基于第一概率和第二概率确定备选时态中的目标时态，包括：
22.当第一概率和第二概率的概率差值不小于预设阈值，则将校正时态作为目标时态；
23.当第一概率和第二概率的概率差值小于预设阈值，则将待校正动词对应的备选时态作为目标时态。
24.可选的，上述方法还包括：
25.获取预设训练集中的各标准文本和标准文本中标准动词；
26.将标准文本中的标准动词进行掩码处理，得到标准掩码数据；
27.将各标准掩码数据输入预设初始模型，得到初始模型实时输出的标签动词；
28.基于预设的损失函数计算标准动词和标签动词的差值，并实时调整初始模型的参数；当差值小于预设损失阈值，则初始模型收敛，得到预测模型。
29.根据本技术实施例的另一个方面，提供了一种文本处理装置，该装置包括：
30.获取模块，用于获取待校正的第一文本数据；
31.处理模块，用于将第一文本数据输入至目标处理器，得到第一文本数据的处理结果；其中，目标处理器对第一文本数据进行动词识别，得到待校正动词，并对所识别的待校正动词进行时态校正，得到待校正动词对应的目标动词；处理结果中包括目标动词。
32.可选的，上述处理模块，包括：
33.预处理单元，用于根据预设的时态词典，确定待校正动词的每个备选时态；以及对第一文本数据中的待校正动词进行掩码处理，得到掩码文本；其中，掩码文本包括待校正动词的上下文信息；
34.预测单元，用于将掩码文本输入至预设预测模型，预测得到每个备选时态的预测概率；
35.确定单元，用于根据预测概率，确定备选时态中的目标时态以及待校正动词在目标时态下的目标动词。
36.可选的，上述预测单元，用于：
37.将掩码文本进行词嵌入处理，生成掩码文本对应的词向量；
38.基于预测模型对词向量进行预测，得到每个备选时态的预测概率。
39.可选的，上述获取模块，用于：
40.将待翻译的原始文本数据输入翻译器，获取翻译器输出的第一文本数据。
41.可选的，上述确定单元，用于：
42.从预测概率中，获取待校正动词对应的备选时态的预测概率，作为第一概率；
43.获取预测概率最大的备选时态作为校正时态，并将最大的预测概率作为第二概率；
44.基于第一概率和第二概率确定备选时态中的目标时态。
45.可选的，上述确定单元，还用于：
46.当第一概率和第二概率的概率差值不小于预设阈值，则将校正时态作为目标时态；
47.当第一概率和第二概率的概率差值小于预设阈值，则将待校正动词对应的备选时态作为目标时态。
48.可选的，上述装置还包括训练模块，用于：
49.获取预设训练集中的各标准文本和标准文本中标准动词；
50.将标准文本中的标准动词进行掩码处理，得到标准掩码数据；
51.将各标准掩码数据输入预设初始模型，得到初始模型实时输出的标签动词；
52.基于预设的损失函数计算标准动词和标签动词的差值，并实时调整初始模型的参数；当差值小于预设损失阈值，则初始模型收敛，得到预测模型。
53.根据本技术实施例的另一个方面，提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上的计算机程序，上述处理器执行计算机程序以实现本技术实施例第一方面所示方法的步骤。
54.根据本技术实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本技术实施例第一方面所示方法的步骤。
55.根据本技术实施例的一个方面，提供了一种计算机程序产品，其包括计算机程序，该计算机程序被处理器执行时实现本技术实施例第一方面所示方法的步骤。
56.本技术实施例提供的技术方案带来的有益效果是：
57.本技术实施例通过目标处理器，对待校正的第一文本数据进行处理，达到校正第一文本数据中的待校正动词的时态的目的。其中，目标处理器在对第一文本数据进行动词识别之后，对所识别的待校正动词进行时态校正，生成待校正动词对应的目标动词，以确定第一文本数据的处理结果。本技术实施例基于目标处理器对第一文本数据中的动词进行时态校正，使得处理后的第一文本数据更加符合语法规范。同时，本技术实施例可以将机器翻译输出的译文作为待校正的第一文本数据，解决了机器翻译准确率较低的问题，进一步提升译文的语法规范性和流畅度。
附图说明
58.为了更清楚地说明本技术实施例中的技术方案，下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
59.图1为本技术实施例提供的一种文本处理方法的应用场景示意图；
60.图2为本技术实施例提供的一种文本处理方法的流程示意图；
61.图3为本技术实施例提供的一种文本处理方法中时态词典的示例表；
62.图4为本技术实施例提供的一种文本处理方法中的确定预测概率的流程示意图；
63.图5为本技术实施例提供的一种文本处理方法中的模型训练的流程示意图；
64.图6为本技术实施例提供的一个示例的文本处理方法的流程示意图；
65.图7为本技术实施例提供的一种文本处理装置的结构示意图；
66.图8为本技术实施例提供的一种文本处理电子设备的结构示意图。
具体实施方式
67.下面结合本技术中的附图描述本技术的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本技术实施例的技术方案的示例性描述，对本技术实施例的技术方案不构成限制。
68.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“a和/或b”可以实现为“a”，或者实现为“b”，或者实现为“a和b”。
69.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
70.随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，随着计算机计算能力的提升和多语言信息的爆发式增长，机器翻译技术逐渐走出象牙塔，开始为普通用户提供实时便捷的翻译服务。
71.随着深度学习的研究取得较大进展，基于人工神经网络的机器翻译(neural machine translation)逐渐兴起。其技术核心是一个拥有海量结点(神经元)的深度神经网络，可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后，在网络中层层传递，转化为计算机可以“理解”的表示形式，再经过多层复杂的传导运算，生成另一种语言的译文。实现了“理解语言，生成译文”的翻译方式。这种翻译方法最大的优势在于译文流畅，更加符合语法规范，容易理解。相比之前基于统计模型的翻译技术，质量有“跃进式”的提升。
72.自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。
73.自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。
74.虽然基于神经网络的机器翻译技术有很大的进步，但是目前还存在很多问题，包括翻译的准确率不高、译文出现语法错误等。
75.本技术提供的文本处理方法、装置、电子设备以及计算机可读存储介质，旨在解决现有技术的如上技术问题。
76.本技术实施例提供了一种文本处理方法，该方法可以由终端或服务器实现。本技术实施例涉及的终端或服务器能够通过目标处理器，对待校正的第一文本数据进行处理，使得本技术实施例的技术方案能够达到校正第一文本数据中的待校正动词的时态的目的，使得处理后的第一文本数据更加符合语法规范。
77.下面通过对几个示例性实施方式的描述，对本技术实施例的技术方案以及本技术的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。
78.如图1所示，本技术的文本处理方法，可以应用于图1所示的场景中，具体的，服务器101可以先从客户端102获取待校正的第一文本数据，然后通过目标处理器对第一文本数据中的待校正动词的时态进行校正，以生成第一文本数据的处理结果，使得处理后的第一文本数据更加符合语法规范。
79.图1所示的场景中，上述文本处理方法可以在服务器中进行，在其他的场景中，也可以在终端中进行。
80.本技术领域技术人员可以理解，这里所使用的“终端”可以是手机、平板电脑、pda(personal digital assistant，个人数字助理)、mid(mobile internet device，移动互联网设备)等；“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
81.本技术实施例中提供了一种文本处理方法，如图2所示，该方法包括：
82.s201，获取待校正的第一文本数据。
83.其中，所述第一文本数据可以是机器翻译输出的译文数据，还可以是用户指定的需要进行时态校正的文本数据。
84.具体的，用于进行文本处理的终端或服务器可以从预设数据库中获取第一文本数据，还可以直接接收翻译器输出的译文数据，并将该译文数据作为第一文本数据。
85.在本技术实施例中，上述翻译器可以基于神经网络技术，基于神经网络技术的翻译器通常采用编码器-解码器结构，实现对变长输入句子的建模。编码器实现对源语言句子的"理解"，形成一个特定维度的浮点数向量，之后解码器根据此向量逐字生成目标语言的翻译结果。该翻译器可以采用循环神经网络、卷积神经网络(cnn，convolutional neural network)或自注意力网络(transformer)作为编码器和解码器的网络结构，在本技术实施例中不做具体限制。
86.s202，将第一文本数据输入至目标处理器，得到第一文本数据的处理结果；其中，目标处理器对第一文本数据进行动词识别，得到待校正动词，并对所识别的待校正动词进行时态校正，得到待校正动词对应的目标动词；处理结果中包括目标动词。
87.其中，目标处理器可以包括预设的预测模型，用于对识别得到的待校正动词的时态进行预测。上述第一文本数据的处理结果还可以包括待校正动词对应各个时态的预测概率。
88.具体的，目标处理器可以采用nltk(natural language toolkit，自然语言处理工具包)对第一文本数据中的各个单词的进行词性标注，并将标注为动词的单词作为待校正动词。
89.nltk是python(计算机编程语言)上著名的自然语义处理库，nltk自带语料库、词
性分类库，且自带分类，分词的功能，还具有强大的社区支持。在本技术实施例中，当第一文本数据为“she has known about it since you entered the howard building.”可以通过nltk对上述语句中各单词进行词性标注，输出得到：[('she','prp'),('has','vbz'),('known','vbn'),('about','in'),('it','prp'),('since','in'),('you','prp'),('entered','vbd'),('the','dt'),('howard','nn'),('building','nn'),('.','.')]。其中，'prp'指示人称代词，'vbz'指示动词现在式第三人称时态，'vbn'指示过去分词，'in'指示介词连词，'vbd'指示动词过去式，'dt'指示限定词，'nn'指示名词。故可以得知待校正动词包括“hasknown”和“entered”。在本实施例中，当识别出多个待校正动词时，可以采用目标处理器依次对每个待校正动词进行处理，目标处理器逐一对多个待校正动词进行时态校正。
[0090]
在一些实施方式中，该目标动词可以是预测概率最高的时态所对应的动词。
[0091]
在另一些实施方式中，用于进行文本处理的终端或服务器可以将翻译器输出的待校正的译文数据作为第一文本数据，并获取待校正动词对应的备选时态的预测概率，可以基于上述待校正动词对应的备选时态的预测概率确定该目标动词。
[0092]
在本技术实施例中，上述预测模型可以基于全连接神经网络构建。神经网络其实就是按照一定规则连接起来的多个神经元。其中，神经元按照层来布局，在全连接神经网络中，包括输入层、输出层和隐藏层。输出层负责接收输入数据，输出层用于获取输出数据。输入层和输出层之间的层叫做隐藏层；同一层的神经元之间没有连接。第n层的每个神经元和第n-1层的所有神经元相连，第n-1层神经元的输出就是第n层神经元的输入；并且，上述每个层级之间的连接都有一个权值。具体基于预测模型进行动词时态预测的过程，将在下文详细说明。
[0093]
本技术实施例通过目标处理器，对待校正的第一文本数据进行处理，达到校正第一文本数据中的待校正动词的时态的目的。其中，目标处理器在对第一文本数据进行动词识别之后，对所识别的待校正动词进行时态校正，生成待校正动词对应的目标动词，以确定第一文本数据的处理结果。本技术实施例基于目标处理器对第一文本数据中的动词进行时态校正，使得处理后的第一文本数据更加符合语法规范。同时，本技术实施例可以将机器翻译输出的译文作为待校正的第一文本数据，解决了机器翻译准确率较低的问题，进一步提升译文的语法规范性和流畅度。
[0094]
本技术实施例中提供了一种可能的实现方式，上述步骤s201中获取待校正的第一文本数据，包括：
[0095]
将待翻译的原始文本数据输入翻译器，获取翻译器输出的第一文本数据。
[0096]
其中，翻译器采用神经网络技术，可以是包括编码器和解码器的网络结构。
[0097]
具体的，可以采用训练集预先对翻译器进行训练，使得翻译器可以针对特征数据进行预测，学习到部分语言知识。
[0098]
接着，将训练好的翻译器应用于翻译任务时，先基于编码器接收待翻译的原始文本数据的各个词的词向量和位置向量并输出针对原始文本数据的编码结果，接着可将上述编码结果以及解码器前一时刻预测得到的词的词向量以及位置向量输入解码器，使得解码器可根据前一时刻预测得到的词的词向量以及位置向量进行当前时刻的词的词向量以及位置向量的预测，解码器可输出更加准确的预测第一文本数据，提升译文的准确度。
[0099]
本技术实施例中提供了一种可能的实现方式，上述步骤s202中对所识别的待校正动词进行时态校正，得到待校正动词对应的目标动词，包括：
[0100]
(1)根据预设的时态词典，确定待校正动词的每个备选时态；以及对第一文本数据中的待校正动词进行掩码处理，得到掩码文本；其中，掩码文本包括待校正动词的上下文信息。
[0101]
具体的，用于进行文本处理的终端或服务器可以预先构建各个动词的时态词典，如图3所示表格为时态词典的一个示例，并针对待校正动词在时态词典中进行查询，得到待校正动词对应的各个备选时态。
[0102]
在一些实施例中，用于进行文本处理的终端或服务器可以对第一文本数据中的待校正动词采用随机字符进行替换；
[0103]
在另一些实施方式中，用于进行文本处理的终端或服务器可以对第一文本数据中的待校正动词采用预设标识符进行替换。
[0104]
在本技术实施例中，当第一文本数据为“she has known about it since you entered the howard building”时，可以通过nltk对上述语句中各单词进行词性标注，并得到待校正动词包括“hasknown”和“entered”。本实施例中，由于目标处理器单次只能校正一个动词，故可以先对待校正动词“hasknown”进行掩码处理，得到掩码文本“she****about it since you entered the howard building.”。
[0105]
(2)将掩码文本输入至预设预测模型，预测得到每个备选时态的预测概率。
[0106]
其中，如图4所示，预测模型可以包括bert(bidirectional encoder representations from transformers，transformer的双向编码器表示；一种预训练的语言表征模型)、卷积神经网络层、全连接神经网络层和softmax(逻辑回归模型)预测层。
[0107]
具体的，用于进行文本分类的终端或服务器可以采用bert预训练模型对掩码文本进行词嵌入处理得到掩码文本的向量表示，并基于卷积神经网络层提取上述向量的特征信息，并将该特征信息输入到全连接神经网络层以对特征信息进行全连接处理，并通过softmax预测层输出每个备选时态的预测概率。
[0108]
本技术实施例中提供了一种可能的实现方式，上述将掩码文本输入至预设预测模型，预测得到每个备选时态的预测概率，包括：
[0109]
a、将掩码文本进行词嵌入处理，生成掩码文本对应的词向量。
[0110]
具体的，用于进行文本处理的终端或服务器可以使用bert预训练模型对掩码文本进行词嵌入，即使用高维度的词向量来表示掩码文本中的每一个单词。
[0111]
b、基于预测模型对词向量进行预测，得到每个备选时态的预测概率。
[0112]
具体的，用于进行文本处理的终端或服务器可以通过卷积神经网络层提取词向量的特征数据，以生成特征矩阵，接着将特征矩阵输入到全连接神经网络层，以预测得到掩码文本中被掩码的待校正动词对应各个备选时态的预测概率。
[0113]
在本技术实施例中，当第一文本数据为“she has known about it since you entered the howard building”时，可以通过nltk对上述语句中各单词进行词性标注，并得到待校正动词包括“hasknown”和“entered”。并基于待校正动词在时态词典中查询得到各备选时态包括：动词原形、第三人称单数、现在分词原形、现在分词非第三人称单数、现在分词第三人称单数、过去式、现在完成时非第三人称单数、现在完成时第三人称单数。
[0114]
本实施例中，由于目标处理器单次只能校正一个动词，故可以先对待校正动词“hasknown”进行掩码处理，得到掩码文本“she****about it since you entered the howard building.”。接着，将掩码文本进行词嵌入，得到掩码文本对应的词向量，并通过预测模型对词向量进行预测，得到备选时态“现在完成时第三人称单数”的预测概率为90％，且该预测概率大于其他备选时态对应的预测概率。
[0115]
(3)根据预测概率，确定备选时态中的目标时态以及待校正动词在目标时态下的目标动词。
[0116]
在一些实施方式中，该目标时态可以是预测概率最高的时态。
[0117]
在另一些实施方式中，用于进行文本处理的终端或服务器可以将翻译器输出的待校正的译文数据作为第一文本数据，并获取待校正动词对应备选时态的预测概率，可以基于上述待校正动词对应备选时态的预测概率确定该目标时态。具体确定目标时态的过程将在下文详细说明。
[0118]
本技术实施例中提供了一种可能的实现方式，上述确定备选时态中的目标时态，包括：
[0119]
a、从预测概率中，获取待校正动词对应的备选时态的预测概率，作为第一概率；获取预测概率最大的备选时态作为校正时态，并将最大的预测概率作为第二概率。
[0120]
在本技术实施例中，当第一文本数据为“she has known about it since you entered the howard building”时，可以通过nltk对上述语句中各单词进行词性标注，并得到待校正动词包括“knew”和“entered”。并基于待校正动词在时态词典中查询得到各备选时态包括：动词原形、第三人称单数、现在分词原形、现在分词非第三人称单数、现在分词第三人称单数、过去式、现在完成时非第三人称单数、现在完成时第三人称单数。本实施例中，可以先对待校正动词“knew”进行掩码处理，得到掩码文本“she****about it since you entered the howard building.”。接着，将掩码文本进行词嵌入，得到掩码文本对应的词向量，并通过预测模型对词向量进行预测，得到备选时态“过去式”的预测概率为40％、“现在完成时第三人称单数”的预测概率为90％，将待校正动词“knew”对应的备选时态“过去式”的预测概率40％，作为第一概率。将“现在完成时第三人称单数”作为校正时态，且对应的第二概率为90％。
[0121]
b、基于第一概率和第二概率确定备选时态中的目标时态。
[0122]
具体的，可以基于第一概率和第二概率的差值，确定备选时态中的目标时态。
[0123]
本技术实施例中提供了一种可能的实现方式，上述基于第一概率和第二概率确定备选时态中的目标时态，包括：
[0124]
b1、当第一概率和第二概率的概率差值不小于预设阈值，则将校正时态作为目标时态；
[0125]
b2、当第一概率和第二概率的概率差值小于预设阈值，则将待校正动词对应的备选时态作为目标时态。
[0126]
在本技术实施例中，当第一文本数据为“she knew about it since you entered the howard building”时，可以通过nltk对上述语句中各单词进行词性标注，并得到待校正动词包括“knew”和“entered”。并基于待校正动词在时态词典中查询得到各备选时态包括：动词原形、第三人称单数、现在分词原形、现在分词非第三人称单数、现在分词第三人称
单数、过去式、现在完成时非第三人称单数、现在完成时第三人称单数。本实施例中，可以先对待校正动词“knew”进行掩码处理，得到掩码文本“she****about it since you entered the howard building.”。接着，将掩码文本进行词嵌入，得到掩码文本对应的词向量，并通过预测模型对词向量进行预测，得到备选时态“过去式”的预测概率为40％、“现在完成时第三人称单数”的预测概率为90％，且该预测概率大于其他备选时态对应的预测概率。将待校正动词“knew”对应的备选时态“过去式”的预测概率40％，作为第一概率，将“现在完成时第三人称单数”作为校正时态，且对应的第二概率为90％。则计算得到第一概率和第二概率的差值为50％，大于预设阈值15％，则将校正时态“现在完成时第三人称单数”作为目标时态，并查询时态词典，对应的目标动词为“has known”，得到校正后的第一文本数据为“she has known about it since you entered the howard building.”。
[0127]
本技术实施例中提供了一种可能的实现方式，如图5所示，上述方法还包括：
[0128]
获取预设训练集中的各标准文本和标准文本中标准动词；
[0129]
将标准文本中的标准动词进行掩码处理，得到标准掩码数据；
[0130]
将各标准掩码数据输入预设初始模型，得到初始模型实时输出的标签动词；
[0131]
基于预设的损失函数计算标准动词和标签动词的差值，并实时调整初始模型的参数；当差值小于预设损失阈值，则初始模型收敛，得到预测模型。
[0132]
本技术实施例中，通过预设训练集对初始模型进行训练，由于初始训练模型采用了多层全连接神经网络结结构，提高了初始模型的非线性表达能力，使得训练得到的预测模型充分学习待校正动词的上下文的语义，达到了提升预测模型时态预测准确率的目的。
[0133]
为了更好的理解上述文本处理方法，下面结合图6详细阐述一个本技术的文本处理方法的示例，包括如下步骤：
[0134]
s601，将待翻译的原始文本数据输入翻译器，获取翻译器输出的第一文本数据。
[0135]
其中，翻译器采用神经网络技术，可以是包括编码器和解码器的网络结构。
[0136]
具体的，可以先采用训练集预先对翻译器进行训练，使得翻译器可以针对特征数据进行预测，学习到部分语言知识。
[0137]
s602，将第一文本数据输入至目标处理器，该目标处理器包括nltk单元和预测模型。
[0138]
s603，基于nltk单元对第一文本数据中的各个单词的进行词性标注，并将标注为动词的单词作为待校正动词。
[0139]
其中，目标处理器可以包括预设的预测模型，用于对识别得到的待校正动词的时态进行预测。上述预测模型可以基于全连接神经网络构建。
[0140]
nltk是python(计算机编程语言)上著名的自然语义处理库，nltk自带语料库、词性分类库，且自带分类，分词的功能，还具有强大的社区支持。在本技术实施例中，当第一文本数据为“she has known about it since you entered the howard building.”可以通过nltk对上述语句中各单词进行词性标注，输出得到：[('she','prp'),('has','vbz'),('known','vbn'),('about','in'),('it','prp'),('since','in'),('you','prp'),('entered','vbd'),('the','dt'),('howard','nn'),('building','nn'),('.','.')]。其中，'prp'指示人称代词，'vbz'指示动词现在式第三人称时态，'vbn'指示动词过去式，'in'指示介词连词，'vbd'指示动词过去式，'dt'指示限定词，'nn'指示名词。故可以得知待校正
动词包括“hasknown”和“entered”。在本实施例中，当识别出多个待校正动词时，可以采用目标处理器依次对每个待校正动词进行处理，目标处理器逐一对多个待校正动词进行时态校正。
[0141]
s604，根据预设的时态词典，确定待校正动词的每个备选时态。
[0142]
具体的，用于进行文本处理的终端或服务器可以预先构建各个动词的时态词典，并针对待校正动词在时态词典中进行查询，得到待校正动词对应的各个备选时态。
[0143]
s605，对第一文本数据中的待校正动词进行掩码处理，得到掩码文本；其中，掩码文本包括待校正动词的上下文信息。
[0144]
在一些实施例中，用于进行文本处理的终端或服务器可以对第一文本数据中的待校正动词采用随机字符进行替换；
[0145]
在另一些实施方式中，用于进行文本处理的终端或服务器可以对第一文本数据中的待校正动词采用预设标识符进行替换。
[0146]
s606，将掩码文本进行词嵌入处理，生成掩码文本对应的词向量。
[0147]
具体的，用于进行文本处理的终端或服务器可以使用bert预训练模型对掩码文本进行词嵌入，即使用高维度的词向量来表示掩码文本中的每一个单词。
[0148]
s607，基于预测模型对词向量进行预测，得到每个备选时态的预测概率。
[0149]
具体的，用于进行文本处理的终端或服务器可以通过卷积神经网络层提取词向量的特征数据，以生成特征矩阵，接着将特征矩阵输入到全连接神经网络层，以预测得到掩码文本中被掩码的待校正动词对应各个备选时态的预测概率。
[0150]
s608，从预测概率中，获取待校正动词对应的备选时态的预测概率，作为第一概率；获取预测概率最大的备选时态作为校正时态，并将最大的预测概率作为第二概率。
[0151]
在本技术实施例中，当第一文本数据为“she has known about it since you entered the howard building”时，可以通过nltk对上述语句中各单词进行词性标注，并得到待校正动词包括“knew”和“entered”。并基于待校正动词在时态词典中查询得到各备选时态包括：动词原形、第三人称单数、现在分词原形、现在分词非第三人称单数、现在分词第三人称单数、过去式、现在完成时非第三人称单数、现在完成时第三人称单数。本实施例中，可以先对待校正动词“knew”进行掩码处理，得到掩码文本“she****about it since you entered the howard building.”。接着，将掩码文本进行词嵌入，得到掩码文本对应的词向量，并通过预测模型对词向量进行预测，得到备选时态“过去式”的预测概率为40％、“现在完成时第三人称单数”的预测概率为90％，将待校正动词“knew”对应的备选时态“过去式”的预测概率40％，作为第一概率。将“现在完成时第三人称单数”作为校正时态，且对应的第二概率为90％。
[0152]
s609，基于第一概率和第二概率的差值，确定备选时态中的目标时态；并确定待校正动词在目标时态下的目标动词，将包含目标动词的处理结果作为目标处理器的输出。
[0153]
具体的，当第一概率和第二概率的概率差值不小于预设阈值，则将校正时态作为目标时态；当第一概率和第二概率的概率差值小于预设阈值，则将待校正动词对应的备选时态作为目标时态。
[0154]
在本技术实施例中，当第一文本数据为“she knew about it since you entered the howard building”时，可以通过nltk对上述语句中各单词进行词性标注，并得到待校
正动词包括“knew”和“entered”。并基于待校正动词在时态词典中查询得到各备选时态包括：动词原形、第三人称单数、现在分词原形、现在分词非第三人称单数、现在分词第三人称单数、过去式、现在完成时非第三人称单数、现在完成时第三人称单数。本实施例中，可以先对待校正动词“knew”进行掩码处理，得到掩码文本“she****about it since you entered the howard building.”。接着，将掩码文本进行词嵌入，得到掩码文本对应的词向量，并通过预测模型对词向量进行预测，得到备选时态“过去式”的预测概率为40％、“现在完成时第三人称单数”的预测概率为90％，且该预测概率大于其他备选时态对应的预测概率。将待校正动词“knew”对应的备选时态“过去式”的预测概率40％，作为第一概率，将“现在完成时第三人称单数”作为校正时态，且对应的第二概率为90％。则计算得到第一概率和第二概率的差值为50％，大于预设阈值15％，则将校正时态“现在完成时第三人称单数”作为目标时态，并查询时态词典，对应的目标动词为“has known”，得到校正后的第一文本数据为“she has known about it since you entered the howard building.”。
[0155]
本技术实施例通过目标处理器，对待校正的第一文本数据进行处理，达到校正第一文本数据中的待校正动词的时态的目的。其中，目标处理器在对第一文本数据进行动词识别之后，对所识别的待校正动词进行时态校正，生成待校正动词对应的目标动词，以确定第一文本数据的处理结果。本技术实施例基于目标处理器对第一文本数据中的动词进行时态校正，使得处理后的第一文本数据更加符合语法规范。同时，本技术实施例可以将机器翻译输出的译文作为待校正的第一文本数据，解决了机器翻译准确率较低的问题，进一步提升译文的语法规范性和流畅度。
[0156]
本技术实施例提供了一种文本处理装置，如图7所示，该文本处理装置70可以包括：获取模块701和处理模块702；
[0157]
其中，获取模块701，用于获取待校正的第一文本数据；
[0158]
处理模块702，用于将第一文本数据输入至目标处理器，得到第一文本数据的处理结果；其中，目标处理器对第一文本数据进行动词识别，得到待校正动词，并对所识别的待校正动词进行时态校正，得到待校正动词对应的目标动词；处理结果中包括目标动词。
[0159]
本技术实施例中提供了一种可能的实现方式，上述处理模块702，包括：
[0160]
预处理单元，用于根据预设的时态词典，确定待校正动词的每个备选时态；以及对第一文本数据中的待校正动词进行掩码处理，得到掩码文本；其中，掩码文本包括待校正动词的上下文信息；
[0161]
预测单元，用于将掩码文本输入至预设预测模型，预测得到每个备选时态的预测概率；
[0162]
确定单元，用于根据预测概率，确定备选时态中的目标时态以及待校正动词在目标时态下的目标动词。
[0163]
本技术实施例中提供了一种可能的实现方式，上述预测单元，用于：
[0164]
将掩码文本进行词嵌入处理，生成掩码文本对应的词向量；
[0165]
基于预测模型对词向量进行预测，得到每个备选时态的预测概率。
[0166]
本技术实施例中提供了一种可能的实现方式，上述获取模块701，用于：
[0167]
将待翻译的原始文本数据输入翻译器，获取翻译器输出的第一文本数据。
[0168]
本技术实施例中提供了一种可能的实现方式，上述确定单元，用于：
[0169]
从预测概率中，获取待校正动词对应的备选时态的预测概率，作为第一概率；
[0170]
获取预测概率最大的备选时态作为校正时态，并将最大的预测概率作为第二概率；
[0171]
基于第一概率和第二概率确定备选时态中的目标时态。
[0172]
本技术实施例中提供了一种可能的实现方式，上述确定单元，还用于：
[0173]
当第一概率和第二概率的概率差值不小于预设阈值，则将校正时态作为目标时态；
[0174]
当第一概率和第二概率的概率差值小于预设阈值，则将待校正动词对应的备选时态作为目标时态。
[0175]
本技术实施例中提供了一种可能的实现方式，上述装置还包括训练模块，用于：
[0176]
获取预设训练集中的各标准文本和标准文本中标准动词；
[0177]
将标准文本中的标准动词进行掩码处理，得到标准掩码数据；
[0178]
将各标准掩码数据输入预设初始模型，得到初始模型实时输出的标签动词；
[0179]
基于预设的损失函数计算标准动词和标签动词的差值，并实时调整初始模型的参数；当差值小于预设损失阈值，则初始模型收敛，得到预测模型。
[0180]
本技术实施例的装置可执行本技术实施例所提供的方法，其实现原理相类似，本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。
[0181]
本技术实施例通过目标处理器，对待校正的第一文本数据进行处理，达到校正第一文本数据中的待校正动词的时态的目的。其中，目标处理器在对第一文本数据进行动词识别之后，对所识别的待校正动词进行时态校正，生成待校正动词对应的目标动词，以确定第一文本数据的处理结果。本技术实施例基于目标处理器对第一文本数据中的动词进行时态校正，使得处理后的第一文本数据更加符合语法规范。同时，本技术实施例可以将机器翻译输出的译文作为待校正的第一文本数据，解决了机器翻译准确率较低的问题，进一步提升译文的语法规范性和流畅度。
[0182]
本技术实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现文本处理方法的步骤，与相关技术相比可实现：本技术实施例通过目标处理器，对待校正的第一文本数据进行处理，达到校正第一文本数据中的待校正动词的时态的目的。其中，目标处理器在对第一文本数据进行动词识别之后，对所识别的待校正动词进行时态校正，生成待校正动词对应的目标动词，以确定第一文本数据的处理结果。本技术实施例基于目标处理器对第一文本数据中的动词进行时态校正，使得处理后的第一文本数据更加符合语法规范。同时，本技术实施例可以将机器翻译输出的译文作为待校正的第一文本数据，解决了机器翻译准确率较低的问题，进一步提升译文的语法规范性和流畅度。
[0183]
在一个可选实施例中提供了一种电子设备，如图8所示，图8所示的电子设备800包括：处理器801和存储器803。其中，处理器801和存储器803相连，如通过总线802相连。可选地，电子设备800还可以包括收发器804，收发器804可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器804不
限于一个，该电子设备800的结构并不构成对本技术实施例的限定。
[0184]
处理器801可以是cpu(central processing unit，中央处理器)，通用处理器，dsp(digital signal processor，数据信号处理器)，asic(application specific integrated circuit，专用集成电路)，fpga(field programmable gate array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器801也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。
[0185]
总线802可包括一通路，在上述组件之间传送信息。总线802可以是pci(peripheral component interconnect，外设部件互连标准)总线或eisa(extended industry standard architecture，扩展工业标准结构)总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0186]
存储器803可以是rom(read only memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，ram(random access memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom(electrically erasable programmable read only memory，电可擦可编程只读存储器)、cd-rom(compact disc read only memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。
[0187]
存储器803用于存储执行本技术实施例的计算机程序，并由处理器801来控制执行。处理器801用于执行存储器803中存储的计算机程序，以实现前述方法实施例所示的步骤。
[0188]
其中，电子设备包括但不限于：诸如移动电话、笔记本电脑、pad等等移动终端以及诸如数字tv、台式计算机等等固定终端。
[0189]
本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
[0190]
本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现如下情况：
[0191]
获取待校正的第一文本数据；
[0192]
将第一文本数据输入至目标处理器，得到第一文本数据的处理结果；其中，目标处理器对第一文本数据进行动词识别，得到待校正动词，并对所识别的待校正动词进行时态校正，得到待校正动词对应的目标动词；处理结果中包括目标动词。
[0193]
本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
[0194]
应该理解的是，虽然本技术实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本技术实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本技术实施例对此不限制。
[0195]
以上所述仅是本技术部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术的方案技术构思的前提下，采用基于本技术技术思想的其他类似实施手段，同样属于本技术实施例的保护范畴。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：权限控制方法、区块链及存储介质与流程

文本处理方法、装置、电子设备及计算机可读存储介质与流程

相关文献

最热文献