文本纠错方法、装置、设备及存储介质与流程

2022-06-11 14:09:24 来源：中国专利 TAG：

1.本发明涉及语言处理技术领域，尤其涉及一种文本纠错方法、装置、设备及存储介质。

背景技术：

2.文本纠错指的是利用机器学习与自然语言处理技术自动对文本信息进行纠错处理。现有技术中所采用的文本纠错模型分为大体量模型和小体量模型，其中大体量模型通常设计地较大，内存要求高，而且实际纠错过程上具有时延；小体量模型只能输出最后的修正结果，但是没有给出具体的错误位置和错误类型。
3.综上所述，现有的文本纠错技术存在着在纠错过程中无法给出具体的错误位置和错误类型，不能对纠错内容直观显示的技术问题。

技术实现要素：

4.本技术的主要目的是提供一种文本纠错方法、装置、设备及存储介质，以解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型，无法对纠错内容直观显示的问题。
5.本发明第一方面提供了一种文本纠错方法，所述文本纠错方法包括：获取待纠错文本数据，并对所述待纠错文本数据进行预处理，得到文本信息；将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理，得到所述文本信息对应的文本纠错结果，其中，所述文本纠错模型为混合架构的序列到序列模型，编码器部分采用transformer模型架构，解码器部分采用长短时记忆模型架构；根据最小编辑距离算法，计算所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离；对所述文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照所述最小编辑距离进行映射处理，得到文本纠错意见。
6.可选地，在本发明第一方面的第一种实现方式中，所述将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理，得到所述文本信息对应的文本纠错结果，其中，所述文本纠错模型为混合架构的序列到序列模型，编码器部分采用transformer模型架构，解码器部分采用长短时记忆模型架构，包括：将所述文本信息输入至所述预先训练得到的文本纠错模型，通过采用所述transformer模型架构的编码器对所述文本信息进行编码，得到文本编码；根据注意力机制对所述文本编码进行线性变换和投影处理，计算所述文本编码对应的注意力值；根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合，得到注意力值集合；通过长短时记忆模型调用困惑度值计算算法，对所述注意力值集合中包含的注意力值进行迭代计算，得到对应的困惑度；通过所述长短时记忆模型，根据所述困惑度对文本编码进行概率预测，得到概率预测结果；通过所述长短时记忆模型，基于所述概率预测结果对所述文本编码进行解码，得到文本纠错结果。
7.可选地，在本发明第一方面的第二种实现方式中，所述根据最小编辑距离算法，计
算所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离，包括：提取所述文本信息和与之对应的所述文本纠错结果中的所有字符，形成字符集；按照预设的拆分方法对所述字符集进行拆分，形成字符串；根据所述文本信息和所述文本纠错结果之间的对应关系，将所述字符串转换成具有所述对应关系的字符矩阵，其中，所述字符矩阵包含所述字符串中所有字符的字符特征值；根据预设的编辑操作类型，构建动态规划方程；基于所述动态规划方程对所述字符矩阵中的各字符特征值进行编辑距离运算，得到所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离。
8.可选地，在本发明第一方面的第三种实现方式中，所述对所述文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照所述最小编辑距离进行映射处理，得到文本纠错意见，包括：按照预设的分类方式对所述字符集中的字符进行分类，得到字符子集，其中，字符子集包括所述文本信息对应的字符子集和所述文本纠错结果对应的字符子集；按照最小编辑距离对所述文本信息对应的字符子集和所述文本纠错结果对应的字符子集进行映射处理，得到由文本信息对应的字符和文本纠错结果对应的字符基于最小编辑距离这一映射关系构成的字符对集合；根据预设的编辑操作类型，将所述最小编辑距离转换成编辑操作序列，按照预设的输出方式输出包含所述文本信息和与其对应的编辑操作序列，得到文本纠错意见。
9.可选地，在本发明第一方面的第四种实现方式中，在所述获取待纠错文本数据，并对所述待纠错文本数据进行预处理，得到文本信息之前，还包括：提取transformer模型框架中的编码器和长短时记忆模型框架中的解码器；在所述编码器和所述解码器之间进行嵌入层参数共享，并对嵌入层参数进行因式分解，构建混合架构模型；从具有纠错信息的文本数据中构建训练数据集，基于所述训练数据集对所述混合架构模型进行学习训练，得到初始训练模型；对所述初始训练模型进行量化处理，得到文本纠错模型。
10.可选地，在本发明第一方面的第五种实现方式中，所述从具有纠错信息的文本数据中构建训练数据集，基于所述训练数据集对所述混合架构模型进行学习训练，得到初始训练模型，包括：采集文本数据，按照预设方式构建训练数据集；通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型，通过待训练模型的编码解码运算，得到对应的训练结果；判断所述训练结果是否满足预设的条件；若是，则终止循环，输出初始训练模型。
11.本发明第二方面提供了一种文本纠错装置，包括：预处理模块，用于获取待纠错文本数据，并对所述待纠错文本数据进行预处理，得到文本信息；文本纠错处理模块，用于将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理，得到所述文本信息对应的文本纠错结果；最小编辑距离计算模块，用于计算所述文本信息和与之对应的所述文本纠错结果之间的最小编辑距离；映射处理模块，用于对所述文本信息和与之对应的所述文本纠错结果按照所述最小编辑距离进行映射处理，得到文本纠错意见。
12.可选地，在本发明第二方面的第一种实现方式中，所述文本纠错模块包括：文本编码单元，用于通过采用transformer模型架构的编码器对所述文本信息进行编码，得到文本编码；第一计算单元，用于根据注意力机制对文本编码进行线性变换和投影处理，计算文本编码对应的注意力值；第二计算单元，用于调用困惑度值计算算法，对所述注意力值集合中包含的注意力值进行迭代计算，得到对应的困惑度；概率预测单元，用于根据困惑度对文本
编码进行概率预测，得到概率预测结果；文本解码单元，用于根据概率预测结果对所述文本编码进行解码，得到文本纠错结果。
13.可选地，在本发明第二方面的第二种实现方式中，所述最小编辑距离计算模块包括：字符转换单元，用于提取所述文本信息和与之对应的所述文本纠错结果中的所有字符，形成字符集，按照预设的拆分方法对所述字符集进行拆分，形成字符串；并根据所述文本信息和所述文本纠错结果之间的对应关系，将所述字符串转换成具有所述对应关系的字符矩阵；动态规划单元，用于根据预设的编辑操作类型，构建动态规划方程；第三计算单元，用于对所述字符矩阵中的各字符特征值进行编辑距离运算，得到所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离。
14.可选地，在本发明第二方面的第三种实现方式中，所述映射处理模块包括：映射单元，用于根据所述最小编辑距离，对所述文本信息包含的字符串和所述文本纠错结果包含的字符串进行映射处理，得到字符串对应组；序列生成单元，用于根据预设的编辑操作类型和所述字符串对应组中字符串之间的最小编辑距离，按照把所述文本信息中对应的字符串编辑成所述文本纠错结果中的字符串的编辑方向，构建编辑操作序列；意见输出单元，用于按照预设的输出方式输出包含所述文本信息和与其包含的字符串对应的编辑操作序列，得到文本纠错意见。
15.可选地，在本发明第二方面的第四种实现方式中，所述文本纠错处理装置还包括模型训练模块，其具体用于：提取transformer模型框架中的编码器和长短时记忆模型框架中的解码器；在所述编码器和所述解码器之间进行嵌入层参数共享，并对嵌入层参数进行因式分解，构建混合架构模型；从具有纠错信息的文本数据中构建训练数据集，基于所述训练数据集对所述混合架构模型进行学习训练，得到初始训练模型；对所述初始训练模型进行量化处理，得到文本纠错模型。
16.可选地，在本发明第二方面的第五种实现方式中，所述模型训练模块包括：训练数据集生成单元，用于采集文本数据，按照预设方式构建训练数据集；训练单元，用于通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型，通过待训练模型的编码解码运算，得到对应的训练结果，并判断所述训练结果是否满足预设的条件，若是，则终止循环，输出初始训练模型。
17.本发明第三方面提供了一种计算机设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行上述的文本纠错方法的各个步骤。
18.本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的文本纠错方法的各个步骤。
19.本发明的技术方案中，该方法具体是通过对待纠错文本数据进行预处理，得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理，得到文本信息对应的文本纠错结果；根据最小编辑距离算法，计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离；对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理，得到文本纠错意见；通过计算最小编辑距离得到本文纠错意见，以体现出错误内容与正确内容之间的关系，并给出错误内容在文本中的位置，以便于用户进行实时调整，解决现有的纠错方案在纠错过程中无法给
出具体的错误位置和错误类型，无法对纠错内容直观显示的问题。
附图说明
20.图1为本发明实施例中为文本纠错方法的第一个实施例示意图；
21.图2为本发明实施例中为文本纠错方法的第二个实施例示意图；
22.图3为本发明实施例中为文本纠错方法的第三个实施例示意图；
23.图4为本发明实施例中文本纠错装置的一个实施例示意图；
24.图5为本发明实施例中文本纠错装置的另一个实施例示意图；
25.图6为本发明实施例中计算机设备的一个实施例示意图。
具体实施方式
26.为了解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型，无法对纠错内容直观显示的问题，本技术提供了一种文本纠错方法。该方法具体是通过对待纠错文本数据进行预处理，得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理，得到文本信息对应的文本纠错结果；根据最小编辑距离算法，计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离；对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理，得到文本纠错意见；通过计算最小编辑距离得到本文纠错意见，以体现出错误内容与正确内容之间的关系，并给出错误内容在文本中的位置，以便于用户进行实时调整，解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型，无法对纠错内容直观显示的问题。
27.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中文本纠错方法的第一个实施例，该方法的实现步骤如下：
29.101、获取待纠错数据，并对待纠错数据进行预处理，得到文本信息；
30.该步骤中，所述预处理包括清洗和分类等操作，具体地：
31.对待纠错数据进行数据清洗，得到经过数据清洗后的文本数据；
32.对经过数据清洗后的文本数据按照预设的文本类别进行分类，得到不同类别的文本信息。
33.102、将文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理，得到文本信息对应的文本纠错结果；
34.其中，所述文本纠错模型为混合架构的序列到序列模型，编码器部分采用transformer模型架构，解码器部分采用长短时记忆模型架构。
35.在本实施例中，包括：
36.将所述文本信息输入至所述预先训练得到的文本纠错模型，通过采用所述transformer模型架构的编码器对所述文本信息进行编码，得到文本编码；
37.根据注意力机制对所述文本编码进行线性变换和投影处理，计算所述文本编码对应的注意力值；
38.根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合，得到注意力值集合；
39.通过长短时记忆模型调用困惑度值计算算法，对所述注意力值集合中包含的注意力值进行迭代计算，得到对应的困惑度；
40.通过所述长短时记忆模型，根据所述困惑度对文本编码进行概率预测，得到概率预测结果；
41.通过所述长短时记忆模型，基于所述概率预测结果对所述文本编码进行解码，得到文本纠错结果。
42.在本实施例中，对于根据注意力机制对所述文本编码进行线性变换和投影处理，计算所述文本编码对应的注意力值，包括：
43.通过所述编码器中的子层对所述文本编码进行残差链接，将输入的文本编码进行基于非线性变换的线性叠加，并对处理结果进行归一化处理；
44.在本实施例中，对于根据注意力机制对所述文本编码进行线性变换和投影处理，计算所述文本编码对应的注意力值，包括：
45.采用多头自注意力机制(multi-head self-attention mechanism)对所述文本编码进行线性变换，并面向注意力机制下的不同维度进行投影，具体地，采用以下公式进行处理：
46.zl＝lin(yl) t
47.xl＝softmax(zl*et)*(e s)
48.cl＝lin(xl)
49.其中，zl是简单线性层运算，lin是一个线性组合，用于编码的线性变换，y1是对应于文本编码的参数，t是对应修改的词向量，xl是当前输出的预测的字，cl配合参与运算以确定输出到下一层卷积层的信息，et是待纠错句子对应的文本编码在编码器隐藏层中的转置，e是待纠错句子编码器的输出结果，s是输入的词向量，softmax是激活层，在上述公式中表示其后接括号内的运算过程通过激活层来实现。
50.当然，在实际应用中，也可以采用注意力机制(attention)对所述文本编码进行处理。
51.在本实施例中，对于根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合，得到注意力值集合，包括：
52.根据多头注意力机制，将编码向量对所述多头注意力机制的预设维度q，k，v进行投影，最后将不同的注意力值(attention)结果拼接起来，得到注意力值集合，表示为：
53.multihead(q，k，v)＝concat(head1，...，headh)wo
54.其中，head1，...，headh表示多头注意力机制中各注意力头(head)，wo表示将各注意力头(head)的投影结果进行转换的预设参数。
55.在本实施例中，进一步地，通过长短时记忆模型调用困惑度值计算算法，对所述注意力值集合中包含的注意力值进行迭代计算，得到对应的困惑度，包括采用以下方式计算困惑度(perplexity)：
[0056][0057]
pp(w)表示句子w的困惑度值，wω1、ω2以及ωn均表示句子w对应的词向量的注意力值，其中，ωn的下标n表示当前迭代计算所选取的注意力值编号，p(ω1ω2…
ωn)表示通过注意力值计算的句子概率。通过公式所表示的计算方式对所有注意力值进行迭代计算得出困惑度值。
[0058]
在本实施例中，进一步地，通过所述长短时记忆模型，根据所述困惑度对文本编码进行概率预测，得到概率预测结果，包括：
[0059]
将所述待纠错文本中的各语句的困惑度与预设困惑度阈值进行比较；
[0060]
若所述待纠错文本中的各语句的困惑度小于所述预设困惑度阈值，则判断所述待纠错文本中的各语句为无需纠错的语句；
[0061]
若所述待纠错文本中的各语句的困惑度大于或者等于所述预设困惑度阈值，则判断所述待纠错文本中的各语句为需要纠错的语句；
[0062]
当所述待纠错文本中的各语句为需要纠错的语句时，通过所述长短时记忆模型对文本编码进行概率预测，得到概率预测结果。
[0063]
在本实施例中，对于预先训练得到的文本纠错模型，通过如下方式训练得到：
[0064]
提取transformer模型框架中的编码器和长短时记忆模型(lstm)框架中的解码器；
[0065]
在所述编码器和所述解码器之间进行嵌入层参数共享，并对嵌入层参数进行因式分解，构建混合架构模型；
[0066]
从具有纠错信息的文本数据中构建训练数据集，基于所述训练数据集对所述混合架构模型进行学习训练，得到初始训练模型；
[0067]
对所述初始训练模型进行量化处理，得到文本纠错模型。
[0068]
在本实施例中，对于嵌入层参数进行因式分解，包括：
[0069]
在嵌入层(embedding layer)和隐藏层之间加入一个项目层(project)，其中，项目层分别与嵌入层和隐藏层进行连接；
[0070]
降低嵌入层的维度，使得嵌入层的维度不与隐藏层的维度一致，对嵌入层参数进行因式分解，例如：设词汇表的大小为v，词嵌入的维度为e，隐藏层的维度为h，则分解之前的参数量为v*h，此处的v是词汇表的大小，通常为几万，h是隐藏层大小，通常为几百到几千，进行因式分解之后，因为词嵌入维度e远小于隐藏层的维度h，所以分解后的参数量会远小于分解前的参数量。
[0071]
在本实施例中，对于从具有纠错信息的文本数据中构建训练数据集，基于所述训练数据集对所述混合架构模型进行学习训练，得到初始训练模型，包括：
[0072]
采集具有纠错信息的文本数据，其中，具有纠错信息的文本数据包括文本；
[0073]
对具有纠错信息的文本数据按照预设的方式进行分类，例如，将文本数据按照语
言分类，分为中文、英文和特殊符号；
[0074]
对具有纠错信息的文本数据按照预设的方式进行拆分和组合，构建训练数据集，例如，将文本信息拆分成句子，将纠错信息与对原文文本按照对应关系进行组合，得到训练数据集；
[0075]
基于所述训练数据集对所述混合架构模型进行学习训练，得到初始训练模型。
[0076]
在本实施例中，对于对所述初始训练模型进行量化处理，得到文本纠错模型，包括：
[0077]
通过预设的量化算法模型对所述初始训练模型进行量化处理，例如：deepcompression、binary-net、tenary-net和dorefa-net；
[0078]
在实际应用中，对初始训练模型进行量化处理后，可以使用8位存储每个32位浮点权重，虽然这意味着每个权重都以较低的保真度存储，但模型的质量并未受到重大影响。
[0079]
103、根据最小编辑距离算法，计算文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离；
[0080]
该步骤中，包括：
[0081]
提取所述文本信息和与之对应的所述文本纠错结果中的所有字符，形成字符集；
[0082]
按照预设的拆分方法对所述字符集进行拆分，形成字符串；
[0083]
根据所述文本信息和所述文本纠错结果之间的对应关系，将所述字符串转换成具有所述对应关系的字符矩阵，其中，所述字符矩阵包含所述字符串中所有字符的字符特征值；
[0084]
根据预设的编辑操作类型，构建动态规划方程；
[0085]
基于所述动态规划方程对所述字符矩阵中的各字符特征值进行编辑距离运算，得到所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离。
[0086]
在本实施例中，对于按照预设的拆分方法对所述字符集进行拆分，形成字符串，包括：
[0087]
对字符集根据字符与文本中句子间的对应关系进行拆分，得到字符串，其中，一个字符串中所包含的字符属于同一个句子。
[0088]
在实际应用中，也可以根据基于特定语法所构成的短语对所述字符集进行拆分，例如：以包含至少一个动词和至少一个名词的短语为单位对所述字符集进行拆分。
[0089]
在本实施例中，对于根据预设的编辑操作类型，构建动态规划方程，包括：
[0090]
当编辑操作类型设置为：删除一个字符、插入一个字符和修改一个字符时，可用以下方式构建动态规划方程：
[0091]
用edit[i][j]表示a串和b串的编辑距离。edit[i][j]表示a串从第0个字符开始到第i个字符和b串从第0个字符开始到第j个字符，这两个字串的编辑距离；字符串的下标从1开始；
[0092]
dis[0][0]表示word1和word2都为空的时候，此时两者间的edit distance(编辑距离)为0。可以得出，dis[0][j]就是word1为空，word2长度为j的情况，此时他们的edit distance为j，也就是从空，添加j个字符转换成word2的最小edit distance为j；同理dis[i][0]就是，word1长度为i，word2为空时，word1需要删除i个字符才能转换成空，所以转换
成word2的最小edit distance为i；
[0093]
根据以上说明，构建动态规划方程如下：
[0094][0095]
其中：
[0096][0097]
上式中的min()函数中的三个部分，对应三种字符操作方式：
[0098]
edit[i-1][j] 1相当于给word2的最后插入了word1的最后的字符，插入操作使得edit 1，之后计算edit[i-1][j]；
[0099]
edit[i][j-1] 1相当于将word2的最后字符删除，删除操作edit 1，之后计算edit[i][j-1]；
[0100]
edit[i-1][j-1] flag相当于通过将word2的最后一个字符替换为word1的最后一个字符；flag标记代表替换的有效次数。
[0101]
104、对文本信息包含的字符串和文本纠错结果包含的字符串按照最小编辑距离进行映射处理，得到文本纠错意见；
[0102]
该步骤中，具体地，包括：
[0103]
获取所述文本信息包含的字符串和所述文本纠错结果包含的字符串，并遍历字符串之间的最小编辑距离，并对最小编辑距离对应代价值进行比较，选取使得代价值最小的字符串组合，构造字符串对应组；
[0104]
根据预设的编辑操作类型和字符串对应组中字符串之间的最小编辑距离，按照把所述文本信息中的字符串编辑成所述文本纠错结果中的字符串的编辑方向，将所述最小编辑距离转换成编辑操作序列，其中，编辑操作序列中包含对字符串中字符进行编辑时所涉及的编辑位置、编辑操作类型和编辑顺序，例如，当预设的编辑操作类型为删除一个字符、插入一个字符和修改一个字符时，将所述最小编辑距离转换成包含删除一个字符、插入一个字符和修改一个字符的编辑操作所作用的编辑位置、编辑操作类型和编辑顺序的编辑操作序列；
[0105]
按照预设的输出方式输出包含所述文本信息和与其对应的编辑操作序列，得到文本纠错意见，例如，以交互式的方式将编辑操作序列内容进行输出，供用户选择性纠正，具体地，可以使用箭头连接待纠错文本和纠错结果，两个句子基于最小编辑语法得到映射关系，使用不同颜色的箭头代表不同的编辑操作，可选地，黑色箭头表示无需处理，黄色箭头表示需要修改，红色表示该词应该被删掉，绿色表示应该添加的内容，得到文本纠错意见，给出各种修正意见供用户参考。
[0106]
通过对上述方法的实施，通过对待纠错文本数据进行预处理，得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理，得到文本信息对应的文本纠错结
果；根据最小编辑距离算法，计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离；对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理，得到文本纠错意见；通过计算最小编辑距离得到本文纠错意见，以体现出错误内容与正确内容之间的关系，并给出错误内容在文本中的位置，以便于用户进行实时调整，解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型，无法对纠错内容直观显示的问题。
[0107]
为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图2，本发明实施例中文本纠错方法的第二个实施例，该方法的实现步骤如下：
[0108]
201、获取待纠错数据，并对待纠错数据进行预处理，得到文本信息；
[0109]
在本实施例中，对于该步骤，具体通过去除文本数据中的噪声，得到去除噪声后的文本数据；将去除噪声后的文本数据的文本形式转换成预设的文本形式，得到转换格式后的文本数据；对转换格式后的文本数据按照预设的类别和特征进行分类和筛选，得到文本信息。
[0110]
202、将文本信息输入至采用transformer模型架构的编码器进行编码处理，得到文本编码；
[0111]
在本实施例中，对于该步骤，包括：
[0112]
将文本信息输入至采用transformer模型架构的编码器后，可以采用压缩编码的编码方式进行编码处理，其中，压缩编码是一种可压缩数据大小的编码方式，比如bpe编码(byte pairencoder，双字节编码)。bpe编码，也可以叫做双字母组合编码(digram coding)，主要目的是为了数据压缩。bpe编码的方式主要是，将字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。例如，当初始文本中的词为“student”，可用字符“a”替代字符“stu”，用字符“b”替代“dent”，那么该词“student”可被编码为“ab”。在实际应用中，可以词、词组、句子等为单位进行压缩编码，以得到整个文本信息对应的文本编码。
[0113]
当然，也可以采用基于注意力机制的编码方式，具体地，通过提取文本信息中的特征信息并转换成特征向量，并对特征向量进行基于注意力机制的编码处理，以得到整个文本信息对应的文本编码。
[0114]
203、将文本编码输入至长短时记忆模型进行预测计算，并通过预测计算结果进行文本纠错处理，得到文本纠错结果；
[0115]
在本实施例中，对于该步骤，包括：
[0116]
采集包含纠错信息的文本信息，建立训练数据集，并基于训练数据集训练长短时记忆模型，生成纠错词汇表，其中，纠错词汇表包含具有错误的语句的文本编码以及对应的纠错文本的文本编码；
[0117]
通过长短时记忆模型获取文本编码，并对文本编码的各部分进行困惑度计算，得到困惑度值；
[0118]
判断文本编码各部分的困惑度值是否大于设定阈值，若大于，则将该部分文本编码替换成纠错词汇表中对应的纠错文本的文本编码；
[0119]
对替换后的文本编码进行困惑度计算，得到困惑度值；
[0120]
比较替换前后的文本编码困惑度值，若替换后的文本编码困惑度值较大，则撤销
替换操作；
[0121]
将文本编码按照长短时记忆模型的解码规则进行解码，得到文本纠错结果。
[0122]
204、根据最小编辑距离算法，计算文本信息中包含的句子和文本纠错结果中包含的句子之间的最小编辑距离；
[0123]
在本实施例中，对于该步骤，包括：
[0124]
分别获取文本信息和文本纠错结果，并分别按照句子进行拆分，并转换成字符串集合，其中，字符串集合包括文本信息包含的句子对应的字符串集合和文本纠错结果包含的句子对应的字符串集合；
[0125]
根据预设的编辑操作类型，构建动态规划方程，并对字符串集合进行编辑距离运算，得到字符串之间的最小编辑距离，该最小编辑距离表示文本信息中包含的句子和文本纠错结果中包含的句子之间的最小编辑距离。
[0126]
205、对文本信息中的句子和与之对应的文本纠错结果中句子按照句子之间的最小编辑距离进行映射处理，得到文本纠错意见；
[0127]
在本实施例中，对于该步骤，包括：
[0128]
根据预设的编辑操作类型，将所述最小编辑距离转换成编辑操作序列，例如，当预设的编辑操作类型为删除一个字符、插入一个字符和修改一个字符时，将所述最小编辑距离转换成包含删除一个字符、插入一个字符和修改一个字符的编辑操作的编辑操作序列；
[0129]
按照预设的输出方式输出包含所述文本信息和与其对应的编辑操作序列，得到文本纠错意见，例如，以交互式的方式将编辑操作序列内容进行输出，供用户选择性纠正，具体地，可以使用箭头连接待纠错文本和纠错结果，两个句子基于最小编辑语法得到映射关系，使用不同颜色的箭头代表不同的编辑操作，可选地，黑色箭头表示无需处理，黄色箭头表示需要修改，红色表示该词应该被删掉，绿色表示应该添加的内容，得到文本纠错意见，给出各种修正意见供用户参考。
[0130]
通过对上述方法的实施，通过对待纠错文本数据进行预处理，得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理，得到文本信息对应的文本纠错结果；根据最小编辑距离算法，计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离；对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理，得到文本纠错意见；通过计算最小编辑距离得到本文纠错意见，以体现出错误内容与正确内容之间的关系，并给出错误内容在文本中的位置，以便于用户进行实时调整，解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型，无法对纠错内容直观显示的问题。
[0131]
为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图3，本发明实施例中文本纠错方法的第三个实施例，该方法的实现步骤如下：
[0132]
301、获取待纠错数据，并对待纠错数据进行预处理，得到文本信息；
[0133]
对于该步骤，在本实施例中，具体地，包括：
[0134]
对待纠错数据进行数据清洗，得到经过数据清洗后的文本数据；
[0135]
对经过数据清洗后的文本数据按照预设的文本类别进行分类，得到不同类别的文本信息；
[0136]
302、将文本信息输入至采用transformer模型架构的编码器进行编码处理，得到
文本编码；
[0137]
对于该步骤，在本实施例中，包括：
[0138]
采用基于注意力(attention)机制的编码方式，通过提取文本信息中的特征信息(source)并转换成特征向量，并通过注意力机制表示为包含地址(key)和值(value)的数据对《key，value》，此时给定目标(target)中的某个查询元素(query)，通过计算query和各个key的相关度(similarity)，得到每个key对应value的权重系数，然后对value进行加权求和，得到attention数值；在实际应用中，利用attention机制，采用以下公式对source中元素的value值进行加权求和，其中，query和key用来计算对应value的权重系数。
[0139][0140]
其中，attention(query，source)表示通过attention机制将特征信息(source)转换成目标(target)中的query元素的过程中，需要计算的attention值，similarity表示query和各个key的相关度，l
x
代表source的长度，key和value的下标i代表其在数据对《key，value》中的编号，便于加权求和。
[0141]
根据特征向量对应的attention数值，进行基于注意力机制的编码处理，得到整个文本信息对应的文本编码。
[0142]
303、将文本编码输入至采用长短时记忆模型框架的解码器进行解码，得到文本纠错结果；
[0143]
对于该步骤，在本实施例中，具体地，包括：
[0144]
通过长短时记忆模型调用困惑度值计算算法，计算文本编码对应的困惑度值，包括采用以下公式计算困惑度值(perplexity)：
[0145][0146]
pp(w)表示句子w的困惑度值，wω1、ω2以及ωn均表示句子w所包含的词语所对应的文本编码，其中，ωn的下标n表示当前迭代计算所选取的词语对应的文本编码范围，p(ω1ω2…
ωn)表示包含句子概率。
[0147]
将所述待纠错文本中的各语句的困惑度与预设困惑度阈值进行比较；
[0148]
若所述待纠错文本中的各语句的困惑度小于所述预设困惑度阈值，则判断所述待纠错文本中的各语句为无需纠错的语句；
[0149]
若所述待纠错文本中的各语句的困惑度大于或者等于所述预设困惑度阈值，则判断所述待纠错文本中的各语句为需要纠错的语句；
[0150]
当所述待纠错文本中的各语句为需要纠错的语句时，通过所述长短时记忆模型对文本编码进行概率预测，并替换成预测的文本编码，得到概率预测结果；
[0151]
基于概率预测结果，将文本编码解码成文本的形式，得到文本纠错结果。
[0152]
304、根据最小编辑距离算法，计算文本信息中包含的句子和文本纠错结果中包含的句子之间的最小编辑距离；
[0153]
在本实施例中，对于该步骤，包括：
[0154]
分别获取文本信息和文本纠错结果，并分别按照句子进行拆分，并转换成字符串
集合，其中，字符串集合包括文本信息包含的句子对应的字符串集合和文本纠错结果包含的句子对应的字符串集合；
[0155]
根据预设的编辑操作类型，构建动态规划方程，并对字符串集合进行编辑距离运算，得到字符串之间的最小编辑距离，该最小编辑距离表示文本信息中包含的句子和文本纠错结果中包含的句子之间的最小编辑距离。
[0156]
305、对文本信息中的句子和与之对应的文本纠错结果中句子按照句子之间的最小编辑距离进行映射处理，得到文本纠错意见；
[0157]
在本实施例中，对于该步骤，包括：
[0158]
根据预设的编辑操作类型，将所述最小编辑距离转换成编辑操作序列，例如，当预设的编辑操作类型为删除一个字符、插入一个字符和修改一个字符时，将所述最小编辑距离转换成包含删除一个字符、插入一个字符和修改一个字符的编辑操作的编辑操作序列；
[0159]
按照预设的输出方式输出包含所述文本信息和与其对应的编辑操作序列，得到文本纠错意见，例如，以交互式的方式将编辑操作序列内容进行输出，供用户选择性纠正，具体地，可以以待纠错文本为基础进行呈现，对于其中的纠错内容，在用户界面上显示不同的颜色或者字体，并将对应的编辑操作序列信息以链接或者箭头的形式输出，得到文本纠错意见；
[0160]
在实际应用中，也可以采用以文本纠错结果为基础，在用户界面上将与待纠错文本有区别的地方突出显示，并将并将对应的编辑操作序列信息以链接或者箭头的形式输出，得到文本纠错意见。
[0161]
通过对上述方法的实施，通过对待纠错文本数据进行预处理，得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理，得到文本信息对应的文本纠错结果；根据最小编辑距离算法，计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离；对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理，得到文本纠错意见；通过计算最小编辑距离得到本文纠错意见，以体现出错误内容与正确内容之间的关系，并给出错误内容在文本中的位置，以便于用户进行实时调整，解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型，无法对纠错内容直观显示的问题。
[0162]
上面对本发明实施例中的文本纠错方法进行了描述，下面对本发明实施例中的文本纠错装置进行描述，请参照图4，本发明实施例中的文本纠错装置的一个实施例包括：
[0163]
预处理模块401，用于获取待纠错数据，并对待纠错数据进行预处理，得到文本信息；
[0164]
文本纠错处理模块402，用于将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理，得到所述文本信息对应的文本纠错结果；
[0165]
最小编辑距离计算模块403，用于根据最小编辑距离算法，计算所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离；
[0166]
映射处理模块404，用于对所述文本信息包含的字符串和所述文本纠错结果包含的字符串按照所述最小编辑距离进行映射处理，得到文本纠错意见。
[0167]
通过对上述装置的实施，通过对待纠错文本数据进行预处理，得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理，得到文本信息对应的文本纠错结
果；根据最小编辑距离算法，计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离；对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理，得到文本纠错意见；通过计算最小编辑距离得到本文纠错意见，以体现出错误内容与正确内容之间的关系，并给出错误内容在文本中的位置，以便于用户进行实时调整，解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型，无法对纠错内容直观显示的问题。
[0168]
请参阅图5，本发明实施例中的文本纠错装置的另一个实施例包括：
[0169]
预处理模块401，用于获取待纠错数据，并对待纠错数据进行预处理，得到文本信息；
[0170]
文本纠错模块402，用于判断文本信息的长度是否大于预设长度阈值；
[0171]
最小编辑距离计算模块403，用于在判断长度大于预设长度阈值时，调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据；
[0172]
映射处理模块404，用于将摘要数据输入至预先训练得到的文本纠错模型进行文本纠错处理，得到待纠错数据中的情感信息；
[0173]
模型训练模块405，用于提取transformer模型框架中的编码器和长短时记忆模型框架中的解码器；在所述编码器和所述解码器之间进行嵌入层参数共享，并对嵌入层参数进行因式分解，构建混合架构模型；从具有纠错信息的文本数据中构建训练数据集，基于所述训练数据集对所述混合架构模型进行学习训练，得到初始训练模型；对所述初始训练模型进行量化处理，得到文本纠错模型。
[0174]
其中，所述文本纠错模块402包括：
[0175]
文本编码单元4021，用于通过采用transformer模型架构的编码器对所述文本信息进行编码，得到文本编码；
[0176]
第一计算单元4022，用于根据注意力机制对文本编码进行线性变换和投影处理，计算文本编码对应的注意力值；
[0177]
第二计算单元4023，用于调用困惑度值计算算法，对所述注意力值集合中包含的注意力值进行迭代计算，得到对应的困惑度；
[0178]
概率预测单元4024，用于根据困惑度对文本编码进行概率预测，得到概率预测结果；
[0179]
文本解码单元4025，用于根据概率预测结果对所述文本编码进行解码，得到文本纠错结果；
[0180]
在本实施例中，所述最小编辑距离计算模块403包括：
[0181]
字符转换单元4031，用于提取所述文本信息和与之对应的所述文本纠错结果中的所有字符，形成字符集，按照预设的拆分方法对所述字符集进行拆分，形成字符串；并根据所述文本信息和所述文本纠错结果之间的对应关系，将所述字符串转换成具有所述对应关系的字符矩阵；
[0182]
动态规划单元4032，用于根据预设的编辑操作类型，构建动态规划方程；
[0183]
第三计算单元4033，用于对所述字符矩阵中的各字符特征值进行编辑距离运算，得到所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离；
[0184]
在本实施例中，所述映射处理模块404包括：
[0185]
映射单元4041，用于根据所述最小编辑距离，对所述文本信息包含的字符串和所述文本纠错结果包含的字符串进行映射处理，得到字符串对应组；
[0186]
序列生成单元4042，用于根据预设的编辑操作类型和所述字符串对应组中字符串之间的最小编辑距离，按照把所述文本信息中对应的字符串编辑成所述文本纠错结果中的字符串的编辑方向，构建编辑操作序列；
[0187]
意见输出单元4043，用于按照预设的输出方式输出包含所述文本信息和与其包含的字符串对应的编辑操作序列，得到文本纠错意见；
[0188]
在本实施例中，所述模型训练模块405包括：
[0189]
训练数据集生成单元4051，用于采集文本数据，按照预设方式构建训练数据集；
[0190]
训练单元4052，用于通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型，通过待训练模型的编码解码运算，得到对应的训练结果，并判断所述训练结果是否满足预设的条件，若是，则终止循环，输出初始训练模型。
[0191]
通过对上述装置的实施，通过对待纠错文本数据进行预处理，得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理，得到文本信息对应的文本纠错结果；根据最小编辑距离算法，计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离；对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理，得到文本纠错意见；通过计算最小编辑距离得到本文纠错意见，以体现出错误内容与正确内容之间的关系，并给出错误内容在文本中的位置，以便于用户进行实时调整，解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型，无法对纠错内容直观显示的问题。
[0192]
请参阅图6，下面从硬件处理的角度对本发明实施例中的计算机设备的一个实施例进行详细描述。
[0193]
图6是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在计算机设备600上执行存储介质630中的一系列指令操作。
[0194]
计算机设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如windows serve，mac os x，unix，linux，freebsd等等。本领域技术人员可以理解，图6示出的计算机设备结构并不构成对本技术提供的计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0195]
本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述文本纠错方法的步骤。
[0196]
在实际应用中，上述提供的方法可以基于人工智能技术来实现，其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其具体可以是基于服务器来执行，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0197]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0198]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0199]
以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种神经网络的生成方法、装置、计算机设备及存储介质与流程

文本纠错方法、装置、设备及存储介质与流程

相关文献

最热文献