基于人工智能的文本纠错方法、装置、设备及存储介质与流程

2022-02-19 11:40:26 来源：中国专利 TAG：

1.本技术涉及到人工智能技术领域，特别是涉及到一种基于人工智能的文本纠错方法、装置、设备及存储介质。

背景技术：

2.在智能对话系统中，发音和音转错误是主要问题，如何进行文本纠错，以提升句子理解准确性、对话效果、客户体验是一个重要课题。纠错技术作为文本预处理过程中的一环，对线上时效性具有极其严格的要求，一般工业上的单句耗时要求在毫秒级别，因此极需高性能且高效的解决方案。
3.目前，比较主流的文本纠错方法是规则纠错和深度学习纠错。一方面，规则纠错的准确率较低；另一方面，深度学习纠错的深度学习模型的训练受标注资源的制约，并且无法满足线上时效性具有极其严格的要求，导致难以满足大规模工业线上使用。

技术实现要素：

4.本技术的主要目的为提供一种基于人工智能的文本纠错方法、装置、设备及存储介质，旨在解决现有技术的采用规则纠错和深度学习纠错进行文本纠错，深度学习纠错的深度学习模型的训练受标注资源的制约，并且无法满足线上时效性具有极其严格的要求，导致难以满足大规模工业线上使用，而规则纠错的准确率较低的技术问题。
5.为了实现上述发明目的，本技术提出一种基于人工智能的文本纠错方法，所述方法包括：
6.获取待纠错文本，对所述待纠错文本进行待评估错误短语检测；
7.对每个所述待评估错误短语进行候选短语确定；
8.对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算；
9.根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算；
10.根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算；
11.基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算；
12.根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定；
13.根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本。
14.进一步的，所述对所述待纠错文本进行待评估错误短语检测的步骤，包括：
15.对所述待纠错文本进行分词处理，得到待评估短语集；
16.获取拼音及实体映射字典，对所述拼音及实体映射字典中的各个拼音与所述待评估短语集中的每个待评估短语进行第二拼音距离计算；
17.获取第一阈值，将存在所述第二拼音距离小于所述第一阈值的每个所述待评估短
语作为所述待评估错误短语；
18.对所述待评估短语集分别进行分句和第一相邻短语对确定；
19.根据采用通用领域训练样本和行业领域训练样本训练2
‑
gram模型和训练3
‑
gram模型得到的各个模型，对每个所述第一相邻短语对进行评分，得到待分析的评分集；
20.获取第二阈值，根据所述待分析的评分集和所述第二阈值进行所述待评估错误短语检测；
21.采用第一语言模型，针对每个所述待评估短语进行在预测字典中的每个预设短语的概率预测，得到每个所述待评估短语对应的待评估概率集；
22.获取第三阈值，将每个所述待评估概率集中的值的大于所述第三阈值的各个待评估概率作为目标概率集；
23.将所述目标概率集对应的各个所述预设短语作为待处理短语集；
24.当目标短语不位于所述目标短语对应的所述待处理短语集中时，将所述目标短语作为所述待评估错误短语，其中，所述目标短语是任一个所述待评估短语。
25.进一步的，所述根据采用通用领域训练样本和行业领域训练样本训练2
‑
gram模型和训练3
‑
gram模型得到的各个模型，对每个所述第一相邻短语对进行评分，得到待分析的评分集的步骤，包括：
26.采用第一搭配评分模型，对每个所述第一相邻短语对进行评分，得到第一搭配评分，所述第一搭配评分模型是采用所述通用领域训练样本训练所述2
‑
gram模型得到的模型；
27.采用第二搭配评分模型，对每个所述第一相邻短语对进行评分，得到第二搭配评分，所述第二搭配评分模型是采用所述行业领域训练样本训练所述2
‑
gram模型得到的模型；
28.采用第三搭配评分模型，对每个所述第一相邻短语对进行评分，得到第三搭配评分，所述第三搭配评分模型是采用所述通用领域训练样本训练所述3
‑
gram模型得到的模型；
29.采用第四搭配评分模型，对每个所述第一相邻短语对进行评分，得到第四搭配评分，所述第四搭配评分模型是采用所述行业领域训练样本训练3
‑
gram模型得到的模型；
30.所述根据所述待分析的评分集和所述第二阈值进行所述待评估错误短语检测的步骤，包括：
31.当存在所述待评估短语对应的所述第一搭配评分、所述第二搭配评分、所述第三搭配评分、所述第四搭配评分均小于所述第二阈值时，将所述待评估短语作为所述待评估错误短语。
32.进一步的，所述第一语言模型依次包括：输入层、编码层、预测层和输出层；其中，所述编码层包括：cbow模型的编码层、拼音编码层、五笔编码层、编码融合层，所述预测层是所述cbow模型的预测层，所述输出层是对所述预测字典中的每个所述预设短语的概率进行输出，所述cbow模型的编码层、所述拼音编码层、所述五笔编码层的输出端均与所述编码融合层的输入端连接。
33.进一步的，所述对每个所述待评估错误短语进行候选短语确定的步骤，包括：
34.将每个所述待评估错误短语输入第二语言模型进行预测字典中的每个预设短语
的概率预测，得到每个所述待评估错误短语对应的待处理概率集；
35.获取第四阈值，将所述待处理概率集中的大于所述第四阈值的每个待处理概率对应的短语作为一个所述候选短语；
36.获取混淆词典，将每个所述待评估错误短语输入所述混淆词典进行所述候选短语确定。
37.进一步的，所述根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算的步骤，包括：
38.将任一所述候选短语作为目标候选短语；
39.采用所述目标候选短语，对所述待评估短语集进行替换，得到替换后的短语集；
40.对所述替换后的短语集分别进行分句和第二相邻短语对确定；
41.采用所述第一搭配评分模型，对所述第二相邻短语对进行评分，得到第一gram评分；
42.采用所述第二搭配评分模型，对所述第二相邻短语对进行评分，得到第二gram评分；
43.采用所述第三搭配评分模型，对所述第二相邻短语对进行评分，得到第三gram评分；
44.采用所述第四搭配评分模型，对所述第二相邻短语对进行评分，得到第四gram评分；
45.根据所述第一gram评分、所述第二gram评分、所述第三gram评分和所述第四gram评分确定所述目标候选短语对应的所述gram候选评分。
46.进一步的，所述根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定的步骤，包括：
47.获取第五阈值；
48.将任一个所述待评估错误短语作为待处理的短语；
49.当所述待处理的短语存在大于所述的第五阈值的所述统计评分时，从所述待处理的短语对应的各个所述统计评分中找出值最大的所述统计评分作为目标统计评分；
50.将所述目标统计评分对应的所述候选短语作为所述待处理的短语对应的所述替换词。
51.本技术还提出了一种基于人工智能的文本纠错装置，所述装置包括：
52.待评估错误短语确定模块，用于获取待纠错文本，对所述待纠错文本进行待评估错误短语检测；
53.候选短语确定模块，用于对每个所述待评估错误短语进行候选短语确定；
54.词频计算模块，用于对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算；
55.距离计算模块，用于根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算；
56.gram候选评分确定模块，用于根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算；
57.统计评分确定模块，用于基于获取的目标评分模型，根据各个所述通用领域词频、
各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算；
58.替换词确定模块，用于根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定；
59.纠错后文本确定模块，用于根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本。
60.本技术还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
61.本技术还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
62.本技术的基于人工智能的文本纠错方法、装置、设备及存储介质，其中方法首先通过对所述待纠错文本进行待评估错误短语检测，对每个所述待评估错误短语进行候选短语确定，其次通过对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算，根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算，根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算，然后通过基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，最后通过根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定，根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本，实现通过错误短语检测、候选短语和替换词筛选三个主要流程，避免了采用规则纠错和深度学习纠错进行文本纠错，提高了文本纠错的实时性，提高了文本纠错的准确率；通过根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，提高了统计评分的准确性，进一步提高了文本纠错的准确率。
附图说明
63.图1为本技术一实施例的基于人工智能的文本纠错方法的流程示意图；
64.图2为本技术一实施例的基于人工智能的文本纠错装置的结构示意框图；
65.图3为本技术一实施例的计算机设备的结构示意框图。
66.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
67.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
68.参照图1，本技术实施例中提供一种基于人工智能的文本纠错方法，所述方法包括：
69.s1：获取待纠错文本，对所述待纠错文本进行待评估错误短语检测；
70.s2：对每个所述待评估错误短语进行候选短语确定；
71.s3：对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算；
72.s4：根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算；
73.s5：根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算；
74.s6：基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算；
75.s7：根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定；
76.s8：根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本。
77.本实施例首先通过对所述待纠错文本进行待评估错误短语检测，对每个所述待评估错误短语进行候选短语确定，其次通过对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算，根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算，根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算，然后通过基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，最后通过根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定，根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本，实现通过错误短语检测、候选短语和替换词筛选三个主要流程，避免了采用规则纠错和深度学习纠错进行文本纠错，提高了文本纠错的实时性，提高了文本纠错的准确率；通过根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，提高了统计评分的准确性，进一步提高了文本纠错的准确率。
78.对于s1，可以获取用户输入的待纠错文本，也可以从数据库中获取待纠错文本，还可以从第三方应用系统中获取待纠错文本。
79.待纠错文本，是需要进行文字纠错的文本。待纠错文本可以是一句话，也可以是一段话，还可以是多段话。
80.其中，对所述待纠错文本进行错误短语检测，将检测得到的每个错误短语作为一个待评估错误短语，错误短语检测包括：基于规则的错误检测和基于模型错误检测。
81.对于s2，候选短语确定包括：基于语言模型确定候选短语和基于混淆词典的确定候选短语。
82.可选的，采用基于word2vec(一群用来产生词向量的相关模型)的cbow(continuous bag
‑
of
‑
word model)模型训练得到的模型，对每个所述待评估错误短语进行候选短语确定。cbow模型的作用是根据给定的词，预测目标词出现的概率。
83.混淆词典包括：近音字典、近形字典、1
‑
gram(基于统计语言模型的算法)混淆词典和2
‑
gram混淆词典。
84.近音字典包括：拼音和近音字集合。比如，近音字集合为[凶熊兄雄]，在此举例不做具体限定。
[0085]
近形字典包括近形字集合。比如，近形字集合为[验检捡俭]，在此举例不做具体限定。
[0086]1‑
gram混淆词典包括：第一易混淆短语集合。第一易混淆短语集合中的易混淆短语，是1
‑
gram中的编辑距离小于第一预设值的短语。
[0087]2‑
gram混淆词典包括：第二易混淆短语集合。第二易混淆短语集合中的易混淆短语，是2
‑
gram中的编辑距离小于第二预设值的短语。
[0088]
对于s3，计算每个所述候选短语在通用领域语料词典中的词频，将计算得到的每个词频作为一个通用领域词频；计算每个所述候选短语在行业领域语料词典中的词频，将计算得到的每个词频作为一个行业领域词频。也就是说，通用领域词频的数量与所述候选短语的数量相同，行业领域词频的数量与所述候选短语的数量相同。
[0089]
其中，通用领域语料词典中包括通用领域的多个语料。通用领域是指大部分的技术领域。语料，也就是文本段，是语言材料。
[0090]
其中，行业领域语料词典中包括行业领域的多个语料，其中，行业领域是实现本技术的程序应用的领域。
[0091]
行业领域的取值包括但不限于：金融领域、数字医疗领域、智能家居领域。
[0092]
对于s4，计算所述待评估错误短语与该所述待评估错误短语对应的每个所述候选短语之间的编辑距离及第一拼音距离。
[0093]
其中，每个所述待评估错误短语对应的编辑距离的数量与该待评估错误短语对应的所述候选短语的数量相同。
[0094]
其中，每个所述待评估错误短语对应的第一拼音距离的数量与该待评估错误短语对应的所述候选短语的数量相同。
[0095]
编辑距离，是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
[0096]
其中，采用杰卡德距离作为第一拼音距离。杰卡德距离，又称为jaccard距离。
[0097]
对于s5，对所述待纠错文本进行分词处理，得到待评估短语集；采用候选短语，对待评估短语集进行替换，得到替换后的短语集；对所述替换后的短语集进行分句，对分句后的短语集进行相邻短语对确定，采用基于n
‑
gram(基于统计语言模型的算法)模型训练得到的模型，对相邻短语对进行搭配评分计算，根据同一相邻短语对对应的搭配评分确定该相邻短语对对应的所述候选短语对应的gram候选评分。
[0098]
对于s6，所述目标评分模型是基于逻辑回归模型训练得到的模型。
[0099]
其中，将同一所述候选短语对应的所述通用领域词频、所述行业领域词频、所述编辑距离、所述第一拼音距离和所述gram候选评分输入所述目标评分模型进行评分计算，将计算的评分作为该所述候选短语对应的统计评分。
[0100]
也就是说，每个所述候选短语对应一个统计评分。
[0101]
对于s7，从每个所述待评估错误短语对应的各个所述统计评分中找出最大值，将找出的最大值对应的所述统计评分对应的所述候选短语作为该所述待评估错误短语的替换词。
[0102]
对于s8，采用所述替换词，对所述待纠错文本中的与该所述替换词对应的所述待评估错误短语进行替换，将完成所有所述替换词的替换的所述待纠错文本作为纠错后文本。
[0103]
在一个实施例中，上述对所述待纠错文本进行待评估错误短语检测的步骤，包括：
[0104]
s11：对所述待纠错文本进行分词处理，得到待评估短语集；
[0105]
s12：获取拼音及实体映射字典，对所述拼音及实体映射字典中的各个拼音与所述待评估短语集中的每个待评估短语进行第二拼音距离计算；
[0106]
s13：获取第一阈值，将存在所述第二拼音距离小于所述第一阈值的每个所述待评估短语作为所述待评估错误短语；
[0107]
s14：对所述待评估短语集分别进行分句和第一相邻短语对确定；
[0108]
s15：根据采用通用领域训练样本和行业领域训练样本训练2
‑
gram模型和训练3
‑
gram模型得到的各个模型，对每个所述第一相邻短语对进行评分，得到待分析的评分集；
[0109]
s16：获取第二阈值，根据所述待分析的评分集和所述第二阈值进行所述待评估错误短语检测；
[0110]
s17：采用第一语言模型，针对每个所述待评估短语进行在预测字典中的每个预设短语的概率预测，得到每个所述待评估短语对应的待评估概率集；
[0111]
s18：获取第三阈值，将每个所述待评估概率集中的值的大于所述第三阈值的各个待评估概率作为目标概率集；
[0112]
s19：将所述目标概率集对应的各个所述预设短语作为待处理短语集；
[0113]
s110：当目标短语不位于所述目标短语对应的所述待处理短语集中时，将所述目标短语作为所述待评估错误短语，其中，所述目标短语是任一个所述待评估短语。
[0114]
本实施例通过拼音及实体映射字典实现基于规则的错误检测，通过采用通用领域训练样本和行业领域训练样本训练2
‑
gram模型和训练3
‑
gram模型得到的各个模型实现基于模型错误检测，通过第一语言模型基于模型错误检测，从而提高了错误短语检测的准确性。
[0115]
对于s11，采用预设分词词典，对所述待纠错文本进行分词处理，将分词得到的数据作为待评估短语集。
[0116]
对于s12，可以从数据库中获取拼音及实体映射字典，也可以获取用户输入的拼音及实体映射字典，还可以从第三方应用系统中获取拼音及实体映射字典。
[0117]
拼音及实体映射字典包括：拼音和实体，每个拼音对应至少一个实体。实体，是对客观个体的抽象，一个人、一部电影、一句话都可以看作是一个实体。
[0118]
其中，对所述拼音及实体映射字典中的各个拼音与所述待评估短语集中的每个待评估短语的拼音之间进行拼音距离计算，将计算得到的每个拼音距离作为第二拼音距离，也就是说，每个待评估短语对应的第二拼音距离的数量和所述拼音及实体映射字典中的拼音数量相同。
[0119]
其中，采用杰卡德距离作为第二拼音距离。
[0120]
对于s13，可以从数据库中获取第一阈值，也可以获取用户输入的第一阈值，还可以从第三方应用系统中获取第一阈值，还可以将第一阈值写入实现本技术的程序中。第一阈值是一个具体数值。
[0121]
其中，若存在所述第二拼音距离小于所述第一阈值，则可以认为所述第二拼音距离小于所述第一阈值的所述待评估短语可能有错，因此，可以将存在所述第二拼音距离小于所述第一阈值的每个所述待评估短语作为所述待评估错误短语。
[0122]
对于s14，对所述待评估短语集分别进行分句处理、标点符号删除、停用词删除处
理，对完成分句处理、标点符号删除、停用词删除处理后的所述待评估短语集进行相邻短语对确定，将确定的每个相邻短语对作为一个第一相邻短语对。
[0123]
比如，完成分句处理、标点符号删除、停用词删除处理后的所述待评估短语集为“系统提示身份证号码不正确”，进行进行相邻短语对确定确定得到5个相邻短语对，5个相邻短语对分别为：[系统，提示]、[提示，身份证]、[身份证，号码]、[号码，不]、[不，正确]，将[系统，提示]、[提示，身份证]、[身份证，号码]、[号码，不]、[不，正确]中每个一个相邻短语对作为一个第一相邻短语对，在此举例不做具体限定。
[0124]
对于s15，采用通用领域训练样本和行业领域训练样本训练2
‑
gram模型和训练3
‑
gram模型得到的各个模型，包括：采用通用领域训练样本训练2
‑
gram模型得到模型、采用通用领域训练样本分别训练得到模型、采用行业领域训练样本训练2
‑
gram模型得到模型、采用行业领域训练样本训练3
‑
gram模型得到模型。可以理解的是，采用通用领域训练样本和行业领域训练样本训练2
‑
gram模型和训练3
‑
gram模型得到的各个模型，还可以包括：采用通用领域训练样本和行业领域训练样本同时训练2
‑
gram模型得到模型，采用通用领域训练样本和行业领域训练样本同时训练3
‑
gram模型得到模型。
[0125]
其中，采用训练得到的每个模型对每个所述第一相邻短语对进行评分计算，将计算得到的每个评分作为一个待分析的评分，将各个待分析的评分作为待分析的评分集。也就是说，每个所述第一相邻短语对应的待分析的评分的数量与采用通用领域训练样本和行业领域训练样本分别训练2
‑
gram模型和分别训练3
‑
gram模型得到的模型数量相同。
[0126]
对于s16，可以从数据库中获取第二阈值，也可以获取用户输入的第二阈值，还可以从第三方应用系统中获取第二阈值，还可以将第二阈值写入实现本技术的程序中。第二阈值是一个具体数值。
[0127]
当存在所述待评估短语对应的各个待分析的评分均小于第二阈值时，意味着该所述待评估短语可能出错，因此，将各个待分析的评分均小于第二阈值的所述待评估短语作为所述待评估错误短语。
[0128]
对于s17，所述第一语言模型是基于连续词袋模型、拼音编码层、五笔编码层和预测字典训练得到的模型。
[0129]
其中，第一语言模型是基于word2vec的cbow模型(连续词袋模型)训练得到的模型。为了使第一语言模型更具有区分度和计算效率，对cbow模型进行了优化处理。cbow模型主要是给定中心词w
i
一定半径(半径通常为2，可以理解的是，半径也可以设定为其他数值)，那么窗口大小就是5，通过词w
i
‑2、w
i
‑1、w
i 1
、w
i 2
来预测中心词w
i
的概率，如果原始短语对应的概率并不在cbow模型预测的概率大于第三阈值的短语中，则认为原始短语可能有错。
[0130]
所述预测字典中的短语是行业领域内的高频短语。通过所述预测字典对所述第一语言模型的输出进行限制，在预测时所述输出层只输出预测字典中的每个预设短语对应的神经元输出的概率。常规模型的输出层是所有字的概率值，所述第一语言模型的输出层只输出候选范围的字概率，缩小了预测范围，优化了预测速度。
[0131]
其中，将每个所述待评估短语输入第一语言模型进行在预测字典中的每个预设短语的概率预测，得到每个所述待评估短语对应的待评估概率集。
[0132]
对于s18，可以从数据库中获取第三阈值，也可以获取用户输入的第三阈值，还可
以从第三方应用系统中获取第三阈值，还可以将第三阈值写入实现本技术的程序中。第三阈值是一个具体数值。
[0133]
其中，从所述待评估概率集中找出值大于所述第三阈值的待评估概率，将找出的各个待评估概率作为目标概率集。也就是说，每个所述待评估概率集对应一个目标概率集。
[0134]
可以理解的是，目标概率集可以为空集合，也可以为非空集合。
[0135]
对于s19，获取与所述目标概率集中的每个待评估概率对应的所述预设短语作为一个待处理短语，将各个待处理短语作为待处理短语集。
[0136]
对于s110，将任一个所述待评估短语作为目标短语；当目标短语不位于所述目标短语对应的所述待处理短语集中时，意味着目标短语可能出错，因此将该所述目标短语作为所述待评估错误短语。
[0137]
在一个实施例中，上述根据采用通用领域训练样本和行业领域训练样本训练2
‑
gram模型和训练3
‑
gram模型得到的各个模型，对每个所述第一相邻短语对进行评分，得到待分析的评分集的步骤，包括：
[0138]
s151：采用第一搭配评分模型，对每个所述第一相邻短语对进行评分，得到第一搭配评分，所述第一搭配评分模型是采用所述通用领域训练样本训练所述2
‑
gram模型得到的模型；
[0139]
s152：采用第二搭配评分模型，对每个所述第一相邻短语对进行评分，得到第二搭配评分，所述第二搭配评分模型是采用所述行业领域训练样本训练所述2
‑
gram模型得到的模型；
[0140]
s153：采用第三搭配评分模型，对每个所述第一相邻短语对进行评分，得到第三搭配评分，所述第三搭配评分模型是采用所述通用领域训练样本训练所述3
‑
gram模型得到的模型；
[0141]
s154：采用第四搭配评分模型，对每个所述第一相邻短语对进行评分，得到第四搭配评分，所述第四搭配评分模型是采用所述行业领域训练样本训练3
‑
gram模型得到的模型；
[0142]
所述根据所述待分析的评分集和所述第二阈值进行所述待评估错误短语检测的步骤，包括：
[0143]
s161：当存在所述待评估短语对应的所述第一搭配评分、所述第二搭配评分、所述第三搭配评分、所述第四搭配评分均小于所述第二阈值时，将所述待评估短语作为所述待评估错误短语。
[0144]
本实施例采用所述通用领域训练样本训练所述2
‑
gram模型得到的模型、采用所述行业领域训练样本训练所述2
‑
gram模型得到的模型、采用所述通用领域训练样本训练所述3
‑
gram模型得到的模型、采用所述行业领域训练样本训练3
‑
gram模型得到的模型，分别对每个所述第一相邻短语对进行评分，然后将四个模型的评分进行综合评分，从而提高了错误检测的准确性。
[0145]
对于s151，采用第一搭配评分模型对每个所述第一相邻短语对进行评分，得到每个所述第一相邻短语对对应的第一搭配评分。
[0146]
对于s152，采用第二搭配评分模型对每个所述第一相邻短语对进行评分，得到每个所述第一相邻短语对对应的第二搭配评分。
[0147]
对于s153，采用第三搭配评分模型对每个所述第一相邻短语对进行评分，得到每个所述第一相邻短语对对应的第三搭配评分。
[0148]
对于s154，采用第四搭配评分模型对每个所述第一相邻短语对进行评分，得到每个所述第一相邻短语对对应的第四搭配评分。
[0149]
对于s161，当存在所述待评估短语对应的所述第一搭配评分、所述第二搭配评分、所述第三搭配评分、所述第四搭配评分均小于所述第二阈值时，意味着，所述第一搭配评分、所述第二搭配评分、所述第三搭配评分、所述第四搭配评分均小于所述第二阈值的所述待评估短语可能有错，因此可以将所述第一搭配评分、所述第二搭配评分、所述第三搭配评分、所述第四搭配评分均小于所述第二阈值的所述待评估短语作为所述待评估错误短语。
[0150]
可以理解的是，在另一个实施例中，所述第二阈值是一个向量，存在所述待评估短语对应的所述第一搭配评分小于所述第二阈值中的第一向量元素的值、所述第二搭配评分小于所述第二阈值中的第二向量元素的值、所述第三搭配评分小于所述第二阈值中的第三向量元素的值、所述第四搭配评分小于所述第二阈值中的第四向量元素的值时，将该所述待评估短语作为所述待评估错误短语。
[0151]
第一向量元素的值、第二向量元素的值、第三向量元素的值、第四向量元素的值可以全部相同，也可以部分相同，还可以全部不同。
[0152]
在一个实施例中，上述第一语言模型依次包括：输入层、编码层、预测层和输出层；其中，所述编码层包括：cbow模型的编码层、拼音编码层、五笔编码层、编码融合层，所述预测层是所述cbow模型的预测层，所述输出层是对所述预测字典中的每个所述预设短语的概率进行输出，所述cbow模型的编码层、所述拼音编码层、所述五笔编码层的输出端均与所述编码融合层的输入端连接。
[0153]
因传统的cbow模型在预测当前位置时是不会带入当前字的先验信息，但是在行业领域的纠错场景中，正确字可能是错误字的近音字、近形字，因此，本实施例对cbow模型加入待预测字的拼音特征和五笔特征，以实现模型的优化，提高了错误检测的准确性。
[0154]
编码融合层，是将所述cbow模型的编码层输出的短语编码、拼音编码层输出的拼音编码、五笔编码层输出的五笔编码进行融合，然后将融合后的编码输出给所述预测层。融合的方法包括但不限于：加权求和。
[0155]
输入层，是接收输入第一语言模型的数据的层。
[0156]
拼音编码层，是进行拼音编码的层。
[0157]
五笔编码层，是进行五笔编码的层。
[0158]
在一个实施例中，上述对每个所述待评估错误短语进行候选短语确定的步骤，包括：
[0159]
s21：将每个所述待评估错误短语输入第二语言模型进行预测字典中的每个预设短语的概率预测，得到每个所述待评估错误短语对应的待处理概率集；
[0160]
s22：获取第四阈值，将所述待处理概率集中的大于所述第四阈值的每个待处理概率对应的短语作为一个所述候选短语；
[0161]
s23：获取混淆词典，将每个所述待评估错误短语输入所述混淆词典进行所述候选短语确定。
[0162]
本实施例实现了基于语言模型确定候选短语和基于混淆词典的确定候选短语，为
后续确定每个所述待评估错误短语的替换词提供了基础。
[0163]
对于s21，将每个所述待评估错误短语输入第二语言模型进行预测字典中的每个预设短语的概率预测，将预测得到的每个概率作为一个待处理概率，将同一所述待评估错误短语对应的各个待处理概率作为待处理概率集。
[0164]
可选的，第二语言模型的模型结构与第一语言模型的模型结构相同，第二语言模型的模型参数与第一语言模型的模型参数相同。
[0165]
对于s22，可以从数据库中获取第四阈值，也可以获取用户输入的第四阈值，还可以从第三方应用系统中获取第四阈值，还可以将第二阈值写入实现本技术的程序中。第四阈值是一个具体数值。
[0166]
其中，所述待处理概率集中的大于所述第四阈值的每个待处理概率对应的短语是预测的可以用于替换所述待评估错误短语的短语，因此，将所述待处理概率集中的大于所述第四阈值的每个待处理概率对应的短语作为一个所述候选短语。
[0167]
对于s23，可以从数据库中获取混淆词典，也可以获取用户输入的混淆词典，还可以从第三方应用系统中获取混淆词典。
[0168]
其中，将所述待评估错误短语在所述混淆词典中进行易混淆的词语的查找，将查找到的每个混淆短语作为一个所述候选短语，将采用查找到的每个近音字替换(也就是对所述待评估错误短语中的字的替换)后的短语作为一个所述候选短语，将查找到的每个近形字替换(也就是对所述待评估错误短语中的字的替换)后的短语作为一个所述候选短语。
[0169]
在一个实施例中，上述根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算的步骤，包括：
[0170]
s51：将任一所述候选短语作为目标候选短语；
[0171]
s52：采用所述目标候选短语，对所述待评估短语集进行替换，得到替换后的短语集；
[0172]
s53：对所述替换后的短语集分别进行分句和第二相邻短语对确定；
[0173]
s54：采用所述第一搭配评分模型，对所述第二相邻短语对进行评分，得到第一gram评分；
[0174]
s55：采用所述第二搭配评分模型，对所述第二相邻短语对进行评分，得到第二gram评分；
[0175]
s56：采用所述第三搭配评分模型，对所述第二相邻短语对进行评分，得到第三gram评分；
[0176]
s57：采用所述第四搭配评分模型，对所述第二相邻短语对进行评分，得到第四gram评分；
[0177]
s58：根据所述第一gram评分、所述第二gram评分、所述第三gram评分和所述第四gram评分确定所述目标候选短语对应的所述gram候选评分。
[0178]
本实施例首先采用候选短语，对所述待评估短语集进行替换，对替换后的待评估短语集进行分句和相邻短语对确定，将确定的每个相邻短语对作为第二相邻短语对，采用所述通用领域训练样本训练所述2
‑
gram模型得到的模型、采用所述行业领域训练样本训练所述2
‑
gram模型得到的模型、采用所述通用领域训练样本训练所述3
‑
gram模型得到的模型、采用所述行业领域训练样本训练3
‑
gram模型得到的模型，分别对每个所述第二相邻短
语对进行评分，然后将四个模型的评分进行综合，从而提高了gram候选评分的准确性。
[0179]
对于s52，采用所述目标候选短语，对所述待评估短语集进行替换，将完成替换的所述待评估短语集作为替换后的短语集。
[0180]
对于s53，对所述替换后的短语集分别进行分句处理、标点符号删除、停用词删除处理，对完成分句处理、标点符号删除、停用词删除处理后的所述替换后的短语集进行相邻短语对确定，将确定的每个相邻短语对作为一个第二相邻短语对。
[0181]
对于s54，将所述第二相邻短语对输入所述第一搭配评分模型进行评分，将计算得到的评分作为第一gram评分。
[0182]
对于s55，将所述第二相邻短语对输入所述第二搭配评分模型进行评分，将计算得到的评分作为第二gram评分。
[0183]
对于s56，将所述第二相邻短语对输入所述第三搭配评分模型进行评分，将计算得到的评分作为第三gram评分。
[0184]
对于s57，将所述第二相邻短语对输入所述第四搭配评分模型进行评分，将计算得到的评分作为第四gram评分。
[0185]
对于s58，对所述第一gram评分、所述第二gram评分、所述第三gram评分和所述第四gram评分进行加权求和，将加权求和得到的数据作为所述目标候选短语对应的所述gram候选评分。
[0186]
在一个实施例中，上述根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定的步骤，包括：
[0187]
s71：获取第五阈值；
[0188]
s72：将任一个所述待评估错误短语作为待处理的短语；
[0189]
s73：当所述待处理的短语存在大于所述的第五阈值的所述统计评分时，从所述待处理的短语对应的各个所述统计评分中找出值最大的所述统计评分作为目标统计评分；
[0190]
s74：将所述目标统计评分对应的所述候选短语作为所述待处理的短语对应的所述替换词。
[0191]
本实施例当所述待处理的短语存在大于所述的第五阈值的所述统计评分时，从所述待处理的短语对应的各个所述统计评分中找出值最大的所述统计评分作为目标统计评分，从而提高了确定的替换词的准确性，提高了文本纠错的准确性。
[0192]
对于s71，可以从数据库中获取第五阈值，也可以获取用户输入的第五阈值，还可以从第三方应用系统中获取第五阈值，还可以将第五阈值写入实现本技术的程序中。第五阈值是一个具体数值。
[0193]
对于s73，当所述待处理的短语存在大于所述的第五阈值的所述统计评分时，意味着所述待处理的短语对应的各个候选短语中存在符合替换要求的候选短语，因此从所述待处理的短语对应的各个所述统计评分中找出值最大的所述统计评分作为目标统计评分。
[0194]
对于s74，将所述目标统计评分对应的所述候选短语作为所述待处理的短语对应的所述替换词，从而将评分最高的候选短语作为所述待处理的短语对应的所述替换词，提高了确定的替换词的准确性，提高了文本纠错的准确性。
[0195]
参照图2，本技术还提出了一种基于人工智能的文本纠错装置，所述装置包括：
[0196]
待评估错误短语确定模块100，用于获取待纠错文本，对所述待纠错文本进行待评
估错误短语检测；
[0197]
候选短语确定模块200，用于对每个所述待评估错误短语进行候选短语确定；
[0198]
词频计算模块300，用于对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算；
[0199]
距离计算模块400，用于根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算；
[0200]
gram候选评分确定模块500，用于根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算；
[0201]
统计评分确定模块600，用于基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算；
[0202]
替换词确定模块700，用于根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定；
[0203]
纠错后文本确定模块800，用于根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本。
[0204]
本实施例首先通过对所述待纠错文本进行待评估错误短语检测，对每个所述待评估错误短语进行候选短语确定，其次通过对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算，根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算，根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算，然后通过基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，最后通过根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定，根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本，实现通过错误短语检测、候选短语和替换词筛选三个主要流程，避免了采用规则纠错和深度学习纠错进行文本纠错，提高了文本纠错的实时性，提高了文本纠错的准确率；通过根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，提高了统计评分的准确性，进一步提高了文本纠错的准确率。
[0205]
参照图3，本技术实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于人工智能的文本纠错方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的文本纠错方法。所述基于人工智能的文本纠错方法，包括：获取待纠错文本，对所述待纠错文本进行待评估错误短语检测；对每个所述待评估错误短语进行候选短语确定；对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算；根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算；根据所
述待纠错文本，对每个所述候选短语进行gram候选评分计算；基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算；根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定；根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本。
[0206]
本实施例首先通过对所述待纠错文本进行待评估错误短语检测，对每个所述待评估错误短语进行候选短语确定，其次通过对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算，根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算，根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算，然后通过基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，最后通过根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定，根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本，实现通过错误短语检测、候选短语和替换词筛选三个主要流程，避免了采用规则纠错和深度学习纠错进行文本纠错，提高了文本纠错的实时性，提高了文本纠错的准确率；通过根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，提高了统计评分的准确性，进一步提高了文本纠错的准确率。
[0207]
本技术一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于人工智能的文本纠错方法，包括步骤：获取待纠错文本，对所述待纠错文本进行待评估错误短语检测；对每个所述待评估错误短语进行候选短语确定；对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算；根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算；根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算；基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算；根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定；根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本。
[0208]
上述执行的基于人工智能的文本纠错方法，首先通过对所述待纠错文本进行待评估错误短语检测，对每个所述待评估错误短语进行候选短语确定，其次通过对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算，根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算，根据所述待纠错文本，对每个所述候选短语进行gram候选评分计算，然后通过基于获取的目标评分模型，根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，最后通过根据各个所述统计评分，对每个所述待评估错误短语进行替换词确定，根据各个所述替换词，对所述待纠错文本进行替换，得到纠错后文本，实现通过错误短语检测、候选短语和替换词筛选三个主要流程，避免了采用规则纠错和深度学习纠错进行文本纠错，提高了文本纠错的实时性，提高了文本纠错的准确率；通过根据各个所述通用领域词频、各个所述行业领域词频、各个
所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分，针对每个所述候选短语进行统计评分计算，提高了统计评分的准确性，进一步提高了文本纠错的准确率。
[0209]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0210]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0211]
以上所述仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于分支的航空线束信息集成方法及可读存储介质与流程

基于人工智能的文本纠错方法、装置、设备及存储介质与流程

相关文献

最热文献