文本纠错语料生成方法、装置、设备及存储介质与流程

2023-02-04 12:27:42 来源：中国专利 TAG：

1.本公开涉及文本纠错技术领域，尤其涉及一种文本纠错语料生成方法、装置、设备及存储介质。

背景技术：

2.文本纠错技术是有益于多个领域的一项重要技术，能够极大地减少文本撰写者的工作量，尤其对于如法律法规、政府发文、新闻编辑等需要优质文本质量的领域而言更是如此。
3.而目前深度学习领域对于文本纠错模型的效果主要取决于文本纠错数据的数量和质量，而这里文本纠错数据通常是通过常规的人工标注手段得到的数据，不仅工作量较大，还无法在短时间内得到较为优质的大数据量纠错文本语料，因此现有技术中的文本纠错语料质量较差，多样性也差。

技术实现要素：

4.本公开提供了一种文本纠错语料生成方法、装置、设备及存储介质，以至少解决现有技术中存在的以上技术问题。
5.根据本公开的第一方面，提供了一种文本纠错语料生成的方法，其特征在于，所述方法包括：
6.将原始语料进行预处理，得到待处理语料；
7.获取所述待处理语料的实体信息，并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置；
8.根据错误类型共存策略，在所述待处理语料的多个错误位置设置错误文本，以生成初步文本纠错语料；
9.通过语言困惑模型过滤所述初步文本纠错语料，得到目标文本纠错语料。
10.在一可实施方式中，所述获取所述待处理语料的实体信息，并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置，包括：
11.获取所述待处理语料的实体词以及所述实体词的实体位置；
12.以词粒度作为分割单位，将所述待处理语料输入分词模型进行分割，得到具有分词结构的待处理语料；
13.设定预设错误频次，以避开所述实体词以及所述实体词的实体位置为原则，在所述具有分词结构的待处理语料中确定多个错误位置。
14.在一可实施方式中，所述错误类型包括：音相似错误类型、形相似错误类型、颠倒错误类型、多字错误类型以及少字错误类型，相应的，所述根据错误类型共存策略，在所述待处理语料的多个错误位置设置错误文本，以生成初步文本纠错语料，包括：
15.在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下，按照预设错误类型比例，在所述待处理语料的多个错误位置设置相应的错误类型文本，以生成初步
文本纠错语料；其中，所述音相似错误类型包括：“的地得”错误类型。
16.在一可实施方式中，在所述待处理语料的多个错误位置设置相应的错误类型文本，包括：
17.若所述错误类型为音相似错误类型，则基于音相似混淆数据集，在所述待处理语料的当前错误位置设置具有音相似错误类型的错误文本，其中，所述音相似混淆数据集为具有拼音内部的声母、韵母、以及声调相似读音的混淆数据集；或者，
18.若所述错误类型为形相似错误类型，则基于形相似混淆数据集，在所述待处理语料的当前错误位置设置具有形相似错误类型的错误文本，其中，所述形相似混淆数据集为具有形相近或者混淆字词的混淆数据集；或者，
19.若所述错误类型为颠倒错误类型，则通过设置邻词颠倒与单字颠倒的预设颠倒比例，以及预设颠倒词范围长度，在所述待处理语料的当前错误位置设置具有颠倒错误类型的错误文本；或者，
20.若所述错误类型为多字错误类型，则通过设置与当前错误位置中的边缘字进行成词以及随机插字的预设多字比例，在当前错误位置的相邻位置设置具有多字错误类型的错误文本；或者，
21.若所述错误类型为少字错误类型，则通过在当前错误位置的文本中随机删除预设字数的文字，以形成具有少字错误类型的错误文本；或者，
22.若所述错误类型为“的地得”错误类型，且满足“的地得”位于当前错误位置的末端位置处，或者“的地得”在当前错误位置属于单字结构的条件下，则在所述当前错误位置设置具有“的地得”错误类型的错误文本。
23.在一可实施方式中，所述通过语言困惑模型过滤所述初步文本纠错语料，得到目标文本纠错语料，包括：
24.分别将所述待处理语料以及与其对应的所述初步文本纠错语料输入所述语言困惑模型，得到所述待处理语料的第一分数和所述初步文本纠错语料的第二分数；
25.确定所述待处理语料的第一分数和所述初步文本纠错语料的第二分数的分数差值，将不满足预设差别阈值的分数差值筛选出来，删除与其对应的初步文本纠错语料，并将剩余的初步文本纠错语料作为目标文本纠错语料。
26.在一可实施方式中，所述将原始语料进行预处理，得到待处理语料，包括：
27.通过正则表达式对所述原始语料进行处理，去除所述原始语料中的噪声语料数据，得到所述待处理语料。
28.根据本公开的第二方面，提供了一种文本纠错语料生成装置，其特征在于，所述装置包括：
29.语料生成模块，用于将原始语料进行预处理，得到待处理语料；
30.错误位置模块，用于获取所述待处理语料的实体信息，并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置；
31.初步语料生成模块，用于根据错误类型共存策略，在所述待处理语料的多个错误位置设置错误文本，以生成初步文本纠错语料；
32.目标语料生成模块，用于通过语言困惑模型过滤所述初步文本纠错语料，得到目标文本纠错语料。
33.在一可实施方式中，所述错误位置模块，具体用于：
34.获取所述待处理语料的实体词以及所述实体词的实体位置；
35.以词粒度作为分割单位，将所述待处理语料输入分词模型进行分割，得到具有分词结构的待处理语料；
36.设定预设错误频次，以避开所述实体词以及所述实体词的实体位置为原则，在所述具有分词结构的待处理语料中确定多个错误位置。
37.在一可实施方式中，初步语料生成模块，具体用于：
38.在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下，按照预设错误类型比例，在所述待处理语料的多个错误位置设置相应的错误类型文本，以生成初步文本纠错语料；其中，所述音相似错误类型包括：“的地得”错误类型。
39.在一可实施方式中，初步语料生成模块，具体用于：
40.若所述错误类型为音相似错误类型，则基于音相似混淆数据集，在所述待处理语料的当前错误位置设置具有音相似错误类型的错误文本，其中，所述音相似混淆数据集为具有拼音内部的声母、韵母、以及声调相似读音的混淆数据集；或者，
41.若所述错误类型为形相似错误类型，则基于形相似混淆数据集，在所述待处理语料的当前错误位置设置具有形相似错误类型的错误文本，其中，所述形相似混淆数据集为具有形相近或者混淆字词的混淆数据集；或者，
42.若所述错误类型为颠倒错误类型，则通过设置邻词颠倒与单字颠倒的预设颠倒比例，以及预设颠倒词范围长度，在所述待处理语料的当前错误位置设置具有颠倒错误类型的错误文本；或者，
43.若所述错误类型为多字错误类型，则通过设置与当前错误位置中的边缘字进行成词以及随机插字的预设多字比例，在当前错误位置的相邻位置设置具有多字错误类型的错误文本；或者，
44.若所述错误类型为少字错误类型，则通过在当前错误位置的文本中随机删除预设字数的文字，以形成具有少字错误类型的错误文本；或者，
45.若所述错误类型为“的地得”错误类型，且满足“的地得”位于当前错误位置的末端位置处，或者“的地得”在当前错误位置属于单字结构的条件下，则在所述当前错误位置设置具有“的地得”错误类型的错误文本。
46.在一可实施方式中，目标语料生成模块，具体用于：
47.分别将所述待处理语料以及与其对应的所述初步文本纠错语料输入所述语言困惑模型，得到所述待处理语料的第一分数和所述初步文本纠错语料的第二分数；
48.确定所述待处理语料的第一分数和所述初步文本纠错语料的第二分数的分数差值，将不满足预设差别阈值的分数差值筛选出来，删除与其对应的初步文本纠错语料，并将剩余的初步文本纠错语料作为目标文本纠错语料。
49.在一可实施方式中，语料生成模块，具体用于：
50.通过正则表达式对所述原始语料进行处理，去除所述原始语料中的噪声语料数据，得到所述待处理语料。
51.根据本公开的第三方面，提供了一种电子设备，包括：
52.至少一个处理器；以及
53.与所述至少一个处理器通信连接的存储器；其中，
54.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。
55.根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。
56.本公开的一种文本纠错语料生成方法、装置、设备及存储介质，通过将原始语料进行预处理，得到待处理语料，获取所述待处理语料的实体信息，并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置，根据错误类型共存策略，在所述待处理语料的多个错误位置设置错误文本，以生成初步文本纠错语料，通过语言困惑模型过滤所述初步文本纠错语料，得到目标文本纠错语料，本公开可以更加高效、便捷的获得多样化文本纠错语料，以满足各种类型的文本纠错模型训练使用。
57.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
58.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
59.在附图中，相同或对应的标号表示相同或对应的部分。
60.图1示出了本公开实施例一提供的一种文本纠错语料生成方法的实现流程示意图；
61.图2示出了本公开实施例二提供的一种文本纠错语料生成方法的实现流程示意图；
62.图3示出了本公开实施例三提供的一种文本纠错语料生成装置的结构示意图；
63.图4示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
64.为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
65.现有的文本纠错语料生成方法多为首先获得初始语料的属性信息，该初始语料的属性信息包括：词性、实体字词、易错字词、位置信息中的至少一种，然后根据其属性信息及其设定好的掩码比例获得被掩码字词，而且该初始语料中包含的字词的每个类型之间的第一比例与被掩码字词的每个类型之间的第二比例相同，再用被掩码字词进行掩码生成训练语料。或者通过一个基础的参考纠错模型，将原始语料输入模型去预测，从而确定原始语料中的待改写字符及改写模式，得到文本纠错训练语料。但是基于模型去预测生成语料数据，首先生成结果将于模型的训练情况息息相关，模型的质量决定了语料数据的质量；其次模型生成的结果并不可控，肯定会造成一些不必要的噪音数据；而且训练好的模型生成结果
是唯一的，从而导致语料错误的多样性较少。此外，现有的生成方法中都没有对生成的语料做一个过滤检测，例如原始正确文本是“今天去学校看书”，生成的错误文本是“明天去学校看书”，这里生成的句子虽然于原始语料不同，但是句子本身并没有错误，这样的语料会导致后续文本纠错模型训练的压力增大。因此，本公开为解决上述问题，提供了一种文本纠错语料生成的方法，如下详述。
66.实施例一
67.图1为本公开实施例一提供的一种文本纠错语料生成方法的流程图，该方法可以由本公开实施例提供的文本纠错语料生成装置来执行，该装置可采用软件和/或硬件的方式实现。该方法具体包括：
68.s110、将原始语料进行预处理，得到待处理语料。
69.其中，原始语料可以是高质量的文本数据，比如是通过高质量网站得到的文本数据，且该文本数据为经过人工审核过的无错误数据。示例性的，本实施例可以获取新闻文本数据。待处理语料可以是将原始语料通过去除噪声语料数据后得到的语料，该语料用于后续的模型训练。
70.由于网上文本数据的质量参差不齐，所以本实施例可以选择那些通过人为方式筛选出来的高质量文本数据作为原始语料，并对其进行去噪声的预处理，得到后续模型训练所需的待处理语料。
71.在本公开实施例中，将原始语料进行预处理，得到待处理语料，包括：通过正则表达式对原始语料进行处理，去除原始语料中的噪声语料数据，得到待处理语料。
72.其中，正则表达式可以是去除噪声语料数据的一种方法。噪声语料数据可以是原始语料中的无意义符号、文字、数字、空格和乱码等数据。
73.具体的，即使本实施例中的原始语料筛选比较严格，大多是选择高质量的文本数据，但是在该类数据中难免会因为转格式等问题出现噪声语料数据，因此本实施例为了生成有意义的文本纠错语料，将原始语料通过正则表达式进行处理，得到肯定不含有噪声语料数据的待处理语料。
74.s120、获取待处理语料的实体信息，并根据待处理语料的实体信息确定待处理语料的多个错误位置。
75.其中，实体信息可以是实体词和实体词在句子中的所在位置。其中，实体词可以是人名、地名和机构等实体性名词。
76.具体的，本实施例将待处理语料输入到现有技术中任一款具有辨识实体信息功能的神经网络模型中，得到待处理语料的实体信息。由于对实体词生成文本纠错语料没有任何意义，本实施例也不希望后续文本纠错类模型能够学习到对实体词进行纠错的能力，因此本实施例根据得到的待处理语料的实体信息可以进行排除实体词所在的位置，进而根据剩余的待处理语料确定待处理语料的多个错误位置。
77.在本公开实施例中，获取待处理语料的实体信息，并根据待处理语料的实体信息确定待处理语料的多个错误位置，包括：获取待处理语料的实体词以及实体词的实体位置；以词粒度作为分割单位，将待处理语料输入分词模型进行分割，得到具有分词结构的待处理语料；设定预设错误频次，以避开实体词以及实体词的实体位置为原则，在具有分词结构的待处理语料中确定多个错误位置。
78.其中，词粒度可以是单个词语或者成语。分词模型可以是任意一种能够达到词语分割效果的神经网络模型。预设错误频次可以是在待处理语料中提前人为设定的生成错误出现的频率次数，示例性的，本实施例中设定为每十个词增加一个错误。
79.具体的，由于后续纠错模型的不可控性，若文本纠错语料中的实体位置有错误信息，例如人名、地名等实体有错误，则后续纠错模型训练也可能对句子中的实体词进行纠错。因此为了减少后续纠错模型出现修改人名、地名、机构名等低级错误，本实施例通过现有神经网络模型得到待处理语料中的实体词以及实体词的实体位置，从而避开在实体位置生成错误文本。
80.又由于在真实场景中，人们在书写文本时实际上只会使用一种输入法，而且最多使用的为拼音输入法，更是习惯性的连续输入文字，所以文本纠错语料中出现的错误多是词粒度的错误，较少部分为字粒度的错误，因此本实施例生成文本纠错语料时，优先选择词粒度替换错误。具体为，本实施例将待处理语料通过现有的分词模型进行处理，得到具有分词结构的待处理语料。本实施例基于人为设定的预设错误频次，在选择错误位置时，若在待处理语料中遇到实体信息则跳过，进而确定待处理语料中的多个错误位置。示例性的，本实施例中的预设错误频次设置为十次，则在待处理语料中，每隔十个词确定一个错误位置，若遇见实体词则直接跳过。
81.s130、根据错误类型共存策略，在待处理语料的多个错误位置设置错误文本，以生成初步文本纠错语料。
82.其中，单个错误位置设置的错误文本可以是具有单一种类文本语料错误类型的文本。初步文本纠错语料，可以是通过错误类型共存策略，在待处理语料中对应生成的初始文本纠错语料。
83.具体的，由于本实施例是对后续文本纠错模型提供其训练的文本纠错语料，因此文本纠错语料的质量越高，设置的错误类型越多，文本纠错语料所涵盖的可能性错误文本的范围就会越全面，因此本实施例可以在待处理语料的多个错误位置设置与各种错误类型相对应的错误文本，并将多个含有各种错误类型相对应的错误文本的待处理语料作为初步文本纠错语料。
84.s140、通过语言困惑模型过滤初步文本纠错语料，得到目标文本纠错语料。
85.其中，语言困惑模型(perplexity，ppl)可以是任意一种能够达到语言困惑目的的神经网络模型。目标文本纠错语料，可以是通过语言困惑模型处理得到的最终的文本纠错语料，用于直接作为后续文本纠错模型的训练数据。
86.例如，若生成语料异于原始语料，而句子本身没有错误，则该生成语料会导致后续文本纠错模型训练的压力增大。示例性的，原始语料为“今天去学校看书”，生成的初步文本纠错语料为“明天去学校看书”，由于句子本身并没有错误，让后续文本纠错模型训练识别这种类型的初步文本纠错语料没有任何意义，因此本实施例为了降低后续文本纠错模型训练的压力，让其专注于学习识别想让它学习的错误文本，本实施例通过语言困惑模型对其进行处理，将不满足条件的初步文本纠错语料删除，从而得到成熟的文本纠错语料。
87.在本公开实施例中，通过语言困惑模型过滤初步文本纠错语料，得到目标文本纠错语料，包括：分别将待处理语料以及与其对应的初步文本纠错语料输入语言困惑模型，得到待处理语料的第一分数和初步文本纠错语料的第二分数，确定待处理语料的第一分数和
初步文本纠错语料的第二分数的分数差值，将不满足预设差别阈值的分数差值筛选出来，删除与其对应的初步文本纠错语料，并将剩余的初步文本纠错语料作为目标文本纠错语料。
88.其中，第一分数可以是将待处理语料输入语言困惑模型后，得到的输出结果数值。第二分数可以是将初步文本纠错语料输入语言困惑模型后，得到的输出结果数值。预设差别阈值指的是判断初步文本纠错语料是否是需要删除的、具有语言困惑度语料的临界值。
89.具体的，本实施例通过对比待处理语料和初始生成文本纠错语料的语言困惑度，并根据预设差别阈值，过滤容易让后续文本纠错模型困惑的语料，提高生成纠错语料的质量，得到成熟的目标文本纠错语料。即将待处理语料输入语言困惑模型得到第一分数，以及将初步文本纠错语料输入语言困惑模型得到第二分数，来判断第一分数和第二分数之间的分数差值是否小于预设差别阈值。若第一分数和第二分数之间的分数差值小于预设差别阈值，则将该初始文本纠错语料判定为语言困惑度较高的语料，并将其删除，进而确定剩余的初步文本纠错语料为成熟的目标文本纠错语料。
90.本实施例在生成语料后，设计过滤策略，通过语言困惑模型过滤具有语言困惑度、无意义的初始文本纠错语料，有利于得到高质量、多样性的目标文本纠错语料。且该方法有益于多个领域，能够极大地减少文本撰写者的工作量，对于如法律法规、政府发文、新闻编辑等需要优质文本质量的领域而言更是如此。较现有技术而言，本公开不仅可以通过不同的生成策略对多种错误类型的文本生成纠错语料，而且为满足不同场景下模型训练需求，可生成任意比例错误类型的纠错数据。
91.实施例二
92.图2为本公开实施例二提供的一种文本纠错语料生成方法的流程图，本公开实施例在上述实施例的基础上，错误类型包括：音相似错误类型、形相似错误类型、颠倒错误类型、多字错误类型以及少字错误类型，相应的，根据错误类型共存策略，在待处理语料的多个错误位置设置错误文本，以生成初步文本纠错语料，包括：在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下，按照预设错误类型比例，在待处理语料的多个错误位置设置相应的错误类型文本，以生成初步文本纠错语料；其中，音相似错误类型包括：“的地得”错误类型。该方法具体包括：
93.s210、将原始语料进行预处理，得到待处理语料。
94.s220、获取待处理语料的实体信息，并根据待处理语料的实体信息确定待处理语料的多个错误位置。
95.s230、在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下，按照预设错误类型比例，在待处理语料的多个错误位置设置相应的错误类型文本，以生成初步文本纠错语料。
96.其中，音相似错误类型包括：“的地得”错误类型。其中，错误类型包括：音相似错误类型、形相似错误类型、颠倒错误类型、多字错误类型以及少字错误类型。
97.其中，音相似错误类型可以是由于拼音内部的声母、韵母、声调等相似而导致的语料错误，该错误类型多出现于拼音输入法，示例性的，将“座位”输错为“坐位”。形相似错误类型，可以是由形状相似的字或者词导致的语料错误，该错误类型多出现于五笔输入法，示例性的，将“权”输错为“杈”。颠倒错误类型，可以是前后两个词进行颠倒，例如，将“十分开
心”输错为“开心十分”；也可以在单个词里面的字与字之间的颠倒，例如，将“十分开心”输错为“十分心开”。多字错误类型，可以是由于多加了一个或者多个字进行成词导致的语料错误，示例性的，将“我看书”输错为“我看报书”；也可以是随机加入的任意字，示例性的，将“我看书”输错为“我看数书”。少字错误类型，可以是由于缺少一个字导致的语料错误，示例性的，将“电视剧”输错为“电剧”。
98.具体的，在本实施例中，因为现实输入文本时只会使用一种输入法，所以音相似和形相似错误不会出现在同一个语料中；且“的地得”错误作为音相似错误类型中的特殊类型，和形相似错误，也不会出现在同一个语料中，因此本实施例设置“同一句待处理语料中音相似错误和形相似错误不共存”的规则。本实施例根据预设不同比例的错误类型，即不仅可以混合多种错误类型、也可以任意搭配错误类型比例，还可以选择单一的错误类型，在待处理语料多个错误位置设置相应的错误类型文本，以生成多种多样的初步文本纠错语料。
99.在本公开实施例中，待处理语料的多个错误位置设置相应的错误类型文本，包括：若错误类型为音相似错误类型，则基于音相似混淆数据集，在待处理语料的当前错误位置设置具有音相似错误类型的错误文本；其中，音相似混淆数据集为具有拼音内部的声母、韵母、以及声调相似读音的混淆数据集；或者，若错误类型为形相似错误类型，则基于形相似混淆数据集，在待处理语料的当前错误位置设置具有形相似错误类型的错误文本；其中，形相似混淆数据集为具有形相近或者混淆字词的混淆数据集；或者，若错误类型为颠倒错误类型，则通过设置邻词颠倒与单字颠倒的预设颠倒比例，以及预设颠倒词范围长度，在待处理语料的当前错误位置设置具有颠倒错误类型的错误文本；或者，若错误类型为多字错误类型，则通过设置与当前错误位置中的边缘字进行成词以及随机插字的预设多字比例，在当前错误位置的相邻位置设置具有多字错误类型的错误文本；或者，若错误类型为少字错误类型，则通过在当前错误位置的文本中随机删除预设字数的文字，以形成具有少字错误类型的错误文本；或者，若错误类型为“的地得”错误类型，且满足“的地得”位于当前错误位置的末端位置处，或者“的地得”在当前错误位置属于单字结构的条件下，则在当前错误位置设置具有“的地得”错误类型的错误文本。
100.需要说明的是，若错误类型为颠倒错误类型，由于基于真实书写场景而言，颠倒多是前后词语或单个词语内部的错误，因此本实施例设置预设颠倒词范围长度，使得限定单词颠倒的长度范围，在该范围内可以随意组合，并且前后词的颠倒后长度不能超过最大范围，示例性的，预设颠倒词范围长度可以设置为7。其次，又由于颠倒错误类型有两种可实行的颠倒方式，因此本实施例可以通过设置预设颠倒比例，来控制在待处理语料中关于颠倒错误类型的生成比例，例如，若待处理语料设定生成同等比例的邻词颠倒与单字颠倒，且生成目标为10个错误文本，则最终生成的初步文本纠错语料中包含有5个邻词颠倒类型的错误文本以及5个单字颠倒类型的错误文本。
101.需要说明的是，若错误类型为多字错误类型，错误类型文本插入方式为两种，一种是与当前错误位置的边缘字成词，例如，若当前错误位置的词语为“看电视”，则错误文本可以是在边缘字“看”组成词语，例如成词后的错误文本为“看书电视”，也可以是在边缘字“视”组成词语，例如成词后的错误文本为“看电视觉”；另一种错误类型文本插入方式是随意插入字，例如本实施例可以是提供一个随机插入字的相关文本库，则可以在该文本库随机插入与当前错误位置的边缘字没有任何关系的文字，例如，错误文本可以是在边缘字“看
我电视”或者“看电视饿”。并且，两种错误类型的可以设置预设多字比例，根据预设多字比例设置在一句文本纠错语料中的多少。另外，本实施例可以设定添加字是一个字、两个字、三个字的概率，因为考虑到实际多字情况和后续模型训练的压力，因此更多选择插入一个字。
102.需要说明的是，若错误类型为特殊的“的地得”错误类型，则需要比音相似错误类型的要求更多些。其生成策略主要是限定“的地得”错误位置。考虑到“的地得”有固定词语的情况，而限定“的地得”范围，只考虑在分词后必须是该字单独成词，例如“我的书”替换为错误文本“我得书”，或者正好在词的末尾的情况，例如“好的”替换为错误文本“好地”，否则不认为是该类型错误。
103.本实施例考虑词粒度错误，依据设定好的错误类型比例及错误共存的策略，在错误位置选择不同的错误类型进行生成，除此之外也考虑到一定的字粒度错误，例如在提前设定词粒度替换错误的概率之后，在错误位置对于没有进行词粒度替换的错误位置的文本进行字粒度替换。
104.s240、通过语言困惑模型过滤初步文本纠错语料，得到目标文本纠错语料。
105.本实施例设定不同错误类型共存的策略，由于在真实场景中音相似形相似错误类型不可能出现在同一句话中，所以这里提前限定错误类型，从而生成更加符合真实场景的数据在生成纠错语料数据，并且基于多种错误类型设计不同类型的生成策略，针对每一种错误类型设计单独的策略，更加符合每种错误的真实情况，并且考虑到错误的类型和后续训练模型的需求，可随意选择错误类型搭配比例，选择单一错误或不同比例的错误进行生成，从而更好的满足后续纠错的需求。
106.实施例三
107.图3是本公开实施例提供的一种文本纠错语料生成装置的结构示意图，该装置具体包括：
108.语料生成模块310，用于将原始语料进行预处理，得到待处理语料；
109.错误位置模块320，用于获取待处理语料的实体信息，并根据待处理语料的实体信息确定待处理语料的多个错误位置；
110.初步语料生成模块330，用于根据错误类型共存策略，在待处理语料的多个错误位置设置错误文本，以生成初步文本纠错语料；
111.目标语料生成模块340，用于通过语言困惑模型过滤初步文本纠错语料，得到目标文本纠错语料。
112.在一可实施方式中，错误位置模块320，具体用于：获取待处理语料的实体词以及实体词的实体位置；以词粒度作为分割单位，将待处理语料输入分词模型进行分割，得到具有分词结构的待处理语料；设定预设错误频次，以避开实体词以及实体词的实体位置为原则，在具有分词结构的待处理语料中确定多个错误位置。
113.在一可实施方式中，初步语料生成模块330，具体用于：在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下，按照预设错误类型比例，在待处理语料的多个错误位置设置相应的错误类型文本，以生成初步文本纠错语料；其中，音相似错误类型包括：“的地得”错误类型。
114.在一可实施方式中，初步语料生成模块330，具体用于：若错误类型为音相似错误
类型，则基于音相似混淆数据集，在待处理语料的当前错误位置设置具有音相似错误类型的错误文本，其中，音相似混淆数据集为具有拼音内部的声母、韵母、以及声调相似读音的混淆数据集；或者，若错误类型为形相似错误类型，则基于形相似混淆数据集，在待处理语料的当前错误位置设置具有形相似错误类型的错误文本，其中，形相似混淆数据集为具有形相近或者混淆字词的混淆数据集；或者，若错误类型为颠倒错误类型，则通过设置邻词颠倒与单字颠倒的预设颠倒比例，以及预设颠倒词范围长度，在待处理语料的当前错误位置设置具有颠倒错误类型的错误文本；或者，若错误类型为多字错误类型，则通过设置与当前错误位置中的边缘字进行成词以及随机插字的预设多字比例，在当前错误位置的相邻位置设置具有多字错误类型的错误文本；或者，若错误类型为少字错误类型，则通过在当前错误位置的文本中随机删除预设字数的文字，以形成具有少字错误类型的错误文本；或者，若错误类型为“的地得”错误类型，且满足“的地得”位于当前错误位置的末端位置处，或者“的地得”在当前错误位置属于单字结构的条件下，则在当前错误位置设置具有“的地得”错误类型的错误文本。
115.在一可实施方式中，目标语料生成模块340，具体用于：分别将待处理语料以及与其对应的初步文本纠错语料输入语言困惑模型，得到待处理语料的第一分数和初步文本纠错语料的第二分数；确定待处理语料的第一分数和初步文本纠错语料的第二分数的分数差值，将不满足预设差别阈值的分数差值筛选出来，删除与其对应的初步文本纠错语料，并将剩余的初步文本纠错语料作为目标文本纠错语料。
116.在一可实施方式中，语料生成模块310，具体用于：通过正则表达式对原始语料进行处理，去除原始语料中的噪声语料数据，得到待处理语料。
117.根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。
118.图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
119.如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(rom)402中的计算机程序或者从存储单元408加载到随机访问存储器(ram)403中的计算机程序，来执行各种适当的动作和处理。在ram 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
120.设备400中的多个部件连接至i/o接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
121.计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及
任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如一种文本纠错语料生成方法。例如，在一些实施例中，一种文本纠错语料生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到ram 403并由计算单元401执行时，可以执行上文描述的一种文本纠错语料生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行一种文本纠错语料生成方法。
122.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
123.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
124.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
125.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
126.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
127.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
128.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
129.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
130.以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种面向PoW区块链的跨链验证系统

文本纠错语料生成方法、装置、设备及存储介质与流程

相关文献

最热文献