一种文本查错方法及装置与流程

2022-11-19 13:17:18 来源：中国专利 TAG：

1.本技术涉及信息处理技术领域，尤其涉及一种文本查错方法及装置。

背景技术：

2.近年来，互联网技术快速发展，人们的生活越来越依赖于电子设备。在电子设备上输入文本时，也会因为一些主观和客观的原因，产生错别字。而在大量的文本中识别出这些错别字，人工很难完成，需要机器对文本进行校对。
3.但是现有的校对方法只能把正确的词语捆绑筛选出来，将剩余的文本认定为错别字。很显然，这种方法的准确度很低。当某个字和其前后的文本都可以构成词语时，具体词语的组成需要结合上下文来确定，只是机械地将前两个字，或者后两个字捆绑作为词语，很可能会扭曲作者本身写作的意图。
4.因此，如何提高文本查错的准确率，是本领域技术人员亟需解决的技术问题。

技术实现要素：

5.有鉴于此，本技术实施例提供了一种文本查错方法及装置，旨在提高文本查错的准确率。
6.第一方面，本技术实施例提供了一种文本查错方法，包括：
7.获取待查错文本，所述待查错文本为包括错别字的文本；
8.对所述待查错文本进行分词，得到分词文本，所述分词文本包括至少一个分词；
9.判断所述分词文本中两个相邻分词的接续关系是否符合预设条件，所述预设条件用于表示接续关系正常；
10.将非接续分词标记为错别字，所述非接续分词为所述分词文本中接续关系不符合预设条件的两个相邻分词。
11.可选的，所述对所述待查错文本进行分词，得到分词文本包括：
12.利用正向最大匹配算法，对所述待查错文本进行分词，得到分词文本。
13.可选的，所述判断所述分词文本中两个相邻分词的接续关系是否符合预设条件，包括：
14.分析语料库，得到词语的出现概率信息，所述语料库包括出版读物的语料集合，所述词语包括语料库中的一元词和二元词，所述词语的出现概率信息包括所述词语单独出现的概率和所述词语相邻出现的概率；
15.利用所述词语的出现概率信息，设定所述预设条件；
16.判断所述分词文本中两个相邻分词的接续关系是否符合所述预设条件。
17.可选的，所述利用所述词语的出现概率信息，设定所述预设条件，包括：
18.利用所述词语的出现概率信息，计算两个相邻词语之间的互信息；
19.设置接续词语的接续关系为预设条件，所述接续词语为所述互信息大于预设阈值的两个相邻词语。
20.可选的，所述将非接续分词标记为错别字，包括：
21.在所述非接续分词前后分别增加固定符号，所述固定符号用于提示所述非接续分词为错别字。
22.第二方面，本技术实施例提供了一种文本查错装置，包括：
23.文本获取模块，用于获取待查错文本，所述待查错文本为包括错别字的文本；
24.分词模块，用于对所述待查错文本进行分词，得到分词文本，所述分词文本包括至少一个分词；
25.判断模块，用于判断所述分词文本中两个相邻分词的接续关系是否符合预设条件，所述预设条件用于表示接续关系正常；
26.标记模块，用于将非接续分词标记为错别字，所述非接续分词为所述分词文本中接续关系不符合预设条件的两个相邻分词。
27.可选的，所述判断模块，包括：
28.分析单元，用于分析语料库，得到词语的出现概率信息，所述语料库包括出版读物的语料集合，所述词语包括语料库中的一元词和二元词，所述词语的出现概率信息包括所述词语单独出现的概率和所述词语相邻出现的概率；
29.预设条件设置单元，用于利用所述词语的出现概率信息，设定所述预设条件；
30.判断单元，用于判断所述分词文本中两个相邻分词的接续关系是否符合所述预设条件。
31.可选的，所述预设条件设置单元，包括：
32.互信息计算子单元，用于利用所述词语的出现概率信息，计算两个相邻词语之间的互信息；
33.预设条件设置子单元，用于设置接续词语的接续关系为预设条件，所述接续词语为所述互信息大于预设阈值的两个相邻词语。
34.第三方面，本技术实施例提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行前述第一方面任一项所述的文本查错方法。
35.第四方面，本技术实施例提供了一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面任一项所述的文本查错方法。
36.本技术实施例提供了一种文本查错方法，在执行所述方法时，先获取待查错文本，所述待查错文本为包括错别字的文本，后对所述待查错文本进行分词，得到分词文本，所述分词文本包括至少一个分词，然后判断所述分词文本中两个相邻分词的接续关系是否符合预设条件，所述预设条件用于表示接续关系正常，最后将非接续分词标记为错别字，所述非接续分词为所述分词文本中接续关系不符合预设条件的两个相邻分词。这样，利用相邻词语应该具有一定的接续关系的原理，对分词后对相邻词语的接续关系进行判断，进而得到是否有错别字的结果，不仅可以判断词语本身的正确性，还可以结合上下文的情况，降低误判风险，提高文本查错的准确率。
附图说明
37.为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
38.图1为本技术实施例提供的文本查错方法的一种方法流程图；
39.图2为本技术实施例提供的文本查错方法的另一种方法流程图；
40.图3为本技术实施例提供的文本查错装置的一种结构示意图。
具体实施方式
41.在电子设备上输入文本时，也会因为一些主观和客观的原因，产生错别字。错别字的出现，可能会使整个语段令人费解甚至误解，影响语义的表达，使文字失去交际作用，甚至在关键的地方出了错别字，会影响文字的严肃性，有损作者形象。因此，我们必须对文本进行校正，减少错别字。而在大量的文本中识别出这些错别字，人工很难完成，需要机器对文本进行校对。
42.目前国内汉语文本校对的方法有两种，第一，基于规则的方法，进行多遍扫描，利用规则将正确字串捆扎起来，剩下的视为错误，当某个字和其前后的文本都可以构成词语时，具体词语的组成需要结合上下文来确定，只是机械地将前两个字，或者后两个字捆绑作为词语，很可能会扭曲作者本身写作的意图，因此，该方法校对准确率低；第二，局域特征与学习的方法，通过构建字词混淆集，在校对时形成候选矩阵，运用动态规划和机器学习的方法进行校对，由于错别字出现的随机性，混淆集很难包括所有的错别字词语，因此，该方法校对准确率也比较低。
43.因此，如何提高文本查错的准确率，是本领域技术人员亟需解决的技术问题。
44.本技术实施例提供的方法由计算机设备执行，用于对文本进行查错。
45.显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
46.参见图1，图1为本技术实施例提供的文本查错方法的一种方法流程图，包括：
47.步骤s101：获取待查错文本，所述待查错文本为包括错别字的文本。
48.待查错文本是包含错别字的文本，在此步骤获取需要进行校对的待查错文本以便后续执行查错步骤。
49.步骤s102：对所述待查错文本进行分词，得到分词文本。
50.分词指的是将一个汉字序列切分成多个单独的词，因为待查错文本一般较长，所以分词文本应该包括至少一个分词。之所以要进行分词处理，是因为在后续判断中需要对分词的接续关系进行分析。将待查错文本进行分词，有利于后续的分析，属于接续关系判断的准备工作。
51.步骤s103：判断所述分词文本中两个相邻分词的接续关系是否符合预设条件。
52.预设条件用于表示接续关系正常，是提前分析语料库得到的。当两个词语相邻出现的概率远大于两个词语单独出现的概率时，可以认为这两个词语的接续关系正常，没有
错别字。相反，当两个词语相邻出现的概率不是远大于两个词语单独出现的概率时，可以认为这两个词语的接续关系不正常，有错别字。也就意味着，当分词文本中两个相邻分词的接续关系符合预设条件时，没有错别字；当分词文本中两个相邻分词的接续关系不符合预设条件时，有错别字。
53.步骤s104：将非接续分词标记为错别字，所述非接续分词为所述分词文本中接续关系不符合预设条件的两个相邻分词。
54.当步骤s103中当分词文本中两个相邻分词的接续关系不符合预设条件的情况发生时，意味着这两个相邻分词有错别字。将这两个有错别字的相邻分词称为非接续分词，对其进行标记，以便于后续对错别字进行检验、更改。
55.本实施例利用相邻词语应该具有一定的接续关系的原理，对分词后对相邻词语的接续关系进行判断，进而得到是否有错别字的结果，可以降低错别字误判风险，提高文本查错的准确率。
56.在本技术实施例中，上述图1所述的步骤存在多种可能的实现方式，下面分别进行介绍。需要说明的是，下文介绍中给出的实现方式仅作为示例性的说明，并不代表本技术实施例的全部实现方式。
57.参见图2，该图为本技术实施例提供的文本查错方法的另一种方法流程图。
58.步骤s201：获取待查错文本，所述待查错文本为包括错别字的文本。
59.此步骤和上一实施例中的步骤s101相同，在此不再赘述。
60.步骤s202：利用正向最大匹配算法，对所述待查错文本进行分词，得到分词文本。
61.分词指的是将一个汉字序列切分成多个单独的词，因为待查错文本一般较长，所以分词文本应该包括至少一个分词。之所以要进行分词处理，是因为在后续判断中需要对分词的接续关系进行分析。将待查错文本进行分词，有利于后续的分析，属于接续关系判断的准备工作。
62.最大匹配算法主要包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。其主要原理都是切分出单字串，然后和词库进行比对，如果是一个词就记录下来，否则通过增加或者减少一个单字，继续比较，一直还剩下一个单字则终止，如果该单字串无法切分，则作为未登录处理。利用正向最大匹配算法，可以增加分词的效率。
63.步骤s203：分析语料库，得到词语的出现概率信息。
64.语料库指经科学取样和加工的大规模电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料。分析语料库可以得到语料库中的一元词和二元词，一元词是将语料中的每个字都作为一个词组，二元词是将语料中的两个字作为一个词组。
65.作为优选，所述语料库包括出版读物的语料集合。因为出版读物中错别字的概率很低，所以分析出版读物的语料可以得到更加精准的词语的出现概率信息。
66.词语的出现概率信息包括所述词语单独出现的概率和所述词语相邻出现的概率。作为一种可能的实施方式，词语的出现概率信息还包括所述词语单独出现时此词语词性出现的概率、所述词语相邻出现时此词语词性的概率和所述词语词性的转移概率。
67.步骤s204：利用所述词语的出现概率信息，设定所述预设条件。
68.作为一种可能的实施方式，可以利用所述词语的出现概率信息，计算两个相邻词语之间的互信息；设置接续词语的接续关系为预设条件，所述接续词语为所述互信息大于
预设阈值的两个相邻词语。
69.作为优选，两个相邻词语之间的互信息可以通过以下公式计算：
[0070][0071]
其中，xi，x
i 1
为相邻的两个词语，i(xi，x
i 1
)为两个相邻词语之间的互信息，p(xi)为词语xi单独出现的概率，p(x
i 1
)为词语x
i 1
单独出现的概率，p(xi，x
i 1
)为词语xi和词语xi 1相邻出现的概率。
[0072]
当i(xi，x
i 1
)》预设阈值τ时，此时τ＝0，则p(xi，x
i 1
)远大于p(xi)*p(x
i 1
)，此时xi、x
i 1
具有正常的接续关系，并且i(xi，x
i 1
)越大，接续关系越强。
[0073]
作为优选，可以计算两个相邻词语词性之间的互信息，具体通过以下公式：
[0074][0075]
其中，wi，w
i 1
为相邻的两个词语的词性，i(wi，w
i 1
)为两个相邻词语词性之间的互信息，p(wi)为词语词性wi单独出现的概率，p(w
i 1
)为词语词性w
i 1
单独出现的概率，p(wi，w
i 1
)为词语词性wi和词语词性wi 1相邻出现的概率。
[0076]
当i(wi，w
i 1
)》预设阈值ω时，此时ω＝0，则p(wi，w
i 1
)远大于p(wi)*p(w
i 1
)，此时wi、w
i 1
具有正常的接续关系，并且i(wi，w
i 1
)越大，接续关系越强。
[0077]
步骤s205：判断所述分词文本中两个相邻分词的接续关系是否符合所述预设条件。
[0078]
步骤s204中得到接续关系正常的词语，若分词文本中两个相邻分词不是接续关系正常的词语，则所述分词文本中两个相邻分词的接续关系不符合所述预设条件，是非接续分词；若分词文本中两个相邻分词是接续关系正常的词语，则所述分词文本中两个相邻分词的接续关系符合所述预设条件，是接续分词。
[0079]
步骤s206：在所述非接续分词前后分别增加固定符号。
[0080]
在非接续分词前后分别增加固定符号，意味着固定符号围着的词语是有错别字的词语。作为优选，可以只在非接续分词前增加固定符号，防止误标，达到更好的查错效果。作为一种可能的实施方式，固定符号可以用“#”符号。
[0081]
本实施例利用相邻词语应该具有一定的接续关系的原理，对分词后对相邻词语的接续关系进行判断，进而得到是否有错别字的结果，可以结合上下文的情况判断是否有错别字，降低误判风险，提高文本查错的准确率。其中，利用正向最大匹配算法，可以增加分词的效率；利用互信息判断续接关系，可以得到一个相对的结果，减少判断的绝对性，降低误判风险。
[0082]
以上为本技术实施例提供文本查错方法的一些具体实现方式，基于此，本技术还提供了对应的装置。下面将从功能模块化的角度对本技术实施例提供的装置进行介绍。
[0083]
参见图3所示的文本查错装置300的结构示意图，该装置300包括文本获取模块301、分词模块302、判断模块303和标记模块304。
[0084]
文本获取模块301，用于获取待查错文本，所述待查错文本为包括错别字的文本；
[0085]
分词模块302，用于对所述待查错文本进行分词，得到分词文本，所述分词文本包括至少一个分词；
[0086]
判断模块303，用于判断所述分词文本中两个相邻分词的接续关系是否符合预设条件，所述预设条件用于表示接续关系正常；
[0087]
标记模块304，用于将非接续分词标记为错别字，所述非接续分词为所述分词文本中接续关系不符合预设条件的两个相邻分词。
[0088]
作为一种可能的实施方式，所述分词模块302包括：
[0089]
分词单元，用于利用正向最大匹配算法，对所述待查错文本进行分词，得到分词文本。
[0090]
作为一种可能的实施方式，所述判断模块303，包括：
[0091]
分析单元，用于分析语料库，得到词语的出现概率信息，所述语料库包括出版读物的语料集合，所述词语包括语料库中的一元词和二元词，所述词语的出现概率信息包括所述词语单独出现的概率和所述词语相邻出现的概率；
[0092]
预设条件设置单元，用于利用所述词语的出现概率信息，设定所述预设条件；
[0093]
判断单元，用于判断所述分词文本中两个相邻分词的接续关系是否符合所述预设条件。
[0094]
作为一种可能的实施方式，所述预设条件设置单元，包括：
[0095]
互信息计算子单元，用于利用所述词语的出现概率信息，计算两个相邻词语之间的互信息；
[0096]
预设条件设置子单元，用于设置接续词语的接续关系为预设条件，所述接续词语为所述互信息大于预设阈值的两个相邻词语。
[0097]
作为一种可能的实施方式，所述标记模块304，包括：
[0098]
标记单元，用于在所述非接续分词前后分别增加固定符号，所述固定符号用于提示所述非接续分词为错别字。
[0099]
本技术实施例还提供了对应的设备以及计算机存储介质，用于实现本技术实施例提供的方案。
[0100]
其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本技术任一实施例所述的文本查错方法。
[0101]
所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本技术任一实施例所述的文本查错方法。
[0102]
本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。
[0103]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，rom)/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0104]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例
的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0105]
以上所述仅是本技术示例性的实施方式，并非用于限定本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于智能化闭环控制的航天任务管控方法和系统与流程

一种文本查错方法及装置与流程

相关文献

最热文献