文本纠错方法、设备以及计算机可读介质与流程

2022-02-20 04:47:34 来源：中国专利 TAG：

1.本技术涉及信息技术领域，尤其涉及一种文本纠错方法、设备以及计算机可读介质。

背景技术：

2.人们在使用各种输入工具输入文本的时候，会出现拼写、形近、音近等各类形式的输入错误。类似的，通过ocr(optical character recognition，光学字符识别)方式识别文本时，也容易因识别处理过程中的错误而导致识别获得的文本出现错误。一方面，拼写错误会使得文本更容易被误解、会影响人们文字交流的效率；另一方面，在很多严谨的文书场景中，比如司法、合同等，对拼写错误的容忍度也是非常低的。
3.人工对文本进行校对耗时耗力，这就使得自动对文本进行拼写检查和纠错的需求日益增加，因此需要一种对能够自动对文本纠错的方案。而传统的文本纠错方案都关注于日常输入的一维文本，即从左往右顺序书写的文本。而各类表格等文字载体中包含的文字并非是常规的一维文本，表格中各部分文本内容之间的关系与一维文本中的前后文关系不同，因此传统的文本纠错方式无法适用于表格等文字载体。

技术实现要素：

4.本技术的一个目的是提供一种文本纠错方法、设备以及计算机可读介质，用以解决常规的文本纠错方案无法适用于各类表格等文字载体的问题。
5.本技术实施例中提供了一种文本纠错方法，该方法包括：
6.获取目标单元格的原始文本和邻接单元格的邻接文本，所述邻接单元格是与目标单元格相邻的单元格；
7.根据知识库获取所述原始文本对应的纠错文本，并将所述原始文本和纠错文本确定为候选文本；
8.获取所述候选文本的排序特征信息，所述排序特征信息包括所述候选文本与邻接文本之间的共现特征信息；
9.根据所述排序特征信息计算所述候选文本的排序分值，并将排序分值最高的候选文本确定为所述目标单元格的文本。
10.本技术实施例中还提供了一种文本纠错设备，该设备包括：
11.识别解析模块，用于获取目标单元格的原始文本和邻接单元格的邻接文本，所述邻接单元格是与目标单元格相邻的单元格；
12.候选生成模块，用于根据知识库获取所述原始文本对应的纠错文本，并将所述原始文本和纠错文本确定为候选文本；
13.特征抽取模块，用于获取所述候选文本的排序特征信息，所述排序特征信息包括所述候选文本与邻接文本之间的共现特征信息；
14.排序模块，用于根据所述排序特征信息计算所述候选文本的排序分值，并将排序
分值最高的候选文本确定为所述目标单元格的文本。
15.本技术的一些实施例还提供了一种计算设备，其中，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行前述文本纠错方法。
16.本技术的另一些实施例还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机可读指令可被处理器执行以实现所述文本纠错方法。
17.本技术实施例提供的一种文本纠错方案，该方案可以获取目标单元格的原始文本和邻接单元格的邻接文本，然后根据知识库获取所述原始文本对应的纠错文本，并将所述原始文本和纠错文本确定为候选文本，在获取所述候选文本的排序特征信息后，根据所述排序特征信息计算所述候选文本的排序分值，并将排序分值最高的候选文本确定为所述目标单元格的文本。由于表格等文字载体中，文本的位置和内容相对固定，目标单元格位置处的文本与邻接单元格位置处的文本会根据实际的应用场景呈现一定的关联性，而候选文本的排序特征信息至少包括了所述候选文本与邻接文本之间的共现特征信息，据此计算的排序分值能够表征候选文本出现在目标单元格中的可能性大小，因此可以根据可能性大小准确地对目标单元格位置处的文本进行纠错。
附图说明
18.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
19.图1为本技术实施例提供的一种文本纠错方法的处理流程图；
20.图2为本技术实施例中进行文本纠错的表格的示意图；
21.图3为本技术实施例提供的一种文本纠错设备的结构示意图；
22.图4为本技术实施例提供的一种用于实现文本纠错的计算设备的结构示意图；
23.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
24.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。
25.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
26.本技术实施例提供的一种文本纠错方法，该方法用于对表格等文字载体中的二维文本进行纠错，由于表格等文字载体中，文本的位置和内容相对固定，目标单元格位置处的文本与邻接单元格位置处的文本会根据实际的应用场景呈现一定的关联性，而候选文本的
排序特征信息至少包括了所述候选文本与邻接文本之间的共现特征信息，据此计算的排序分值能够表征候选文本出现在目标单元格中的可能性大小，因此可以根据可能性大小准确地对目标单元格位置处的文本进行纠错。
27.在实际场景中，该方法的执行主体可以是用户设备、网络设备或者用户设备与网络设备通过网络相集成所构成的设备，此外也可以是运行于上述设备中的程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备；所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此，云由基于云计算(cloud computing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟计算机。
28.图1示出了本技术实施例提供的一种文本纠错方法的处理流程，至少包括以下处理步骤：
29.步骤s101，获取目标单元格的原始文本和邻接单元格的邻接文本。
30.由于本技术实施例提供的文本纠错方法应用于表格等文字载体中的二维文本，二维文本与一维文本的区别在于，二维文本中各部分文本内容之间的具有相对固定的二维位置关系。对于同一种表格，其所包含的文本的位置相对固定，因此可以采用单元格表示二维文本中各个文本所处的位置。其中，目标单元格即为本次进行纠错的文本所处的单元格，而邻接单元格是与目标单元格相邻的单元格。在实际场景中，对于不同文本的纠错可以分别独立处理，即可以同时定义多个目标单元格，分别单独对这些目标单元格中的文本进行纠错，这些目标单元格都具有各自的邻接单元格，在各自纠错处理过程中互不干扰。
31.以图2所示的表格为例，包括6各单元格，在对其中的文本“征兔性质”进行纠错时，单元格cell_3即为目标单元格，其邻接单元格即为与目标单元格相邻的单元格。在本技术的一些实施例中，相邻的单元格可以定义为与目标单元格相邻且位于上下左右几个方向上的单元格，对于前述的，目标单元格cell_3，其邻接单元格可以包括上方邻接单元格cell_1、右方邻接单元格cell_4和下方邻接单元格cell_5，由于左方不存在单元格，则邻接单元格中的左方邻接单元格为空。
32.而对于目标单元格中的原始文本和邻接单元格中的邻接文本的具体内容，可以通过文本识别的方式获取。例如，对于图2中的表格，可以采用ocr技术识别各个单元格中的文本内容，从而确定目标单元格中的原始文本和邻接单元格中的邻接文本。在实际场景中，文本内容的错误可能发生在输入环节，例如用户在输入单元格cell_3中的文本时，错误地输入成“征兔性质”。此外，文本内容的错误也可能出现在识别环节，例如单元格cell_3中的文本实际应当是“征免性质”，但是在识别文本时，错误地识别为“征兔性质”。对于这些错误，可以通过本技术实施例提供的文本纠错方法确定正确的文本进行修正。
33.在本技术的一些实施例中，在获取目标单元格的原始文本和邻接单元格的邻接文本时，可以先对待处理的文本进行识别，获取文本内容以及所述文本内容对应的位置信息。以图2所示的表格为例，可以通过ocr的方式识别表格中的文本内容以及对应的位置信息，其中，位置信息可以采用坐标的形式表示，以文本内容所在区域的坐标值作为位置信息，从而确定文本内容所处的位置。例如，对表格进行识别后可以获得以下形式的信息：
34.(“征兔性质”,10.0,50.0,12.0,60.0)；
35.(“一般征税”,10.0,61.0,13.0,70.0)；
36.……
37.其中，“征兔性质”、“一般征税”均为文本内容，10.0,50.0,12.0,60.0以及10.0,61.0,13.0,70.0均文本内容所在区域的坐标值。
38.而后，根据所述位置信息确定目标单元格和邻接单元格，并将所述目标单元格中的文本内容确定为原始本文，以及将所述邻接单元格中的文本内容确定为邻接文本。
39.例如，在对“征兔性质”进行纠错时，可以根据待处理的文本的位置信息确定目标单元格为cell_3，而对应的邻接单元格为cell_1、cell_4和cell_5，然后将所述目标单元格中的文本内容“征兔性质”确定为原始本文，以及将所述邻接单元格中的文本内容“进口口岸”、“一般征税”和“启运国”，确定为邻接文本。
40.由于在表格中，各个单元格所处的位置是相对固定的，可以将位置信息映射为单元格之间的结构信息。其中，结构信息即为单元格之间的邻接关系，由此可以确定目标单元格和邻接单元格。
41.以图2所示的表格为例，其中包括6个单元格，各个单元格可以分别设定为cell_1至cell_6。由于这些单元格的所在区域是已知的，因此通过坐标值可以确定“进口口岸”位于单元格cell_1，“xxx”位于单元格cell_2，“征兔性质”位于单元格cell_3，“一般征税”位于单元格cell_4，“启运国”位于单元格cell_5，“yyy”位于单元格cell_6。对于其中的单元格，可以采用如下的数据结构记录信息：
42.(cell_id:1,content:“进口口岸”,leftneighbor:none,upneighbor:none,rightneighbor:2,downneighbor:3)；
43.(cell_id:2,content:“xxx”,leftneighbor:1,upneighbor:none,rightneighbor:none,downneighbor:4)；
44.(cell_id:3,content:“征兔性质”,leftneighbor:none,upneighbor:1,rightneighbor:4,downneighbor:5)；
45.(cell_id:4,content:“一般征税”,leftneighbor:3,upneighbor:2,rightneighbor:none,downneighbor:6)；
46.(cell_id:2,content:“启运国”,leftneighbor:none,upneighbor:3,rightneighbor:6,downneighbor:none)；
47.(cell_id:2,content:“yyy”,leftneighbor:5,upneighbor:4,rightneighbor:none,downneighbor:none)；
48.其中，cell_id表示当前单元格的标识，content表示当前单元格的文本内容，leftneighbor、upneighbor、rightneighbor和downneighbor分别表示左方邻接单元格、上方邻接单元格、右方邻接单元格和下方邻接单元格的标识，例如leftneighbor:1表示左方邻接单元格为cell_1。基于上述数据结构，可以快速确定目标单元格、邻接单元格以及这些单元格中的原始文本和邻接文本。
49.步骤s102，根据知识库获取所述原始文本对应的纠错文本，并将所述原始文本和纠错文本确定为候选文本。所述知识库中预先设置有与本方案应用场景所属领域相关的知识，例如当本方案应用于海关单据表格的文本纠错时，即可使用与海关有关的知识库，该知识库中包括了海关场景中的常用词汇。
50.实际场景中，可以先根据发音相似度和/或字形相似度获取原始文本对应的相似
文本集，然后根据知识库从所述相似文本集中，确定所述原始文本对应的纠错文本。例如，“征兔性质”的拼音为“[zheng,tu,xing,zhi]”，从知识库中查询发音相近的词汇，得到相似结果为空[]，由此可知基于发音相似度确定纠错文本为空。而在字形方面，可以对“征兔性质”各个单字分别进行处理生成相应的相似文本集，例如与“兔”字的字形接近的有[兔，免，菟，
…
]等，即相似文本集可以包括“征兔性质”、“征免性质”和“征菟性质”等，在知识库中查询这些词汇后，得到的结果为[征免性质]，对其它的单字也分别进行同样的处理之后，得到纠错文本为“征免性质”。
[0051]
在获得纠错文本之后，可以将原始文本和纠错文本确定为候选文本，在本实施例中目标单元格cell_3中的候选文本为“征兔性质”和“征免性质”。
[0052]
步骤s103，对候选文本进行特征提取，获取所述候选文本的排序特征信息。其中，所述排序特征信息至少包括了候选文本与邻接文本之间的共现特征信息，共现特征信息能够体现候选文本与邻接文本共同出现的情况，从而反映出候选文本出现在目标单元格中的可能性大小。
[0053]
在本技术的一些实施例中，可以基于语料库统计候选文本与邻接文本之间的共现次数、候选文本的出现次数以及邻接文本的出现次数，然后根据候选文本与邻接文本之间的共现次数、候选文本的出现次数以及邻接文本的出现次数，计算所述候选文本与邻接文本之间的共现特征信息，计算获得的共现特征信息即可确定为排序特征信息。其中，所述语料库中包含的语料与本方案的应用场景对应，例如当本方案应用于海关单据表格的文本纠错时，即可使用与海关有关的语料库，其中包括了海关场景中的常用词汇以及这些词汇之间的结构信息。
[0054]
以目标单元格cell_3中的候选文本(“征兔性质”、“征免性质”)与其右方邻接单元格中的邻接文本(“一般征税”)为例，需要分别统计出：
[0055]“征兔性质”与“一般征税”的共现次数n_right(征兔性质,一般征税)＝10；
[0056]“征兔性质”与“一般征税”的共现次数n_right(征免性质，一般征税)＝900；
[0057]“征兔性质”的出现次数n(征兔性质)＝15；
[0058]“征免性质”的出现次数n(征免性质)＝1000；
[0059]“一般征税”的出现次数n(一般征税)＝1200；
[0060]
在计算所述候选文本与邻接文本之间的共现特征信息时，可以采用如下的方式：
[0061]
f_right(征兔性质)＝2
×
n(征兔性质,一般征税)/(n(征兔性质) n(一般征税))＝2
×
10/(15 1200)＝0.016；
[0062]
f_right(征免性质)＝2
×
n(征免性质,一般征税)/(n(征免性质) n(一般征税))＝2
×
900/(1000 1200)＝0.818；
[0063]
由此可知，候选文本“征兔性质”与右方邻接单元格中的邻接文本“一般征税”的共现特征信息为0.016，候选文本“征免性质”与右方邻接单元格中的邻接文本“一般征税”的共现特征信息为0.818。
[0064]
当邻接单元格包括位于目标单元格上方的上方邻接单元格、位于目标单元格下方的下方邻接单元格、位于目标单元格左方的左方邻接单元格以及位于目标单元格右方的右方邻接单元格时，排序特征信息也可以对应包括所述候选文本分别与上方邻接单元格、下方邻接单元格、左方邻接单元格和右方邻接单元格中的邻接文本之间的共现特征信息。基
于类似的方式，可以计算获得候选文本与左方邻接单元格、上方邻接单元格、下方邻接单元格中的邻接文本之间的共现特征信息f_left、f_up、f_down。对于图2所示的表格，由于单元格cell_3不存在左方邻接单元格，因此与左方邻接单元格中的邻接文本的可以确定为f_left＝0。由此获得如下的排序特征信息：
[0065]
征兔性质:[f_right＝0.016,f_left＝0,f_up＝0.026,f_down＝0.009]
[0066]
征免性质:[f_right＝0.818,f_left＝0,f_up＝0.966,f_down＝0.882]
[0067]
在本技术的另一些实施例中，所述邻接单元格也可以包括包围目标单元格的8个单元格，即位于目标单元格上方的上方邻接单元格、位于目标单元格下方的下方邻接单元格、位于目标单元格左方的左方邻接单元格、位于目标单元格右方的右方邻接单元格、位于目标单元格左上方的左上邻接单元格、位于目标单元格右上方的右上邻接单元格、位于目标单元格左下方的左下邻接单元格以及位于目标单元格右下方的右下邻接单元格。
[0068]
此时，所述排序特征信息对应包括了所述候选文本分别与上方邻接单元格、下方邻接单元格、左方邻接单元格、右方邻接单元格、左上邻接单元格、右上邻接单元格、左下邻接单元格和右下邻接单元格中的邻接文本之间的共现特征信息。
[0069]
步骤s104，根据所述排序特征信息计算所述候选文本的排序分值，并将排序分值最高的候选文本确定为所述目标单元格的文本。
[0070]
在计算排序分值时，可以根据预设的权重，对所述排序特征信息进行加权计算，获取所述候选文本的排序分值。例如，对于前述的两个候选文本，可以预先为f_right、f_left、f_up和f_down设定权重，进行加权计算以后即可获取各个候选文本的排序分值，然后可以将排序分值最高的候选文本确定为所述目标单元格的文本。若本实施例中，计算获得“征兔性质”的排序分值为0.017，“征免性质”的排序分值为0.889，其中，排序分值最高的候选文本即为“征免性质”，因此将“征免性质”确定为所述目标单元格的文本，完成文本纠错。在此，本领域技术人员应当理解，海关单据表格仅为本技术实施的方案的一种应用场景，除此之外的任意类型的二维文本，均可使用本技术实施例提供的方案实现文本纠错。同时，对于识别出的错误文本可以通过高亮等方式进行显示。
[0071]
在本技术的另一些实施例中，除了共现特征信息之外，所述排序特征信息还可以包括所述候选文本与原始文本之间的相似特征信息。在实际场景中，候选文本与原始文本越相似，发生错误的可能性也就越高，因此相似特征信息可以反映出候选文本被错误地输入或识别为原始文本的可能性的大小。由此，将共现特征信息和相似特征信息共同作为排序特征信息，可以使得计算获得的排序分值更加合理，提高文本纠错的准确性。
[0072]
本实施例中，在获取所述候选文本的排序特征信息时，除了可以采用前述的方式获取共现特征信息之外，还可以根据所述候选文本与原始文本之间的相似程度，确定所述候选文本与原始文本之间相似特征信息，然后将所述相似特征信息和共现特征信息公共同作为排序特征信息。
[0073]
其中，所述相似特征信息可以包括发音相似度、字形相似度和编辑距离中的至少一种。发音相似度和字形相似度越高、编辑距离越近，则表示候选文本和原始文本发生混淆的可能性也越高，根据实际应用场景的不同，可以有选择的使用其中任意一种或者多种相似特征信息。例如，在本实施中，仅采用编辑距离作为相似特征信息，对于目标单元格cell_3，原始文本为“征兔性质”，其中一个候选文本“征兔性质”即为原始文本，因此两者不存在
差异，另一个候选文本“征免性质”与原始文本的差异为一个字符，通过一次编辑操作将“兔”修改为“免”之后，即可将原始文本修改为该候选文本。因此，两个候选文本的编辑距离分别是：
[0074]
f_editdistance(征兔性质)＝0.0，f_editdistance(征免性质)＝1.0；
[0075]
结合前述的共现特征信息，“征兔性质”和“征免性质”的排序特征信息分别如下：
[0076]
[f_editdistance＝0.0,f_right＝0.016,f_left＝0,f_up＝0.026,f_down＝0.009]；
[0077]
[f_editdistance＝1.0,f_right＝0.818,f_left＝0,f_up＝0.966,f_down＝0.882]；
[0078]
根据所述排序特征信息计算所述候选文本的排序分值时，可以为相似特征信息也设定相应的权重，与共现特征信息一起进行加权计算，来获得候选文本的排序分值，并基于排序分值确定目标单元格的文本。
[0079]
基于同一发明构思，本技术实施例中还提供了一种文本纠错设备，所述设备对应的方法是前述实施例中的文本纠错方法，并且其解决问题的原理与该方法相似。
[0080]
本技术实施例提供的一种文本纠错设备用于对表格等文字载体中的二维文本进行纠错，由于表格等文字载体中，文本的位置和内容相对固定，目标单元格位置处的文本与邻接单元格位置处的文本会根据实际的应用场景呈现一定的关联性，而候选文本的排序特征信息至少包括了所述候选文本与邻接文本之间的共现特征信息，据此计算的排序分值能够表征候选文本出现在目标单元格中的可能性大小，因此可以根据可能性大小准确地对目标单元格位置处的文本进行纠错。
[0081]
在实际场景中，该设备可以是用户设备、网络设备或者用户设备与网络设备通过网络相集成所构成的设备，此外也可以是运行于上述设备中的程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备；所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此，云由基于云计算(cloud computing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟计算机。
[0082]
图3示出了本技术实施例提供的一种文本纠错设备的结构，包括识别解析模块310、候选生成模块320、特征抽取模块330和排序模块340。其中，识别解析模块310用于获取目标单元格的原始文本和邻接单元格的邻接文本，所述邻接单元格是与目标单元格相邻的单元格。候选生成模块320用于根据知识库获取所述原始文本对应的纠错文本，并将所述原始文本和纠错文本确定为候选文本。特征抽取模块330用于获取所述候选文本的排序特征信息，所述排序特征信息包括所述候选文本与邻接文本之间的共现特征信息。排序模块340用于根据所述排序特征信息计算所述候选文本的排序分值，并将排序分值最高的候选文本确定为所述目标单元格的文本。
[0083]
由于本技术实施例提供的文本纠错设备应用于表格等文字载体中的二维文本，二维文本与一维文本的区别在于，二维文本中各部分文本内容之间的具有相对固定的二维位置关系。对于同一种表格，其所包含的文本的位置相对固定，因此可以采用单元格表示二维文本中各个文本所处的位置。其中，目标单元格即为本次进行纠错的文本所处的单元格，而邻接单元格是与目标单元格相邻的单元格。在实际场景中，对于不同文本的纠错可以分别
独立处理，即可以同时定义多个目标单元格，分别单独对这些目标单元格中的文本进行纠错，这些目标单元格都具有各自的邻接单元格，在各自纠错处理过程中互不干扰。
[0084]
以图2所示的表格为例，包括6各单元格，在对其中的文本“征兔性质”进行纠错时，单元格cell_3即为目标单元格，其邻接单元格即为与目标单元格相邻的单元格。在本技术的一些实施例中，相邻的单元格可以定义为与目标单元格相邻且位于上下左右几个方向上的单元格，对于前述的，目标单元格cell_3，其邻接单元格可以包括上方邻接单元格cell_1、右方邻接单元格cell_4和下方邻接单元格cell_5，由于左方不存在单元格，则邻接单元格中的左方邻接单元格为空。
[0085]
而对于目标单元格中的原始文本和邻接单元格中的邻接文本的具体内容，可以通过文本识别的方式获取。例如，对于图2中的表格，可以采用ocr技术识别各个单元格中的文本内容，从而确定目标单元格中的原始文本和邻接单元格中的邻接文本。在实际场景中，文本内容的错误可能发生在输入环节，例如用户在输入单元格cell_3中的文本时，错误地输入成“征兔性质”。此外，文本内容的错误也可能出现在识别环节，例如单元格cell_3中的文本实际应当是“征免性质”，但是在识别文本时，错误地识别为“征兔性质”。对于这些错误，可以通过本技术实施例提供的文本纠错设备确定正确的文本进行修正。
[0086]
在本技术的一些实施例中，在获取目标单元格的原始文本和邻接单元格的邻接文本时，识别解析模块可以先对待处理的文本进行识别，获取文本内容以及所述文本内容对应的位置信息。以图2所示的表格为例，可以通过ocr的方式识别表格中的文本内容以及对应的位置信息，其中，位置信息可以采用坐标的形式表示，以文本内容所在区域的坐标值作为位置信息，从而确定文本内容所处的位置。例如，对表格进行识别后可以获得以下形式的信息：
[0087]
(“征兔性质”,10.0,50.0,12.0,60.0)；
[0088]
(“一般征税”,10.0,61.0,13.0,70.0)；
[0089]
……
[0090]
其中，“征兔性质”、“一般征税”均为文本内容，10.0,50.0,12.0,60.0以及10.0,61.0,13.0,70.0均文本内容所在区域的坐标值。
[0091]
而后，识别解析模块根据位置信息确定目标单元格和邻接单元格，并将所述目标单元格中的文本内容确定为原始本文，以及将所述邻接单元格中的文本内容确定为邻接文本。
[0092]
例如，在对“征兔性质”进行纠错时，可以根据待处理的文本的位置信息确定目标单元格为cell_3，而对应的邻接单元格为cell_1、cell_4和cell_5，然后将所述目标单元格中的文本内容“征兔性质”确定为原始本文，以及将所述邻接单元格中的文本内容“进口口岸”、“一般征税”和“启运国”，确定为邻接文本。
[0093]
由于在表格中，各个单元格所处的位置是相对固定的，可以将位置信息映射为单元格之间的结构信息。其中，结构信息即为单元格之间的邻接关系，由此可以确定目标单元格和邻接单元格。
[0094]
以图2所示的表格为例，其中包括6个单元格，各个单元格可以分别设定为cell_1至cell_6。由于这些单元格的所在区域是已知的，因此通过坐标值可以确定“进口口岸”位于单元格cell_1，“xxx”位于单元格cell_2，“征兔性质”位于单元格cell_3，“一般征税”位
于单元格cell_4，“启运国”位于单元格cell_5，“yyy”位于单元格cell_6。对于其中的单元格，可以采用如下的数据结构记录信息：
[0095]
(cell_id:1,content:“进口口岸”,leftneighbor:none,upneighbor:none,rightneighbor:2,downneighbor:3)；
[0096]
(cell_id:2,content:“xxx”,leftneighbor:1,upneighbor:none,rightneighbor:none,downneighbor:4)；
[0097]
(cell_id:3,content:“征兔性质”,leftneighbor:none,upneighbor:1,rightneighbor:4,downneighbor:5)；
[0098]
(cell_id:4,content:“一般征税”,leftneighbor:3,upneighbor:2,rightneighbor:none,downneighbor:6)；
[0099]
(cell_id:2,content:“启运国”,leftneighbor:none,upneighbor:3,rightneighbor:6,downneighbor:none)；
[0100]
(cell_id:2,content:“yyy”,leftneighbor:5,upneighbor:4,rightneighbor:none,downneighbor:none)；
[0101]
其中，cell_id表示当前单元格的标识，content表示当前单元格的文本内容，leftneighbor、upneighbor、rightneighbor和downneighbor分别表示左方邻接单元格、上方邻接单元格、右方邻接单元格和下方邻接单元格的标识。基于上述数据结构，可以快速确定目标单元格、邻接单元格以及这些单元格中的原始文本和邻接文本。
[0102]
所述知识库中预先设置有与本方案应用场景所属领域相关的知识，例如当本方案应用于海关单据表格的文本纠错时，即可使用与海关有关的知识库，该知识库中包括了海关场景中的常用词汇。
[0103]
实际场景中，候选生成模块可以先根据发音相似度和/或字形相似度获取原始文本对应的相似文本集，然后根据知识库从所述相似文本集中，确定所述原始文本对应的纠错文本。例如，“征兔性质”的拼音为“[zheng,tu,xing,zhi]”，从知识库中查询发音相近的词汇，得到相似结果为空[]，由此可知基于发音相似度确定纠错文本为空。而在字形方面，可以对“征兔性质”各个单字分别进行处理生成相应的相似文本集，例如与“兔”字的字形接近的有[兔，免，菟，
…
]等，即相似文本集可以包括“征兔性质”、“征免性质”和“征菟性质”等，在知识库中查询这些词汇后，得到的结果为[征免性质]，对其它的单字也分别进行同样的处理之后，得到纠错文本为“征免性质”。
[0104]
在获得纠错文本之后，可以将原始文本和纠错文本确定为候选文本，在本实施例中目标单元格cell_3中的候选文本为“征兔性质”和“征免性质”。
[0105]
特征抽取模块获取的排序特征信息至少包括了候选文本与邻接文本之间的共现特征信息，共现特征信息能够体现候选文本与邻接文本共同出现的情况，从而反映出候选文本出现在目标单元格中的可能性大小。
[0106]
在本技术的一些实施例中，特征抽取模块可以基于语料库统计候选文本与邻接文本之间的共现次数、候选文本的出现次数以及邻接文本的出现次数，然后根据候选文本与邻接文本之间的共现次数、候选文本的出现次数以及邻接文本的出现次数，计算所述候选文本与邻接文本之间的共现特征信息，计算获得的共现特征信息即可确定为排序特征信息。其中，所述语料库中包含的语料与本方案的应用场景对应，例如当本方案应用于海关单
据表格的文本纠错时，即可使用与海关有关的语料库，其中包括了海关场景中的常用词汇以及这些词汇之间的结构信息。
[0107]
以目标单元格cell_3中的候选文本(“征兔性质”、“征免性质”)与其右方邻接单元格中的邻接文本(“一般征税”)为例，需要分别统计出：
[0108]“征兔性质”与“一般征税”的共现次数n_right(征兔性质,一般征税)＝10；
[0109]“征兔性质”与“一般征税”的共现次数n_right(征免性质，一般征税)＝900；
[0110]“征兔性质”的出现次数n(征兔性质)＝15；
[0111]“征免性质”的出现次数n(征免性质)＝1000；
[0112]“一般征税”的出现次数n(一般征税)＝1200；
[0113]
在计算所述候选文本与邻接文本之间的共现特征信息时，可以采用如下的方式：
[0114]
f_right(征兔性质)＝2
×
n(征兔性质,一般征税)/(n(征兔性质) n(一般征税))＝2
×
10/(15 1200)＝0.016；
[0115]
f_right(征免性质)＝2
×
n(征免性质,一般征税)/(n(征免性质) n(一般征税))＝2
×
900/(1000 1200)＝0.818；
[0116]
由此可知，候选文本“征兔性质”与右方邻接单元格中的邻接文本“一般征税”的共现特征信息为0.016，候选文本“征免性质”与右方邻接单元格中的邻接文本“一般征税”的共现特征信息为0.818。
[0117]
当邻接单元格包括位于目标单元格上方的上方邻接单元格、位于目标单元格下方的下方邻接单元格、位于目标单元格左方的左方邻接单元格以及位于目标单元格右方的右方邻接单元格时，排序特征信息也可以对应包括所述候选文本分别与上方邻接单元格、下方邻接单元格、左方邻接单元格和右方邻接单元格中的邻接文本之间的共现特征信息。基于类似的方式，可以计算获得候选文本与左方邻接单元格、上方邻接单元格、下方邻接单元格中的邻接文本之间的共现特征信息f_left、f_up、f_down。对于图2所示的表格，由于单元格cell_3不存在左方邻接单元格，因此与左方邻接单元格中的邻接文本的可以确定为f_left＝0。由此获得如下的排序特征信息：
[0118]
征兔性质:[f_right＝0.016,f_left＝0,f_up＝0.026,f_down＝0.009]
[0119]
征免性质:[f_right＝0.818,f_left＝0,f_up＝0.966,f_down＝0.882]
[0120]
在本技术的另一些实施例中，所述邻接单元格也可以包括包围目标单元格的8个单元格，即位于目标单元格上方的上方邻接单元格、位于目标单元格下方的下方邻接单元格、位于目标单元格左方的左方邻接单元格、位于目标单元格右方的右方邻接单元格、位于目标单元格左上方的左上邻接单元格、位于目标单元格右上方的右上邻接单元格、位于目标单元格左下方的左下邻接单元格以及位于目标单元格右下方的右下邻接单元格。
[0121]
此时，所述排序特征信息对应包括了所述候选文本分别与上方邻接单元格、下方邻接单元格、左方邻接单元格、右方邻接单元格、左上邻接单元格、右上邻接单元格、左下邻接单元格和右下邻接单元格中的邻接文本之间的共现特征信息。
[0122]
在计算排序分值时，排序模块可以根据预设的权重，对所述排序特征信息进行加权计算，获取所述候选文本的排序分值。例如，对于前述的两个候选文本，可以预先为f_right、f_left、f_up和f_down设定权重，进行加权计算以后即可获取各个候选文本的排序分值，然后可以将排序分值最高的候选文本确定为所述目标单元格的文本。若本实施例中，
计算获得“征兔性质”的排序分值为0.017，“征免性质”的排序分值为0.889，其中，排序分值最高的候选文本即为“征免性质”，因此将“征免性质”确定为所述目标单元格的文本，完成文本纠错。在此，本领域技术人员应当理解，海关单据表格仅为本技术实施的方案的一种应用场景，除此之外的任意类型的二维文本，均可使用本技术实施例提供的方案实现文本纠错。同时，对于识别出的错误文本可以通过高亮等方式进行显示。
[0123]
在本技术的另一些实施例中，除了共现特征信息之外，所述排序特征信息还可以包括所述候选文本与原始文本之间的相似特征信息。在实际场景中，候选文本与原始文本越相似，发生错误的可能性也就越高，因此相似特征信息可以反映出候选文本被错误地输入或识别为原始文本的可能性的大小。由此，将共现特征信息和相似特征信息共同作为排序特征信息，可以使得计算获得的排序分值更加合理，提高文本纠错的准确性。
[0124]
本实施例中，特征抽取模块在获取所述候选文本的排序特征信息时，除了可以采用前述的方式获取共现特征信息之外，还可以根据所述候选文本与原始文本之间的相似程度，确定所述候选文本与原始文本之间相似特征信息，然后将所述相似特征信息和共现特征信息公共同作为排序特征信息。
[0125]
其中，所述相似特征信息可以包括发音相似度、字形相似度和编辑距离中的至少一种。发音相似度和字形相似度越高、编辑距离越近，则表示候选文本和原始文本发生混淆的可能性也越高，根据实际应用场景的不同，可以有选择的使用其中任意一种或者多种相似特征信息。例如，在本实施中，仅采用编辑距离作为相似特征信息，对于目标单元格cell_3，原始文本为“征兔性质”，其中一个候选文本“征兔性质”即为原始文本，因此两者不存在差异，另一个候选文本“征免性质”与原始文本的差异为一个字符，通过一次编辑操作将“兔”修改为“免”之后，即可将原始文本修改为该候选文本。因此，两个候选文本的编辑距离分别是：
[0126]
f_editdistance(征兔性质)＝0.0，f_editdistance(征免性质)＝1.0；
[0127]
结合前述的共现特征信息，“征兔性质”和“征免性质”的排序特征信息分别如下：
[0128]
[f_editdistance＝0.0,f_right＝0.016,f_left＝0,f_up＝0.026,f_down＝0.009]；
[0129]
[f_editdistance＝1.0,f_right＝0.818,f_left＝0,f_up＝0.966,f_down＝0.882]；
[0130]
根据所述排序特征信息计算所述候选文本的排序分值时，可以为相似特征信息也设定相应的权重，与共现特征信息一起进行加权计算，来获得候选文本的排序分值，并基于排序分值确定目标单元格的文本。
[0131]
另外，本技术的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此，根据本技术的一些实施例包括一个如图4所示的计算设备，该设备包括存储有计算机可读指令的一个或多个存储器410和用于执行计算机可读指令的处理器420，其中，当该计算机可读指令被该处理器执行时，使得设备执行基于前述本技术的多个实施例的方法和/或技术方案。
[0132]
此外，本技术的一些实施例还提供了一种计算机可读介质，其上存储有计算机程序指令，计算机可读指令可被处理器执行以实现前述本技术的多个实施例的方法和/或技术方案。
[0133]
需要注意的是，本技术可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在实施例中，本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地，本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，ram存储器，磁或光驱动器或软磁盘及类似设备。另外，本技术的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。
[0134]
本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0135]
本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0136]
对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其他的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于确定咬合参数的方法、系统和计算机可读存储介质与流程

文本纠错方法、设备以及计算机可读介质与流程

相关文献

最热文献