一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本表格中答案文本的抽取方法及装置与流程

2022-06-25 15:32:56 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种文本表格中答案文本的抽取方法及装置。


背景技术:

2.文本表格,指文本数据中的表格。目前,从文本表格中抽取答案文本主要包括四类方法:不考虑表格结构的模版匹配法、不考虑表格结构的判别式法、不考虑表格结构的生成式法和标准二维表格的模版匹配法。
3.不考虑表格结构的模版匹配法不考虑表格结构,直接使用分隔符分隔单元格,然后通过正则表达式等人工设计的规则进行匹配抽取,丢失了表格结构信息和单元格之间的逻辑联系,且容易漏匹配。
4.不考虑表格结构的判别式法不考虑表格结构,直接展平表格,拼接单元格内容后视作自然语言文本,再按照自然语言理解的判别式任务进行后续处理,但丢失了表格结构信息,且语义不连贯,导致抽取精度低。
5.不考虑表格结构的生成式法不考虑表格结构,直接展平表格,拼接单元格内容后通过文本生成模型生成自然语言文本,虽然提高了语义的连贯性,但生成模型本身复杂度高,训练难度大,且存在误差传递,影响抽取精度。
6.标准二维表格的模版匹配法只针对标准二维表格,然后通过人工设计的规则进行模版匹配抽取,没有考虑到复杂表格多样的组织结构,容易误匹配或漏匹配。上述复杂结构可以包括:含有合并单元格,以及索引单元格不处于表头而处于表身里等。
7.综上,现有格中答案文本的抽取方法存在精度较低的不足。


技术实现要素:

8.本发明提供一种文本表格中答案文本的抽取方法及装置,用以解决现有技术中抽取精度较低的缺陷,实现更高精度地抽取表格中的答案文本。
9.本发明提供一种文本表格中答案文本的抽取方法,包括:
10.提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;
11.获取所述表格中每一单元格的坐标对应的单元格坐标向量和所述每一单元格中的文本对应的单元格文本向量,并拼接为所述每一单元格的单元格拼接向量;
12.分别将每一所述单元格的单元格拼接向量输入索引识别模型,对各所述单元格进行分类,确定各所述单元格中的索引单元格和非索引单元格;
13.对于每一非索引单元格,将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量;
14.分别将每一所述非索引单元格的上下文向量和所述问题文本向量拼接后输入答案提取模型,对各所述非索引单元格进行分类,确定各所述非索引单元格中的答案单元格
和非答案单元格,并将所述答案单元格中的文本确定为所述问题文本对应的答案文本。
15.根据本发明提供的一种文本表格中答案文本的抽取方法,所述获取所述表格中每一单元格的坐标对应的单元格坐标向量,包括:
16.获取所述表格中各单元格的坐标;
17.对于每一单元格,将所述每一单元格的坐标输入坐标特征提取模型,对所述每一单元格的坐标进行向量化表示,获得所述坐标特征提取模型输出的所述每一单元格的坐标对应的单元格坐标向量。
18.根据本发明提供的一种文本表格中答案文本的抽取方法,所述对于每一非索引单元格,将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量,包括:
19.基于所述每一非索引单元格的坐标和各索引单元格的坐标,确定位于所述每一非索引单元格左边和上方的各索引单元格;
20.将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量。
21.根据本发明提供的一种文本表格中答案文本的抽取方法,所述获取问题文本对应的问题文本向量,包括:
22.将所述问题文本输入问题文本特征提取模型,对所述问题文本进行向量化表示,获得所述问题文本特征提取模型输出的所述问题文本对应的问题文本向量。
23.根据本发明提供的一种文本表格中答案文本的抽取方法,获取所述每一单元格中的文本对应的单元格文本向量,包括:
24.将所述每一单元格中的文本输入单元格文本特征提取模型,对所述每一单元格中的文本进行向量化表示,获得所述单元格文本特征提取模型输出的所述每一单元格中的文本对应的单元格文本向量。
25.根据本发明提供的一种文本表格中答案文本的抽取方法,所述提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量之前,还包括:
26.获取所述待处理的文本数据和所述问题文本。
27.本发明还提供一种文本表格中答案文本的抽取装置,包括:
28.文本表示模块,用于提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;
29.特征拼接模块,用于获取所述表格中每一单元格的坐标对应的单元格坐标向量和所述每一单元格中的文本对应的单元格文本向量,并拼接为所述每一单元格的单元格拼接向量;
30.索引识别模块,用于分别将每一所述单元格的单元格拼接向量输入索引识别模型,对各所述单元格进行分类,确定各所述单元格中的索引单元格和非索引单元格;
31.特征融合模块,用于对于每一非索引单元格,将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量;
32.答案提取模块,用于分别将每一所述非索引单元格的上下文向量和所述问题文本向量拼接后输入答案提取模型,对各所述非索引单元格进行分类,确定各所述非索引单元格中的答案单元格和非答案单元格,并将所述答案单元格中的文本确定为所述问题文本对应的答案文本。
33.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本表格中答案文本的抽取方法。
34.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本表格中答案文本的抽取方法。
35.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本表格中答案文本的抽取方法。
36.本发明提供的文本表格中答案文本的抽取方法及装置,通过融合单元格的坐标的特征和文本的特征,得到单元格的单元格拼接向量,基于单元格的单元格拼接向量进行分类,确定该单元格是索引单元格还是非索引单元格,通过对非索引单元格的单元格拼接向量以及位于该非索引单元格左边和上方的各索引单元格的单元格拼接向量进行特征融合,得到非索引单元格的上下文向量,基于非索引单元格的上下文向量和问题文本对应的问题文本向量进行分类,确定该非索引单元格是答案单元格还是非答案单元格,从而提取出问题文本对应的答案文本,考虑到复杂表格多样的组织结构,通过统一的单元格表征方法,同时利用表格本身的结构信息和单元格内容语义之间的联系,能更准确地表示单元格的特征,进而获得更准确的答案文本的抽取结果,能较少漏匹配和误匹配等现象,能提高文本表格中答案文本的抽取精度。
附图说明
37.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1是本发明提供的文本表格中答案文本的抽取方法的流程示意图之一;
39.图2是本发明提供的文本表格中答案文本的抽取方法的流程示意图之二;
40.图3是本发明提供的确定索引单元格和非索引单元格的步骤的示意图;
41.图4是本发明提供的获取非索引单元格的上下文向量的步骤的示意图;
42.图5是本发明提供的确定答案单元格和非答案单元格的步骤的示意图;
43.图6是本发明提供的文本表格中答案文本的抽取装置的结构示意图;
44.图7是本发明提供的电子设备的结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.在本发明实施例的描述中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性,且不涉及顺序。
47.在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
48.下面结合图1至图4描述本发明提供的文本表格中答案文本的抽取方法及装置。
49.图1是本发明提供的文本表格中答案文本的抽取方法的流程示意图之一。如图1所示,本发明实施例提供的文本表格中答案文本的抽取方法的执行主体可以为文本表格中答案文本的抽取装置,该方法包括:步骤101、步骤102、步骤103、步骤104和步骤105。
50.步骤101、提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量。
51.具体地,待处理的文本数据,可以是pdf文档或word文档(例如后缀为doc、docx或wps等的文档)等。
52.可以通过任一种表格提取方法,例如pdfminer等表格提取器,提取待处理的文本数据中的表格。
53.问题文本,指用于表述问题的文本。
54.可以通过任一种自然语言处理(natural language processing,nlp)方法中文本的向量化表示方法(例如基于词袋模型的方法和基于词向量的表示方法等),对问题文本进行向量化表示,获取该问题文本的向量化表示结果。该问题文本的向量化表示结果为一个向量,该向量为该问题文本对应的问题文本向量。
55.基于词袋模型的方法,主要包括one-hot编码、tf-idf(term frequency

inverse document frequency,词频-逆向文件频率)和n-gram模型等。
56.基于词向量的表示方法,主要包括word2vec和doc2vec等。
57.步骤102、获取表格中每一单元格的坐标对应的单元格坐标向量和每一单元格中的文本对应的单元格文本向量,并拼接为每一单元格的单元格拼接向量。
58.具体地,对于步骤101获取的表格中的每一单元格,可以基于任一种坐标转换为向量的方法,将该单元格的坐标转化为向量,从而得到该单元格的坐标对应的单元格坐标向量。
59.对于该单元格,还可以通过任一种自然语言处理中文本的向量化表示方法,对该单元格中的文本进行向量化表示,获取该单元格中的文本的向量化表示结果。该单元格中的文本的向量化表示结果为一个向量,该向量为该单元格中的文本对应的单元格文本向量。
60.对于任一单元格,获取该单元格的坐标对应的单元格坐标向量和单元格中的文本对应的单元格文本向量之后,可以将该单元格坐标向量和该单元格文本向量进行拼接,从而得到该单元格的单元格拼接向量。
61.可以理解的是,各单元格的坐标对应的单元格坐标向量的维数相同,各单元格中
的文本对应的单元格文本向量的维数相同,因而各单元格的单元格拼接向量的维数相同。
62.步骤103、分别将每一单元格的单元格拼接向量输入索引识别模型,对各单元格进行分类,确定各单元格中的索引单元格和非索引单元格。
63.具体地,可以分别将每一单元格的单元格拼接向量输入索引识别模型,以确定该单元格是索引单元格还是非索引单元格。
64.索引识别模型,可以是基于样本单元格的单元格拼接向量和样本单元格对应的标签进行训练后得到的。样本单元格对应的标签,用于指示该样本单元格是索引单元格还是非索引单元格。
65.可以理解的是,样本单元格的单元格拼接向量的获取方法,与步骤102中获取各单元格的单元格拼接向量的方法相同,此处不再赘述。样本单元格的单元格拼接向量的维数,与步骤102中获得的各单元格的单元格拼接向量的维数相同。
66.可选地,索引识别模型可以是基于任一种深度学习方法构建的模型。索引识别模型,可以包括特征提取器和分类器,特征提取器的输出层与分类器的输入层连接。
67.示例性地,索引识别模型可以是基于任一种神经网络(例如cnn(convolutional neural networks,卷积神经网络)、rnn(recurrent neural networks,循环神经网络)或transformer等)构建的模型。神经网络的输出层的各个表示连接基于sigmoid函数的sigmoid分类器,从而可以对单元格是索引单元格还是非索引单元格进行分类。
68.步骤104、对于每一非索引单元格,将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取每一非索引单元格的上下文向量。
69.具体地,特征融合模型可以作为特征融合器。对于每一非索引单元格,可以将该非索引单元格的单元格拼接向量,以及位于该非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型进行特征融合,从而得到该非索引单元格的上下文向量。
70.可选地,特征融合模型可以是基于含有注意力机制的神经网络(例如transformer等)的特征融合模型。
71.特征融合模型,可以是基于第一样本非索引单元格的单元格拼接向量以及同一样本表格中位于第一样本非索引单元格左边和上方的各索引单元格的单元格拼接向量,和第一样本非索引单元格对应的标签进行训练后得到的。该第一样本非索引单元格对应的标签,为该第一样本非索引单元格的上下文向量。
72.可以理解的是,第一样本非索引单元格的单元格拼接向量的获取方法,与步骤102中获取各单元格的单元格拼接向量的方法相同,此处不再赘述。第一样本非索引单元格的上下文向量的维数,与步骤104中获得的各非索引单元格的上下文向量的维数相同。
73.步骤105、分别将每一非索引单元格的上下文向量和问题文本向量拼接后输入答案提取模型,对各非索引单元格进行分类,确定各非索引单元格中的答案单元格和非答案单元格,并将答案单元格中的文本确定为问题文本对应的答案文本。
74.具体地,对于每一非索引单元格,可以将问题文本向量和该非索引单元格的上下文向量进行拼接,得到该非索引单元格的目标向量。
75.可以理解的是,各非索引单元格的上下文向量的维数相同,因而各非索引单元格的目标向量的维数相同。
76.对于每一非索引单元格,可以将该非索引单元格的目标向量输入答案提取模型,以确定该非索引单元格是答案单元格还是非答案单元格。
77.答案单元格,指该单元格中的文本是问题文本对应的答案文本。即答案单元格中的文本的内容,可以回答问题文本中的问题;答案单元格中的文本的内容,是问题文本中的问题的答案。
78.非答案单元格,指该单元格中的文本不是问题文本对应的答案文本。即非答案单元格中的文本的内容,不能回答问题文本中的问题;非答案单元格中的文本的内容,不是问题文本中的问题的答案。
79.答案提取模型,可以是基于第二样本非索引单元格的目标向量和第二样本非索引单元格对应的标签进行训练后得到的。第二样本非索引单元格,该第二样本非索引单元格对应的标签,用于指示该第二样本非索引单元格是答案单元格还是答案单元格。
80.可以理解的是,第二样本非索引单元格的目标向量的获取方法,与步骤105中获取各非索引单元格的目标向量的方法相同,此处不再赘述。第二样本非索引单元格的上下文向量的维数,与步骤104中获得的各非索引单元格的单元格拼接向量的维数相同;用于获取第二样本非索引单元格的目标向量的第一样本问题文本对应的问题文本向量与步骤101中的问题文本向量的维数相同。
81.可选地,答案提取模型可以是基于任一种深度学习方法构建的模型。答案提取模型,可以包括特征提取器和分类器,特征提取器的输出层与分类器的输入层连接。
82.示例性地,答案提取模型可以是基于任一种神经网络(例如cnn、rnn或transformer等)构建的模型。神经网络的输出层的各个表示连接基于sigmoid函数的sigmoid分类器,从而可以对非索引单元格是答案单元格还是非答案单元格进行分类。
83.本发明实施例通过融合单元格的坐标的特征和文本的特征,得到单元格的单元格拼接向量,基于单元格的单元格拼接向量进行分类,确定该单元格是索引单元格还是非索引单元格,通过对非索引单元格的单元格拼接向量以及位于该非索引单元格左边和上方的各索引单元格的单元格拼接向量进行特征融合,得到非索引单元格的上下文向量,基于非索引单元格的上下文向量和问题文本对应的问题文本向量进行分类,确定该非索引单元格是答案单元格还是非答案单元格,从而提取出问题文本对应的答案文本,考虑到复杂表格多样的组织结构,通过统一的单元格表征方法,同时利用表格本身的结构信息和单元格内容语义之间的联系,能更准确地表示单元格的特征,进而获得更准确的答案文本的抽取结果,能较少漏匹配和误匹配等现象,能提高文本表格中答案文本的抽取精度。
84.基于上述任一实施例的内容,获取表格中每一单元格的坐标对应的单元格坐标向量,包括:获取表格中各单元格的坐标。
85.具体地,可以以表格中左上角的第一个单元格的左上顶点为二维坐标系的原点,左右方向和上下方向分别作为二维坐标系中的一个坐标轴,建立二维坐标系。
86.可选地,可以通过坐标提取器,获取该二维坐标系中每个单元格的左上顶点的坐标和右下顶点的坐标,将该单元格的左上顶点的坐标和右下顶点的坐标进行组合,从而得到该单元格的坐标。
87.可选地,可以在该单元格的左上顶点的坐标和右下顶点的坐标的基础上,组合该单元格的左下顶点和/或右上顶点的坐标,得到该单元格的坐标。
88.对于每一单元格,将每一单元格的坐标输入坐标特征提取模型,对每一单元格的坐标进行向量化表示,获得坐标特征提取模型输出的每一单元格的坐标对应的单元格坐标向量。
89.具体地,可以将坐标特征提取模型作为特征提取器,分别将每一单元格的坐标输入坐标特征提取模型,对该单元格的坐标进行特征提取和向量化表示,得到该单元格的坐标对应的单元格坐标向量。
90.坐标特征提取模型,可以是基于单元格的样本坐标和单元格的样本坐标对应的标签进行训练后得到的。单元格的样本坐标该单元格的样本坐标对应的标签,可以是该样本坐标对应的单元格坐标向量。
91.可以理解的是,单元格的样本坐标对应的单元格坐标向量的维数,与步骤102中获得的各单元格的坐标对应的单元格坐标向量的维数相同。
92.可选地,坐标特征提取模型可以是基于任一种深度学习方法构建的模型。
93.示例性地,坐标特征提取模型可以是基于任一种神经网络(例如cnn或transformer等)构建的模型。
94.本发明实施例通过坐标特征提取模型对每一单元格的坐标进行向量化表示,获得每一单元格的坐标对应的单元格坐标向量,通过统一的单元格表征方法,利用表格本身的结构信息,能更准确地表示单元格的特征,进而获得更准确的答案文本的抽取结果,能较少漏匹配和误匹配等现象,能提高文本表格中答案文本的抽取精度。
95.基于上述任一实施例的内容,对于每一非索引单元格,将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取每一非索引单元格的上下文向量,包括:基于每一非索引单元格的坐标和各索引单元格的坐标,确定位于每一非索引单元格左边和上方的各索引单元格。
96.具体地,对于每一非索引单元格的坐标,可以通过比较该非索引单元格的坐标和各索引单元格的坐标,确定位于该非索引单元格左边和上方的各索引单元格。
97.对于某个非索引单元格a,在所有索引单元格中,其左上顶点的横坐标等于非索引单元格a的左上顶点的横坐标,或者其右下顶点的横坐标等于非索引单元格a的右下顶点的横坐标,并且,其右下顶点的纵坐标小于非索引单元格a的右下顶点的纵坐标的索引单元格,则为位于非索引单元格a左边的索引单元格。
98.对于某个非索引单元格a,在所有索引单元格中,其左上顶点的纵坐标等于非索引单元格a的左上顶点的纵坐标,或者其右下顶点的纵坐标等于非索引单元格a的右下顶点的纵坐标,并且,其左上顶点的横坐标小于非索引单元格a的左上顶点的横坐标的索引单元格,则为位于非索引单元格a上方的索引单元格。
99.将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取每一非索引单元格的上下文向量。
100.具体地,确定位于每一非索引单元格左边和上方的各索引单元格之后,可以将该非索引单元格的单元格拼接向量,以及位于该非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,得到该非索引单元格的上下文向量。
101.本发明实施例基于非索引单元格的坐标和各索引单元格的坐标,确定位于非索引单元格左边和上方的各索引单元格,能更准确地确定位于非索引单元格左边和上方的各索引单元格,从而利用表格本身的结构信息和单元格内容语义之间的联系,能更准确地表示单元格的特征,进而获得更准确的答案文本的抽取结果,能较少漏匹配和误匹配等现象,能提高文本表格中答案文本的抽取精度。
102.基于上述任一实施例的内容,获取问题文本对应的问题文本向量,包括:将问题文本输入问题文本特征提取模型,对问题文本进行向量化表示,获得问题文本特征提取模型输出的问题文本对应的问题文本向量。
103.具体地,可以将问题文本特征提取模型作为特征提取器,通过问题文本特征提取模型对问题文本进行向量化表示,得到问题文本对应的问题文本向量。
104.问题文本特征提取模型,可以是基于第二样本问题文本和第二样本问题文本对应的问题文本向量进行训练后得到的。
105.可以理解的是,第二样本问题文本对应的问题文本向量的维数,与步骤101中的问题文本向量的维数相同。
106.可选地,问题文本特征提取模型可以是基于任一种深度学习方法构建的模型。
107.示例性地,问题文本特征提取模型可以是基于任一种神经网络(例如cnn、rnn或transformer等)构建的模型。
108.本发明实施例通过问题文本特征提取模型对问题文本进行向量化表示,得到问题文本对应的问题文本向量,能更准确地表示问题文本的特征,进而获得更准确的答案文本的抽取结果,能较少漏匹配和误匹配等现象,能提高文本表格中答案文本的抽取精度。
109.基于上述任一实施例的内容,获取每一单元格中的文本对应的单元格文本向量,包括:将每一单元格中的文本输入单元格文本特征提取模型,对每一单元格中的文本进行向量化表示,获得单元格文本特征提取模型输出的每一单元格中的文本对应的单元格文本向量。
110.具体地,可以将单元格文本特征提取模型作为特征提取器,通过单元格文本特征提取模型对每一单元格中的文本进行向量化表示,得到该单元格中的文本对应的单元格文本向量。
111.单元格文本特征提取模型,可以是基于样本文本和样本文本对应的单元格文本向量进行训练后得到的。
112.可以理解的是,样本文本对应的单元格文本向量的维数,与步骤102中的各单元格中的文本对应的单元格文本向量的维数相同。
113.可选地,单元格文本特征提取模型可以是基于任一种深度学习方法构建的模型。
114.示例性地,单元格文本特征提取模型可以是基于任一种神经网络(例如cnn、rnn或transformer等)构建的模型。
115.本发明实施例通过单元格文本特征提取模型对每一单元格中的文本进行向量化表示,得到该单元格中的文本对应的单元格文本向量,能更准确地表示单元格中文本的特征,进而获得更准确的答案文本的抽取结果,能较少漏匹配和误匹配等现象,能提高文本表格中答案文本的抽取精度。
116.基于上述任一实施例的内容,提取待处理的文本数据中的表格,并获取问题文本
对应的问题文本向量之前,还包括:获取待处理的文本数据和问题文本。
117.具体地,可以获取用户输入的待处理的文本数据,或者接收其他电子设备发送的待处理的文本数据。
118.可以获取用户输入的问题文本,或者接收其他电子设备发送的问题文本。
119.本发明实施例通过获取待处理的文本数据和问题文本,能更方便地进行文本表格中答案文本的抽取。
120.图2是本发明提供的文本表格中答案文本的抽取方法的流程示意图之二。示例性地,如图2所示,该文本表格中答案文本的抽取方法可以包括以下步骤:
121.步骤201、获取待处理的文本数据和问题文本。
122.步骤202、基于该待处理的文本数据,通过表格提取器,提取表格。
123.步骤203、基于该问题文本,通过特征提取器,获取问题文本对应的问题文本向量。
124.步骤204、基于该表格,通过坐标提取器,获取每一单元格的坐标,通过特征提取器,获取每一单元格的坐标对应的单元格坐标向量。
125.步骤205、基于该表格,通过特征提取器,获取每一单元格中的文本对应的单元格文本向量。
126.步骤206、将每一单元格的坐标对应的单元格坐标向量和该元格中的文本对应的单元格文本向量进行拼接,获取该单元格的单元格拼接向量,通过特征提取器连接分类器进行分类,获得索引单元格和非索引单元格。
127.对各单元格进行分类,确定索引单元格和非索引单元格的过程可以如图3所示。
128.步骤207、将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量通过特征融合器进行融合,得到该非索引单元格的上下文向量。
129.通过特征融合,得到该非索引单元格的上下文向量的过程可以如图4所示。
130.位于非索引单元格左边的索引单元格为该非索引单元格的左向索引单元格;位于非索引单元格上方的索引单元格为该非索引单元格的上向索引单元格。
131.步骤208、基于每个非索引单元格的上下文向量,拼接问题文本向量,通过特征提取器连接分类器进行分类,获取答案单元格和非答案单元格,答案单元格中的文本是问题文本对应的答案文本。
132.对非索引单元格进行分类,确定答案单元格和非答案单元格的过程可以如图5所示。
133.下面对本发明提供的文本表格中答案文本的抽取装置进行描述,下文描述的文本表格中答案文本的抽取装置与上文描述的文本表格中答案文本的抽取方法可相互对应参照。
134.图6是本发明提供的文本表格中答案文本的抽取装置的结构示意图。基于上述任一实施例的内容,如图6所示,该装置包括文本表示模块601、特征拼接模块602、索引识别模块603、特征融合模块604和答案提取模块605,其中:
135.文本表示模块601,用于提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;
136.特征拼接模块602,用于获取表格中每一单元格的坐标对应的单元格坐标向量和
每一单元格中的文本对应的单元格文本向量,并拼接为每一单元格的单元格拼接向量;
137.索引识别模块603,用于分别将每一单元格的单元格拼接向量输入索引识别模型,对各单元格进行分类,确定各单元格中的索引单元格和非索引单元格;
138.特征融合模块604,用于对于每一非索引单元格,将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取每一非索引单元格的上下文向量;
139.答案提取模块605,用于分别将每一非索引单元格的上下文向量和问题文本向量拼接后输入答案提取模型,对各非索引单元格进行分类,确定各非索引单元格中的答案单元格和非答案单元格,并将答案单元格中的文本确定为问题文本对应的答案文本。
140.具体地,文本表示模块601、特征拼接模块602、索引识别模块603、特征融合模块604和答案提取模块605可以顺次电连接。
141.文本表示模块601可以通过任一种表格提取方法,提取待处理的文本数据中的表格。
142.文本表示模块601还可以通过任一种自然语言处理方法中文本的向量化表示方法,对问题文本进行向量化表示,得到问题文本对应的问题文本向量。
143.对于文本表示模块601提取出的表格中的每一单元格,特征拼接模块602可以基于任一种坐标转换为向量的方法,将该单元格的坐标转化为向量,从而得到该单元格的坐标对应的单元格坐标向量;还可以通过任一种自然语言处理中文本的向量化表示方法,对该单元格中的文本进行向量化表示,得到该单元格中的文本对应的单元格文本向量;还可以将该单元格坐标向量和该单元格文本向量进行拼接,从而得到该单元格的单元格拼接向量。
144.索引识别模块603可以分别将每一单元格的单元格拼接向量输入索引识别模型,以确定该单元格是索引单元格还是非索引单元格。
145.对于每一非索引单元格,特征融合模块604可以将该非索引单元格的单元格拼接向量,以及位于该非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型进行特征融合,从而得到该非索引单元格的上下文向量。
146.对于每一非索引单元格,答案提取模块605可以将问题文本向量和该非索引单元格的上下文向量进行拼接,得到该非索引单元格的目标向量;还可以将该非索引单元格的目标向量输入答案提取模型,以确定该非索引单元格是答案单元格还是非答案单元格。
147.可选地,特征拼接模块602可以包括:
148.坐标特征提取单元,用于获取表格中各单元格的坐标;对于每一单元格,将每一单元格的坐标输入坐标特征提取模型,对每一单元格的坐标进行向量化表示,获得坐标特征提取模型输出的每一单元格的坐标对应的单元格坐标向量。
149.可选地,特征融合模块604,可以具体用于:
150.基于每一非索引单元格的坐标和各索引单元格的坐标,确定位于每一非索引单元格左边和上方的各索引单元格;
151.将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取每一非索引单元格的上下文向量。
152.可选地,文本表示模块601,可以包括:
153.问题文本特征提取单元,用于将问题文本输入问题文本特征提取模型,对问题文本进行向量化表示,获得问题文本特征提取模型输出的问题文本对应的问题文本向量。
154.可选地,特征拼接模块602可以包括:
155.单元格文本特征提取单元,用于将每一单元格中的文本输入单元格文本特征提取模型,对每一单元格中的文本进行向量化表示,获得单元格文本特征提取模型输出的每一单元格中的文本对应的单元格文本向量。
156.可选地,该文本表格中答案文本的抽取装置,还可以包括:
157.数据获取模块,用于获取待处理的文本数据和问题文本。
158.本发明实施例提供的文本表格中答案文本的抽取装置,用于执行本发明上述文本表格中答案文本的抽取方法,其实施方式与本发明提供的文本表格中答案文本的抽取方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
159.该文本表格中答案文本的抽取装置用于前述各实施例的文本表格中答案文本的抽取方法。因此,在前述各实施例中的文本表格中答案文本的抽取方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
160.本发明实施例通过融合单元格的坐标的特征和文本的特征,得到单元格的单元格拼接向量,基于单元格的单元格拼接向量进行分类,确定该单元格是索引单元格还是非索引单元格,通过对非索引单元格的单元格拼接向量以及位于该非索引单元格左边和上方的各索引单元格的单元格拼接向量进行特征融合,得到非索引单元格的上下文向量,基于非索引单元格的上下文向量和问题文本对应的问题文本向量进行分类,确定该非索引单元格是答案单元格还是非答案单元格,从而提取出问题文本对应的答案文本,考虑到复杂表格多样的组织结构,通过统一的单元格表征方法,同时利用表格本身的结构信息和单元格内容语义之间的联系,能更准确地表示单元格的特征,进而获得更准确的答案文本的抽取结果,能较少漏匹配和误匹配等现象,能提高文本表格中答案文本的抽取精度。
161.图7是本发明提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行文本表格中答案文本的抽取方法,该方法包括:提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;获取表格中每一单元格的坐标对应的单元格坐标向量和每一单元格中的文本对应的单元格文本向量,并拼接为每一单元格的单元格拼接向量;分别将每一单元格的单元格拼接向量输入索引识别模型,对各单元格进行分类,确定各单元格中的索引单元格和非索引单元格;对于每一非索引单元格,将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取每一非索引单元格的上下文向量;分别将每一非索引单元格的上下文向量和问题文本向量拼接后输入答案提取模型,对各非索引单元格进行分类,确定各非索引单元格中的答案单元格和非答案单元格,并将答案单元格中的文本确定为问题文本对应的答案文本。
162.此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
163.本技术实施例提供的电子设备中的处理器710可以调用存储器730中的逻辑指令,其实施方式与本技术提供的文本表格中答案文本的抽取方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
164.另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本表格中答案文本的抽取方法,该方法包括:提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;获取表格中每一单元格的坐标对应的单元格坐标向量和每一单元格中的文本对应的单元格文本向量,并拼接为每一单元格的单元格拼接向量;分别将每一单元格的单元格拼接向量输入索引识别模型,对各单元格进行分类,确定各单元格中的索引单元格和非索引单元格;对于每一非索引单元格,将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取每一非索引单元格的上下文向量;分别将每一非索引单元格的上下文向量和问题文本向量拼接后输入答案提取模型,对各非索引单元格进行分类,确定各非索引单元格中的答案单元格和非答案单元格,并将答案单元格中的文本确定为问题文本对应的答案文本。
165.本技术实施例提供的计算机程序产品被执行时,实现上述文本表格中答案文本的抽取方法,其具体的实施方式与前述方法的实施例中记载的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
166.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文本表格中答案文本的抽取方法,该方法包括:提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;获取表格中每一单元格的坐标对应的单元格坐标向量和每一单元格中的文本对应的单元格文本向量,并拼接为每一单元格的单元格拼接向量;分别将每一单元格的单元格拼接向量输入索引识别模型,对各单元格进行分类,确定各单元格中的索引单元格和非索引单元格;对于每一非索引单元格,将每一非索引单元格的单元格拼接向量,以及位于每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取每一非索引单元格的上下文向量;分别将每一非索引单元格的上下文向量和问题文本向量拼接后输入答案提取模型,对各非索引单元格进行分类,确定各非索引单元格中的答案单元格和非答案单元格,并将答案单元格中的文本确定为问题文本对应的答案文本。
167.本技术实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述文本表格中答案文本的抽取方法,其具体的实施方式与前述方法的实施例中记载的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
168.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是
或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
169.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
170.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献