文档目录结构的提取方法、装置、设备和介质与流程

2021-11-15 16:05:00 来源：中国专利 TAG：

1.本发明涉及数据处理领域，尤其涉及文档目录结构的提取方法、装置、设备和介质。

背景技术：

2.标题，是标明文档内容的简短语句。为了增强文档可读性，一个文档内通常设置了多级标题。具体的，可以将某一级标题对应的文档内容，再通过建立几个下级标题细分为多个部分。
3.文档目标结构包含着不同级标题的隶属关系，低一级的标题隶属于高一级的标题。图1示出了一种示例性的文档目录结构，如图1所示，文档目录结构共包括三级标题，按照层级由高到低的顺序依次为第一级标题、第二级标题、第三级标题。其中，第二级标题“1.二级标题”隶属于第一级标题“一、一级标题”，第三级标题“2.1三级标题”、“2.2三级标题”均隶属于第二级标题“2.二级标题”。
4.现有的目录提取方式，需要先将文档中标题人工标注，例如设置为标题样式。目录生成时，利用标注为标题样式的标题生成目录结构，所提取的目录结构准确性较低。

技术实现要素：

5.本发明实施例提供了文档目录结构的提取方法、装置、设备和介质，可以提高目录结构的提取准确性。
6.第一方面，提供一种文档目录结构的提取方法，包括：获取待处理文档的标题组件有序序列；基于标题组件有序序列中标题组件之间的层级关系，建立标题逻辑树；根据标题逻辑树，生成待处理文档的目录结构。
7.根据本发明实施例中的文档目录结构的提取方法，可以先获取待处理文档中标题组件有序序列，并利用标题组件有序序列中每一标题组件建立标题逻辑树。由于标题逻辑树中任一节点对应的标题组件为该节点的子节点对应的标题组件的上一级标题，通过建立标题逻辑树的方式，能够确定各标题组件之间的层级关系，从而提高目标结构的提取准确性。
8.在一种可选的实施方式中，基于标题组件有序序列中每一标题组件之间的层级关系，建立标题逻辑树，具体包括：将标题组件有序序列中的标题组件依次作为第一标题组件；针对每一第一标题组件，执行以下操作：若标题逻辑树中第一标题组件的前一标题组件和前一标题组件的祖先节点中存在与第一标题组件同级的第二标题组件，将第一标题组件作为第二标题组件的兄弟节点插入标题逻辑树；若前一标题组件和前一标题组件的祖先节点中不存在第二标题组件，将第一标题组件作为前一标题组件的子节点插入标题逻辑树。
9.利用标题模板生成目录结构的方法，目标结构的层级数目与标题模板中设置的层级数目相同。例如，如果模板中只设置了3个标题层级，则也只能最多生成3个标题层级。
而利用本发明实施例中的文档目录结构的提取方法，可以与已添加至标题逻辑树中的标题组件比较是否同级，如果不同级则作为前一标题组件的子节点。即时待处理文档的标题层级较多，也能够生成对应的标题层级。例如，8级、9级等。相较于利用标题模板生成目录结构的方法，能够提高生成目录结构的灵活性、准确性及深度。
10.在一种可选的实施方式中，方法还包括：利用目标数据和标题层级二分类模型，得到前一标题组件和前一标题组件的祖先节点中的标题组件的层级分类得分，其中，目标数据包括前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征；若前一标题组件和前一标题组件的祖先节点中存在层级分类得分大于预设分数阈值的标题组件，则确定前一标题组件和前一标题组件的祖先节点中存在第二标题组件；若前一标题组件和前一标题组件的祖先节点中的所有标题组件的层级分类得分均小于预设分数阈值，则确定前一标题组件和前一标题组件的祖先节点中不存在第二标题组件。
11.在本实施方式中，可以利用标题层级二分类模型判断每一标题组件是否是第二标题组件，保证了判断精度。特别是若标题层级二分类模型选用深度学习模型时，能够提高目录结构识别的准确率。
12.在一种可选的实施方式中，利用目标数据和标题层级二分类模型，得到前一标题组件和前一标题组件的祖先节点中的标题组件的层级分类得分，包括：将前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征输入第一关系特征生成模型，得到表征前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征之间关系的第一关系特征；将第一关系特征输入标题层级二分类模型，得到前一标题组件和前一标题组件的祖先节点中的标题组件的层级分类得分。
13.在一种可选的实施方式中，利用目标数据和标题层级二分类模型，得到前一标题组件和前一标题组件的祖先节点中的标题组件的层级分类得分，包括：将前一标题组件和前一标题组件的祖先节点中的标题组件的特征、标题节点中前一标题组件和前一标题组件的祖先节点中的标题组件的兄弟节点的特征输入第二关系特征生成模型，得到表征前一标题组件和前一标题组件的祖先节点中的标题组件的特征与兄弟节点的特征之间关系的第二关系特征；将第二关系特征和第一标题组件的特征输入第三关系特征生成模型，生成表征第二关系特征和第一标题组件的特征之间关系的第三关系特征；将第三关系特征输入标题层级二分类模型，得到前一标题组件和前一标题组件的祖先节点中的标题组件的层级分类得分。
14.在一种可选的实施方式中，获取待处理文档的标题组件有序序列，包括：获取待处理文档的逻辑组件有序序列；将逻辑组件有序序列输入标题检测模型，得到标题组件有序序列；其中，若标题检测模型包括第一特征提取子模型和标题二分类子模型，将逻辑组件有序序列输入标题检测模型，得到标题组件有序序列，包括：将逻辑组件有序序列输入第一特征提取子模型，得到逻辑组件有序序列中逻辑组件的特征；针对每一逻辑组件的特征，将每一逻辑组件的特征输入标题二分类子模型，得到每一逻辑组件的标题分类结果，其中，标题分类结果为标题，或者，非标题；将逻辑组件有序序列中标题分类结果为标题的逻辑组件加入标题组件有序序列；或者，若标题检测模型包括第一特征提取子模型、第二特征提取子模型和标题二分类子模型，则将逻辑组件有序序列输入标题检测模型，得到标题组件有序序列，包括：将逻辑组件有序序列输入第一特征提取子模型，得到逻辑组
件有序序列中逻辑组件的特征；针对每一逻辑组件的特征，将每一逻辑组件的特征和每一逻辑组件的相邻逻辑组件的特征输入第二特征提取子模型，得到每一逻辑组件的上下文特征；将上下文特征输入标题二分类子模型，得到每一逻辑组件的标题分类结果，其中，标题分类结果包括标题，或者，非标题；将逻辑组件有序序列中标题分类结果为标题的逻辑组件加入标题组件有序序列。
15.在本发明实施例中，可以先获取逻辑组件的特征，再利用逻辑组件的特征确定其分类结果，保证了分类的效率和准确率。特别是若第一特征提取子模型和标题二分类子模型选用深度学习模型时，能够提高目录结构识别的准确率。
16.由于文档中可能存在着列表等与标题组件的文本结构相似度较高的逻辑组件。例如，列表中每一行可能都是编号和文字符号的组合。考虑到待处理文档中各相邻逻辑组件之间具有一定的关联性。例如，标题组件的前后逻辑组件可能是非同级标题组件、文档内容段落、图表、图片等。而列表的前后逻辑组件可能与其标号相同。即使列表的特征与标题组件的特征相同，但是列表的上下文特征与标题组件的上下文特征存在较大差异性。因此，通过利用逻辑组件的上下文特征，能够根据逻辑组件的周围逻辑组件的特征，来提高标题检测模型的识别精度。特别是若第一特征提取子模型、第二特征提取子模型和标题二分类子模型选用深度学习模型时，能够提高目录结构识别的准确率。
17.在一种可选的实施方式中，逻辑组件的特征为特征向量，将逻辑组件有序序列输入第一特征提取子模型，得到逻辑组件有序序列中逻辑组件的特征，包括：获取逻辑组件的文本特征向量和逻辑组件的格式特征向量；将文本特征向量和格式特征向量拼接为逻辑组件的特征向量，其中，逻辑组件的文本特征向量基于逻辑组件的字符有序序列生成，格式特征向量表征下述格式信息的至少一种：逻辑组件是否加粗，逻辑组件的文本字号，逻辑组件的文本是否居中和表征逻辑组件所属类别，其中，逻辑组件所属类别包括：段落、表格、图表、图片。
18.在本发明实施例中，可以综合利用逻辑组件的文本特征和格式特征，提高了目标结构识别的准确性。
19.第二方面，提供一种文档目录结构的提取装置，包括：标题序列获取模块，用于获取待处理文档的标题组件有序序列；逻辑树建立模块，用于基于标题组件有序序列中标题组件之间的层级关系，建立标题逻辑树；目标结构生成模块，用于根据标题逻辑树，生成待处理文档的目录结构。
20.第三方面，提供一种文档目录结构的提取设备，包括：存储器，用于存储程序；处理器，用于运行存储器中存储的程序，以执行第一方面或第一方面的任一可选的实施方式提供的文档目录结构的提取方法。
21.第四方面，提供一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或第一方面的任一可选的实施方式提供的文档目录结构的提取方法。
附图说明
22.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提
下，还可以根据这些附图获得其他的附图。
23.图1示出了一种示例性的文档目录结构；
24.图2示出了本发明实施例中一种示例性的标题逻辑树的结构示意图；
25.图3是示出根据本发明实施例的文档目录结构的提取方法的示意流程图；
26.图4是本发明实施例提供的一种示例性的生成标题逻辑树的逻辑示意图；
27.图5是示出根据本发明实施例的文档目录结构的提取装置的结构示意图；
28.图6是本发明实施例中文档目录结构的提取设备的示例性硬件架构的结构图。
具体实施方式
29.下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
30.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语
ꢀ“
包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
31.本发明实施例提供了一种文档目录结构的提取方案，适用于需要从文档中提取目录结构的具体场景中。例如招股说明书、债券募集说明书、年报、财务报告、并购重组报告、评级报告、研究报告、法律合同文书、舆情新闻等复杂的金融信息文本的目录提取工作。本发明实施例从文档中提取出标题组件之后，可以利用各标题组件之间的层级关系，生成标题逻辑树。标题逻辑树由根节点和n棵子树组成，n为整数，且n棵子树之间没有直接的连接关系。
32.为了便于理解本发明实施例中的标题逻辑树，如图2所示，图2是本发明实施例提供的一种标题逻辑树的结构示意图。如图2所示，标题逻辑树由根节点r0和子节点a
1-a7组成的子树、子节点a
8-a
13
组成的子树、子节点a
14-a
19
三棵子树组成，其中，与r0直接相连的三个子节点分别为 a1、a8、a
14
。具体地，上述三棵子树分别为：由子节点a1以及与子节点a1直接或间接相连的所有子节点a2至a7组成的子树，由子节点a8以及与子节点a8直接或间接连接的所有子节点a9至a
13
组成的子树，由子节点a
14
以及与子节点a
14
直接或间接连接的所有子节点a
15
至a
19
组成的子树。上述三棵子树之间没有直接的连接关系。
33.在图2所示的标题逻辑树中，根节点r0可以是文档的主题名称或者文档的题目。组成a1、a8、a
14
三颗子树的所有子节点，均为标题。对于子树中的任意子节点，其父节点为其上一级标题，其子节点为其下一级标题。例如，子节点a1是第一个一级标题，子节点a2是第一个一级标题下的第一个二级标题。又或者，图2所示的根节点r0也可以空置，也就是说根节点r0不用于表示目录的层级结构。
34.为了更好的理解本发明实施例的技术方案，下面将结合附图，详细描述根据本发明实施例的文档目录结构的提取方法、装置、设备和介质，应注意，这些实施例并不用来限制本发明公开的范围。
35.图3是本发明实施例提供的一种文档目录结构的提取方法的流程示意图。如图3所示，该文档目录结构的提取方法300可以包括s310至 s330。
36.s310，获取待处理文档的标题组件有序序列。
37.其中，待处理文档指能够获取其文字信息的电子文档。具体地，可以是word格式、pdf格式、txt等格式的电子文档。
38.在待处理文档中可能包括至少一个标题段落，每个标题段落均称为一个标题组件。标题组件有序序列中各标题组件的前后次序，与其在待处理文档中出现的先后次序相同。示例性地，若按照在待处理文档中出现的先后次序，标题组件依次为标题段落a1，标题段落a2，
……
，标题段落 a
m
，其中，各标题组件的下角标表示了标题组件在文档中出现的先后次序。则标题组件有序序列为{标题段落a1，标题段落a2，
……
，标题段落 a
m
}。其中，m为正整数。
39.针对标题组件，标题组件是指文章中的单个标题，可以包括编号和文字。其中，编号可以为数字，例如阿拉伯数字“123”、中文数字“二十三”、罗马数字等。编号还可以是数字和符号的组合，符号可以为顿号、英文句号、中文句号、冒号、逗号等。例如“1.1”、“二、一”“2.2.1
”ꢀ
等。编号还可以是数字和卷、编、章、节、小节等表征标题结构单位的文字的组合，例如，“第三章”。在同一篇文档中，不同的编号的标题，其层级不同。例如“第一章”、“第一节”、“1.1”和“1.1.1”表示不同的层级。
40.在s310中，由于许多待处理文档并非是直接由标题组件组成，而是由多个包括标题组件的逻辑组件组成。相应地，在提取标题组件可以先从待处理文档中提取出待处理文档的逻辑组件有序序列，在从逻辑组件有序序列中筛选出标题组件有序序列。因此，在获取标题组件的过程中，可以先从待处理文档中提取出待处理文档的逻辑组件有序序列，在从逻辑组件有序序列中筛选出标题组件有序序列。相应地，s310具体包括s311和 s312。
41.s311，获取待处理文档的逻辑组件有序序列。
42.首先，在s311中可以将待处理文档划分为多个彼此独立的逻辑组件，例如，段落、表格、图表、图片等。其中，段落可进一步细分为文档内容段落和标题段落。与上述标题组件有序序列的相似之处在于，逻辑组件中各逻辑组件的前后次序，与其在待处理文档中出现的先后次序相同。示例性地，若按照在待处理文档中出现的先后次序，逻辑组件依次为标题段落a1，文档内容段落b1，文档内容段落b2，表格c1，标题段落a2，图表d1，标题段落a3，图片e1，则标题组件有序序列为{标题段落a1，文档内容段落b1，文档内容段落b2，表格c1，标题段落a2，图表d1，标题段落a3，图片e1}。
43.其次，在获取逻辑组件有序序列的过程中，可以将待处理文档输入到逻辑结构分析模型。得到待处理文档的逻辑组件有序序列。其中，可以利用标记好逻辑组件的文档样本训练逻辑结构分析模型。示例性地，逻辑结构分析模块可以根据待处理文档的字符文本特征和/或结构特征对待处理文档进行聚类，将每一个聚类结果作为一个逻辑组件。
44.此外，在获取逻辑组件有序序列的过程中，如果待处理文档是多栏文档，则还需要先利用分栏模型，将待处理文档的每一页分成多个分栏区域。然后，按照从左到右的顺
序，对每一页的分栏区域进行排序。其中，每一栏中的逻辑组件按照由上到下的次序依次排列。最后，解析出每一分栏区域的逻辑组件。并依次按照页的顺序、每一页从左到右的分栏顺序、每个分栏从上到下的逻辑组件顺序，获取待处理文档的逻辑组件有序序列。
45.示例性地，如果文档中某一页从左到右分别是分栏1和分栏2。分栏 1包括文档内容段落b2，表格c1。分栏2包括标题段落a2，图表d1。则该页中逻辑组件依次为文档内容段落b2、表格c1、标题段落a2、图表 d1。
46.s312，将逻辑组件有序序列输入标题检测模型，得到标题组件有序序列。
47.在获取标题组件有序序列的过程中，标题检测模型可以提取逻辑组件的相关特征，并对逻辑组件进行二分类，确认各逻辑组件是否为标题组件。本发明实施例的下述部分利用两个可行的实施例对s312的具体实施方式解释说明。
48.在第一个实施例中，标题检测模型包括用于提取逻辑组件的特征的第一特征提取子模型和标题二分类子模型。s312可以具体包括s3121至 s3123。
49.s3121，将逻辑组件有序序列输入第一特征提取子模型，得到逻辑组件有序序列中逻辑组件的特征。其中，逻辑组件的特征包括逻辑组件的文本特征和逻辑组件的格式特征。在第一特征提取子模型的计算过程中，可以将上述特征表示为向量的形式。相应地，s3121可以包括下述两个步骤。
50.第一步、获取逻辑组件的文本特征向量和逻辑组件的格式特征向量。
51.首先，针对逻辑组件的文本特征向量，文本特征向量以向量的形式表示逻辑组件的文本特征。其中，若待处理文档包括k个逻辑组件。第i个逻辑组件x
i
可以包括m
i
个字符，分别为w1至w
mi
。其中i为小于等于k的任意正整数，m
i
为正整数。按照各字符在该逻辑组件x
i
中的先后次序，可以基于逻辑组件x
i
生成一个字符有序序列s
i
＝{w1,w2,...,w
mi
}。则可以将字符有序序列s
i
输入文本特征提取子模型，得到逻辑组件的文本特征向量
52.示例性地，考虑到相邻字符之间的联系，文本特征提取子模型可以选用循环神经网络模型(recurrent neural network，rnn)。则文本特征向量其中，rnn()函数为循环神经网络层的映射函数。该映射函数的参数包括权重矩阵w
r
和偏置向量b
r
。其中，在rnn模型的训练过程中，若选用n个逻辑组件作为训练样本，通过对样本数据迭代多轮，使用梯度下降算法，对权重矩阵w
r
和偏置向量b
r
进行更新，直到损失函数满足停止条件。其中，损失函数可以选用l2损失函数。l2损失函数可表示公式(1)：
[0053][0054]
其中，y
j
表示第j个逻辑组件的目标文本特征向量，表示第j个逻辑组件的预估文本特征向量。
[0055]
其次，针对逻辑组件的格式特征向量，逻辑组件的格式特征向量以向量的形式表示逻辑组件的格式特征。可选的，若逻辑组件的格式特征可以包括是否加粗、文本字号、是否居中，以及逻辑组件所属类别中的至少一个维度的格式特征。相应地，格式特征向量表征下述格式信息的至少一种：逻辑组件是否加粗，逻辑组件的文本字号，逻辑组件的文本是否居中和逻辑组件所属类别。
[0056]
示例性的，若逻辑组件x
i
的格式特征包括是否加粗、文本字号、是否居中和逻辑
组件所属类别四个维度的格式特征。可以先分别生成加粗格式向量加粗格式向量居中格式向量和组件类别向量再将上述4个特征拼接为逻辑组件x
i
的格式特征比如，
[0057]
其中，针对是否加粗的格式特征，对应于加粗格式向量该向量的尺寸为1。可以用两个不同的取值分别表示加粗和未加粗。例如，表示逻辑组件x
i
的文本加粗。表示表示逻辑组件x
i
的文本未加粗。
[0058]
针对文本字号的格式特征，对应于加粗格式向量该向量的尺寸为1。可以用不同的取值分别对应于不同的字号。例如，可以按照字号大小，将各字号归一化到0-1区间内的实数。例如，表示逻辑组件x
i
的文本字号为小四。表示逻辑组件x
i
的文本字号为18。
[0059]
针对是否居中的格式特征，对应于居中格式向量该向量的尺寸为 1。可以用两个不同的取值分别表示居中和未居中。例如，表示逻辑组件x
i
的文本居中。表示表示逻辑组件x
i
的文本未居中。
[0060]
针对逻辑组件所属类别的格式特征，对应于组件类别向量组件类别向量的尺寸可以与组件的类别数量相关。若组件可以分为5个类别，分别是文本段落、表格、图表、图片、和除文本段落、表格、图表、图片之外的其他类别，则组件类别向量的向量尺寸为5。示例性的，考虑到每个逻辑组件只能属于1个类别，则组件类别向量可以为独热(one
-ꢀ
hot)向量。示例性地，组件类别向量表示逻辑组件的类别为文本段落。组件类别向量表示逻辑组件的类别为表格。组件类别向量表示逻辑组件的类别为图表。组件类别向量表示逻辑组件的类别为图片。组件类别向量表示逻辑组件属于除文本段落、表格、图表、图片之外的其他类别。
[0061]
第二步、将文本特征向量和格式特征向量拼接为逻辑组件x
i
的特征向量其中，
[0062]
s3122，对于每一逻辑组件的特征，将该每一逻辑组件的特征输入标题二分类子模型，得到该每一逻辑组件的标题分类结果。其中，标题分类结果包括标题，或者，非标题。其中，标题二分类子模型可以选用第一 softmax分类器。其中，第一softmax分类器的得分函数满足公式 (2)：
[0063][0064]
其中，softmax()为第一softmax函数。为权重矩阵，为偏置向量。
[0065]
此外，标题二分类子模块也可以选用其他可以进行二分类的分类器，例如sigmoid分类器等，对此不作具体限定。
[0066]
在训练第一softmax分类器的过程中，可以将标题组件作为正样本，将除标题组件之外的其他逻辑组件作为负样本。示例性的，将标题组件的目标分类得分标注为1，将除标题组件之外的其他逻辑组件的目标分类得分标注为0。其中，在训练softmax分类器的过程中，可以选用l2损失函数，关于l2损失函数的具体内容可参见本发明上述实施例中的相关说明，对此不再赘述。
[0067]
此外，将逻辑组件的特征输入标题二分类子模型后，得到一个分类得分。若分类得分为1，则表征逻辑组件的分类结果为标题，否则，则表征逻辑组件的分类结果为非标题。
[0068]
s3123，将逻辑组件有序序列中标题分类结果为标题的逻辑组件加入标题组件有序序列。
[0069]
在第二个实施例中，可以利用逻辑组件的特征和逻辑组件的上下文特征判断该逻辑组件是否属于标题组件。若标题检测模型包括用于提取逻辑组件的特征的第一特征提取子模型、用于提取逻辑组件的上下文特征的第二特征提取子模型和标题二分类子模型，则s312可以具体包括s3124至 s3124至s3127：
[0070]
s3124，将逻辑组件有序序列输入第一特征提取子模型，得到逻辑组件有序序列中逻辑组件的特征。其中，第一特征提取子模型的具体描述可参见本发明上述实施例中的相关内容，在此不再赘述。
[0071]
s3125，对于每一逻辑组件的特征，将该每一逻辑组件的特征和该每一逻辑组件的相邻逻辑组件的特征输入第二特征提取子模型，得到该每一逻辑组件的上下文特征。示例性地，若在s3124中得到待处理文档的k个逻辑组件的特征有序序列将其输入第二特征提取子模型，得到逻辑组件的上下文特征有序序列其中，为第i个逻辑组件的上下文特征。
[0072]
其中，第二特征提取子模型可以选用多层卷积神经网络模型(multi
-ꢀ
layers convolutional neural networks，multi-layers cnns)。若多层卷积神经网络模型的卷积核为l，对于任意逻辑组件x
i
，可以利用其前后相邻的各l-1个逻辑组件的特征，生成逻辑组件x
i
的上下文特征。示例性的，若多层卷积神经网络模型的层数为2，两层卷积神经网络层的映射函数分别表示为cnn1()和cnn2()，每一层的卷积核大小为3，第k层的卷积核为偏置向量为则对于任意一个逻辑组件x
i
，可以利用第i-2个逻辑组件的特征第i-1个逻辑组件的特征第i 1个逻辑组件的特征第i 2个逻辑组件的特征生成逻辑组件x
i
的上下文特征的上下文特征满
[0073]
满足公式(3)：
[0074][0075]
在训练第二特征提取子模型的过程中，可以选用l2损失函数，并利用梯度下降算法，不断地对卷积核为偏置向量为等参数进行迭代更新。关于l2损失函数的具体内容可参见本发明上述实施例中的相关说明，对此不再赘述。
[0076]
s3126，将该每一逻辑组件的上下文特征输入标题二分类子模型，得到该每一逻辑组件的标题分类结果。其中，标题分类结果包括标题，或者，非标题。其中，标题二分类子模型可将公式(2)中的替换为之后，利用替换后的公式(2)计算各逻辑组件的标题分类结果。关于标题二分类子模型的其他具体内容可参见本发明上述实施例中的相关说明，对此不再赘述。
[0077]
s3127，将逻辑组件有序序列中标题分类结果为标题的逻辑组件加入标题组件有序序列。
[0078]
由于文档中可能存在着列表等与标题组件的文本结构相似度较高的逻辑组件。例如，列表中每一行可能都是编号和文字符号的组合。考虑到待处理文档中各相邻逻辑组件之间具有一定的关联性。例如，标题组件的前后逻辑组件可能是非同级标题组件、文档内容段落、图表、图片等。而列表的前后逻辑组件可能与其标号相同。即使列表的特征与标题组件的特征相同，但是列表的上下文特征与标题组件的上下文特征存在较大差异性。因此，通过利用逻辑组件的上下文特征，能够根据逻辑组件的周围逻辑组件的特征，来提高标题检测模型的识别精度。
[0079]
s320，基于标题组件有序序列中标题组件的层级，建立标题逻辑树。
[0080]
在本发明的一些实施例中，可将标题组件有序序列中的标题组件依次作为第一标题组件。
[0081]
s322，针对每一第一标题组件，执行s3221和s3222。
[0082]
s3221，若标题逻辑树中第一标题组件的前一标题组件和该前一标题组件的祖先节点中存在与第一标题组件同级的第二标题组件，将第一标题组件作为第二标题组件的兄弟节点插入标题逻辑树。其中，若第一标题组件作为第二标题组建的兄弟节点，则表示第一标题组件和第二标题组件具有相同的上一级标题。
[0083]
首先，为了充分了解s322，结合图4对其进行示例性说明。示例性地，图4是本发明实施例提供的一种示例性的生成标题逻辑树的逻辑示意图。参见图4，若待处理文档中的标题组件按照排列次序依次为标题组件 a，标题组件b，标题组件c，标题组件d，标题组件e，标题组件f，标题组件g，
……
。则在s322中，可以将上述标题组件a-g依次作为第一标题组件插入标题树。继续参照图4，已经将标题组件a-f插入到标题逻辑树，此时需要将标题组件g作为第一标题组件继续插入按到标题逻辑树中。
[0084]
在s3221中，则需要判断已有的标题逻辑树中的最右侧分支中的标题组件(图4中用阴影表示)，即第一标题组件g的前一标题组件f以及标题组件f的祖先标题组件a和祖先标题组件c，是否存在第二标题组件。其中，祖先标题组件a可以是一级标题，例如“第三节公司财务情况”。祖先标题组件c可以是二级标题，例如“二、负债情况”。第一标题组件g 的前一标题组件f“1、流动负债”。
[0085]
若已有的标题逻辑树中的最右侧分支中存在第二标题组件，则第一标题组件g可能存在三个插入位置。具体地，(1)若标题组件a是第二标题组件，则第一标题组件g需要插入到根节点r的下面，即图3中的位置p1处。比如第一标题组件g为“三、股东权益情况”，“三、股东权益情况”与“二、负债情况”为同级标题，那么“三、股东权益情况”作为
ꢀ“
二、负债情况”的兄弟节点插入到根节点的下面。(2)若标题组件c是第二标题组件，则第一标题组件g需要作为节点a的子节点插入到节点a 的下面，即图4中的位置p2处。(3)若标题组件f是第
二标题组件，则第一标题组件g需要作为节点c的子节点插入到节点c的下面，即图3中的位置p3处。
[0086]
其次，在判断各节点是否是第一标题组件的同级节点时执行下述步骤一至步骤三。
[0087]
步骤一、利用目标数据和标题层级二分类模型，得到第一标题组件的前一标题组件和第一标题组件的前一标题组件的祖先节点中的标题组件的层级分类得分。
[0088]
首先，针对层级分类得分，层级分类得分可以是一个[0,1]区间内的数值，用于反映待分类标题组件是第二标题组件的概率。层级分类得分越高，则待分类标题组件是第二标题组件概率越高。
[0089]
第一种情况，若利用遍历第一标题组件的前一标题组件和前一标题组件的祖先节点所有节点的方式判断是否存在第二标题组件，可以将第一标题组件的前一标题组件和前一标题组件的祖先节点中的每一标题组件分别作为待分类标题组件，通过步骤一得到该每一标题组件的层级分类得分。若第一标题组件的前一标题组件和前一标题组件的祖先节点中存在多个得分超过预设分数阈值的节点，则可以选择得分最高的节点作为第二标题组件。示例性的，继续参见图4，如果预设分数阈值为0.5，标题组件a对应的层级分类得分是0.6，标题组件c对应的层级分类得分是0.8，标题组件 a对应的层级分类得分是0.7，则可以将标题组件c作为第二标题组件。
[0090]
第二种情况，若从标题逻辑树的根节点开始向下，依次判断第一标题组件的前一标题组件和第一标题组件的前一标题组件的祖先节点是否存在标题组件。则可以将前一标题组件和前一标题组件的祖先节点中首个层级分类得分超出预设分数阈值的节点选取为第二标题组件。继续上一情况的示例，则可以依次判断标题组件a、标题组件c、标题组件f是否是第二标题组件。标题组件a对应的层级分类得分是0.6，大于预设分数阈值0.5，则可以将标题组件a选取为第二标题组件。且无需再继续计算标题组件 c、标题组件f的层级分类得分。
[0091]
第三种情况，若从标题逻辑树第一标题组件的前一标题组件开始，按照从低到高的顺序，也就是从叶子节点到根节点的顺序，依次判断第一标题组件的前一标题组件和前一标题组件的祖先节点是否存在标题组件。则可以将前一标题组件和前一标题组件的祖先节点中首个层级分类得分超出预设分数阈值的节点选取为第二标题组件。继续上一情况的示例，则可以依次判断标题组件f、标题组件c、标题组件a是否是第二标题组件。标题组件f对应的层级分类得分是0.7，大于预设分数阈值0.5，则可以将标题组件f选取为第二标题组件。且无需再继续计算标题组件c、标题组件a的层级分类得分。
[0092]
其次，针对标题层级二分类模型。可选的，标题层级二分类模型可以包括前馈神经网络模型(feedforward neural network，fnn)和第二 softmax分类器。若第一标题组件的特征表示为该每一标题组件的特征表示为需要说明的是，本发明第一softmax分类器和第二softmax分类器中的“第一”和“第二”仅用于区分两者，对两个分类器的功能、特征等不作限制。
[0093]
目标数据包括第一标题组件的前一标题组件和第一标题组件的前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征。具体地，可以逐一计算前一标题组件和第一标题组件的前一标题组件的祖先节点中的标题组件的层级分类得分，相应地，在
计算前一标题组件和第一标题组件的前一标题组件的祖先节点中任意标题组件的层级分类得分时，所利用的目标数据包括该任意标题组件的特征和第一标题组件的特征。
[0094]
下面结合两种不同的目标数据，分为两种情况对步骤一展开具体说明。
[0095]
第一种情况，目标数据仅包括前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征。此时，步骤一包括：将前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征输入第一关系特征生成模型，得到表征前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征之间关系的第一关系特征再将得到的第一关系特征输入到预先训练好的标题层级二分类模型中。
[0096]
其中，第一关系特征生成模型可以具体实现为fnn模型，即可以先用fnn模型获取该任意标题组件的特征和第一标题组件的特征之间的关系特征其中，针对前一标题组件和前一标题组件的祖先节点中的任意标题组件，可以先将该任意标题组件的特征和第一标题组件的特征进行拼接，得到第一拼接向量再利用第一拼接向量和fnn模型的映射函数fnn()，得到该该任意标题组件的特征和第一标题组件的特征之间的关系特征向量
[0097]
其中，fnn模型的参数包括权重矩阵w
f
，偏置向量b
f
。另外，在训练fnn模型的过程中，可以选用l2损失函数，并利用梯度下降算法，不断地对fnn模型的参数进行迭代更新。关于l2损失函数的具体内容可参见本发明上述实施例中的相关说明，对此不再赘述。
[0098]
其次，在获取关系特征之后，可以将其输入第二softmax分类器进行层级分类识别。第二softmax分类器的得分函数满足公式(4)：
[0099][0100]
其中，softmax()为第二softmax函数。为权重矩阵，为偏置向量。第二softmax分类器的训练过程的具体内容可参见本发明上述实施例中第一softmax分类器的相关说明，对此不再赘述。
[0101]
此外，若第二softmax分类器输出的得分为1，则表征该每一标题组件为第二标题组件，也就是说，该每一标题组件与第一标题组件为同级标题组件。否则，表征该每一标题组件非第二标题组件，也就是说，该每一标题组件不是第一标题组件的同级标题组件。
[0102]
第二种情况，目标数据仅包括第一标题组件的特征、该任意标题组件的特征和该任意标题组件的兄弟节点的特征。第二种情况中的步骤一盒第一种情况中的步骤一基本相似，不同之处在于计算该任意标题组件的特征和第一标题组件的特征之间的关系特征向量此时，步骤一可以具体包括：将前一标题组件和前一标题组件的祖先节点中的标题组件的特征、标题节点中前一标题组件和前一标题组件的祖先节点中的标题组件的兄弟节点的特征输入第二关系特征生成模型，得到表征前一标题组件和前一标题组件的祖先节点中的标题组件的特征与兄弟节点的特征之间关系的第二关系特征
[0103]
将第二关系特征和第一标题组件的特征输入第三关系特征生成模型，生成表征第二关系特征和第一标题组件的特征之间关系的第三关系特征。
[0104]
具体地，第一标题组件的特征表示为具体地，第一标题组件的特征表示为该任意标题组件的特征表示
为为该任意标题组件包括m个兄弟节点，s1、 s2、
……
、s
m
，m为正整数。m个兄弟节点的特征分别表示为其中，
[0105]
第二关系特征生成模型可以具体实现为rnn模型。也就是说，针对前一标题组件和前一标题组件的祖先节点中的任意标题组件，可以先将任意标题组件的特征任意标题组件的兄弟节点的特征输入rnn 模型，获取该任意标题组件与其兄弟节点之间关系的第二关系特征向量 [0106]
然后，在计算第三关系特征时，第三关系特征生成模型可以选用 fnn模型。也就是说，先用fnn模型获取第一标题组件的特征与该任意标题组件与其兄弟节点的关系特征向量之间的关系特征之间的关系特征步骤二、若第一标题组件的前一标题组件和第一标题组件的前一标题组件的祖先节点中存在层级分类得分大于预设分数阈值的标题组件，则确定前一标题组件所在子树存在第二标题组件。步骤二的相关描述可参加步骤一中对层级分类得分的相关说明，在此不再赘述。
[0107]
步骤三、若第一标题组件的前一标题组件和第一标题组件的前一标题组件的祖先节点中的所有标题组件的层级分类得分均小于预设分数阈值，则确定第一标题组件的前一标题组件和第一标题组件的前一标题组件的祖先节点中不存在第二标题组件。
[0108]
示例性的，如果预设分数阈值为0.5，标题组件a对应的层级分类得分是0.4，标题组件c对应的层级分类得分是0.3，标题组件a对应的层级分类得分是0.2，则标题组件a、标题组件c、标题组件f均不是第二标题组件。s3222，若前一标题组件所在子树不存在第二标题组件，将第一标题组件作为前一标题组件的子节点。
[0109]
示例性的，继续参见图4，如果标题组件f的层级分类得分、标题组件a的层级分类得分和祖先标题组件c的层级分类得分均小于预设分数阈值，则将第一标题组件g作为前一标题组件f的子节点，插入到节点f的下面，即图3中的位置p4处。
[0110]
比如，如果插入的标题组件g为“(1)短期票据”，因为判断
ꢀ“
(1)短期票据”与“第三节公司财务情况”、“二、负债情况”、
ꢀ“
1、流动负债”都不位于同一层级，那么将其插入为前一标题组件f
ꢀ“
1、流动负债”的子节点。
[0111]
此外，对第一标题组件x
i
执行过s3221和s3222后，可以将x
i 1
作为下一个第一标题组件，并执行s3221和s3222。
[0112]
利用标题模板生成目录结构的方法，目标结构的层级数目与标题模板中设置的层级数目相同。例如，如果模板中只设置了3个标题层级，则也只能最多生成3个标题层级。而利用本发明实施例中的文档目录结构的提取方法，可以与已添加至标题逻辑树中的标题组件比较是否同级，如果不同级则作为前一标题组件的子节点。即时待处理文档的标题层级较多，也能够生成对应的标题层级。例如，8级、9级等。相较于利用标题模板生成目录结构的方法，能够提高生成目录结构的灵活性、准确性及深度。
[0113]
s330，根据标题逻辑树，生成待处理文档的目录结构。具体地，在获取标题逻辑树之后，与根节点直接连接的子节点对应的标题组件，作为第一级标题。例如，图2中的标题组件a1、标题组件a8和标题组件a
14
为第一级标题。第一级标题的子节点为第二级标题。例如标题组件a2、标题组件a3和标题组件a7为第一级标题a1下的第二级标题。
[0114]
根据本发明实施例中的文档目录结构的提取方法，可以先获取待处理文档中标题组件有序序列，并利用标题组件有序序列中每一标题组件建立标题逻辑树。由于标题逻辑树中任一节点对应的标题组件为该节点的子节点对应的标题组件的上一级标题，通过建立标题逻辑树的方式，能够确定各标题组件之间的层级关系，从而提高目标结构的提取准确性。
[0115]
此外，相较于利用标题模板生成目录结构的方法，本发明实施例可以利用预先训练的学习模型(第一特征提取子模型、第二特征提取子模型和标题二分类子模型、标题层级二分类模型等)生成目录层级结构，保证了文档目录结构的提取方法的泛化能力。特别是选用深度学习模型时，能够进一步提高目录结构识别的准确率。
[0116]
在本发明的一些实施例中，可以在终端的显示界面上显示待处理文档的目标结构的部分或全部。例如，若目录结构的层级结构较为复杂时，可以显示前3个层级的标题。不同层级的标题的格式可以不同。例如，段前缩进的字符数目不同，或者，字体大小不同等。不同层级的标题的格式可以根据具体的需要设置，对此不做限定。
[0117]
此外，为了便于在待处理文档进行索引，当在终端上对标题组件执行触发操作时，可以直接跳转至标题组件的所在页面。
[0118]
下面结合附图，详细介绍根据本发明实施例的装置。
[0119]
基于相同的发明构思，本发明实施例提供的文档目录结构的提取装置。图5是示出根据本发明实施例的文档目录结构的提取装置的结构示意图。如图5所示，文档目录结构的提取装置500包括标题序列获取模块 510、逻辑树建立模块520和目标结构生成模块530。
[0120]
其中，标题序列获取模块510，用于获取待处理文档的标题组件有序序列。
[0121]
逻辑树建立模块520，用于基于标题组件有序序列中标题组件之间的层级关系，建立标题逻辑树。
[0122]
目标结构生成模块530，用于根据标题逻辑树，生成待处理文档的目录结构。
[0123]
在本发明的一些实施例中，逻辑树建立模块520，具体用于：
[0124]
将标题组件有序序列中的标题组件依次作为第一标题组件。
[0125]
针对每一第一标题组件，执行以下操作：
[0126]
若标题逻辑树中第一标题组件的前一标题组件和前一标题组件的祖先节点中存在与第一标题组件同级的第二标题组件，将第一标题组件作为第二标题组件的兄弟节点插入标题逻辑树。以及，若前一标题组件和前一标题组件的祖先节点中不存在第二标题组件，将第一标题组件作为前一标题组件的子节点插入标题逻辑树。
[0127]
在本发明的一些实施例中，文档目录结构的提取装置500还包括：
[0128]
层级分类模块，用于利用目标数据和标题层级二分类模型，得到前一标题组件和前一标题组件的祖先节点中的标题组件的层级分类得分。
[0129]
其中，目标数据包括前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征。
[0130]
第一确定模型，用于若前一标题组件和前一标题组件的祖先节点中存在层级分类得分大于预设分数阈值的标题组件，则确定前一标题组件和前一标题组件的祖先节点中存在第二标题组件。
[0131]
第二确定模型，用于若前一标题组件和前一标题组件的祖先节点中的所有标题组件的层级分类得分均小于预设分数阈值，则确定前一标题组件和前一标题组件的祖先节点中不存在第二标题组件。
[0132]
在一些实施例中，层级分类模块具体用于：
[0133]
将前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征输入第一关系特征生成模型，得到表征前一标题组件和前一标题组件的祖先节点中的标题组件的特征和第一标题组件的特征之间关系的第一关系特征。
[0134]
以及，将第一关系特征输入标题层级二分类模型，得到前一标题组件和前一标题组件的祖先节点中的标题组件的层级分类得分。
[0135]
在另一些实施例中，层级分类模块具体用于：
[0136]
将前一标题组件和前一标题组件的祖先节点中的标题组件的特征、标题节点中前一标题组件和前一标题组件的祖先节点中的标题组件的兄弟节点的特征输入第二关系特征生成模型，得到表征前一标题组件和前一标题组件的祖先节点中的标题组件的特征与兄弟节点的特征之间关系的第二关系特征。
[0137]
以及，将第二关系特征和第一标题组件的特征输入第三关系特征生成模型，生成表征第二关系特征和第一标题组件的特征之间关系的第三关系特征。
[0138]
以及，将第三关系特征输入标题层级二分类模型，得到前一标题组件和前一标题组件的祖先节点中的标题组件的层级分类得分。
[0139]
在本发明的一些实施例中，标题序列获取模块510，具体用于：
[0140]
获取待处理文档的逻辑组件有序序列；将逻辑组件有序序列输入标题检测模型，得到标题组件有序序列。
[0141]
在一些实施例中，标题检测模型包括第一特征提取子模型和标题二分类子模型，标题序列获取模块510，具体用于：
[0142]
将逻辑组件有序序列输入第一特征提取子模型，得到逻辑组件有序序列中逻辑组件的特征。
[0143]
针对每一逻辑组件的特征，将每一逻辑组件的特征输入标题二分类子模型，得到每一逻辑组件的标题分类结果。其中，标题分类结果为标题，或者，非标题。
[0144]
将逻辑组件有序序列中标题分类结果为标题的逻辑组件加入标题组件有序序列。
[0145]
在另一些实施例中，标题检测模型包括第一特征提取子模型、第二特征提取子模型和标题二分类子模型，标题序列获取模块510，具体用于：
[0146]
将逻辑组件有序序列输入第一特征提取子模型，得到逻辑组件有序序列中逻辑组件的特征。
[0147]
针对每一逻辑组件的特征，将每一逻辑组件的特征和每一逻辑组件的相邻逻辑组件的特征输入第二特征提取子模型，得到每一逻辑组件的上下文特征。
[0148]
将上下文特征输入标题二分类子模型，得到每一逻辑组件的标题分类结果，其中，标题分类结果包括标题，或者，非标题；
[0149]
将逻辑组件有序序列中标题分类结果为标题的逻辑组件加入标题组件有序序列。
[0150]
在本发明的一些实施例中，逻辑组件的特征为特征向量，标题序列获取模块510，具体用于：
[0151]
获取逻辑组件的文本特征向量和逻辑组件的格式特征向量。
[0152]
将文本特征向量和格式特征向量拼接为逻辑组件的特征向量。
[0153]
其中，逻辑组件的文本特征向量基于逻辑组件的字符有序序列生成。
[0154]
格式特征向量表征下述格式信息的至少一种：逻辑组件是否加粗，逻辑组件的文本字号，逻辑组件的文本是否居中和表征逻辑组件所属类别，其中，逻辑组件所属类别包括：段落、表格、图表、图片。
[0155]
根据本发明实施例的文档目录结构的提取装置的其他细节与以上结合图1至图4描述的根据本发明实施例的方法类似，在此不再赘述。
[0156]
图6是本发明实施例中文档目录结构的提取设备的示例性硬件架构的结构图。
[0157]
如图6所示，文档目录结构的提取设备600包括输入设备601、输入接口602、中央处理器603、存储器604、输出接口605、以及输出设备 606。其中，输入接口602、中央处理器603、存储器604、以及输出接口 605通过总线610相互连接，输入设备601和输出设备606分别通过输入接口602和输出接口605与总线610连接，进而与文档目录结构的提取设备600的其他组件连接。
[0158]
具体地，输入设备601接收来自外部的输入信息，并通过输入接口 602将输入信息传送到中央处理器603；中央处理器603基于存储器604中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器604中，然后通过输出接口605将输出信息传送到输出设备606；输出设备606将输出信息输出到文档目录结构的提取设备600的外部供用户使用。
[0159]
也就是说，图6所示的文档目录结构的提取设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图4描述的文档目录结构的提取设备的方法和装置。
[0160]
在一个实施例中，图6所示的文档目录结构的提取设备600可以被实现为一种设备，该设备可以包括：存储器，用于存储程序；处理器，用于运行存储器中存储的程序，以执行本发明实施例的文档目录结构的提取方法。
[0161]
本发明实施例还提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现本发明实施例的文档目录结构的提取方法。
[0162]
需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。
[0163]
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路 (asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输
介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0164]
以上，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于检索语句的信息检索方法、装置、设备和介质与流程

文档目录结构的提取方法、装置、设备和介质与流程

相关文献

最热文献