一种处理文档信息的方法、装置、计算机存储介质及终端与流程

2022-02-23 00:09:37 来源：中国专利 TAG：

1.本文涉及但不限于自动化办公技术，尤指一种处理文档信息的方法、装置、计算机存储介质及终端。

背景技术：

2.多个文档可以合并为一个文档，被合并的文档被称为子文档，子文档由标题和正文组成，识别子文档是文档结构识别的基础。
3.相关技术中没有提供将文档准确识别拆分为多个子文档的方法，拆分子文本的错误率高，经常出现文档结构、格式或者特定区域等识别效果差的问题；如何提升子文档的识别效率，成为一个有待解决的问题。

技术实现要素：

4.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
5.本发明实施例提供一种处理文档信息的方法、装置、计算机存储介质及终端，能够提高文档结构识别的准确度，提升文档的识别效率。
6.本发明实施例提供了一种处理文档信息的方法，包括：
7.根据段落的属性将文档进行初步划分得到第一子文档；
8.将所述第一子文档中具有相同格式的段落搜集为同一段落组，所述段落组为多个；
9.在搜集的所述段落组中划分出正文所在段落组和标题所在段落组；
10.根据所述正文所在段落组和所述标题所在段落组确定第二子文档。
11.在一些实施例中，所述根据段落的属性将文档进行初步划分得到第一子文档，包括：
12.根据预设的正则表达式判断所述文档中是否包含所述第一子文档，所述正则表达式根据段落的属性设定；
13.根据是否包含所述第一子文档的判断结果，将文档初步划分得到所述第一子文档。
14.在一些实施例中，所述将所述第一文档中具有相同格式的段落搜集为同一段落组之前，所述方法还包括：
15.根据段落的所述属性，确定各段落的特征；
16.根据所述段落的特征确定用于搜集所述段落组的格式，所述用于搜集所述段落组的格式为至少一个。
17.在一些实施例中，所述将所述第一子文档中具有相同格式的段落搜集为同一段落组，包括：
18.通过确定的所述格式遍历第一子文档，确定具有相同格式的段落；
19.对确定的相同格式的段落，根据段落的最小段落序号和最大段落序号确定所述相同格式的段落组。
20.在一些实施例中，所述在搜集的所述段落组中划分出正文所在段落组和标题所在段落组，包括：
21.合并所述段落组中存在交集的段落得到新的段落组；
22.在所述新的段落组中划分出所述正文所在段落组和所述标题所在段落组。
23.在一些实施例中，所述在新的段落组中划分出正文所在段落组和标题所在段落组，包括：
24.根据所述段落的一项以上特征计算段落的预测值，一项以上特征包括用于区分字体组成的特征，段落的特征根据段落的属性确定；
25.根据计算出的段落的所述预测值，确定所述文档中包含的字号信息；
26.根据确定的所述字号信息，在所述新的段落组中划分出所述正文所在段落组和所述标题所在段落组。
27.在一些实施例中，所述根据计算出的段落的所述预测值，确定所述文档中包含的字号信息，包括：
28.在所述文档中不包含所述第一子文档的情况下，根据所述预测值确定所述文档的最大正文字号；
29.在所述文档中包含所述第一子文档的情况下，对各所述第一子文档分别根据所述预测值确定所述文档的最大正文字号。
30.在一些实施例中，所述文档中不包含所述第一子文档的情况下，根据所述预测值确定所述文档的最大正文字号，包括：
31.从预测值小于预设数值的段落中，确定段落中的最大字号；
32.确定所述文档中所有段落的最小字号；
33.将所述最大字号和所述最小字号中较大的字号，作为所述最大正文字号。
34.在一些实施例中，所述根据确定的所述字号信息，在所述新的段落组中划分出所述正文所在段落组和所述标题所在段落组，包括：
35.确定所述段落组对应的文档中的最大字号；
36.在确定的所述最大字号大于所述最大正文字号的情况下，将所述新的段落组划分为所述标题所在段落组；
37.在确定的所述最大字号小于或等于所述最大正文字号的情况下，将所述新的段落组划分为所述正文所在段落组。
38.在一些实施例中，所述判断出所述文档中包含所述第一子文档的情况下，对各第一子文档分别根据所述预测值确定所述文档的最大正文字号，包括对各所述第一子文档分别进行以下处理：
39.从所述第一子文档中预测值小于预设数值的段落，确定段落中的最大字号；
40.确定所述第一子文档中所有段落的最小字号；
41.将所述最大字号和所述最小字号中较大的字号，作为所述最大正文字号。
42.在一些实施例中，所述根据确定的字号信息，在所述新的段落组中划分出正文所在段落组和标题所在段落组，包括：
43.对判断出的各第一子文档，确定所述段落组对应的所述第一子文档中的最大字号；
44.在确定出的所述最大字号大于所述最大正文字号的情况下，将所述新的段落组划分为所述标题所在段落组；
45.在确定出的所述最大字号小于或等于所述最大正文字号的情况下，将所述新的段落组划分为所述正文所在段落组。
46.在一些实施例中，所述根据所述正文所在段落组和所述标题所在段落组确定第二子文档，包括：
47.根据所述正文所在段落组和标题所在段落组，确定未包含于所述标题所在段落组和正文所在段落组的独立的正文和独立的标题；
48.在所述独立的正文之前不包含所述独立的标题的情况下，将所述独立的正文对应的文档，确定为所述第二子文档；
49.在所述独立的正文之前包含所述独立的标题的情况下，将所述独立的标题和所述独立的正文对应的文档，确定为所述第二子文档。
50.另一方面，本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述处理文档信息的方法。
51.再一方面，本发明实施例还提供一种终端，包括：存储器和处理器，所述存储器中保存有计算机程序；其中，
52.处理器被配置为执行存储器中的计算机程序；
53.所述计算机程序被所述处理器执行时实现如上述处理文档信息的方法。
54.还一方面，本发明实施例还提供一种处理文档信息的装置，包括：划分单元、搜集单元、处理单元和确定单元；其中，
55.划分单元设置为：根据段落的属性将文档进行初步划分得到第一子文档；
56.搜集单元设置为：将所述第一子文档中具有相同格式的段落搜集为同一段落组，所述段落组为多个；
57.处理单元设置为：在搜集的所述段落组中划分出正文所在段落组和标题所在段落组；
58.确定单元设置为：根据所述正文所在段落组和所述标题所在段落组确定第二子文档。
59.本发明实施例在划分第一子文档后，将相同格式的段落搜集为同一段落组，在搜集的段落组中进行正文所在段落组和标题所在段落组的划分，实现了第二子文档的自动识别，提升了第二子文档的合并处理效率。
60.本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
61.附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本技术的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。
62.图1为相关技术需要合并为一个文档的其中一个子文档的示意图；
63.图2为相关技术需要合并为一个文档的另一子文档的示意图；
64.图3为本发明实施例处理文档信息的方法的流程图；
65.图4为本发明实施例处理文档信息的装置的结构框图；
66.图5为本发明应用示例的方法流程图；
67.图6-1为本发明应用示例的第一个文档的第一部分的示意图；
68.图6-2为本发明应用示例的第一个文档的第二部分的示意图；
69.图7-1为本发明应用示例的第二个文档的第一部分的示意图；
70.图7-2为本发明应用示例的第二个文档的第二部分的示意图。
具体实施方式
71.为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互任意组合。
72.在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
73.本技术发明人分析发现：由于文档内容复杂，相关技术中对于不同子文档中的文档结构，存在识别效果欠佳的问题；例如、不同子文档的一级标题结构不同时，则相关技术只根据其中一种一级标题结构识别一级标题，此时，以其他结构设置的一级标题无法被识别，导致标题识别错漏。图1和图2为相关技术需要合并为一个文档的两个子文档；其中，图1所示的子文档中，以“一、”、“二、”和“三、”作为一级标题；图2所示的子文档中，以“第一条、”、“第二条、
”……
及“第八条、”作为一级标题；相关技术仅能以上述两种一级标题结构中的其中一种识别一级标题，导致另一结构的一级标题不被识别，出现文档结构识别错误。
74.图3为本发明实施例处理文档信息的方法的流程图，如图3所示，包括：
75.步骤301、根据段落的属性将文档进行初步划分得到第一子文档；
76.在一种示例性实例中，本发明实施例中的段落的属性可以包括以下一项或任意组合：字体、字号、加粗、对齐方式、自动编号和文本内容等；
77.在一种示例性实例中，本发明实施例中的第一子文档并非第一个子文档，第一子文档包括：附件文档；附件文档包括以下一种或任意组合：附件、附表、附录和附图等；第一子文档的个数可以包含一个以上；
78.步骤302、将第一子文档中具有相同格式的段落搜集为同一段落组，段落组为多个；
79.在一种示例性实例中，本发明实施例中用于搜集段落组的格式包括：根据各段落的具体格式确定的一项以上属性的格式，包括但不限于：文本的最后一个字符(空白字符之前的字符，文本的最后一个字符是标点或文字，可以作为区分段落为标题或正文的其中一个属性)、编号格式、编号序号、字号、文本长度(不包含空白字符)、与最近相邻正文相比字号差、对齐方式(居中、左对齐或右对齐)、是否加粗、是否是斜体、是否有下划线，及每一段落作为标题的预测值；例如：字号大于四号、加粗且大于预测值。本发明实施例确定用于搜
集段落组的格式后，用于搜集段落组的格式中一项以上存在不同时，确定为不同的段落组；例如：设定用于搜集段落组的格式包括编号格式、对齐方式是否居中及字体是否加粗，则编号格式、对齐方式是否居中及字体是否加粗均相同时，将段落搜集为一个段落组，三项中存在一项不同时，搜集为不同的段落组。在一种示例性实例中，本发明实施例中的段落组可以基于是否包含编号分别进行收集，例如：段落包含编号时，将格式相同且编号连续的段落确定为一个段落组；段落不包含编号时，将各段落连续、且满足以下至少一项条件的段落搜集为一个段落组：字号是否相同、字体是否加粗、对齐方式是否为居中。在一种示例性实例中，上述格式采用相关技术中的信息转换方法根据段落属性转换获得。
80.在一种示例性实例中，本发明实施例中上述预测值可通过申请号为“201711450681.1”，发明名称为“一种目录生成方法及装置”的在先申请所公开的方法计算获得。用于计算预测值的段落的格式包括：编号格式、字号、文本最后一个字符和文本长度，预测值可以用于预测段落作为标题的值，数值大小在[0，1])；预测值的计算方法包括：根据段落中文本的字号，计算所确定的每一段落与预设的标题字号之间字号差；按照以下表达式，获得所确定的每一段落的预测元素对应的预测值：一个预测元素对应的预测值＝该预测元素的预设权重*该预测元素该预测元素的预设偏移位；其中，一个段落的预测元素包括：编号格式、字号差、段落的文本最后一个字符和的文本长度：根据所获得的预测值，计算所确定的每一段落作为标题的预测值。
[0081]
步骤303、在搜索的段落组中划分出正文所在段落组和标题所在段落组；
[0082]
在一种示例性实例中，本发明实施例可以根据正文和标题的特征区别，在新的段落组中划分出正文所在段落组和标题所在段落组。
[0083]
步骤304、根据正文所在段落组和标题所在段落组确定第二子文档。
[0084]
本发明实施例在划分第一子文档后，将相同格式的段落搜集为同一段落组，在搜集的段落组中进行正文所在段落组和标题所在段落组的划分，实现了第二子文档的自动识别，提升了第二子文档的合并处理效率。
[0085]
在一种示例性实例中，本发明实施例根据段落的属性将文档进行初步划分得到第一子文档，包括：
[0086]
根据预设的正则表达式判断文档中是否包含第一子文档，正则表达式根据段落的属性设定；
[0087]
根据是否包含第一子文档的判断结果，将文档初步划分得到第一子文档。
[0088]
本发明实施例通过正则表达式将文档初步划分为第一子文档，为进行包括附件、附表、附录和附图等在内的每一个附件文件的识别提供了基础。本发明实施例是否包含第一子文档的判断结果包括：文档中包含第一子文档和文档中不包含第一子文档；判断结果为文档中包含第一子文档时，根据判断结果将文档划分得到第一子文档；判断结果为文档中不包含第一子文档时，将文档本身划分为一个第一子文档。
[0089]
在一种示例性实例中，本发明实施例中的正则表达式可以依据以下段落的属性编辑：左括号、附件关键字、编号、符号和右括号；需要说明的是，正则表达式可以由本领域技术人员根据正则表达式的编辑原理实现，以下就基于不同种类的文档，编辑的用于确定文档中包含第一子文档的正则表达式进行示例：
[0090]
1、"^" leftbracket "{0,1}(附)(件|表|录|图|)[0-9] (\.|\-|—|,|、){0,1}
[0-9]*(\:|：|,|，){0,1}" rightbracket "{0,1}$"；
[0091]
2、"^" leftbracket "{0,1}(附)(件|表|录|图|)(一|二|三|四|五|六|七|八|九|十|百) (\:|：|,|，){0,1}" rightbracket "{0,1}$"；
[0092]
3、"^" leftbracket "{0,1}(附)(件|表|录|图|)[a-z] (\:|：|,|，){0,1}" rightbracket "{0,1}$"；
[0093]
4、"^" leftbracket "{0,1}(附)(件|表|录|图|)[a-z] (\:|：|,|，){0,1}" rightbracket "{0,1}$"；
[0094]
5、"^" leftbracket "{0,1}(附)(件|表|录|图|)(\:|：|,|，){0,1}" rightbracket "{0,1}$"；
[0095]
6、"^" leftbracket "{0,1}(附)(件|表|录|图|)(\:|：|,|，){0,1}(0|1|2|3|4|5|6|7|8|9|\-|\t|\.) " rightbracket "{0,1}$"；
[0096]
7、"^" leftbracket "{0,1}(附)(件|表|录|图|)" leftbracket "[0-9] " rightbracket "(\.|\-|,|、){0,1}[0-9]*(\:|：|,|，){0,1}" rightbracket "{0,1}$"；
[0097]
其中，上述正则表达式中，leftbracket表示左括号，leftbracket可以定义为等于"($|(|\[|《|【|〔|〖|〈|﹝|(|﹙|[)"；rightbracket可以定义为等于"($|)|\]|》|】|〕|〗|〉|﹞|)|﹚|])"。
[0098]
在一种示例性实例中，根据段落的属性将文档进行初步划分得到第一子文档之前，本发明实施例方法还包括：
[0099]
对文档中的各段落，确定删除空白字符后的字符长度大于预设长度(例如30)时，确定该段落不是第一子文档分割的段落；即本发明实施例在通过正则表达式进行第一子文档识别之前，通过删除空白字符后的字符长度小于或等于预设长度的段落进行过滤，对文档剩余部分进行是否包含第一子文档的判断。
[0100]
在一种示例性实例中，将第一文档中具有相同格式的段落搜集为同一段落组之前，本发明实施例方法还包括：
[0101]
根据段落的属性，确定各段落的特征；
[0102]
根据段落的特征确定用于搜集段落组的格式，用于搜集段落组的格式为至少一个。
[0103]
在一种示例性示例中，本发明实施例中的特征包括以下一项或任意组合：删除空白字符后文本的最后一个字符、编号格式、编号序号、删除空白字符后文本长度、与最近相邻正文相比字号差、是否居中、是否左对齐、是否右对齐、是否加粗、是否斜体、是否有下划线和字号等。
[0104]
本发明实施例通过段落属性对段落的特征进行确定，通过特征的确定实现了用于段落组搜集的格式的确定，为实现段落组的区分提供了基础。
[0105]
在一种示例性实例中，本发明实施例中的用于搜集段落组的格式，包括：
[0106]
在段落包含编号格式的情况下，根据段落的特征确定的段落组的格式，其中，段落组的格式包括：段落包含编号格式、编号格式相同且编号序号连续；
[0107]
在段落不包含编号格式的情况下，根据段落的特征确定的段落组的格式，其中，段落组的格式包括：段落不包含编号格式但段落连续、且段落满足以下至少一项条件：字号设置相同、字体加粗设置相同、对齐方式设置相同(例如段落居中)。
[0108]
在一种示例性实例中，本发明实施例用于搜集段落组的格式为段落包含编号格式、编号格式相同且编号序号连续的情况下，可以将包含编号的段落，基于编号格式相同且编号联系的段落特征搜索为一个段落组；本发明实施例用于搜集段落组的格式为段落不包含编号格式但段落连续、且段落满足以下至少一项条件：字号设置相同、字体加粗设置相同、对齐方式设置相同(例如段落居中)的情况下，本发明实施例可以将不包含编号且段落连续的段落，根据字号、字体加粗和/或段落居中的段落特征搜索为一个段落组；假设用于搜集段落组的格式为段落不包含编号格式但段落连续、且段落的字号相同和字体加粗，则本发明实施例对不包含编号的段落连续的段落，将字号相同和字体加粗的情况下搜索为一个段落组。
[0109]
本发明实施例通过确定的用于搜集段落组的一个以上格式，实现了第一子文档中段落组的有效识别。
[0110]
需要说明的是，上述格式为本发明实施例的可选示例，上述格式可以由本领域技术人员根据常规文档的段落的特征确定；根据第一子文档的不同，本发明实施例可以调整格式中包含的项和参数。
[0111]
在一种示例性实例中，本发明实施例将第一子文档中具有相同格式的段落搜集为同一段落组，包括：
[0112]
通过确定的格式遍历第一子文档，确定具有相同格式的段落；
[0113]
对确定的相同格式的段落，根据段落的最小段落序号和最大段落序号确定该相同格式的段落组。
[0114]
在一种示例性实例中，本发明实施例在搜集的所述段落组中划分出正文所在段落组和标题所在段落组，包括：
[0115]
合并段落组中存在交集的段落得到新的段落组；
[0116]
在新的段落组中划分出正文所在段落组和标题所在段落组。
[0117]
在一种示例性实例中，本发明实施例对相邻的段落组，在两个段落组存在交集，将包含相同格式的段落组合并，减少了后续基于段落组进行正文和标题的区分处理，降低确定第二子文档的工作量。
[0118]
本发明实施例在确定一个以上格式后，通过对第一子文档进行遍历，实现了段落组的确定。
[0119]
在一种示例性实例中，本发明实施例在新的段落组中划分出正文所在段落组和标题所在段落组，包括：
[0120]
根据段落的一项以上特征计算段落的预测值，一项以上特征包括用于区分字体组成的特征，段落的特征根据段落的属性确定；
[0121]
根据计算出的段落的预测值，确定文档中包含的字号信息；
[0122]
根据确定的字号信息，在新的段落组中划分出正文所在段落组和标题所在段落组。
[0123]
在一种示例性实例中，本发明实施例中的一项以上特征包括以下一项或任意组合：编号格式、字号、文本最后一个字符和文本长度。
[0124]
本发明实施例基于段落特征计算段落的预测值，通过预测值对文档中包含的字号信息进行确定，基于确定的字号信息实现了正文所在段落组和标题所在段落组的划分。
[0125]
在一种示例性实例中，本发明实施例根据计算出的段落的预测值，确定文档中包含的字号信息，包括：
[0126]
在文档中不包含第一子文档的情况下，根据预测值确定文档的最大正文字号；
[0127]
在文档中包含第一子文档的情况下，对各第一子文档分别根据预测值确定文档的最大正文字号。
[0128]
需要说明的是，本发明实施例文档可以通过正则表达式划分为包括：附件、附表、附图和附录在内的第一子文档，当文档不是上述第一子文档时，文档识别结果为不包含第一子文档的情况。
[0129]
本发明实施例通过区分是否包含第一子文档的情况，根据预测值确定了文档的最大正文字号。
[0130]
在一种示例性实例中，本发明实施例文档中不包含第一子文档的情况下，根据预测值确定文档的最大正文字号，包括：
[0131]
从预测值小于预设数值的段落中，确定段落中的最大字号；
[0132]
确定文档中所有段落的最小字号；
[0133]
将确定出的最大字号和最小字号中较大的字号，作为最大正文字号。
[0134]
在一种示例性实例中，本发明实施例预设数值可以由本领域技术人员根据文档的段落特征进行分析确定，在一种示例性实例中，本发明实施例中的预设数值可以取0.2。
[0135]
本发明实施例对不包含第一子文档的情况，通过统计文件中的最小字号和预测值小于预设数值的段落的最大字号，实现了最大正文字号的确定。
[0136]
在一种示例性实例中，本发明实施例根据确定的字号信息，在新的段落组中划分出正文所在段落组和标题所在段落组，包括：
[0137]
在确定段落组对应的文档中的最大字号，确定的最大字号大于最大正文字号的情况下，将新的段落组划分为所述标题所在段落组；
[0138]
在确定的最大字号小于或等于最大正文字号的情况下，将新的段落组划分为正文所在段落组。
[0139]
本发明实施例文档中不包含第一子文档的情况下，通过确定的最大正文字号，实现了标题所在段落组合正文所在段落组的划分。
[0140]
在一种示例性实例中，本发明实施例判断出文档中包含第一子文档的情况下，对各第一子文档分别根据预测值确定文档的最大正文字号，包括对各第一子文档分别进行以下处理：
[0141]
从第一子文档中预测值小于预设数值的段落，确定段落中的最大字号；
[0142]
确定第一子文档中所有段落的最小字号；
[0143]
将确定出的最大字号和最小字号中较大的字号，作为最大正文字号。
[0144]
本发明实施例对包含第一子文档的文档，分别通过统计文件中的最小字号和预测值小于预设数值的段落的最大字号，实现了各第一子文档的最大正文字号的确定。
[0145]
在一种示例性实例中，本发明实施例根据确定的字号信息，在新的段落组中划分出正文所在段落组和标题所在段落组，包括：
[0146]
对判断出的各第一子文档，确定段落组对应的第一子文档中的最大字号；
[0147]
在确定出的最大字号大于最大正文字号的情况下，将新的段落组划分为标题所在
段落组；
[0148]
在确定出的最大字号小于或等于最大正文字号的情况下，将新的段落组划分为正文所在段落组。
[0149]
在一种示例性实例中，本发明实施例根据正文所在段落组和标题所在段落组确定第二子文档，包括：
[0150]
根据正文所在段落组和标题所在段落组，确定未包含于标题所在段落组和正文所在段落组的独立的正文和独立的标题；
[0151]
独立的正文之前不包含独立的标题的情况下，将独立的正文对应的文档，确定为第二子文档；
[0152]
在独立的正文之前包含独立的标题的情况下，将独立的标题和独立的正文对应的文档，确定为第二子文档。
[0153]
需要说明的是，本发明实施例未包含于标题所在段落组是指在进行段落组搜集过程中，根据用于搜集段落组的格式搜集出来的段落仅有一个独立的段落时，这类段落根据字号信息区分为正文和标题后，确定为独立的正文或独立的标题；换句话说，通过用于搜集段落组的格式搜集出来的段落组为独立的段落，则根据字号信息区分正文和标题后，获得的即为独立的正文或独立的标题。
[0154]
本发明实施例第二子文档并非第二个子文档，是指由标题和正文组成的文档。在独立的正文之前不包含独立的标题的情况下，独立的正文为一个第二子文档；在独立的正文之前包含独立的标题的情况下，独立的标题和独立的正文组成一个第二子文档。
[0155]
本发明实施例根据正文所在段落组和标题所在段落组，以及第二子文档的文档特征，实现了第二子文档的确定。
[0156]
本发明实施例还提供一种计算机存储介质，计算机存储介质中存储有计算机程序，计算机程序被处理器执行时实现上述处理文档信息的方法。
[0157]
本发明实施例还提供一种终端，包括：存储器和处理器，存储器中保存有计算机程序；其中，
[0158]
处理器被配置为执行存储器中的计算机程序；
[0159]
计算机程序被处理器执行时实现如上述处理文档信息的方法。
[0160]
图4为本发明实施例处理文档信息的装置的结构框图，如图4所示，包括：划分单元、搜集单元、处理单元和确定单元；其中，
[0161]
划分单元设置为：根据段落的属性将文档进行初步划分得到第一子文档；
[0162]
搜集单元设置为：将第一子文档中具有相同格式的段落搜集为同一段落组，段落组为多个；
[0163]
处理单元设置为：在搜集的段落组中划分出正文所在段落组和标题所在段落组；
[0164]
确定单元设置为：根据正文所在段落组和标题所在段落组确定第二子文档。
[0165]
本发明实施例在划分第一子文档后，将相同格式的段落搜集为同一段落组，在搜索的段落组中进行正文所在段落组和标题所在段落组的划分，实现了第二子文档的自动识别，提升了第二子文档的合并处理效率。
[0166]
在一种示例性实例中，本发明实施例搜集单元还设置为：
[0167]
根据段落的属性，确定各段落的特征；
[0168]
根据段落的特征确定用于搜集段落组的格式，用于搜集段落组的格式为至少一个；
[0169]
在一种示例性实例中，本发明实施例中的特征包括以下一项或任意组合：删除空白字符后文本的最后一个字符、编号格式、编号序号、删除空白字符后文本长度、与最近相邻正文相比字号差、是否居中、是否加粗和字号。
[0170]
本发明实施例通过段落属性对段落的特征进行确定，通过特征的确定实现了用于段落组搜集的格式的确定，为实现段落组的区分提供了基础。
[0171]
在一种示例性实例中，本发明实施例中的用于搜集段落组的一个以上格式，包括：
[0172]
在段落包含编号格式的情况下，根据段落的特征确定的段落组的格式，其中，段落组的格式包括：段落包含编号格式、编号格式相同且编号序号连续；在段落不包含编号格式的情况下，根据段落的特征确定的段落组的格式，其中，段落组的格式包括：段落不包含编号格式但段落连续、且段落满足以下至少一项条件：字号设置相同、字体加粗设置相同、对齐方式设置相同(例如段落居中)。
[0173]
本发明实施例通过确定的格式，实现了第一子文档中段落组的有效识别；
[0174]
需要说明的是，上述格式为本发明实施例的可选示例，由技术人员根据常规文档的段落特征确定的格式；根据第一子文档的不同，本发明实施例可以调整格式中包含的项和参数。
[0175]
在一种示例性实例中，本发明实施例搜集单元是设置为：
[0176]
通过确定的格式遍历第一子文档，确定具有相同格式的段落；
[0177]
对确定的相同格式的段落，根据段落的最小段落序号和最大段落序号确定该相同格式的段落组。
[0178]
在一种示例性实例中，本发明实施例处理单元是设置为：
[0179]
合并段落组中存在交集的段落得到新的段落组；
[0180]
在新的段落组中划分出正文所在段落组和标题所在段落组。
[0181]
本发明实施例在确定一个以上格式后，通过对第一子文档进行遍历，实现了段落组的确定。
[0182]
在一种示例性实例中，本发明实施例处理单元是设置为：
[0183]
根据段落的一项以上特征计算段落的预测值，一项以上特征包括用于区分字体组成的特征，段落的特征根据段落的属性确定；
[0184]
根据计算出的段落的预测值，确定文档中包含的字号信息；
[0185]
根据确定的字号信息，在新的段落组中划分出正文所在段落组和标题所在段落组。
[0186]
在一种示例性实例中，本发明实施例中的一项以上特征包括以下一项或任意组合：编号格式、字号、文本最后一个字符和文本长度。
[0187]
本发明实施例基于段落特征计算段落的预测值，通过预测值对文档中包含的字号信息进行确定，基于确定的字号信息实现了正文所在段落组和标题所在段落组的划分。
[0188]
在一种示例性实例中，本发明实施例处理单元设置为根据计算出的段落的预测值，确定文档中包含的字号信息，包括：
[0189]
在文档中不包含第一子文档的情况下，根据预测值确定文档的最大正文字号；在
文档中包含第一子文档的情况下，对各第一子文档分别根据预测值确定文档的最大正文字号。
[0190]
本发明实施例通过区分是否包含第一子文档的情况，根据预测值确定了文档的最大正文字号。
[0191]
在一种示例性实例中，本发明实施例文档中不包含第一子文档的情况下，处理单元设置为根据预测值确定文档的最大正文字号，包括：
[0192]
从预测值小于预设数值的段落中，确定段落中的最大字号；确定文档中所有段落的最小字号；将确定出的最大字号和最小字号中较大的字号，作为最大正文字号。
[0193]
在一种示例性实例中，本发明实施例预设数值可以由本领域技术人员根据文档的段落特征进行分析确定，在一种示例性实例中，本发明实施例中的预设数值可以取0.2。
[0194]
本发明实施例对不包含第一子文档的情况，通过统计文件中的最小字号和预测值小于预设数值的段落的最大字号，实现了最大正文字号的确定。
[0195]
在一种示例性实例中，本发明实施例处理单元设置为根据确定的字号信息，在新的段落组中划分出正文所在段落组和标题所在段落组，包括：
[0196]
确定段落组对应的文档中的最大字号；
[0197]
在确定的最大字号大于最大正文字号的情况下，将新的段落组划分为标题所在段落组；
[0198]
在确定的最大字号小于或等于最大正文字号的情况下，将新的段落组划分为正文所在段落组。
[0199]
本发明实施例文档中不包含第一子文档的情况下，通过确定的最大正文字号，实现了标题所在段落组合正文所在段落组的划分。
[0200]
在一种示例性实例中，本发明实施例判断出文档中包含第一子文档的情况下，处理单元设置为对各第一子文档分别根据预测值确定文档的最大正文字号，包括对各第一子文档分别进行以下处理：
[0201]
从第一子文档中预测值小于预设数值的段落，确定段落中的最大字号；
[0202]
确定第一子文档中所有段落的最小字号；
[0203]
将确定出的最大字号和所述最小字号中较大的字号，作为最大正文字号。
[0204]
本发明实施例对包含第一子文档的文档，分别通过统计文件中的最小字号和预测值小于预设数值的段落的最大字号，实现了各第一子文档的最大正文字号的确定。
[0205]
在一种示例性实例中，本发明实施例处理单元设置为根据确定的字号信息，将新的段落组中划分出正文所在段落组和标题所在段落组，包括：
[0206]
对判断出的各第一子文档，确定段落组对应的第一子文档中的最大字号；
[0207]
在确定出的最大字号大于最大正文字号的情况下，将新的段落组划分为标题所在段落组；
[0208]
在确定出的最大字号小于或等于最大正文字号的情况下，将新的段落组划分为正文所在段落组。
[0209]
本发明实施例文档中包含第一子文档的情况下，通过确定的各第一子文档的最大正文字号，实现了每一个第一子文档的标题所在段落组合正文所在段落组的划分。
[0210]
在一种示例性实例中，本发明实施例确定单元是设置为：
[0211]
根据正文所在段落组和标题所在段落组，确定未包含于标题所在段落组和正文所在段落组的独立的正文和独立的标题；
[0212]
独立的正文之前不包含独立的标题的情况下，将独立的正文对应的文档，确定为第二子文档；
[0213]
在独立的正文之前包含独立的标题的情况下，将独立的标题和独立的正文对应的文档，确定为第二子文档。
[0214]
以下通过应用示例对本发明实施例进行简要说明，应用示例仅用于陈述本发明实施例，并不用于限定本发明的保护范围。
[0215]
应用示例
[0216]
图5为本发明应用示例的方法流程图，如图5所示，包括：
[0217]
步骤501、识别文档中包含的各附件文档；这里，附件文档为本发明实施例第一子文档中的一种；
[0218]
步骤502、对识别出的每一个附件文档，提取附件文档包含的各段落的属性；
[0219]
步骤503、根据段落的属性确定的段落的格式，根据一项以上段落的格式确定各段落的样式；这里，段落的格式指本发明实施例中的段落的特征；段落的样式指用于搜集段落组的格式；
[0220]
步骤504、根据确定的各段落的样式对段落进行分组，获得段落分组；这里，段落分组为本发明实施例中的段落组；
[0221]
步骤505、根据划分出的段落分组中各段落的段落序号，确定各段落分组的段落区间，并根据确定的段落区间进行合并处理，获得待确定段落区间；这里，段落区间指本发明实施例合并段落组中存在交集的段落得到的新的段落组。
[0222]
步骤506、根据字号信息，将获得的待确定段落区间划分为正文区间和标题区间；这里，正文区间指本发明实施例中的正文所在段落组；标题区间指本发明实施例中的标题所在段落组；
[0223]
步骤507、根据正文区间和标题区间的相对位置，确定文档中包含的各子文档。
[0224]
图6-1为本发明应用示例的第一个文档的第一部分的示意图，图6-2为本发明应用示例的第一个文档的第二部分的示意图，参见图6-1和6-2，本应用示例第一个文档包含119个段落，提取段落属性和获得段落格式后，确定文档中是否包含附件文档，该文档不包含附件文档；本应用示例文档的段落区间为[1，119]。确定本应用示例文档各段落的样式信息，包含12中样式的样式信息，各样式的段落的最小段落序号和最大段落序号构成的段落区间如下：[8，8]、[11，12]、[14，15]、[18，19]、[21，21]、[23，23]、[118，119]、[24，36]，[25，28]、[30，31]、[33，35]和[37，40]；合并相交和包含的段落区间后得到待确定段落区间为：[8，8]、[11，12]、[14，15]、[18，19]、[21，21]、[23，23]、[24，36]和[118，119]。本应用示例确定最大正文字号为16。待确定段落区间的最大字号大于最大正文字号为标题区间，待确定段落区间的最大字号小于或等于最大正文字号为正文区间；通过判断确定，正文区间包括：[8，8]、[14，19]和[23，119]，标题区间为[11，12]和[21，21]。即文档中的“xy市ab区mn委员会关于印发《委员会联席会议制度》的通知”和“委员会联席会议制度”为标题区间，其他段落为正文区间；基于上述判断，确定各子文档的段落区间分别为[8，8]、[11，19]和[21，119]。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：采购策略的确定方法及其装置、计算机可读存储介质与流程

一种处理文档信息的方法、装置、计算机存储介质及终端与流程

相关文献

最热文献