一种段落解析方法、装置、设备及存储介质与流程

2022-03-09 06:55:45 来源：中国专利 TAG：

1.本发明涉及知识管理技术领域，更具体地说，涉及一种段落解析方法、装置、设备及存储介质。

背景技术：

2.在知识经济时代，知识是构建企业文化的一种形式，随着互联网和计算机技术的发展，智能化知识管理受到了企业的青睐。在智能化知识管理中，对知识的段落解析是基础而又关键性的任务，其决定了信息抽取和知识检索等任务的边界，目前通常需要人工实现段落标注，这导致工作人员的工作量大，且段落解析的效率低。

技术实现要素：

3.本发明的目的是提供一种段落解析方法、装置、设备及存储介质，无需人工参与即可能够自动实现文档的段落解析，能够有效提高段落解析的效率。
4.为了实现上述目的，本发明提供如下技术方案：
5.一种段落解析方法，包括：
6.接收上传的文档，确定接收到的文档为需要实现段落解析的待解析文档，并将所述待解析文档转换为预设格式的文本文档；
7.采用正则加约束的方式抽取所述待解析文档中的一级标题，并基于所述一级标题将所述待解析文档划分为多个文本部分；
8.分别将每个所述文本部分输入至段落解析模型中，得到所述段落解析模型输出的每个文本部分的段落解析结果；其中，所述段落解析模型为预先利用多个段落及相应段落解析结果训练得到的。
9.优选的，分别将每个所述文本部分输入至段落解析模型中之前，还包括：
10.读取预先设置的与抽取力度对应的抽取参数，如果所述抽取参数的参数值为第一预设值，则执行分别将每个所述文本部分输入至段落解析模型中的步骤，如果所述抽取参数的参数值为第二预设值，则确定无需执行分别将每个所述文本部分输入至段落解析模型中的步骤。
11.优选的，采用正则加约束的方式抽取所述待解析文档中的一级标题，包括：
12.读取所述待解析文档，如果能够读取到所述待解析文档中的一级标题，则执行基于所述一级标题将所述待解析文档划分为多个文本部分的步骤，如果无法读取到所述待解析文档中的一级标题，则通过采用正则匹配表示一级标题的信息抽取所述待解析文档中的一级标题。
13.优选的，通过采用正则匹配表示一级标题的信息抽取所述待解析文档中的一级标题，包括：
14.采用正则匹配匹配数字，如果能够匹配到依次变大的数字，则确定匹配到的数字为所述待解析文档中的一级标题，否则，采用正则匹配匹配表示序数词的中文字符，如果能
够匹配到表示序数词依次变大的中文字符，则确定匹配到的中文字符为所述待解析文档的一级标题，否则，确定无法实现所述待解析文档中一级标题的抽取。
15.优选的，分别将每个所述文本部分输入至段落解析模型中，包括：
16.将每个所述文本部分处理为符合所述段落解析模型设定的维度的文本子部分，并将每个所述文本子部分分别输入至所述段落解析模型中。
17.优选的，得到所述段落解析模型输出的每个文本部分的段落解析结果之后，还包括：
18.将所述段落解析模型输出的每个文本部分的段落解析结果整合并输出。
19.优选的，所述段落解析模型为利用cnn、bilstm及crf进行联合建模所得的模型。
20.一种段落解析装置，包括：
21.转换模块，用于：接收上传的文档，确定接收到的文档为需要实现段落解析的待解析文档，并将所述待解析文档转换为预设格式的文本文档；
22.粗解析模块，用于：采用正则加约束的方式抽取所述待解析文档中的一级标题，并基于所述一级标题将所述待解析文档划分为多个文本部分；
23.细解析模块，用于：分别将每个所述文本部分输入至段落解析模型中，得到所述段落解析模型输出的每个文本部分的段落解析结果；其中，所述段落解析模型为预先利用多个段落及相应段落解析结果训练得到的。
24.一种段落解析设备，包括：
25.存储器，用于存储计算机程序；
26.处理器，用于执行所述计算机程序时实现如上任一项所述段落解析方法的步骤。
27.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述段落解析方法的步骤。
28.本发明提供了一种段落解析方法、装置、设备及存储介质，该方法包括：接收上传的文档，确定接收到的文档为需要实现段落解析的待解析文档，并将所述待解析文档转换为预设格式的文本文档；采用正则加约束的方式抽取所述待解析文档中的一级标题，并基于所述一级标题将所述待解析文档划分为多个文本部分；分别将每个所述文本部分输入至段落解析模型中，得到所述段落解析模型输出的每个文本部分的段落解析结果；其中，所述段落解析模型为预先利用多个段落及相应段落解析结果训练得到的。本技术对于需要实现段落解析的任意文档，先将文档转换为预设格式的文本文档以便于实现解析，再利用正则加约束的方式抽取文档中的一级标题，并基于一级标题将文档划分为多个文本部分，以实现文档的粗段落解析，最后将各文本部分输入至预先训练得到的段落解析模型中，得到段落解析模型输出的段落解析结果，以实现文档的细段落解析。可见，本技术无需人工参与，即可能够自动实现文档的段落解析，能够有效提高段落解析的效率。
附图说明
29.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
30.图1为本发明实施例提供的段落解析方法的流程图；
31.图2为本发明实施例提供的段落解析方法中cnn-bilstm-crf模型图；
32.图3为本发明实施例提供的段落解析装置的结构示意图。
具体实施方式
33.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
34.请参阅图1，其示出了本发明实施例提供的一种段落解析方法的流程图，可以包括：
35.s11：接收上传的文档，确定接收到的文档为需要实现段落解析的待解析文档，并将待解析文档转换为预设格式的文本文档。
36.本技术实施例提供的段落解析方法的执行主体可以为对应的段落解析装置，该段落解析装置则可以为知识管理系统，因此该段落解析方法的执行主体可以为知识管理系统，并以此进行具体说明。
37.对于包含有知识的文档集合中的任意文档，均可以上传至知识管理系统，以由知识管理系统对其进行相应的段落解析。在知识管理系统接收到任意需要实现段落解析的文档后，可以先将该任意文档解析为预设格式的文本文档，以便于后续对该任意文档进行读取解析等操作。需要说明的是，预设格式的文本文档可以为docx文本文档，而需要实现段落解析的任意文档在实现转换前的文档类型包括但不限于pdf文件、pdf扫描件、word文件和图片，对于word文件及pdf文件可以直接将其转换为docx文本文档，而对于pdf扫描件及图片则可以采用ocr技术实现文字识别，进而得到包含有识别到的文字的docx文本文档；其中，光学字符识别(optical character recognition,ocr)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程，亦即将图像中的文字进行识别，并以文本的形式返回，其具体可以采用开源的trweb对pdf扫描件以及图片进行转换。
38.s12：采用正则加约束的方式抽取待解析文档中的一级标题，并基于一级标题将待解析文档划分为多个文本部分。
39.在将文档解析为便于实现段落解析的格式后，可以采用正则加约束的方式对文档进行粗段落解析；具体来说，可以采用正则加约束的方式抽取文档中的一级标题，如果能够成功抽取到一级标题，则将文档中每两个一级标题之间的部分作为一个文本部分，从而将文档划分为多个文本部分，以在后续继续基于文本部分实现细段落解析，如果无法成功抽取到一级标题，则确定无法实现文档的段落解析，因此可以停止段落解析的操作。其中，一级标题与现有技术中对应概念的含义相同，指的是文档中最大的标题，通常在文档中为单独一行。
40.s13：分别将每个文本部分输入至段落解析模型中，得到段落解析模型输出的每个文本部分的段落解析结果；其中，段落解析模型为预先利用多个段落及相应段落解析结果训练得到的。
41.预先可以利用多个已知其段落解析结果的段落及相应段落解析结果实现模型训
练，得到段落解析模型；进而将任意文本部分输入至段落解析模型中，即可得到段落解析模型输出的该任意文本部分的段落解析结果，从而实现文档的细段落解析。其中，段落解析结果可以包括相应的文本部分中任意句子是否为单独段落以及任意句子不为单独段落时在所属段落中的位置。
42.本技术对于需要实现段落解析的任意文档，先将文档转换为预设格式的文本文档以便于实现解析，再利用正则加约束的方式抽取文档中的一级标题，并基于一级标题将文档划分为多个文本部分，以实现文档的粗段落解析，最后将各文本部分输入至预先训练得到的段落解析模型中，得到段落解析模型输出的段落解析结果，以实现文档的细段落解析。可见，本技术无需人工参与，即可能够自动实现文档的段落解析，能够有效提高段落解析的效率。
43.本发明实施例提供的一种段落解析方法，分别将每个文本部分输入至段落解析模型中之前，还可以包括：
44.读取预先设置的与抽取力度对应的抽取参数，如果抽取参数的参数值为第一预设值，则执行分别将每个文本部分输入至段落解析模型中的步骤，如果抽取参数的参数值为第二预设值，则确定无需执行分别将每个文本部分输入至段落解析模型中的步骤。
45.需要说明的是，抽取参数的参数值可以由外界人员基于对抽取力度的实际需求进行设置，抽取力度也即为实现段落解析的程序，从而使得对文档的段落解析更加灵活，更加符合实际需求。具体来说，第一预设值和第二预设值可以根据实际需要进行设定，如分别为1和0，又如分别为0和1等；相应的，知识管理系统可以读取抽取参数的参数值，进而确定该抽取参数的参数值为第一预设值还是第二预设值，如果该抽取参数的参数值为第一预设值，则说明当前对抽取力度要求比较大，因此需要在执行完粗段落解析的步骤后继续执行细段落解析的步骤，如果该抽取参数的参数值为第二预设值，则说明当前对抽取力度要求比较小，因此在执行完粗段落解析的步骤后无需再继续执行细段落解析的步骤。
46.本发明实施例提供的一种段落解析方法，采用正则加约束的方式抽取待解析文档中的一级标题，可以包括：
47.读取待解析文档，如果能够读取到待解析文档中的一级标题，则执行基于一级标题将待解析文档划分为多个文本部分的步骤，如果无法读取到待解析文档中的一级标题，则通过采用正则匹配表示一级标题的信息抽取待解析文档中的一级标题。
48.通过采用正则匹配表示一级标题的信息抽取待解析文档中的一级标题，可以包括：
49.采用正则匹配匹配数字，如果能够匹配到依次变大的数字，则确定匹配到的数字为待解析文档中的一级标题，否则，采用正则匹配匹配表示序数词的中文字符，如果能够匹配到表示序数词依次变大的中文字符，则确定匹配到的中文字符为待解析文档的一级标题，否则，确定无法实现待解析文档中一级标题的抽取。
50.本技术实施例采用正则加约束的方式抽取文档中的一级标题以实现粗段落解析，一方面能够提高后续段落解析模型的准确率，另一方面能够将粗段落解析的结果服务于某些下游任务，进而根据需求任意选择文档的抽取力度。需要说明的是，在实现粗段落解析时可以是根据规则、采用正则加约束的方式抽取文档中的一级标题，具体的，可以先直接读取文档的一级标题，如果能够直接读取，则执行基于读取到的一级标题得到多个文本部分的
步骤，然后采用python-docx对各文本部分进行解析，获取标题段落形式(即段落解析结果)，如果无法直接读取，则可以采用正则匹配优先匹配数字，如果能够匹配到负符合要求的数字(为了提高匹配的效果，只有当下一个段落数字大于上一段落的数字，才会作为段落的开头，因此需要数字是依次变大的其才符合要求)，则确定这些数字为一级标题，进而执行基于读取到的一级标题得到多个文本部分的步骤及后续细段落解析的步骤，如果无法匹配到符合要求的数字，则可以采用正则匹配再匹配表示序数词的中文字符(如“一、二...”，“第一章、第二章....”等)，如果能够匹配到符合要求的中文字符(与匹配数字时同理按一、二至n、或者第一章、第二章至第n章等这种依次变大的序数词排列的中文字符符合要求)，则确定这些中文字符为一级标题，进而执行基于读取到的一级标题得到多个文本部分的步骤及后续细段落解析的步骤，如果无法匹配到符合要求的中文字符，则说明无法实现文档的段落解析。另外，如果是有格式的文档，还可以将docx文本文档转化成xml文件后再进行粗段落解析，从而进一步提高粗段落解析的速度及便利性。从而通过这种方式快速有效的实现文档的粗段落解析。经过粗段落解析，得到初步的段落解析结果可以如表1所示。
51.表1
52.[0053][0054]
本发明实施例提供的一种段落解析方法，分别将每个文本部分输入至段落解析模型中，可以包括：
[0055]
将每个文本部分处理为符合段落解析模型设定的维度的文本子部分，并将每个文本子部分分别输入至段落解析模型中；
[0056]
其中，段落解析模型可以为利用cnn、bilstm及crf进行联合建模所得的模型。
[0057]
需要说明的是，为了使得段落解析模型能够快速实现段落解析，本技术实施例还可以预先设定输入至其中的文本的统一维度，进而在需要将任意文本部分输入至段落解析模型前，需要将该任意文本部分处理为该统一维度后再输入至段落解析模型，如可以包括每次输入的段落个数、每个段落的最大句子个数、每个句子的最大长度等，如每次输入的段落个数为16、每个段落的最大句子个数为150、每个句子的最大长度为200等。另外，为了进一步提高段落解析准确度，本技术实施例采用cnn、bilstm及crf进行联合建模所得的模型作为段落解析模型，可以表示为cnn-bilstm-crf模型。具体来说，本技术实施例采用cnn-bilstm-crf模型实现细段落解析，分别采用bies表示段落的开头、中间、结尾以及单个段落；cnn-bilstm-crf模型可以如图2所示，其构建过程可以包括：
[0058]
(1)对于一篇文档，首先把其转化为三维矩阵m，m的维度为(b，max_p_len，max_s_len)，其中，b为batch_size，表示每次输入的段落个数(可以默认为16)，max_p_len表示每个段落的最大句子个数(可以默认为150)，max_s_len表示每个句子的最大长度(可以默认为200)，对于文档按照设定的维度进行paddding和裁剪；
[0059]
(2)将输入的m矩阵转化成对应embedding；
[0060]
(3)对段落中每个句子进行卷积操作，卷积核大小为3，pooling采用max_pooling，得到段落中的每个句子的表征向量c1＝(s1，s2，s3……
sn)；
[0061]
(4)将步骤(3)中的输出结果输入到bilstm中，利用bilstm学习段落之间的上下文关系，得到段落中每个句子的标签向量c2＝(h1，h2，h3……hn
)；
[0062]
(5)把经过步骤(4)的表征向量输入到crf中，采用crf的主要作用是为了学习到标签bies之间的转移关系。
[0063]
从而得到基于cnn-bilstm-crf模型得到的段落解析结果可以如表2所示。
[0064]
表2
[0065]
[0066][0067]
另外，得到段落解析模型输出的每个文本部分的段落解析结果之后，还可以包括：将段落解析模型输出的每个文本部分的段落解析结果整合并输出。具体来说，本技术实施例可以将每个文本部分的段落解析结果按照其在文档中的位置排列在一起，实现对段落解析结果的整合，最终将整合所得数据信息输出，便于外界人员获知段落解析结果并实现后续操作。
[0068]
本发明能够减少人工标注段落成本，通过系统获取文档，自动解析段落；采用ocr技术，从图片、pdf或pdf扫描件中识别文字；采用cnn-bilstm-crf模型，提升段落解析细粒度。
[0069]
本发明实施例还提供了一种段落解析装置，如图3所示，可以包括：
[0070]
转换模块11，用于：接收上传的文档，确定接收到的文档为需要实现段落解析的待解析文档，并将待解析文档转换为预设格式的文本文档；
[0071]
粗解析模块12，用于：采用正则加约束的方式抽取待解析文档中的一级标题，并基于一级标题将待解析文档划分为多个文本部分；
[0072]
细解析模块13，用于：分别将每个文本部分输入至段落解析模型中，得到段落解析模型输出的每个文本部分的段落解析结果；其中，段落解析模型为预先利用多个段落及相应段落解析结果训练得到的。
[0073]
本发明实施例还提供了一种段落解析设备，可以包括：
[0074]
存储器，用于存储计算机程序；
[0075]
处理器，用于执行计算机程序时实现如上任一项段落解析方法的步骤。
[0076]
本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可以实现如上任一项段落解析方法的步骤。
[0077]
需要说明的是，本发明实施例提供的一种段落解析装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种段落解析方法中对应部分的详细说明，在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。
[0078]
对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种智能检索方法、装置、设备及存储介质与流程

一种段落解析方法、装置、设备及存储介质与流程

相关文献

最热文献