一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本结构化方法及装置与流程

2022-10-13 05:00:04 来源:中国专利 TAG:


1.本技术涉及信息处理的技术领域,特别是涉及一种文本结构化方法。


背景技术:

2.近年来,随着社会经济的发展,越来越多的人去银行办理业务,银行方面每天需要处理的业务量也随之增多,也就导致银行需要处理大量合同。
3.目前,审核人员直接对合同文档进行审核,但是这些合同内容可能很长,有的合同可能包括:文本、表格、图片等多种形式,即所谓“富文本文档”而且合同中存在大量的冗余数据信息,审核人员无法从形式多样且冗长的合同文档中提出需要的信息。存在现有技术中审核合同效率低,需要花费大量时间的问题。
4.因此,如何从形式多样且冗长的合同文档中提出需要的信息,提高审核合同的效率,节省时间是本领域技术人员急需解决的技术问题。


技术实现要素:

5.基于上述问题,本技术提供了一种文本结构化方法及装置,从形式多样且冗长的合同文档中提出需要的信息,提高审核合同的效率,节省时间,节省时间。本技术实施例公开了如下技术方案。
6.第一方面,本技术提供一种文本结构化方法,包括:
7.获取第一文本;
8.确定所述第一文本中元素的位置;所述元素包括文本标题、文本段落、文本图片和文本表格;
9.根据所述元素的位置,提取所述第一文本中元素的内容信息;
10.根据提取的所述第一文本中元素的内容信息,对所述第一文本进行结构化处理,获得结构化文本。
11.可选的,所述根据提取的所述第一文本中元素的内容信息,对所述第一文本进行结构化处理,获得结构化文本,包括:
12.根据文本标题位置和文本段落位置,对所述文本标题和所述文本段落进行名称识别、关系提取和事件提取,获得所述文本标题和所述文本段落的内容信息;所述名称识别用于提取所述文本标题和所述文本段落中的目标名称所述关系提取用于所述文本标题和所述文本段落中目标名称之间的关系,所述事件提取用于提取所述文本标题和所述文本段落中描述的事件;
13.根据文本表格位置,对所述文本表格进行识别,提取所述文本表格中的数据内容信息;
14.根据文本图片的位置,提取所述文本图片的文字内容信息。
15.可选的,所述确定所述第一文本中元素的位置,包括:
16.识别所述第一文本中的元素;
17.基于预设的神经网络模型,确定所述第一文本中识别后的元素的位置。
18.可选的,所述在获取第一文本之前所述方法还包括:
19.获取原文档;
20.利用光学字符识别ocr算法,对所述原文档进行识别,获取第一文本。
21.可选的,所述方法还包括:
22.将所述原文档和所述结构化文本进行比对;
23.校验所述结构化文本和所述原文档中元素的内容信息是否一致。
24.第二方面,本技术提供一种文本结构化装置,其特征在于,包括:
25.第一获取单元,用于获取第一文本;
26.第一确定单元,用于确定所述第一文本中元素的位置;所述元素包括文本标题、文本段落、文本图片和文本表格;
27.提取单元,用于根据所述元素的位置,提取所述第一文本中元素的内容信息;
28.结构化单元,根据提取的所述第一文本中元素的内容信息,对所述第一文本进行结构化处理,获得结构化文本。
29.可选的,所述提取单元,具体用于:
30.根据文本标题位置和文本段落位置,对所述文本标题和所述文本段落进行名称识别、关系提取和事件提取,获得所述文本标题和所述文本段落的内容信息;所述名称识别用于提取所述文本标题和所述文本段落中的目标名称所述关系提取用于所述文本标题和所述文本段落中目标名称之间的关系,所述事件提取用于提取所述文本标题和所述文本段落中描述的事件;
31.根据文本表格位置,对所述文本表格进行识别,提取所述文本表格中的数据内容信息;
32.根据文本图片的位置,提取所述文本图片的文字内容信息。
33.可选的,第一确定单元,具体用于:
34.识别所述第一文本中的元素;
35.基于预设的神经网络模型,确定所述第一文本中识别后的元素的位置。
36.可选的,其特征在于,所述装置还包括:
37.第二获取单元,用于获取原文档;
38.第三获取单元,用于利用光学字符识别ocr算法,对所述原文档进行识别,获取第一文本。
39.可选的,其特征在于,所述装置还包括:
40.比对单元,用于将所述原文档和所述结构化文本进行比对;
41.校验单元,用于校验所述结构化文本和所述原文档中元素的内容信息是否一致。
42.第三方面,本技术实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一项所述的方法。
43.第四方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的方法。
44.相较于现有技术,本技术具有以下有益效果:
45.本技术中获取第一文本,确定所述第一文本中元素的位置,根据所述元素的位置,提取所述第一文本中元素的内容信息,根据提取的所述第一文本中元素的内容信息对所述第一文本结构化处理,获得结构化。本技术中可以通过确定包括文本标题、文本段落、文本图片和文本表格的元素的位置,通过元素的位置提取第一文本中元素的内容信息,进而根据提取第一文本中元素的内容信息对第一文本结构化处理,也就是本技术可以提取第一文本中有效的内容信息,将有效的内容信息结构化,这样就可以从形式多样且冗长的合同文档中提出需要的信息,审核人员基于此结构化文本进行合同审核可以提高审核合同的效率,节省时间。
附图说明
46.为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1为本技术实施例提供的一种文本结构化方法流程图;
48.图2为本技术实施例提供的另一种文本结构化方法流程图;
49.图3为本技术实施例提供的一种文本结构化装置的一种具体的结构示意图。
具体实施方式
50.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本技术保护范围。
51.需要说明的是,本技术提供的一种文本结构化方法及装置,用于信息处理领域。上述仅为示例,并不对本技术提供的方法及装置名称的应用领域进行限定。
52.近年来,随着社会经济的发展,越来越多的人去银行办理业务,银行方面每天需要处理的业务量也随之增多,也就导致银行需要处理大量合同。
53.目前,审核人员直接对合同文档进行审核,但是这些合同内容可能很长,有的合同可能包括:文本、表格、图片等多种形式,即所谓“富文本文档”而且合同中存在大量的冗余数据信息,审核人员无法从形式多样且冗长的合同文档中提出需要的信息。存在现有技术中审核合同效率低,需要花费大量时间的问题。
54.发明人经过研究提出本技术技术方案,本技术可以获取第一文本,确定所述第一文本中元素的位置,根据所述元素的位置,提取所述第一文本中元素的内容信息,根据提取的所述第一文本中元素的内容信息对所述第一文本结构化处理,获得结构化文本。本技术中可以通过确定包括文本标题、文本段落、文本图片和文本表格的元素的位置,通过元素的位置提取第一文本中元素的内容信息,进而根据提取第一文本中元素的内容信息对第一文本结构化处理,也就是本技术可以提取第一文本中有效的内容信息,将有效的内容信息结构化,这样就可以从形式多样且冗长的合同文档中提出需要的信息,审核人员基于此结构
化文本进行合同审核可以提高审核合同的效率,节省时间。
55.本技术实施例提供的方法可以在服务器或服务器集群上执行。所述服务器例如可以是银行系统中用于识别文本结构化的系统。
56.为了使本技术领域的人员更好地理解本技术方案,下面结合附图和具体实施方式对本技术作进一步的详细说明。下面以本技术实施例提供的方法由第一设备执行为例进行说明。
57.图1为本技术实施例提供的一种文本结构化方法流程图,如图1所示该方法包括:
58.s101:获取第一文本。
59.第一设备获取第一文本。可以利用光学字符识别ocr技术对合同的扫描件或者pdf文档进行识别,获取第一文本。
60.s102:确定所述第一文本中元素的位置。
61.第一设备在获取第一文本之后,可以利用文档的视觉和语义技术识别合同文档内部的元素。其中,第一文本中的元素可以包括:文本标题、文本段落、文本图片和文本表格。
62.具体的,可以使用内容元素识别技术,指的是识别给定页面的每个元素(图表、表格、段落等)的精确位置,一页面张量为输入,基于多层的卷积网络模型,确定元素的位置信息,复原文档篇幅结构及阅读顺序。
63.s103:根据所述元素的位置,提取所述第一文本中元素的内容信息。
64.第一设备在确定元素位置之后,可以使用自然语言处理nlp算法和深度学习技术,对文本中的内容进行理解,进而对文本中的文本标题、文本段落、文本表格和文本图片进行内容信息提取。
65.其中,自然语言处理nlp算法是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。
66.s104:根据提取的所述第一文本中元素的内容信息,对所述第一文本进行结构化处理,获得结构化文本。
67.第一设备可以根据提取的第一文本中元素的内容信息,对第一文本进行结构化处理,获得结构化文本。
68.本技术中获取第一文本,确定所述第一文本中元素的位置,根据所述元素的位置,提取所述第一文本中元素的内容信息,根据提取的所述第一文本中元素的内容信息将所述第一文本结构化。本技术中可以通过确定包括文本标题、文本段落、文本图片和文本表格的元素的位置,通过元素的位置提取第一文本中元素的内容信息,进而根据提取第一文本中元素的内容信息将第一文本结构化,也就是本技术可以提取第一文本中有效的内容信息,将有效的内容信息结构化,这样就可以从形式多样且冗长的合同文档中提出需要的信息,审核人员基于此结构化文本进行合同审核可以提高审核合同的效率,节省时间。
69.图2为本技术实施例提供的另一种文本结构化方法流程图,如图2所示该方法包括:
70.s201:获取原文档,利用光学字符识别ocr算法,对所述原文档进行识别,获取第一文本。
71.s202:识别所述第一文本中的元素,基于预设的神经网络模型,确定所述第一文本中识别后的元素的位置。
72.其中,第一文本中元素可以包括文本标题、文本段落、文本图片和文本表格,预设的神经网络模型可以是卷积神经网络cnn模型。
73.s203:根据文本标题位置和文本段落位置,对所述文本标题和所述文本段落进行名称识别、关系提取和事件提取,获得所述文本标题和所述文本段落的内容信息;根据文本表格位置,对所述文本表格进行识别,提取所述文本表格中的数据内容信息;根据文本图片的位置,提取所述文本图片的文字内容信息。
74.其中,名称识别用于提取文本标题和文本段落中的目标名称,例如,目标名称可以为提取文本标题和文本段落中的人名、地名和机构名。关系提取用于文本标题和文本段落中目标名称之间的关系,例如,提取人名和地名之间的关系、人名和机构名之间的关系等。事件提取用于提取文本标题和文本段落中描述的事件。
75.进一步解释,可以对第一文本使用bert进行编码,然后使用bi-lstm-sigmoid模型进行名称识别,针对提取出的名称列表可以使用bi-lstm crf sigmoid模型进行关系提取,提取文本中目标名称之间的关系。可以利用光学字符识别ocr算法提取图片中包含的文字内容信息。
76.s204:根据提取的所述第一文本中元素的内容信息,对所述第一文本进行结构化处理,获得结构化文本。
77.第一设备可以根据提取的第一文本中元素的内容信息,将非结构化文本或者半结构化文本转化成结构化文本。
78.s205:将所述原文档和所述结构化文本进行比对,校验所述结构化文本和所述原文档中元素的内容信息是否一致。
79.第一设备可以基于结构化的文本,将原文档和结构化文本进行比对,校验结构化文本和原文档中元素的内容信息是否一致,进而可以帮助合同审核人员快速定位合同差异,提高审核速度。
80.图3为本技术实施例提供的一种文本结构化装置的一种具体的结构示意图。参照图3所述装置可以包括:
81.第一获取单元300,用于获取第一文本;
82.第一确定单元310,用于确定所述第一文本中元素的位置;所述元素包括文本标题、文本段落、文本图片和文本表格;
83.提取单元320,用于根据所述元素的位置,提取所述第一文本中元素的内容信息;
84.结构化单元330,根据提取的所述第一文本中元素的内容信息,对所述第一文本进行结构化处理,获得结构化文本。
85.可选的,所述提取单元,具体用于:
86.根据文本标题位置和文本段落位置,对所述文本标题和所述文本段落进行名称识别、关系提取和事件提取,获得所述文本标题和所述文本段落的内容信息;所述名称识别用于提取所述文本标题和所述文本段落中的目标名称所述关系提取用于所述文本标题和所述文本段落中目标名称之间的关系,所述事件提取用于提取所述文本标题和所述文本段落中描述的事件;
87.根据文本表格位置,对所述文本表格进行识别,提取所述文本表格中的数据内容信息;
88.根据文本图片的位置,提取所述文本图片的文字内容信息。
89.可选的,第一确定单元,具体用于:
90.识别所述第一文本中的元素;
91.基于预设的神经网络模型,确定所述第一文本中识别后的元素的位置。
92.可选的,其特征在于,所述装置还包括:
93.第二获取单元,用于获取原文档;
94.第三获取单元,用于利用光学字符识别ocr算法,对所述原文档进行识别,获取第一文本。
95.可选的,其特征在于,所述装置还包括:
96.比对单元,用于将所述原文档和所述结构化文本进行比对;
97.校验单元,用于校验所述结构化文本和所述原文档中元素的内容信息是否一致。
98.本技术装置中第一获取单元300获取第一文本。第一确定单元确定所述第一文本中元素的位置。提取单元根据所述元素的位置,提取所述第一文本中元素的内容信息。结构化单元根据提取的所述第一文本中元素的内容信息对所述第一文本结构化处理,获得结构化文本。本技术中可以通过确定包括文本标题、文本段落、文本图片和文本表格的元素的位置,通过元素的位置提取第一文本中元素的内容信息,进而根据提取第一文本中元素的内容信息对第一文本进行结构化处理,也就是本技术可以提取第一文本中有效的内容信息,将有效的内容信息结构化,这样就可以从形式多样且冗长的合同文档中提出需要的信息,审核人员基于此结构化文本进行合同审核可以提高审核合同的效率,节省时间。
99.本技术实施例还提供了对应的设备以及计算机存储介质,用于实现本技术实施例提供的方案。
100.其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本技术任一实施例所述的方法。
101.所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本技术任一实施例所述的方法。
102.本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
103.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,rom)/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
104.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案
的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
105.以上所述仅是本技术示例性的实施方式,并非用于限定本技术的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献