一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本信息提取方法、装置及电子设备与流程

2022-03-05 00:00:24 来源:中国专利 TAG:


1.本发明涉及数据提取技术领域,尤其是涉及一种文本信息提取方法、装置及电子设备。


背景技术:

2.目前,现有的建筑行业在对中标公示公告文本进行信息提取时,首先要运用传统信息采集技术将该中标公示公告的标题以及连接内容进行相应的采集,然后整合成多个信息表格发送给操作人员进行人工的信息整理,这需要操作人员接受过excel表格数据提取的相关培训,从而可以熟练的通过excel进行信息提取操作。进一步的,在整合表格数据时,操作人员还需要细心严谨,才可以准确定位所需提取的内容,从而导致目前的文本信息提取的效率较低。
3.整体而言,现有的文本信息提取方法还存在操作过程复杂、智能化程度低,从而导致的效率较低的现状。


技术实现要素:

4.本发明的目的在于提供一种文本信息提取方法、装置及电子设备,以提升文本信息提取的智能化程度,从而提升对文本信息提取的效率。
5.第一方面,本发明实施例提供了一种文本信息提取方法,其中,包括:获取待处理文本;在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。
6.结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,在输出该至少一个待提取字段中每个待提取字段对应的目标文本信息的步骤之后,该方法还包括:在该待提取信息栏显示该待提取字段和该待提取字段对应的文本信息。
7.结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,在输出该至少一个待提取字段中每个待提取字段对应的目标文本信息的步骤之后,该方法还包括:在该显示界面显示的该待处理文本中,将该目标文本信息进行区别显示。
8.结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,该文本信息提取模型通过下述方式训练得到:获取预设的训练集数据;该训练集数据包括:用于训练的文本信息和该文本信息的提取后的字段信息;根据该训练集数据训练预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到训练好的文本信息提取模型。
9.结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,该文本信息提取模型为基于bert模型搭建的深度学习神经网络模型;该预设显示界面为基于开放源代码的互联网应用框架搭建的人机交互界面。
10.结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,该输出该至少一个待提取字段中每个待提取字段对应的目标文本
信息之后,该方法还包括:基于该人机交互界面,核查每个待提取字段对应的目标文本信息的准确性;基于核查结果,确定输出每个待提取字段对应的准确的该目标文本信息。
11.结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,该方法还包括:将经过核查的每个待提取字段对应的准确的该目标文本信息输入预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到更新后的该文本信息提取模型。
12.结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,该用于训练的文本信息为中标公示公告;该提取后的字段信息包括:建造师姓名、建造师证书编号、中标企业、中标金额、中标时间、开标时间、发布时间、工期、项目名称、业主、竣工时间、第二中标候选人、第三中标候选人。
13.第二方面,本发明实施例提供了一种文本信息提取装置,其中,包括:文本获取模块,用于获取待处理文本;显示模块,用于在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;数据处理模块,用于如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。
14.第三方面,本发明实施例提供了一种电子设备,其中,该电子设备包括处理器和存储器,该存储器存储有能够被该处理器执行的计算机可执行指令,该处理器执行该计算机可执行指令以实现第一方面至第一方面的第七种可能的实施方式任一项的文本信息提取方法。
15.本发明实施例带来了以下有益效果:
16.本发明实施例提供的文本信息提取方法、装置及电子设备,该方法包括:获取待处理文本;在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。该方法通过预先训练好的文本信息提取模型处理该待处理文本,提升了文本信息提取的智能化程度,从而提升对文本信息提取的效率。
17.本实施例公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
18.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
19.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1为本发明实施例提供的一种文本信息提取方法流程示意图;
21.图2为本发明实施例提供的另一种文本信息提取方法流程示意图;
22.图3为本发明实施例提供的一种文本信息提取装置结构示意图;
23.图4为本发明实施例提供的一种电子设备的结构示意图。
24.图标:31-文本获取模块;32-显示模块;33-数据处理模块;41-存储器;42-处理器;43-总线;44-通信接口。
具体实施方式
25.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.现有的建筑行业在对中标公示公告文本进行信息提取时,首先要运用传统信息采集技术将该中标公示公告的标题以及连接内容进行相应的采集,然后整合成多个信息表格发送给操作人员进行人工的信息整理,这需要操作人员接受过excel表格数据提取的相关培训,从而可以熟练的通过excel进行信息提取操作。进一步的,在整合表格数据时,操作人员还需要细心严谨,才可以准确定位所需提取的内容,从而导致目前的文本信息提取的效率较低。
27.基于此,本发明实施例提供了一种文本信息提取方法、装置及电子设备,以提升文本信息提取的智能化程度,从而提升对文本信息提取的效率。为便于对本实施例进行理解,首先对本发明实施例所公开的一种文本信息提取方法进行详细介绍。
28.实施例1
29.图1为本发明实施例提供的一种文本信息提取方法流程示意图,由图1所见,该方法包括以下步骤:
30.步骤s101:获取待处理文本。
31.在本实施例中,获取待处理文本的方式包括计算机直接获取以及通过人机交互界面进行获取。
32.步骤s102:在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段。
33.在本实施例中,可以通过人机交互界面显示该待处理文本和待提取信息栏;一般情况下,该待提取信息栏包括多个待提取字段。其中,该多个待提取字段为预先设置的。
34.步骤s103:如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。
35.在实际的操作中,用户可以通过计算机或者人机交互界面输入信息提取指令,然后通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息,从而实现文本信息的提取。其中,该文本信息提取模型可以通过神经网络模型进行预先设置以及训练,也可以基于bert模型搭建深度学习神经网络进行预先设置以及训练。其中,bert模型是在2018年谷歌ai团队新发布机器阅读模型,在机器阅读理解顶级水平测试中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同nlp测试中创出最佳成绩,包括将glue基准推至80.4%(绝对改进7.6%),准确度达到86.7%(绝对改进率5.6%)等。
36.本实施例提供的文本信息提取方法,该方法包括:获取待处理文本;在预设显示界
面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。该方法通过预先训练好的文本信息提取模型处理该待处理文本,提升了文本信息提取的智能化程度,从而提升对文本信息提取的效率。
37.实施例2
38.在图1所示的一种文本信息提取方法流程示意图的基础上,本实施例还提供了另一种文本信息提取方法。图2为本发明实施例提供的另一种文本信息提取方法流程示意图。由图2所见,该方法包括以下步骤:
39.步骤s201:获取待处理文本。
40.步骤s202:在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段。
41.步骤s203:如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。
42.在其中一种实施方式中,该文本信息提取模型通过下述方式训练得到:首先,获取预设的训练集数据;该训练集数据包括:用于训练的文本信息和该文本信息的提取后的字段信息。其次,根据该训练集数据训练预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到训练好的文本信息提取模型。
43.在其中一种实施方式中,该用于训练的文本信息为中标公示公告;该提取后的字段信息包括:建造师姓名、建造师证书编号、中标企业、中标金额、中标时间、开标时间、发布时间、工期、项目名称、业主、竣工时间、第二中标候选人、第三中标候选人。
44.这里,该文本信息提取模型为基于bert模型搭建的深度学习神经网络模型;该预设显示界面为基于开放源代码的互联网应用框架搭建的人机交互界面。
45.步骤s204:在该待提取信息栏显示该待提取字段和该待提取字段对应的文本信息。
46.在其中一种实施方式中,该方法还包括:在该显示界面显示的该待处理文本中,将该目标文本信息进行区别显示。这里,区别显示的方式包括:该目标文本信息的字体颜色改变,以及该目标文本信息的背景高亮。
47.在其中一种实施方式中,在步骤s204之后,该方法还包括:首先,基于该人机交互界面,核查每个待提取字段对应的目标文本信息的准确性。这里,用户只需要对没有提取出的该待提取字段以及提取错误的该待提取字段对应的文本信息进行鼠标点击操作,然后会弹出对话框显示用户选择的文字并推送该用户有可能要设置的待提取字段。使用鼠标拖动和点击方式,而无需选中之后按住键盘快捷键ctrl c(复制),ctrl v(粘贴)减少键盘操作,智能预测减少用户判断时间和出错概率。然后,基于核查结果,确定输出每个待提取字段对应的准确的该目标文本信息。最后,将经过核查的每个待提取字段对应的准确的该目标文本信息输入预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到更新后的该文本信息提取模型。这里,由于对该文本信息提取模型进行迭代训练优化,从而不断的将该文本信息提取模型的准确率进行提升,而且也可以拓展更多字段。
48.本实施例提供的文本信息提取方法,该方法包括:获取待处理文本;在预设显示界
面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息;在该待提取信息栏显示该待提取字段和该待提取字段对应的文本信息。该方法通过该待提取信息栏显示该待提取字段和该待提取字段对应的文本信息,进一步提升了文本信息提取的智能化程度,从而提升对文本信息提取的效率。
49.实施例3
50.本发明实施例还提供了一种文本信息提取装置。如图3所示,为本发明实施例提供的一种文本信息提取装置结构示意图,该装置包括:
51.文本获取模块31,用于获取待处理文本。
52.显示模块32,用于在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段。
53.数据处理模块33,用于如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。
54.其中,上述文本获取模块31、显示模块32以及数据处理模块33依次相连。
55.在其中一种可能的实施方式中,上述显示模块32还用于在该待提取信息栏显示该待提取字段和该待提取字段对应的文本信息。
56.在其中一种可能的实施方式中,上述显示模块32还用于在该显示界面显示的该待处理文本中,将该目标文本信息进行区别显示。
57.在其中一种可能的实施方式中,上述数据处理模块33还用于获取预设的训练集数据;该训练集数据包括:用于训练的文本信息和该文本信息的提取后的字段信息;根据该训练集数据训练预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到训练好的文本信息提取模型。
58.其中,该用于训练的文本信息为中标公示公告;该提取后的字段信息包括:建造师姓名、建造师证书编号、中标企业、中标金额、中标时间、开标时间、发布时间、工期、项目名称、业主、竣工时间、第二中标候选人、第三中标候选人。
59.在其中一种可能的实施方式中,上述文本信息提取模型为基于bert模型搭建的深度学习神经网络模型;该预设显示界面为基于开放源代码的互联网应用框架搭建的人机交互界面。
60.在其中一种可能的实施方式中,上述显示模块32还用于基于该人机交互界面,核查每个待提取字段对应的目标文本信息的准确性;基于核查结果,确定输出每个待提取字段对应的准确的该目标文本信息。
61.在其中一种可能的实施方式中,上述数据处理模块33还用于将经过核查的每个待提取字段对应的准确的该目标文本信息输入预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到更新后的所述文本信息提取模型。
62.本发明实施例提供的文本信息提取装置,与上述实施例提供的文本信息提取方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参
考前述方法实施例中的对应过程,在此不再赘述。
63.实施例4
64.本实施例提供了一种电子设备,包括处理器和存储器,该存储器存储有能够被该处理器执行的计算机可执行指令,该处理器执行该计算机可执行指令以实现文本信息提取方法的步骤。
65.参见图4所示的一种电子设备的结构示意图,该电子设备包括:存储器41、处理器42,存储器中存储有可在处理器42上运行的计算机程序,处理器执行计算机程序时实现上述文本信息提取方法提供的步骤。
66.如图4所示,该设备还包括:总线43和通信接口44,处理器42、通信接口44和存储器41通过总线43连接;处理器42用于执行存储器41中存储的可执行模块,例如计算机程序。
67.其中,存储器41可能包含高速随机存取存储器(ram,random access memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口44(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
68.总线43可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
69.其中,存储器41用于存储程序,处理器42在接收到执行指令后,执行程序,前述本发明任一实施例揭示文本信息提取装置所执行的方法可以应用于处理器42中,或者由处理器42实现。处理器42可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器42中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器42可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现成可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器42读取存储器41中的信息,结合其硬件完成上述方法的步骤。
70.进一步地,本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器42调用和执行时,机器可执行指令促使处理器42实现上述文本信息提取方法。
71.本发明实施例提供的文本信息提取方法和文本信息提取装置具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
72.另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可
以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
73.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献