一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种年报的处理方法、装置、电子设备及存储介质与流程

2022-03-23 06:18:27 来源:中国专利 TAG:


1.本发明创造属于信息抽取的技术领域,具体涉及了一种年报的处理方法、装置、电子设备及存储介质。


背景技术:

2.伴随着信息在商业中的越来越重要的地位,需要更有效的抽取准确的公司数据。目前第三方数据方提供信息为工商信息,不能满足商业需求。由于各交易所规定不一,且并未严格规范表述方式,上市公司年报内容表述方式相对自由多样,表格结构并不完全统一且既有含框线表也有无框线表。通过传统的方式无法有效、全面地提取年报信息。


技术实现要素:

3.针对上述技术问题,本发明创造提出了一种年报的处理方法、装置、电子设备及存储介质。本技术通过将年报转化为图片格式,再对图片格式的年报进行元素信息和位置信息提取,再根据元素信息和位置信息得到年报中的具体业务信息和表格数据,最后将具体业务信息和表格数据联系到结构化数据库中,使得可以准确、高效、全面地读取复杂的年报内容并转换为易用的结构化信息。
4.为解决上述技术问题,本发明所采用的技术方案包含四个方面。
5.第一方面,提供了一种年报的处理方法,包括:将公司年报转化为年报图片;获取所述年报图片中的元素信息和各个元素信息对应的位置信息;根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据;将所述具体业务信息、所述表格数据与结构化数据库中的公司信息相关联,在结构化数据库中形成结构化数据。
6.在一些实施例中,所述获取所述年报图片中的元素信息和各个元素信息对应的位置信息,包括:通过光学字符识别技术获取所述年报图片中的元素信息和各个元素信息对应的位置信息。
7.在一些实施例中,所述元素信息对应的位置信息包括:元素信息对应的段落信息;根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据,包括:根据所述元素信息对应的段落信息通过语义识别抽取所述元素信息中的具体业务信息。
8.在一些实施例中,所述元素信息对应的位置信息包括:元素信息对应的坐标信息;根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据,还包括:确定所述年报图片中是否具有框线;当确定所述年报图片中具有框线时,确定所述框线中各个线段的位置;基于所述框线中各个线段的位置通过线段交叉检测确定所述年报图片中单元格的坐标信息范围;根据所述单元格的坐标信息范围和元素信息对应的坐标信息提取所述元素信息中的文字信息,以得到所述表格数据。
9.在一些实施例中,所述确定所述框线中各个线段的位置,包括:通过对所述年报图
片中的像素点进行膨胀,然后再对膨胀后的像素点进行腐蚀,进而确定框线中各个线段的位置。
10.在一些实施例中,所述元素信息对应的位置信息包括:元素信息对应的文字间距信息;根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据,还包括:当所述年报图片中不具有框线时,根据元素信息对应的文字间距信息确定所述年报图片中单元格的坐标信息范围;根据所述单元格的坐标信息范围和元素信息对应的坐标信息提取所述元素信息中的文字信息,以得到所述表格数据。
11.在一些实施例中,所述确定所述年报图片中是否具有框线,包括:通过对所述年报图片中的像素点进行膨胀,然后再对膨胀后的像素点进行腐蚀后,进行线段位置检测;其中,当能检测到线段位置时,确定所述年报图片中具有框线;其中,当不能检测到线段位置时,确定所述年报图片中不具有框线。
12.第二方面,本技术提供了一种年报的处理装置,包括:转化模块,用于将公司年报转化为年报图片;第一获取模块,用于获取所述年报图片中的元素信息和各个元素信息对应的位置信息;第一确定模块,用于根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据;第一执行模块,用于将所述具体业务信息、所述表格数据与结构化数据库中的公司信息相关联,在结构化数据库中形成结构化数据。
13.第三方面提供了一种电子设备,包括储存器和处理器,所述储存器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项年报的处理方法的步骤。
14.第四方面提供了一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,所述计算机程序能够用来实现第一方面中任一项年报的处理方法的步骤。
15.本发明创造的有益效果:本技术通过将年报转化为图片格式,再对图片格式的年报进行元素信息和位置信息提取,再根据元素信息和位置信息得到年报中的具体业务信息和表格数据,最后将具体业务信息和表格数据联系到结构化数据库中,使得可以准确、高效、全面地读取复杂的年报内容并转换为易用的结构化信息。
附图说明
16.通过结合附图阅读下文示例性实施例的详细描述可更好地理解本公开的范围。其中所包括的附图是:图1为本技术实施例提供的一种年报的处理方法的主要流程图;图2为本技术实施例提供的一种年报的处理方法的详细流程图;图3为本技术实施例提供的一种年报的处理装置的整体结构框图。
具体实施方式
17.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
18.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
19.如果申请文件中出现“第一\第二\第三”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
20.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
21.实施例1:针对背景技术中存在的问题,如图1所示,本技术提供了一种年报的处理方法,所述方法应用于电子设备,所述电子设备可以服务器、移动终端、计算机、云平台等。本技术实施例提供的设备数据处理所实现的功能可以通过电子设备的处理器调用程序代码来实现,其中,程序代码可以保存在计算机存储介质中,所述年报的处理方法包括:步骤s1:将公司年报转化为年报图片。
22.一般的上市公司年报都是以pdf格式呈现,对于pdf格式的文档来说,有很多动作难以操作。所以需要先将pdf格式的文档压缩为图片格式的文件。
23.步骤s2:获取所述年报图片中的元素信息和各个元素信息对应的位置信息。
24.在一些实施例中,步骤s2
ꢀ“
所述获取所述年报图片中的元素信息和各个元素信息对应的位置信息”包括:步骤s21:通过光学字符识别技术获取所述年报图片中的元素信息和各个元素信息对应的位置信息。
25.通过光学字符识别技术可以从年报图片中将文字信息提取出来,同时还会获得与文字信息相对应的位置信息。但是由于利用光学字符识别技术提取出来的文字之间没有分段以及间距功能,提取出来的文字是集中在一起的,无法通过直接识别文字获取语句想要表达的含义,所以此处提取出来的元素信息中包括有纯文本信息还有表格中的文字信息。
26.步骤s3:根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据。
27.这个时候,我们可以利用各个元素信息对应位置信息来确定元素信息中包含的具体业务信息和表格数据。其中元素信息对应位置信息包括有:元素信息对应的段落信息、元素信息对应的坐标信息和元素信息对应的文字间距信息。
28.其中元素信息对应的坐标信息是采用xy轴的表现方式,提取出来的元素信息中的每个文字都有其对应的xy轴坐标值,xy轴坐标值表示的是该文字在年报图片中的坐标位置。而元素信息对应的文字间距信息时指的该文字在年报图片中与其他相邻文字之间的间距,包括有:分别与左右两边文字的间距以及分别与上下两行之间文字的间距。
29.在一些实施例中步骤s3“根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据”包括:步骤s31:根据所述元素信息对应的段落信息通过语义识别抽取所述元素信息中的具体业务信息。
30.通过段落信息对元素信息中的文字进行分段,通过分析段落中文字语义所表达的意思,提取各个段落中的具体业务信息,通过具体业务信息可以获得该公司的具体业务范
围、实际经营范围等信息。
31.在一些实施例中,步骤s3“根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据”还包括:由于不同的公司之间的年报格式不同,所以不同公司的年报中对于表格数据的表现方式也不同,而且通过光学字符识别技术获取到的文字信息中无法表达表格数据所要表达的意思。所以需要将元素信息中的表格信息提取出来形成表格数据。
32.步骤s32:确定所述年报图片中是否具有框线。
33.一般的表格都是具有框线的,但是有些公司的年报制作并不规范,所以其表格上并没有规划框线,所以先需要识别年报图片中是否有框线。
34.在一些实施例中,步骤s32“所述确定所述年报图片中是否具有框线”包括:步骤s324:通过对所述年报图片中的像素点进行膨胀,然后再对膨胀后的像素点进行腐蚀后,进行线段位置检测。
35.在对年报图片进行像素点膨胀时,会使得文字变形,文字所处的位置会形成一团黑色,但是文字和文字之间依然存储间隔。而对于框线来说,会形成一个连续封闭的黑色框体。此时再对膨胀后的像素点进行腐蚀,便可以清晰的发现在年报图片中的封闭框体,而封闭框体所在的位置便是线段位置。
36.所以当能检测到线段位置时,确定所述年报图片中具有框线。当不能检测到线段位置时,确定所述年报图片中不具有框线。
37.步骤s321:当确定所述年报图片中具有框线时,确定所述框线中各个线段的位置。
38.在一些实施例中,所述步骤s321“所述确定所述框线中各个线段的位置”,包括:步骤s3221:通过对所述年报图片中的像素点进行膨胀,然后再对膨胀后的像素点进行腐蚀,进而确定框线中各个线段的位置。
39.经过对年报图像的膨胀以及腐蚀后,会在年报图像上形成黑色线条,这些线条所在的位置便是框线中各个线段的位置。此处的位置可以通过xy坐标轴来表示。
40.步骤s322:基于所述框线中各个线段的位置通过线段交叉检测确定所述年报图片中单元格的坐标信息范围。
41.确定了框线中各个线段的xy轴的坐标位置,此时便可以通过各个线段的交叉确定年报图片中各个单元格的坐标信息范围。
42.步骤s323:根据所述单元格的坐标信息范围和元素信息对应的坐标信息提取所述元素信息中的文字信息,以得到所述表格数据。
43.由于元素信息中的文字都存在有对应的坐标信息。所以根据单元格中的坐标信息范围在元素信息对应的坐标信息中提取相对应的文字信息,将提取出来的文字信息根据坐标信息范围填到模板表格中,形成该公司年报的表格数据。
44.由于不同公司在制作年报时所采取的格式不同,所以有一些公司的年报中表格信息并没有设置框线,所以在一些实施例中,步骤s3“根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据”,还包括:步骤s331:当所述年报图片中不具有框线时,根据元素信息对应的文字间距信息确定所述年报图片中单元格的坐标信息范围。
45.虽然没有对表格信息设置框线,但是为了表示表格信息,必然还存在有表格信息
的格式,这些格式主要体现在文字间距上。所以本技术中通过获取元素信息对应的文字间距确定元素信息中哪些文字可能是表格边界文字。通过获取表格边界文字的坐标值,便可以得到年报图片中单元格的坐标信息范围。
46.步骤s332:根据所述单元格的坐标信息范围和元素信息对应的坐标信息提取所述元素信息中的文字信息,以得到所述表格数据。
47.由于元素信息中的文字都存在有对应的坐标信息。所以根据单元格中的坐标信息范围在元素对应的坐标信息中提取相对应的文字信息,将提取出来的文字信息根据坐标信息范围值填到模板表格中,形成该公司年报的表格数据。
48.步骤s4:将所述具体业务信息、所述表格数据与结构化数据库中的公司信息相关联,在结构化数据库中形成结构化数据。
49.将获取的具体业务信息以及表格数据与存储在结构化数据库中的公司信息进行关联,进而在结构化数据库中形成结构化数据,便于通过结构化数据库查阅目标公司的具体业务信息和表格数据。通过本技术的方法可以准确、高效、全面地读取复杂的年报内容并转换为易用的结构化信息。
50.如图2所示。在具体实施时,本技术包括以下步骤:步骤s601:将年报转化为图片格式。
51.步骤s602:提取图片格式年报中的元素信息和元素信息相对应的位置信息。
52.步骤s611:提取元素信息中的具体业务信息。
53.步骤s621:判断年报中是否存在有表格框线,如果存在有表格框线,跳转步骤s622。如果不存在表格框线,跳转步骤s625。
54.步骤s622:根据表格框线识别表格的单元格。
55.步骤s623:获取单元格的坐标信息。
56.步骤s624:根据单元格坐标信息获取元素信息中的文字,形成表格数据,跳转步骤s603。
57.步骤s625:获取位置信息中的文字间距信息。
58.步骤s626:根据文字间距信息确定单元格的坐标信息,跳转步骤s624。
59.步骤s603:将表格数据和具体业务信存储与公司信息关联,存储到结构化数据库中。
60.实施例2:基于前述的实施例,本技术实施例提供一种年报的处理装置,该装置包括的各模块、以及各模块包括的各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(cpu,central processing unit)、微处理器(mpu,microprocessor unit)、数字信号处理器(dsp,digital signal processing)或现场可编程门阵列(fpga,field programmable gate array)等。
61.如图3所示,第二方面提供了一种年报的处理装置。所述年报处理装置包括:转化模块1、第一获取模块2、第一确定模块3和第一执行模块4。
62.转化模块1用于将公司年报转化为年报图片。第一获取模块2用于获取所述年报图片中的元素信息和各个元素信息对应的位置信息。第一确定模块3用于根据所述元素信息和各个元素信息对应的位置信息确定所述年报图片中的具体业务信息和表格数据。第一执
行模块4用于将所述具体业务信息、所述表格数据与结构化数据库中的公司信息相关联,在结构化数据库中形成结构化数据。
63.在一些实施例中,所述第一获取模块2包括:第二执行模块。第二执行模块用于通过光学字符识别技术获取所述年报图片中的元素信息和各个元素信息对应的位置信息。
64.在一些实施例中,所述第一确定模块3包括:第三执行模块。第三执行模块用于根据所述元素信息对应的段落信息通过语义识别抽取所述元素信息中的具体业务信息。
65.在一些实施例中,所述第一确定模块3还包括:第二确定模块、第三确定模块、第四确定模块和第四执行模块。第二确定模块用于确定所述年报图片中是否具有框线。第三确定模块用于当确定所述年报图片中具有框线时,确定所述框线中各个线段的位置。第四确定模块用于基于所述框线中各个线段的位置通过线段交叉检测确定所述年报图片中单元格的坐标信息范围。第四执行模块用于根据所述单元格的坐标信息范围和元素信息对应的坐标信息提取所述元素信息中的文字信息,以得到所述表格数据。
66.在一些实施例中,所述第三确定模板包括:第五执行模块。第五执行模块用于通过对所述年报图片中的像素点进行膨胀,然后再对膨胀后的像素点进行腐蚀,进而确定框线中各个线段的位置。
67.在一些实施例中,所述第一确定模块3还包括:第五确定模块和第六执行模块。第五确定模块用于当所述年报图片中不具有框线时,根据元素信息对应的文字间距信息确定所述年报图片中单元格的坐标信息范围。第六执行模块用于根据所述单元格的坐标信息范围和元素信息对应的坐标信息提取所述元素信息中的文字信息,以得到所述表格数据。
68.在一些实施例中,所述第二确定模块包括:第七执行模块。第七执行模块用于通过对所述年报图片中的像素点进行膨胀,然后再对膨胀后的像素点进行腐蚀后,进行线段位置检测。
69.上述一种年报的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于设备中的处理器中,也可以以软件形式存储于处理装置中的存储器中,以便于处理器调用执行以上各个模块对应的操作。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
70.实施例3:第三方面提供了一种电子设备,包括储存器和处理器,储存器存储有计算机程序,处理器执行计算机程序时实现一种年报的处理方法的步骤。
71.实施例4:第四方面提供了一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,计算机程序能够用来实现第一方面中任一项年报的处理方法的步骤。
72.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器
(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
73.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
74.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
75.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
76.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
77.另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
78.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
79.或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台控制器执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
80.以上所述,仅为本技术的实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在
本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献