从行业报告中抽取关键信息的方法、系统及存储介质与流程

2023-04-05 01:49:51 来源：中国专利 TAG：

1.本技术涉及信息分析提取技术领域，尤其是涉及一种从行业报告中抽取关键信息的方法、系统及存储介质。

背景技术：

2.随着互联网的快速发展，为方便对企业以及所在行业进行研究分析，许多券商或投资机构对于上市公司都会定期做一个专业的研究报告。目前，研究报告的数量与日俱增，并且涵盖了公司研究、行业研究、宏观研究等不同的主题，如何从海量的研报文档中，筛选自己关心的研究报告，提取有效的信息，进行快速阅读是一个亟待解决的问题。
3.在相关技术中，可以收集全行业的研究报告，并获取研究报告中每一页的标题、正文、图表、图表标题和图表结尾等信息，进而对行业研究报告进行半结构化处理，一定程度上简化了用户分析研究报告内容的过程。
4.针对上述中的相关技术，发明人认为存在有以下缺陷：数量巨大的研究报告不仅具有不同的研究主题，还包含了各种不同的关键信息，这些关键信息可以帮助分析人员从海量研报中快速地筛选出自己需要的研报，仅对研究报告进行半结构化处理仍然难以突显出研究报告中的关键信息。

技术实现要素：

5.为了改善对研究报告进行半结构化处理难以突显出研究报告中的关键信息的缺陷，本技术提供一种从行业报告中抽取关键信息的方法、系统及存储介质。
6.第一方面，本技术提供一种从行业报告中抽取关键信息的方法，包括如下步骤：获取待抽取关键信息的行业报告文件；将所述行业报告文件的文件类型转换为标准文件类型；提取所述行业报告文件中的文本内容和图表内容；分词处理所述文本内容，得到多个分词文本内容；基于预设的关键文本列表从所有所述分词文本内容中提取关键文本内容；结合图片识别技术和文字识别技术从所述图表内容中提取关键数据内容；结合所述关键文本内容和所述关键数据内容生成所述行业报告文件的关键信息。
7.通过采用上述技术方案，在获取行业报告文件并进行格式统一后，区分行业报告文件中的文本内容和图表内容并分别提取，文本内容中包含有关键文本内容，先将文本内容进行分词处理，分词处理后可以将文本内容拆分为大量分词文本内容，通过预设的关键文本列表从分词文本内容中筛选出相似度高的关键文本内容，关键文本内容所在的关键文本段落即为行业报告文件中整体文本内容中的关键文本信息。而行业报告文件中的图表内容通常都会展示大量关键数据，因此需要通过图片识别技术判断图表内容中图表的图表类型，以选取合适的数据填写模板，再通过文字识别技术识别出图表内容中的数据文本并填入数据填写模板中作为关键数据内容，方便分析人员查看，最终结合关键数据内容和基于
关键文本内容所提取的关键文本段落生成行业报告文件的关键信息，分析人员仅需查看关键信息即可快速了解相关行业的行业状况。
8.可选的，所述提取所述行业报告文件中的文本内容和图表内容包括如下步骤：解析所述行业报告文件，得到所述行业报告文件中的所有内容对象；遍历所有所述内容对象，并通过正则表达式识别出所述内容对象中的图表对象；定位并提取所有所述图表对象作为图表内容；剔除所有所述内容对象中的所述图表对象，将剩余的所有所述内容对象转换为文本内容。
9.通过采用上述技术方案，由于行业报告文件已被转换为标准文件类型，因此可以将行业报告文件解析为多个内容对象，再从文件开头至结尾的顺序遍历所有内容对象并通过正则表达式识别出内容对象中的图表对象，同时根据遍历顺序为每个内容对象标记对象标号，对象标号可以体现对应内容对象在文件中的位置，因此可以通过对象属性识别出图表对象，并根据对象位置截取出图表内容，图表内容截取后，剩下的所有内容对象均为文本内容对象，因此最后可以通过txt转换将文本内容对象均转换为文本格式的文本内容。
10.可选的，所述定位并提取所有所述图表对象作为图表内容包括如下步骤：定位所述图表对象在所述行业报告文件中的对象位置；获取所述图表对象的对象属性；基于所述对象位置在所述行业报告文件中定位截取位置；基于所述对象属性在所述截取位置划定截取区域；将所述行业报告文件中位于所述截取区域的图表对象截取作为图表内容。
11.通过采用上述技术方案，通过图表对象在行业报告文件中的对象位置确定需要进行图表内容截取的截取位置，再获取相同图表对象的对象属性，根据对象属性中的对象宽度和对象高度设定长度和宽度以确定截取区域，从截取区域中所截取的文件内容即为图表内容。
12.可选的，所述基于预设的关键文本列表从所有所述分词文本内容中提取关键文本内容包括如下步骤：将预设的关键文本列表中的所有关键文本词代入预设的向量计算模型，得到各个所述关键文本词的第一特征向量；将所有所述分词文本内容代入所述向量计算模型，得到各个所述分词文本内容的第二特征向量；逐个选取所述第二特征向量作为目标第二特征向量，并计算所述目标第二特征向量与所有所述第一特征向量之间的余弦相似度；判断是否存在超出预设相似度阈值的所述余弦相似度；若存在超出所述相似度阈值的余弦相似度，则将所述目标第二特征向量对应的分词文本内容作为关键文本内容，并提取所述关键文本内容；若不存在所述相似度阈值的余弦相似度，则选取下一个所述第二特征向量作为目标第二特征向量，并重复余弦相似度计算步骤。
13.通过采用上述技术方案，关键文本列表中所预先存储的关键文本词均为历史研究报告文件中的高频词，因此如果分词文本内容中出现与关键文本词相似的关键文本内容，
则关键文本内容所在的文本段落可以认定为关键信息段落。判断分词文本内容和关键文本词是否相似可以通过计算预先相似度的方式进行判断，通过向量计算模型分别计算得到分词文本内容和关键文本词的特征向量，再计算两个特征向量之间的余弦相似度，最后通过预设的相似度阈值判断分词文本内容是否与任一关键文本词相似。
14.可选的，所述结合图片识别技术和文字识别技术从所述图表内容中提取关键数据内容包括如下步骤：通过图片识别技术识别所述图表内容中的几何特征；根据所述几何特征确定所述图表内容的图表类别，并分析得到所述图表内容的几何属性；基于所述图表类别在预设的数据模板库中选取目标数据模板；根据所述几何属性调整所述目标数据模板的模板参数，并将所述目标数据模板中的待填数据区域映射于所述图表内容，在所述图表内容中形成多个映射区域；通过文字识别技术识别所述图表内容中的文字信息，并定位所有所述文字信息在所述图表内容中的文字位置；根据所述文字位置所处的所述映射区域，将所述文字位置对应的所述文字信息填入所述映射区域对应的所述待填数据区域；当所有所述待填数据区域中均填有所述文字信息后，输出所述目标数据模板作为关键数据内容。
15.通过采用上述技术方案，先识别出图表内容中的几何特征，再根据几何特征确定图表内容的图表类别，根据不同的图表类别选取相同类别的目标数据模板，将有利于分析人员在后续查看关键数据时可以更加直观，分析得到图表内容的几何属性，针对不同类型的图表需要分析不同的几何属性，几何属性用于调整目标数据模板的模板参数，并在参数调整后将目标数据模板中的待填数据区域一一映射于图表内容中形成映射区域，识别出映射区域中的文字信息，并将文字信息填入映射区域所对应的待填数据区域，从而最终获取到行业报告文件的关键数据内容。
16.可选的，所述几何特征包括饼状图形、柱状图形和折线图形。
17.可选的，所述根据所述几何特征确定所述图表内容的图表类别，并分析得到所述图表内容的几何属性包括如下步骤：若所述几何特征为所述饼状图形，则确定所述图表内容的图表类别为饼状图表，并分析得到所述图表内容的第一几何属性，所述第一几何属性包括饼状图总面积、饼状图分区数量和饼状图各分区面积；若所述几何特征为所述柱状图形，则确定所述图表内容的图表类别为柱状图表，并分析得到所述图表内容的第二几何属性，所述第二几何属性包括柱状图横轴项、柱状图纵轴单位长度和各个柱状体长度；若所述几何特征为所述折线图形，则确定所述图表内容的图表类别为折线图表，并分析得到所述图表内容的第三几何属性，所述第三几何属性包括折线图原点、折线图横轴单位长度、折线图纵轴单位长度和各折线点位置及坐标。
18.通过采用上述技术方案，由于不同的几何特征将决定不同的图表类别，而不同的图表类别分别对应不同的目标数据模板，因此针对不同的几何特征需要分析得到不同的几
何属性，再根据分析到的几何属性才能适应性地调整对应目标数据模板的模板参数。
19.可选的，所述通过文字识别技术识别所述图表内容中的文字信息，并定位所有所述文字信息在所述图表内容中的文字位置包括如下步骤：通过文字识别技术识别所述图表内容中的文字信息；获取所述文字信息的字符特征；通过基于opencv的模板匹配算法并基于所述字符特征定位对应的所述文字信息在所述图表内容中的文字位置。
20.通过采用上述技术方案，通过ocr文字识别技术识别出图表内容中的文字信息以及文字信息的字符特征，再通过模板匹配算法在图表内容中识别出与字符特征匹配的目标字符，目标字符在图表内容中的位置即为代入模板匹配算法的字符特征所对应的文字信息的文字位置。
21.第二方面，本技术还提供一种从行业报告中抽取关键信息的系统，包括处理器和存储器，所述处理器在运行所述存储器存储的计算机指令时，执行如第一方面中所述的方法。
22.通过采用上述技术方案，在获取行业报告文件并进行格式统一后，区分行业报告文件中的文本内容和图表内容并分别提取，文本内容中包含有关键文本内容，先将文本内容进行分词处理，分词处理后可以将文本内容拆分为大量分词文本内容，通过预设的关键文本列表从分词文本内容中筛选出相似度高的关键文本内容，关键文本内容所在的关键文本段落即为行业报告文件中整体文本内容中的关键文本信息。而行业报告文件中的图表内容通常都会展示大量关键数据，因此需要通过图片识别技术判断图表内容中图表的图表类型，以选取合适的数据填写模板，再通过文字识别技术识别出图表内容中的数据文本并填入数据填写模板中作为关键数据内容，方便分析人员查看，最终结合关键数据内容和基于关键文本内容所提取的关键文本段落生成行业报告文件的关键信息，分析人员仅需查看关键信息即可快速了解相关行业的行业状况。
23.第三方面，本技术还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如第一方面中所述的方法。
24.通过采用上述技术方案，在获取行业报告文件并进行格式统一后，区分行业报告文件中的文本内容和图表内容并分别提取，文本内容中包含有关键文本内容，先将文本内容进行分词处理，分词处理后可以将文本内容拆分为大量分词文本内容，通过预设的关键文本列表从分词文本内容中筛选出相似度高的关键文本内容，关键文本内容所在的关键文本段落即为行业报告文件中整体文本内容中的关键文本信息。而行业报告文件中的图表内容通常都会展示大量关键数据，因此需要通过图片识别技术判断图表内容中图表的图表类型，以选取合适的数据填写模板，再通过文字识别技术识别出图表内容中的数据文本并填入数据填写模板中作为关键数据内容，方便分析人员查看，最终结合关键数据内容和基于关键文本内容所提取的关键文本段落生成行业报告文件的关键信息，分析人员仅需查看关键信息即可快速了解相关行业的行业状况。
25.综上所述，本技术包括以下有益技术效果：在获取行业报告文件并进行格式统一后，区分行业报告文件中的文本内容和图表内容并分别提取，文本内容中包含有关键文本内容，先将文本内容进行分词处理，分词处理
后可以将文本内容拆分为大量分词文本内容，通过预设的关键文本列表从分词文本内容中筛选出相似度高的关键文本内容，关键文本内容所在的关键文本段落即为行业报告文件中整体文本内容中的关键文本信息。而行业报告文件中的图表内容通常都会展示大量关键数据，因此需要通过图片识别技术判断图表内容中图表的图表类型，以选取合适的数据填写模板，再通过文字识别技术识别出图表内容中的数据文本并填入数据填写模板中作为关键数据内容，方便分析人员查看，最终结合关键数据内容和基于关键文本内容所提取的关键文本段落生成行业报告文件的关键信息，分析人员仅需查看关键信息即可快速了解相关行业的行业状况。
附图说明
26.图1是本技术实施例的从行业报告中抽取关键信息的方法其中一种实施方式的流程示意图。
27.图2是本技术实施例的从行业报告中抽取关键信息的方法其中一种实施方式的流程示意图。
28.图3是本技术实施例的从行业报告中抽取关键信息的方法其中一种实施方式的流程示意图。
29.图4是本技术实施例的从行业报告中抽取关键信息的方法其中一种实施方式的流程示意图。
30.图5是本技术实施例的从行业报告中抽取关键信息的方法其中一种实施方式的流程示意图。
31.图6是本技术实施例的从行业报告中抽取关键信息的方法其中一种实施方式的流程示意图。
32.图7是本技术实施例的从行业报告中抽取关键信息的方法其中一种实施方式的流程示意图。
具体实施方式
33.以下结合附图1至7对本技术作进一步详细说明。
34.本技术实施例公开了一种从行业报告中抽取关键信息的方法。
35.参照图1，从行业报告中抽取关键信息的方法包括如下步骤：s101.获取待抽取关键信息的行业报告文件。
36.其中，行业报告文件为行业研究报告中还未抽取关键信息的报告文件，可以通过爬虫脚本从研究报告发布平台批量获取已发布的行业研究报告。
37.s102.将行业报告文件的文件类型转换为标准文件类型。
38.其中，由于获取到的行业报告文件的文件类型不统一，导致文件格式也各不相同，为了便于后续对文件的解析和关键信息提取，需要先将所有行业报告文件全部通过格式转换的方式转换为标准文件类型，标准文件类型通常为pdf文件类型。
39.s103.提取行业报告文件中的文本内容和图表内容。
40.其中，行业报告文件已转换为标准文件类型，可以通过python调用预设的pdf文件解析器解析行业报告文件，并根据解析出的多个对象的对象属性将对象分为文本内容和图
表内容，再分别从解析后的行业报告文件中提取出来。
41.s104.分词处理文本内容，得到多个分词文本内容。
42.其中，采用基于字符串匹配的分词方法对待匹配文字进行分词处理。
43.s105.基于预设的关键文本列表从所有分词文本内容中选取关键文本内容。
44.其中，预设的关键文本列表中预先存储有行业报告文件中可能会出现的关键文本词，通过获取大量的历史行业研究报告，并分析历史行业研究报告中字词的出现频率，从而将出现频率高的字词文本存储为关键文本词。
45.s106.结合图片识别技术和文字识别技术从图表内容中提取关键数据内容。
46.其中，通过图片识别技术可以识别出图表内容中的几何特征，从而确定图表内容的图表类型，并选取图表类型对应的数据填写模板，再通过文字识别技术识别出图表内容中的数据文本，并将数据文本填入数据填写模板中对应的位置，最终将填入数据的数据填写模板输出即为关键数据内容。
47.s107.结合关键文本内容和关键数据内容生成行业报告文件的关键信息。
48.其中，在文本内容中提取关键文本内容所在的关键文本段落，再将关键文本段落和关键数据内容按照行业报告文件中的文本顺序进行排列，最终生成行业报告文件的关键信息。
49.本技术实施例其中一种实施方式的实施原理为：在获取行业报告文件并进行格式统一后，区分行业报告文件中的文本内容和图表内容并分别提取，文本内容中包含有关键文本内容，先将文本内容进行分词处理，分词处理后可以将文本内容拆分为大量分词文本内容，通过预设的关键文本列表从分词文本内容中筛选出相似度高的关键文本内容，关键文本内容所在的关键文本段落即为行业报告文件中整体文本内容中的关键文本信息。而行业报告文件中的图表内容通常都会展示大量关键数据，因此需要通过图片识别技术判断图表内容中图表的图表类型，以选取合适的数据填写模板，再通过文字识别技术识别出图表内容中的数据文本并填入数据填写模板中作为关键数据内容，方便分析人员查看，最终结合关键数据内容和基于关键文本内容所提取的关键文本段落生成行业报告文件的关键信息，分析人员仅需查看关键信息即可快速了解相关行业的行业状况。
50.在本技术实施例的其中一种实施方式中，参照图2，步骤s103具体包括如下步骤：s201.解析行业报告文件，得到行业报告文件中的所有内容对象。
51.其中，通过python调用pdf文件解析器将行业报告文件解析为多个内容对象，内容对象为外部参照（xref）对象。
52.s202.遍历所有内容对象，并通过正则表达式识别出内容对象中的图表对象。
53.其中，从文件开头至结尾的顺序遍历所有内容对象的过程中同时通过计数器进行计数，遍历到一个内容对象时，计数器的计数数量加一，同时将数值变化后的计数数量作为该内容对象的对象标号。
54.s203.定位并提取所有图表对象作为图表内容。
55.其中，根据内容对象的对象标号可以定位图表对象的对象位置，再基于对象属性将对象位置处的图表对象截取出来得到图表内容。
56.s204.剔除所有内容对象中的图表对象，将剩余的所有内容对象转换为文本内容。
57.其中，通过txt转换将剩余的文本内容对象转换为文本格式的文本内容。
58.本技术实施例其中一种实施方式的实施原理为：由于行业报告文件已被转换为标准文件类型，因此可以将行业报告文件解析为多个内容对象，再从文件开头至结尾的顺序遍历所有内容对象并通过正则表达式识别出内容对象中的图表对象，同时根据遍历顺序为每个内容对象标记对象标号，对象标号可以体现对应内容对象在文件中的位置，因此可以通过对象属性识别出图表对象，并根据对象位置截取出图表内容，图表内容截取后，剩下的所有内容对象均为文本内容对象，因此最后可以通过txt转换将文本内容对象均转换为文本格式的文本内容。
59.在本技术实施例的其中一种实施方式中，参照图3，步骤s203具体包括如下步骤：s301.定位图表对象在行业报告文件中的对象位置。
60.其中，可以先通过步骤s202中的实施方式为所有内容对象标记对象标号，再根据内容对象的对象标号定位图表对象在行业报告文件中的对象位置，对象标号越小，则图表对象的对象位置越靠前。
61.s302.获取图表对象的对象属性。
62.其中，对象属性包括对象类型、对象名称、对象宽度、对象高度等。
63.s303.基于对象位置在行业报告文件中定位截取位置。
64.其中，举例来说，假设行业报告文件共有3页，经过解析之后，行业报告文件的第一页中包含20个内容对象，第二页和第三页均包含10个内容对象，则内容对象的总数为40，对象标号为1~40，此时第10个对象内容的对象位置即为10/40，所定位的截取位置即为行业报告文件中第一页的第十个内容对象所在的位置。
65.s304.基于对象属性在截取位置划定截取区域。
66.其中，所划定的截取区域通常为矩形区域，可以根据对象属性中的对象宽度和对象高度设定截取区域的长度和宽度。
67.s305.将行业报告文件中位于截取区域的图表对象截取作为图表内容。
68.本技术实施例其中一种实施方式的实施原理为：通过图表对象在行业报告文件中的对象位置确定需要进行图表内容截取的截取位置，再获取相同图表对象的对象属性，根据对象属性中的对象宽度和对象高度设定长度和宽度以确定截取区域，从截取区域中所截取的文件内容即为图表内容。
69.在本技术实施例的其中一种实施方式中，参照图4，步骤s105具体包括如下步骤：s401.将预设的关键文本列表中的所有关键文本词代入预设的向量计算模型，得到各个关键文本词的第一特征向量。
70.其中，预设的向量计算模型可以为word2vec模型或nnlm模型，向量计算模型可以计算文本的词向量，将关键文本列表中所有关键文本词代入向量计算模型中，计算得到的关键文本词的词向量即为第一特征向量。
71.s402.将所有分词文本内容代入向量计算模型，得到各个分词文本内容的第二特征向量。
72.其中，将分词文本内容代入向量计算模型计算得到的分词文本内容的词向量即为第二特征向量。
73.s403.逐个选取第二特征向量作为目标第二特征向量，并计算目标第二特征向量
与所有第一特征向量之间的余弦相似度。
74.其中，用向量空间中的两个向量夹角的余弦值作为衡量两个个体间差异大小的度量，值越接近1，就说明夹角角度越接近0
°
。因此可以计算第一特征向量和第二特征向量之间的余弦相似度，余弦相似度越高，说明两个特征向量越相似，进一步说明两个特征向量分别对应的关键文本词和分词文本内容越相似。
75.s404.判断是否存在超出预设相似度阈值的余弦相似度，若存在超出相似度阈值的余弦相似度，则执行步骤s405；若不存在超出相似度阈值的余弦相似度，则执行步骤s406。
76.s405.将目标第二特征向量对应的分词文本内容作为关键文本内容，并提取关键文本内容。
77.s406.选取下一个第二特征向量作为目标第二特征向量，并重复余弦相似度计算步骤。
78.其中，若目标第二特征向量与所有第一特征向量计算得到的余弦相似度均未超出相似度阈值，则说明该目标第二特征向量对应的分词文本内容与关键文本列表中的所有关键文本词均不相似，因此需要选取下一个第二特征向量作为目标第二特征向量，再重复步骤s402至步骤s404，直至所有第二特征向量均参与计算过余弦相似度。
79.本技术实施例其中一种实施方式的实施原理为：关键文本列表中所预先存储的关键文本词均为历史研究报告文件中的高频词，因此如果分词文本内容中出现与关键文本词相似的关键文本内容，则关键文本内容所在的文本段落可以认定为关键信息段落。判断分词文本内容和关键文本词是否相似可以通过计算预先相似度的方式进行判断，通过向量计算模型分别计算得到分词文本内容和关键文本词的特征向量，再计算两个特征向量之间的余弦相似度，最后通过预设的相似度阈值判断分词文本内容是否与任一关键文本词相似。
80.在本技术实施例的其中一种实施方式中，参照图5，步骤s106具体包括如下步骤：s501.通过图片识别技术识别图表内容中的几何特征。
81.其中，图片识别技术主要包括图像二值化算法和canny边缘检测算法，几何特征包括饼状图形、柱状图形和折线图形。
82.s502.根据几何特征确定图表内容的图表类别，并分析得到图表内容的几何属性。
83.其中，若几何特征为饼状图形，则图表类别为饼状图表；若几何特征为柱状图形，则确定图表内容的图表类别为柱状图表；若几何特征为折线图形，则确定图表内容的图表类别为折线图表。针对不同类型的图表需要分析不同的几何属性。
84.s503.基于图表类别在预设的数据模板库中选取目标数据模板。
85.其中，在预设的数据模板库中预先存储有大量不同图表类别的数据模板，数据模板即为未填入数据的表格模板，根据不同的图表类别选取相同类别的目标数据模板，将有利于分析人员在后续查看关键数据时可以更加直观。
86.s504.根据几何属性调整目标数据模板的模板参数，并将目标数据模板中的待填数据区域映射于图表内容，在图表内容中形成多个映射区域。
87.其中，举例说明，假设几何特征为折线图形，则分析图表内容中折线图的横轴和纵轴并识别出特征数据，得到折线图横轴项数、折线图纵轴项数、和各折线点位置，选取的目
标数据模板中首行与折线图横轴对应，因此根据折线图横轴项数调整模板参数中的表格列数，首列与折线图纵轴对应，因此根据折线图纵轴项数调整模板参数中的表格行数。其余模板表格区域即待填数据区域，将根据所在模板表格中的行列数映射于图表内容的折线图中对应的折线点所在区域，当每个除首行首列外的所有其他表格区域均在折线图中映射有区域后，图表内容中将会形成多个映射区域。
88.s505.通过文字识别技术识别图表内容中的文字信息，并定位所有文字信息在图表内容中的文字位置。
89.其中，文字信息包括文字标注和数据标注。
90.s506.根据文字位置所处的映射区域，将文字位置对应的文字信息填入映射区域对应的待填数据区域。
91.其中，为了分析人员可以更直观地查看行业报告文件中的图表信息，通常在图表内容中的图表区都会标注有对应的数据，例如，在步骤s504详细说明所举的例子中，折线图中的各个折线点处都标注有该折线点所代表的数据，因此通过文字识别技术识别出映射区域中所包含的文字信息。
92.s507.当所有待填数据区域中均填有文字信息后，输出目标数据模板作为关键数据内容。
93.本技术实施例其中一种实施方式的实施原理为：先识别出图表内容中的几何特征，再根据几何特征确定图表内容的图表类别，根据不同的图表类别选取相同类别的目标数据模板，将有利于分析人员在后续查看关键数据时可以更加直观，分析得到图表内容的几何属性，针对不同类型的图表需要分析不同的几何属性，几何属性用于调整目标数据模板的模板参数，并在参数调整后将目标数据模板中的待填数据区域一一映射于图表内容中形成映射区域，识别出映射区域中的文字信息，并将文字信息填入映射区域所对应的待填数据区域，从而最终获取到行业报告文件的关键数据内容。
94.在本技术实施例的其中一种实施方式中，参照图6，步骤s502具体包括如下步骤：s601.若几何特征为饼状图形，则确定图表内容的图表类别为饼状图表，并分析得到图表内容的第一几何属性。
95.其中，第一几何属性包括饼状图总面积、饼状图分区数量和饼状图各分区面积。
96.s602.若几何特征为柱状图形，则确定图表内容的图表类别为柱状图表，并分析得到图表内容的第二几何属性。
97.其中，第二几何属性包括柱状图横轴项、柱状图纵轴单位长度和各个柱状体长度。
98.s603.若几何特征为折线图形，则确定图表内容的图表类别为折线图表，并分析得到图表内容的第三几何属性。
99.其中，第三几何属性包括折线图原点、折线图横轴单位长度、折线图纵轴单位长度和各折线点位置及坐标。
100.本技术实施例其中一种实施方式的实施原理为：由于不同的几何特征将决定不同的图表类别，而不同的图表类别分别对应不同的目标数据模板，因此针对不同的几何特征需要分析得到不同的几何属性，再根据分析到的几何属性才能适应性地调整对应目标数据模板的模板参数。
101.在本技术实施例的其中一种实施方式中，参照图7，步骤s505具体包括如下步骤：s701.通过文字识别技术识别图表内容中的文字信息。
102.其中，文字识别技术可以为ocr文字识别技术。
103.s702.获取文字信息的字符特征。
104.其中，通过文字识别技术识别文字信息的同时可以获取到文字信息的字符特征，字符特征主要包括字符字体、字符字号等特征信息。
105.s703.通过基于opencv的模板匹配算法并基于字符特征定位对应的文字信息在图表内容中的文字位置。
106.其中，将字符特征代入基于opencv的模板匹配算法中，通过模板匹配算法识别出图表内容中相同特征的目标字符，目标字符在图表内容中的位置即为代入模板匹配算法的字符特征所对应的文字信息的文字位置。
107.本技术实施例其中一种实施方式的实施原理为：通过ocr文字识别技术识别出图表内容中的文字信息以及文字信息的字符特征，再通过模板匹配算法在图表内容中识别出与字符特征匹配的目标字符，目标字符在图表内容中的位置即为代入模板匹配算法的字符特征所对应的文字信息的文字位置。
108.本技术实施例还公开一种从行业报告中抽取关键信息的系统，包括处理器和存储器，处理器在运行存储器存储的计算机指令时，执行如图1至图7中所示的方法。
109.本实施例的实施原理为：通过程序的调取，可以在获取行业报告文件并进行格式统一后，区分行业报告文件中的文本内容和图表内容并分别提取，文本内容中包含有关键文本内容，先将文本内容进行分词处理，分词处理后可以将文本内容拆分为大量分词文本内容，通过预设的关键文本列表从分词文本内容中筛选出相似度高的关键文本内容，关键文本内容所在的关键文本段落即为行业报告文件中整体文本内容中的关键文本信息。而行业报告文件中的图表内容通常都会展示大量关键数据，因此需要通过图片识别技术判断图表内容中图表的图表类型，以选取合适的数据填写模板，再通过文字识别技术识别出图表内容中的数据文本并填入数据填写模板中作为关键数据内容，方便分析人员查看，最终结合关键数据内容和基于关键文本内容所提取的关键文本段落生成行业报告文件的关键信息，分析人员仅需查看关键信息即可快速了解相关行业的行业状况。
110.本技术实施例还公开一种计算机可读存储介质，包括指令，当指令在计算机上运行时，使得计算机执行如图1至图7中所示的方法。
111.本实施例的实施原理为：通过程序的调取，可以在获取行业报告文件并进行格式统一后，区分行业报告文件中的文本内容和图表内容并分别提取，文本内容中包含有关键文本内容，先将文本内容进行分词处理，分词处理后可以将文本内容拆分为大量分词文本内容，通过预设的关键文本列表从分词文本内容中筛选出相似度高的关键文本内容，关键文本内容所在的关键文本段落即为行业报告文件中整体文本内容中的关键文本信息。而行业报告文件中的图表内容通常都会展示大量关键数据，因此需要通过图片识别技术判断图表内容中图表的图表类型，以选取合适的数据填写模板，再通过文字识别技术识别出图表内容中的数据文本并填入数据填写模板中作为关键数据内容，方便分析人员查看，最终结合关键数据内容和基于
关键文本内容所提取的关键文本段落生成行业报告文件的关键信息，分析人员仅需查看关键信息即可快速了解相关行业的行业状况。
112.以上均为本技术的较佳实施例，并非依此限制本技术的保护范围，故：凡依本技术的结构、形状、原理所做的等效变化，均应涵盖于本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：信息处理方法、装置、电子设备、存储介质及程序产品与流程

从行业报告中抽取关键信息的方法、系统及存储介质与流程

相关文献

最热文献