一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

行业研究报告的搜索方法、装置及电子设备与流程

2021-10-24 04:08:00 来源:中国专利 TAG:数据处理 研究报告 电子设备 装置 方法


1.本发明属于数据处理技术领域,尤其涉及一种行业研究报告的搜索方法、装置及电子设备。


背景技术:

2.随着互联网技术的持续快速发展,数据已经渗透到当今每一个行业,并以爆炸性的速度增长,成为重要的生产要素。为了方便行业分析师从众多行业研究报告中检索到目标行业的研究报告,并从中获取需要的内容片段,需要对行业研究报告中的内容进行精细的结构化,尽可能多的识别出有效信息,并将其组织起来。
3.然而,现有技术中,在检索pdf格式的行业研究报告的过程中,只提取出pdf文件中的文本信息,然后构建检索集群索引,虽然可支持业务检索,但搜索的召回结果的准确性很难有保证。


技术实现要素:

4.有鉴于此,本发明提供一种行业研究报告的搜索方法、装置及电子设备,提高搜索结果的准确性。
5.第一方面,本发明提供一种行业研究报告的搜索方法,采用如下技术方案:
6.所述行业研究报告的搜索方法包括:
7.获取pdf格式的行业研究报告;
8.解析所述行业研究报告中每页pdf的文本及段落,并获取段落关键特征信息;
9.定位所述行业研究报告中的图表位置坐标,并获取图表关键特征信息;将所述段落关键特征信息和所述图表关键特征信息输入行业标签模型,输出所述行业研究报告对应的至少一个行业标签打分结果;
10.根据所述文本、所述段落关键特征信息和所述图表关键特征信息,建立检索集群索引和映射字段,实时更新并推送所述检索集群索引;
11.选择行业词或产业词为搜索输入关键词,并至少根据所述行业标签打分结果设定排序规则;
12.利用分布式服务架构对所述检索集群索引进行搜索,通过所述映射字段确定搜索结果,并根据所述排序规则展示所述搜索结果。
13.可选地,所述解析所述行业研究报告中每页pdf的文本及段落包括:通过pdfminer解析所述行业研究报告中每页pdf的文本及段落,并通过预设的过滤规则过滤掉冗余的段落。
14.可选地,所述段落关键特征信息至少包括所述行业研究报告的标题、段落内容;所述图表关键特征信息至少包括所述行业研究报告的标题、图表标题。
15.可选地,所述输出所述行业研究报告对应的至少一个行业标签打分结果包括:输出所述行业研究报告对应的多个行业标签打分结果,不同行业标签对应的行业标签打分结
果不同。
16.可选地,所述实时更新所述检索集群索引包括:通过canal实时消费mysql binlog,通过适配器将canal消费得到的数据异构到检索集群或消息队列,完成所述检索集群索引的实时更新。
17.可选地,所述选择行业词或产业词为搜索输入关键词包括:增加同义词库,将所述同义词库中的行业同义词或产业同义词一并作为搜索输入关键词。
18.可选地,所述至少根据所述行业标签打分结果设定排序规则包括:根据搜索业务侧重点,分别为所述行业标签打分结果、分片类型、文本设定不同的权重,并根据权重设定排序规则。
19.可选地,所述利用分布式服务架构对所述检索集群索引进行搜索包括:通过服务注册中心调用至少一个搜索应用程序接口,完成对检索集群索引的搜索。
20.第二方面,本发明提供一种行业研究报告的搜索装置,采用如下技术方案:
21.所述行业研究报告的搜索装置包括:
22.获取模块,用于获取pdf格式的行业研究报告;
23.解析模块,用于解析所述行业研究报告中每页pdf的文本及段落,并获取段落关键特征信息;以及,定位所述行业研究报告中的图表位置坐标,并获取图表关键特征信息;以及,将所述段落关键特征信息和所述图表关键特征信息输入行业标签模型,输出所述行业研究报告对应的至少一个行业标签打分结果;
24.搜索模块,用于根据所述文本、所述段落关键特征信息和所述图表关键特征信息,建立检索集群索引和映射字段,实时更新并推送检索集群索引;以及,选择行业词或产业词为搜索输入关键词,并至少根据所述行业标签打分结果设定排序规则;以及,利用分布式服务架构对所述检索集群索引进行搜索,通过所述映射字段确定搜索结果,并根据所述排序规则展示所述搜索结果。
25.第三方面,本发明提供一种电子设备,采用如下技术方案:
26.所述电子设备包括处理器,以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现以上任一项所述的行业研究报告的搜索方法。
27.本发明提供一种行业研究报告的搜索方法、装置及电子设备,在本发明的行业研究报告的搜索方法中,一方面,通过选择行业词或产业词作为搜索输入关键词,能够有效提高搜索结果的准确性,另一方面,通过对pdf格式的行业研究报告,结构化地提取了段落、图表、文本等数据,不仅能丰富搜索结果的表现形式,还能够快速定位信息片段,再一方面,通过分布式解析框架、实时检索集群索引更新以及分布式服务架构的结合,增加了解析速度,提供高可用的服务架构,为更多场景提供基础服务能力。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
29.图1为本发明实施例提供的行业研究报告的搜索方法的流程图;
30.图2为本发明实施例提供的步骤s1

步骤s4的过程示意图;
31.图3为本发明实施例提供的步骤s5

步骤s7的过程示意图;
32.图4为本发明实施例提供的行业研究报告中的页面的示意图;
33.图5为本发明实施例提供的行业研究报告的搜索装置的模块图;
34.图6为本发明实施例提供的包含搜索装置的服务平台的整体架构图。
具体实施方式
35.以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,本发明的这些实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。
36.本发明实施例提供一种行业研究报告的搜索方法,具体地,如图1、图2和图3所示,图1为本发明实施例提供的行业研究报告的搜索方法的流程图,图2为本发明实施例提供的步骤s1

步骤s4的过程示意图,图3为本发明实施例提供的步骤s5

步骤s7的过程示意图,需注意的是,若有实质上相同的结果,本发明中的搜索方法并不以图1

图3所示的流程顺序为限。该行业研究报告的搜索方法包括:
37.步骤s1、获取pdf格式的行业研究报告。
38.其中,以上行业研究报告除文档格式限制为pdf外,无其他限制,只要是用于对特定行业的相关内容进行分析、研究的报告均可,其通常由券商编制或者经济咨询机构编制。例如,行业研究报告为金融行业研究报告、新能源行业研究报告、人工智能行业研究报告、智能制造行业研究报告、新材料行业研究报告、环保行业研究报告、生物医药行业研究报告等。需要补充的是,凡是以行业为研究主体的报告都可以理解为本发明实施例中提及的行业研究报告,由实际内容确定,而非由标题/名称确定。
39.步骤s1中可以通过向数据公司购买及定期更新的方式获取pdf格式的行业研究报告,也可以通过垂类网站定向爬取的方式获取pdf格式的行业研究报告。例如,通过任务调度框架和消息队列mq获取pdf格式的行业研究报告,获取的pdf格式的行业研究报告定时同步到mysql数据库和/或ftp服务器中。在步骤s1获取行业研究报告的pdf文档的同时,也可以直接获取行业研究报告的标题。
40.步骤s2、解析行业研究报告中每页pdf的文本及段落,并获取段落关键特征信息。
41.图4为本发明实施例提供的行业研究报告中的页面的示意图,示例性地,通过pdfminer解析行业研究报告中每页pdf的文本及段落。
42.进一步,解析出文本及段落后,还可通过预设的过滤规则过滤掉冗余的段落,以简化后续步骤,且降低数据存储需求。本发明实施例中可以根据文本长度、特殊字符、所在位置等中的至少一个制定过滤规则。例如,过滤规则中规定文本长度小于特定数值的段落为
冗余段落,或者,过滤规则中规定出现特殊字符(如法律风险、时间、日期等)的段落为冗余段落,或者,过滤规则中规定出现在整个报告的第一段、最后一段,出现在每页pdf的页眉、页脚位置的段落为冗余段落。本领域技术人员可以根据实际需要进行选择,此处不再进行赘述。
43.可选地,本发明实施例中的段落关键特征信息至少包括行业研究报告的标题、段落内容。其中,行业研究报告的标题可以为步骤s1中已经获取,也可以通过步骤s2解析之后再获取。
44.步骤s3、定位行业研究报告中的图表位置坐标,并获取图表关键特征信息。
45.步骤s3中可以通过图表标题定位的方式,定位图表位置坐标,然后通过pil(python image library,python图像处理库)以截图的方式,截取图表,并获取图表关键特征信息。图表关键特征信息至少包括行业研究报告的标题、图表标题。其中,行业研究报告的标题可以为步骤s1中已经获取,也可以通过步骤s2解析之后再获取。
46.步骤s4、将段落关键特征信息和图表关键特征信息输入行业标签模型,输出行业研究报告对应的至少一个行业标签打分结果。
47.其中,可以提前构建行业标签模型,并通过包括大量(如几百万)的行业词或产业词的词库进行训练。
48.示例性地,当段落关键特征信息包括行业研究报告的标题和段落内容,图表关键特征信息包括行业研究报告的标题和图表标题时,将段落以标题 段落内容作为行业标签模型的输入,图表以标题 图表标题作为行业标签模型的输入,输出行业研究报告对应的至少一个行业标签打分结果。图2和图3中“带标签的片段数据”中的“标签”指的就是此处的输出内容

至少一个行业标签的打分结果;“片段数据”指的是图表标题或者段落内容。
49.可选地,输出行业研究报告对应的至少一个行业标签打分结果包括:输出行业研究报告对应的多个行业标签打分结果,不同行业标签对应的行业标签打分结果不同。以金融行业研究报告为例,输出结果可以为{

金融产业’:0.18991,

金融监管’:0.089101,

经济数据’:0.0011}。这说明,该金融行业研究报告与金融产业、金融监管、经济数据这三个搜索关键词均相关,但匹配度依次降低。
50.步骤s5、根据文本、段落关键特征信息和图表关键特征信息,建立检索集群索引和映射字段,实时更新并推送检索集群索引。
51.其中,检索集群索引和映射字段的具体方式可以参考数据库结构。
52.可选地,实时更新检索集群索引包括:通过消息中间件canal实时消费mysql的二进制日志binlog,通过适配器adapter将canal消费得到的数据异构到检索集群es或消息队列mq,完成检索集群索引的实时更新。
53.步骤s6、选择行业词或产业词为搜索输入关键词,并至少根据行业标签打分结果设定排序规则。
54.可选地,选择行业词或产业词为搜索输入关键词包括:增加同义词库,将同义词库中的行业同义词或产业同义词一并作为搜索输入关键词。
55.可选地,至少根据行业标签打分结果设定排序规则包括:根据搜索业务侧重点,分别为行业标签打分结果、分片类型(包括段落和图片)、文本设定不同的权重,并根据权重设定排序规则。例如,若搜索业务侧重点为匹配度,则排序规则中行业标签打分结果的权重最
高;若搜索业务侧重点为图片直观展示,则排序规则中分片类型的权重最高;若搜索业务侧重点为摘要介绍,则排序规则中文本的权重最高。以上仅为示例,本领域技术人员可以根据实际需要对排序规则进行设定。
56.步骤s7、利用分布式服务架构对检索集群索引进行搜索,通过映射字段确定搜索结果,并根据排序规则展示搜索结果。
57.可选地,利用分布式服务架构对检索集群索引进行搜索包括:通过服务注册中心调用至少一个搜索应用程序接口search api,完成对检索集群索引的搜索。
58.在本发明的行业研究报告的搜索方法中,一方面,通过选择行业词或产业词作为搜索输入关键词,能够有效提高搜索结果的准确性,另一方面,通过对pdf格式的行业研究报告,结构化地提取了段落、图表、文本等数据,不仅能丰富搜索结果的表现形式,还能够快速定位信息片段,再一方面,通过分布式解析框架、实时检索集群索引更新以及分布式服务架构的结合,增加了解析速度,提供高可用的服务架构,为更多场景提供基础服务能力。
59.此外,本发明提供一种行业研究报告的搜索装置,具体地,如图3所示,图5为本发明实施例提供的行业研究报告的搜索装置的模块图,该行业研究报告的搜索装置包括:
60.获取模块10,用于获取pdf格式的行业研究报告;
61.解析模块20,用于解析行业研究报告中每页pdf的文本及段落,并获取段落关键特征信息;以及,定位行业研究报告中的图表位置坐标,并获取图表关键特征信息;以及,将段落关键特征信息和图表关键特征信息输入行业标签模型,输出行业研究报告对应的至少一个行业标签打分结果;
62.搜索模块30,用于根据文本、段落关键特征信息和图表关键特征信息,建立检索集群索引和映射字段,并实时更新检索集群索引;以及,选择行业词或产业词为搜索输入关键词,并至少根据行业标签打分结果设定排序规则;以及,利用分布式服务架构对检索集群索引进行搜索,通过映射字段确定搜索结果,并根据排序规则展示搜索结果。
63.示例性地,获取模块10通过向数据公司购买及定期更新的方式获取pdf格式的行业研究报告,或者,通过垂类网站定向爬取的方式获取pdf格式的行业研究报告。例如,获取模块10通过任务调度框架和消息队列mq获取pdf格式的行业研究报告,并将获取的pdf格式的行业研究报告定时同步到mysql数据库和/或ftp服务器中。获取模块10还可以在获取行业研究报告的pdf文档的同时,直接获取行业研究报告的标题。
64.解析模块20可包括第一解析单元、第二解析单元和第三解析单元,各解析单元的具体功能如下:
65.第一解析单元用于解析行业研究报告中每页pdf的文本及段落,并获取段落关键特征信息。段落关键特征信息至少包括行业研究报告的标题、段落内容。行业研究报告的标题可以由获取模块10获取,也可以由第一解析单元获取。第一解析单元还可用于在解析出文本及段落后,通过预设的过滤规则过滤掉冗余的段落。
66.第二解析单元用于定位行业研究报告中的图表位置坐标,并获取图表关键特征信息。具体地,第二解析单元通过图表标题定位的方式,定位图表位置坐标,然后通过pil(python image library,python图像处理库)以截图的方式,截取图表,并获取图表关键特征信息。图表关键特征信息至少包括行业研究报告的标题、图表标题。
67.第三解析单元用于将段落关键特征信息和图表关键特征信息输入行业标签模型,
输出行业研究报告对应的至少一个行业标签打分结果。当段落关键特征信息包括行业研究报告的标题和段落内容,图表关键特征信息包括行业研究报告的标题和图表标题时,第三解析单元用于将标题 段落内容、标题 图表标题输入行业标签模型,输出行业研究报告对应的至少一个行业标签打分结果。可选地,第三解析单元输出行业研究报告对应的多个行业标签打分结果,其中,不同行业标签对应的行业标签打分结果不同。
68.搜索模块30可包括第一搜索单元、第二搜索单元和第三搜索单元,各搜索单元的具体功能如下:
69.第一搜索单元用于根据文本、段落关键特征信息和图表关键特征信息,建立检索集群索引和映射字段,实时更新并推送检索集群索引。具体地,第一搜索单元通过canal实时消费mysql binlog,通过适配器将canal消费得到的数据异构到检索集群es或消息队列mq的方式,完成检索集群索引的实时更新。
70.第二搜索单元用于选择行业词或产业词为搜索输入关键词,并至少根据行业标签打分结果设定排序规则。第二搜索单元选择行业词或产业词为搜索输入关键词的具体方式为:增加同义词库,将同义词库中的行业同义词或产业同义词一并作为搜索输入关键词。第二搜索单元至少根据行业标签打分结果设定排序规则的具体方式为:根据搜索业务侧重点,分别为行业标签打分结果、分片类型(包括段落和图片)、文本设定不同的权重,并根据权重设定排序规则。
71.第三搜索单元用于利用分布式服务架构对检索集群索引进行搜索,通过映射字段确定搜索结果,并根据排序规则展示搜索结果。第三搜索单元利用分布式服务架构对检索集群索引进行搜索的具体方式为:通过服务注册中心调用至少一个搜索应用程序接口search api,完成对检索集群索引的搜索。
72.图6为本发明实施例提供的包含搜索装置的服务平台的整体架构图,如图6所示,该服务平台中,搜索装置的获取模块位于服务平台的第一层,用于获取行业数据源,搜索装置的解析模块位于服务平台的第二层,为整个服务平台提供行业资讯解析框架,第二层与第一层之间通过ftp服务器连接,搜索装置的搜索模块位于服务平台的第三层,作为检索平台,第三层与第二层之间通过mysql数据库连接,该服务平台还包括第四层saas平台,第四层通过gateway网关与第三层连接。
73.此外,本发明实施例还提供一种电子设备,该电子设备包括处理器,以及与处理器耦接的存储器,存储器存储有可被处理器执行的计算机程序,处理器执行计算机程序时实现以上任一项的行业研究报告的搜索方法。
74.本领域的技术人员应该明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
75.本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令完成流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生
一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
76.这些计算机程序指令也可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,是的存储在该计算机刻度存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
77.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
78.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜