一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种从研报自动构建产业链图谱的方法及相关设备

2022-11-28 14:26:23 来源:中国专利 TAG:


1.本发明涉及文字处理技术领域,特别涉及一种从研报自动构建产业链图谱的方法及相关设备。


背景技术:

2.随着金融科技的发展和全球资本市场的不断扩大,金融领域每天都会产生大量的行业资讯数据,其中蕴含着丰富的有价值的信息。知识图谱使用结构化的形式描述和存储数据中蕴含的知识,能够将互联网的信息表达为更接近人类认知的形式,具有强大的组织、管理和理解海量信息的能力,利用图谱进行关联关系挖掘和推理分析,在学术界和工业界均具有广泛应用。产业链图谱立足于行业细分产品的产业链数据,能够更好地描述金融行业间的上下游关系、产品层级关系、公司与产品的主营关系,以及相关的经济指标同公司、产品和产业的关系。产业链图谱能够向客户提供精准即时的解决方案,有助于相关人员捕获行业内部动态,为企业带来一定的经济效益。沿着产业链图谱进行推理,有助于发现潜在的事故风险和投资商机,进而辅助人们进行智能投资决策,从而赋能于投研、风控、投资、营销服务等实际的金融业务场景。
3.然而,目前金融领域仍然缺乏大规模、开源开放的产业链全景知识图谱。对于系统性阐述领域产业链图谱构建的研究还相对匮乏,且大都未能有效关注到关系的复杂指标属性。传统的基于人工的关键信息抽取方法无法满足海量信息快速处理的需求,对于人力成本和时间消耗大。
4.因此,现有技术还有待改进和提高。


技术实现要素:

5.针对现有技术的上述缺陷,提供一种从研报自动构建产业链图谱的方法及相关设备,旨在解决现有技术中自动化构建产业链图谱的系统性方法少且未能有效关注到关系的复杂指标属性的问题。
6.本发明的第一方面,提供一种从研报自动构建产业链图谱的方法,包括:载入面向研报的,含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式,在所述产业链图谱模式中预定义了需抽取的实体类型信息以及需抽取的三元组类型信息,所述三元组为第一三元组或第二三元组,所述第一三元组和所述第二三元组为结构为“头实体类型-关系类型-尾实体类型”,在所述第二三元组中,所述关系类型还包括至少一个与所述关系类型对应的属性对,所述属性对为简单属性对或复杂属性对,所述简单属性对包括一个第一属性和一个第二属性,所述第一属性为所述属性对的名称,所述第二属性为所述属性对的取值;所述复杂属性对包括一个第一属性和多个第二属性,所述复杂属性对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束;获取原始研报文档集合,分别对所述原始研报集合中的每一个原始研报文本进行
预处理,得到目标文本,所述目标文本由非空句子序列组成;采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体,所述目标三元组为目标第一三元组或初始第二三元组;采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对,所述目标属性对中包括目标第一属性和目标第二属性;对于包含属性对的句子序列,将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的一个或多个所述目标属性对;将所述目标第一三元组和所述目标第二三元组添加到目标产业链图谱。
7.所述的从研报自动构建产业链图谱的方法,其中,所述对所述原始研报集合中的每一个原始研报文本进行预处理,包括:通过光学字符识别技术对所述原始研报文本进行文本识别,得到方便读写的第一文字文本;对所述第一文字文本进行文本清洗,去除所述第一文字文本中的噪音字符,得到第二文字文本,所述噪音字符为对真实文本无实际描述作用的字符;对所述第二文字文本进行分句处理,将所述第二文字文本划分为非空句子序列,得到所述目标文本。
8.所述的从研报自动构建产业链图谱的方法,其中,所述实体关系同步抽取模型包括句子序列编码模块,子任务特征选择模块和子任务目标信息预测模块;所述句子序列编码模块基于已标注实体和关系信息的训练集和验证集,采用通用预训练模型对所述句子序列进行编码,得到目标向量;所述子任务特征选择模块用于获取实体抽取子任务和关系预测子任务分别对应的特征信息,所述实体抽取子任务用于根据所述目标向量抽取所述句子序列中的目标实体片段;所述子任务目标信息预测模块基于所述实体抽取子任务的特征信息判断所述目标实体片段的类型是否属于所述目标实体类型,若是,则保留所述目标实体片段,若不是,则丢弃所述目标实体片段;所述子任务目标信息预测模块还基于所述关系预测子任务的特征信息判断所述实体对之间的关系,得到目标关系的特征表示,根据所述目标关系的特征表示判断所述目标关系的类型是否属于所述目标关系类型,若是,则保留所述目标关系,若不是,则丢弃所述目标关系;根据所述目标实体片段及其对应的目标关系,得到目标三元组,没有对应关系的所述目标实体片段则为所述目标独立实体信息。
9.所述的从研报自动构建产业链图谱的方法,其中,所述抽取含有指标描述的句子序列中的目标属性对,包括:判断所述句子序列是否包含指标,若包含指标,则采用所述指标属性抽取模型抽取所述句子序列中的目标属性对;所述目标属性对为简单属性对或复杂属性对。
10.所述的从研报自动构建产业链图谱的方法,其中,所述将获取到的一个或多个所
述目标属性对与所述初始第二三元组进行匹配对齐,包括:将获取到的所述目标属性对中的所述目标第二属性与对应的所述初始第二三元组进行匹配对齐,其中,所述目标第二属性中的部分属性与对应的所述初始第二三元组的关系进行对齐,所述目标第二属性中的另一部分部分属性对应的取值与所述三元组中头实体或尾实体进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的属性信息。
11.所述的从研报自动构建产业链图谱的方法,其中,所述目标实体类型的列表根据所述目标文本和所述目标任务场景需求动态调整;所述目标关系类型的列表根据所述目标实体类型和所述目标文本动态调整;所述目标属性类型的列表根据所述目标属性类型和所述目标文本动态调整。
12.本发明的第二方面,提供一种从研报自动构建产业链图谱的装置,包括:产业链图谱模式载入模块,所述产业链图谱模式载入模块用于载入面向研报的,含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式,在所述产业链图谱模式中预定义了需抽取的实体类型信息以及需抽取的三元组类型信息,所述三元组为第一三元组或第二三元组,所述第一三元组和所述第二三元组为结构为“头实体类型-关系类型-尾实体类型”,在所述第二三元组中,所述关系类型还包括至少一个与所述关系类型对应的属性对,所述属性对为简单属性对或复杂属性对,所述简单属性对包括一个第一属性和一个第二属性,所述第一属性为所述属性对的名称,所述第二属性为所述属性对的取值;所述复杂属性对包括一个第一属性和多个第二属性,所述复杂属性对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束;目标文本获取模块,所述目标文本获取模块用于获取原始研报文本集合,分别对所述原始研报集合中的每一个原始研报文本进行预处理,得到目标文本,所述目标文本由非空句子序列组成;实体关系同步抽取模块,所述实体关系同步抽取模块用于采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体,所述目标三元组为目标第一三元组或初始第二三元组;指标属性抽取模块,所述指标属性抽取模块用于采用指标属性抽取模型,所述指标属性抽取模型用于抽取含有指标描述的句子序列中的目标属性对,所述目标属性对中包括目标第一属性和目标第二属性;属性-关系对齐模块,所述属性-关系对齐模块用于对于包含属性对的句子序列,将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的一个或多个所述目标属性对;目标产业链图谱获取模块,所述目标产业链图谱获取模块用于将所述目标第一三元组和所述目标第二三元组添加到目标产业链图谱。
13.本发明的第三方面,提供一种终端,包括:处理器、与处理器通信连接的存储介质,存储介质适于存储多条指令,处理器适于调用存储介质中的指令,以执行实现上述任一项所述的从研报自动构建产业链图谱的方法的步骤。
14.本发明的第四方面,提供一种存储介质,其中,存储介质存储有一个或者多个程
序,该一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的从研报自动构建产业链图谱的方法的步骤。
15.有益效果:与现有技术相比,本发明提供了一种从研报自动构建产业链图谱的方法及相关设备,本发明提供的从研报自动构建产业链图谱的方法中,通过载入面向研报的,含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式后,原始研报文档集合,分别对所述原始研报集合中的每一个原始研报文本进行预处理,得到目标文本,然后采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体,所述目标三元组为目标第一三元组或初始第二三元组,再采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对,所述目标属性对中包括目标第一属性和目标第二属性,对于包含属性对的句子序列,将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的一个或多个所述目标属性对,最后将所述目标第一三元组和所述目标第二三元组添加到目标产业链图谱。本发明提供的从研报自动构建产业链图谱的方法能有效应对复杂情境下研报文本自动化构建大规模产业链图谱的需求,有效关注到关系的复杂指标属性,用更精准高效的模型来满足实体关系以及相关属性的抽取需求,降低了人力损耗与时间成本。
附图说明
16.图1为本发明提供的从研报自动构建产业链图谱的方法的实施例的流程图;图2为本发明提供的从研报自动构建产业链图谱的方法的实施例中原始研报文本预处理流程图;图3为本发明提供的从研报自动构建产业链图谱的方法的实施例中实体关系同步抽取模型结构示意图;图4为本发明提供的从研报自动构建产业链图谱的方法的实施例中指标属性抽取流程图;图5为本发明提供的从研报自动构建产业链图谱的装置的实施例的结构示意图;图6为本发明提供的终端的实施例的结构原理图。
具体实施方式
17.为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
18.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
19.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
20.本发明提供的一种从研报自动构建产业链图谱的方法,可以应用于具有计算能力的终端中,终端可以执行本发明提供的从研报自动构建产业链图谱的方法对原始研报文档集合中的目标第一三元组和目标第二三元组进行抽取并构建目标产业链图谱的任务。
21.实施例一在本实施例中,提供一种从研报自动构建产业链图谱的方法。如图1所示,本发明提供的从研报自动构建产业链图谱的方法包括步骤:s100、载入面向研报的,含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式,在所述产业链图谱模式中预定义了需抽取的实体类型信息以及需抽取的三元组类型信息,所述三元组为第一三元组或第二三元组,所述第一三元组和所述第二三元组为结构为“头实体类型-关系类型-尾实体类型”,在所述第二三元组中,所述关系类型还包括至少一个与所述关系类型对应的属性对,所述属性对为简单属性对或复杂属性对,所述简单属性对包括一个第一属性和一个第二属性,所述第一属性为所述属性对的名称,所述第二属性为所述属性对的取值;所述复杂属性对包括一个第一属性和多个第二属性,所述复杂属性对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束。
22.具体地,在处理研报文本之前,需要先先载入面向研报的,含有实体、关系及属性类型和定义的产业链图谱模式。除简单的实体关系间定义之外,还涵盖了三元组重叠情境,同时,定义了必要的关系属性用以描述研报文本中的大量指标数据。
23.所述载入面向研报的,含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式,包括:根据目标任务场景需求,载入预定义的所述目标实体类型。其中,所述目标实体类型的列表根据所述目标文本和所述目标任务场景需求动态调整。具体地,根据目标任务场景需求,基于对研报文本内容的分析,载入预定义的所述目标实体类型,具体包括但不限于公司、人物、品牌、产品、行业、地域、业务、风险事件等,所述目标实体类型的列表根据所述目标文本和所述目标任务场景需求动态调整。
24.根据目标任务场景需求,载入预定义的所述目标实体类型间的所述目标关系类型,其中,所述目标关系类型的列表根据所述目标实体类型和所述目标文本动态调整。具体地,根据目标任务场景需求,载入预定义的所述目标实体类型间的所述目标关系类型,包括但不限于行业、业务之间的上下游关系,公司与产品之间的生产销售关系等,所述目标关系类型的列表根据所述目标实体类型和所述目标文本动态调整。
25.根据目标任务场景需求,载入预定义的所述目标属性类型,所述目标属性类型包括第一属性和第二属性,所述第一属性为所述第二三元组对应指标的具体名称,所述第二属性为所述第二三元组对应指标的取值以及约束所述第二三元组对应指标的其他描述。其中所述目标属性类型的列表根据所述目标属性类型和所述目标文本动态调整。具体地,根
据目标任务场景需求,载入预定义的所述目标属性类型,目标属性指研报文本中的指标数据,也就是说,研报文本中的指标数据是用于描述实体对同实体间关系所共有的属性。所述目标属性分为所述第一属性和所述第二属性,其中,指标的具体名称对应第一属性,所述第一属性为所述第二三元组对应指标的具体名称,所述第二三元组对应指标的取值即为第二属性,此外,对于约束当前指标的其他描述,同样设定为第二属性,即所述第二属性为所述第二三元组对应指标的取值以及约束所述第二三元组对应指标的其他描述。由于第一属性仅包含所述第二三元组对应指标的具体名称,因此,将所述目标关系属性分为所述第一属性和所述第二属性,能够有效描述一个句子包含多个指标的情形。
26.在所述产业链图谱模式中,还预定先定义了需抽取的实体类型信息以及需抽取的三元组的类型信息,所述三元组为第一三元组或第二三元组,所述第一三元组和所述第二三元组均为结构为“头实体类型-关系类型-尾实体类型”的关系三元组,其中第一三元组为简单三元组,不包含属性信息,第二三元组为复杂三元组,在所述第二三元组中,所述关系类型还包括至少一个与所述关系类型对应的属性对,所述属性对为简单属性对或复杂属性对,所述简单属性对包括一个第一属性和一个第二属性,所述第一属性为所述属性对的名称,所述第二属性为所述属性对的取值;所述复杂属性对包括一个第一属性和多个第二属性,所述复杂属性对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束载入产业链图谱模式后,获取原始研报文档集合,对所述原始研报文档集合进行预处理。
27.s200、获取原始研报文档集合,分别对所述原始研报集合中的每一个原始研报文本进行预处理,得到目标文本,所述目标文本由非空句子序列组成。
28.参照图2,所述对所述原始研报集合中的每一个原始研报文本进行预处理,包括:s210、通过光学字符识别技术对所述原始研报文本进行文本识别,得到方便读写的第一文字文本。
29.在本实施例中,所述原始研报文本为行业研报文档,经光学字符识别(optical character recognition, ocr)技术将所述原始研报文本转化为方便读写的所述第一文字文本。
30.s220、对所述第一文字文本进行文本清洗,去除所述第一文字文本中的噪音字符,得到第二文字文本,所述噪音字符为对真实文本无实际描述作用的字符。
31.进一步地,对所述第一文字文本进行文本清洗,将所述第一文字文本中的多余空格、特殊标识符及6个以上连续的实心点号统一去除,得到所述第二文字文本。
32.s230、对所述第二文字文本进行分句处理,将所述第二文字文本划分为非空句子序列,得到所述目标文本。
33.所述分句处理的原则是尽可能保证句子中所包含的实体不被切分开来。首先使用常见的句子分隔符,包括但不限于“。”,“!”,
“……”
,“;”等,将所述第一文字文本划分成句子序列。对于划分后仍然超过512个字符的长句,在遵循分句原则的基础上,使用“,”,“,”等进行二次切分,得到所述目标文本。
34.所述的从研报自动构建产业链图谱的方法还包括步骤:s300、采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标
独立实体,所述目标三元组为目标第一三元组或初始第二三元组。
35.参照图3,所述实体关系同步抽取模型包括句子序列编码模块,子任务特征选择模块和子任务目标信息预测模块;s310、所述句子序列编码模块基于已标注实体和关系信息的训练集和验证集,采用通用预训练模型对所述句子序列进行编码,得到目标向量。
36.具体地,通过人工标注出训练集合验证集,输入通用预训练模型,基于所述训练集和验证集对所述通用预训练模型进行微调,得到适用于所述的从研报自动构建产业链图谱的方法的句子序列编码模型,基于微调后的所述句子序列编码模型对所述目标文本中的所述句子序列进行编码,得到目标向量。
37.s320、所述子任务特征选择模块用于获取实体抽取子任务和关系预测子任务分别对应的特征信息,所述实体抽取子任务用于根据所述目标向量抽取所述句子序列中的目标实体片段。
38.根据得到的所述目标向量捕获所述实体抽取子任务和所述关系预测子任务各自的特征信息,并计算所述实体抽取子任务和所述关系预测子任务间共享的特征信息,从而实现对任务的特征划分。其中。所述实体抽取子任务用于根据所述目标向量抽取所述句子序列中的目标实体片段。
39.根据所述实体抽取子任务和所述关系预测子任务间共享的特征信息及子任务特有的特征信息,将所述实体抽取子任务和所述关系预测子任务间的特征进行重组,进而得到各子任务新的特征信息,能够促进子任务间的双向信息交互,避免冗余特征的干扰。
40.通过上述特征选择与重组机制,能在促进实体抽取子任务与关系预测子任务间信息双向交互的同时,缓解误差传递和冗余计算所带来的精度和效率上的影响,同时能够有效应对嵌套实体,以及三元组重叠问题中的单一实体重叠和实体对重叠的复杂抽取场景。
41.s330、所述子任务目标信息预测模块基于所述实体抽取子任务的特征信息判断所述目标实体片段的类型是否属于所述目标实体类型,若是,则保留所述目标实体片段,若不是,则丢弃所述目标实体片段。
42.具体地,所述子任务目标信息基于所述实体抽取子任务的特征信息,并根据所述目标向量抽取所述句子序列中的目标实体片段,在所述句子序列中获取连接字符级别的开始位置和结束位置的特征以及句子级别特征,得到目标实体片段以及所述目标实体片段的特征表示,根据所述目标实体片段的特征表示预测所述目标实体片段是否属于类型为k的实体,其中,k的取值范围是本实施例所述的产业链图谱模式中预定义的所述目标实体类型全集。
43.s340、所述子任务目标信息预测模块还基于所述关系预测子任务的特征信息判断所述实体对之间的关系,得到目标关系的特征表示,根据所述目标关系的特征表示判断所述目标关系的类型是否属于所述目标关系类型,若是,则保留所述目标关系,若不是,则丢弃所述目标关系。
44.具体地,所述子任务目标信息预测模块基于所述关系预测子任务的特征信息判断所述实体对之间的关系,将所述实体对之间的关系判断细化为头实体和尾实体的对应起始位置和结束位置之间的类型判断。以开始位置为例,取头尾实体各自的字符级别特征,连接句子级特征,并根据目标关系预测特征判断实体之间的关系,得到目标关系的特征表示,根
据所述目标关系的特征表示预测所述目标关系是否属于类型为l的关系,其中,l的取值范围是本实施例所述的产业链图谱模式中预定义的所述目标关系类型全集。实体对的结束位置之间关系类型的计算同理。
45.s350、根据所述目标实体片段及其对应的目标关系,得到目标三元组,没有对应关系的所述目标实体片段则为所述目标独立实体信息结合所述目标实体片段及其对应的目标关系,将有对应关系的目标实体片段组合成三元组,所述三元组为结构为头实体-关系-尾实体的关系三元组,没有对应关系的所述目标实体片段则为所述独立实体信息,其中,所述目标三元组为目标第一三元组或初始第二三元组。
46.再次参照图1,所述的从研报自动构建产业链图谱的方法还包括步骤:s400、采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对,所述目标属性对中包括目标第一属性和目标第二属性。
47.参照图4,所述抽取含有指标描述的句子序列中的目标属性对,包括:s410、判断所述句子序列是否包含指标,若包含指标,则采用所述指标属性抽取模型抽取所述句子序列中的目标属性对;s420、所述目标属性对为简单属性对或复杂属性对。
48.具体地,获取通过文本二分类模型判断所述句子序列是否包含指标,若包含指标,则采用所述指标属性抽取模型抽取所述句子序列中的目标属性对,所述目标属性对为一个或者多个,所述目标属性对为目标简单属性对或目标复杂属性对,所述目标简单属性对包括一个目标第一属性和一个目标第二属性,所述目标第一属性为所述目标属性对对应的指标的名称,所述目标第二属性为所述目标属性对对应的指标的取值;所述目标复杂属性对包括一个目标第一属性和多个目标第二属性,所述目标复杂属性对中的所述目标第二属性包括所述目标复杂属性对的取值和至少一个对所述目标复杂属性对的约束。
49.s500、对于包含属性对的句子序列,将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的一个或多个所述目标属性对。
50.所述将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,包括:将获取到的所述目标属性对中的所述目标第二属性与对应的所述初始第二三元组进行匹配对齐,其中,所述目标第二属性中的部分属性与对应的所述初始第二三元组的关系进行对齐,所述目标第二属性中的另一部分部分属性对应的取值与所述三元组中头实体或尾实体进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的属性信息。
51.对于含有指标描述的复杂所述句子序列,通过所述实体关系同步抽取模型和所述指标属性抽取模型抽取分别得到所述初始第二三元组及其对应的目标属性对,所述目标属性对包括所述目标第一属性和所述目标第二属性,通过将所述目标第一属性和所述目标第二属性与所述三元组进行匹配对齐,将所述目标第二属性中的部分属性与所述三元组中的头尾实体进行匹配,从而完成属性与关系间的对齐,完善所述初始第二三元组的信息表述,得到所述目标第二三元组。
52.s600、将所述目标第一三元组和所述目标第二三元组添加到目标产业链图谱。
53.根据获取到的所述目标第一三元组、所述目标第二三元组构建目标产业链图谱,将所述目标第一三元组、所述目标第二三元组加入产业链图谱中,构建出除简单的实体关系间定义之外,还涵盖了三元组重叠的复杂情境,同时,定义了必要的关系属性用以描述研报文本中的大量指标数据的所述目标产业链图谱。
54.而前述抽取出的所述目标独立实体,能方便后续推理演化,当有更多的研报加入共同构建所述目标产业链图谱时,可以更快速的在新增的研报中提取更多的相关特征,方便后续推理演化。
55.采用本实施例提供一种从研报自动构建产业链图谱的方法,能够自动地将蕴含产业链知识的自然语言长文本描述转化为图谱中带有属性的实体和关系联结。本实施例提供一种从研报自动构建产业链图谱的方法使用实体关系抽取模型,在促进任务间信息双向交互的同时,缓解误差传递和冗余计算所带来的精度和效率上的影响,同时能够有效应对嵌套实体,以及三元组重叠问题中的单一实体重叠和实体对重叠的复杂抽取场景。此外,属性抽取能够挖掘出研报文本中大量指标数据中蕴含的有益信息。进一步地,通过将指标属性对齐到相应的关系,最终得到由更为完善信息表述的所述目标三元组和所述目标独立实体信息所构成的目标产业链图谱。
56.综上所述,本实施例提供一种从研报自动构建产业链图谱的方法,通过载入面向研报的,含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式后,原始研报文档集合,分别对所述原始研报集合中的每一个原始研报文本进行预处理,得到目标文本,然后采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体,所述目标三元组为目标第一三元组或初始第二三元组,再采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对,所述目标属性对中包括目标第一属性和目标第二属性,对于包含属性对的句子序列,将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的一个或多个所述目标属性对,最后将所述目标第一三元组和所述目标第二三元组添加到目标产业链图谱。本发明提供的从研报自动构建产业链图谱的方法能有效应对复杂情境下研报文本自动化构建大规模产业链图谱的需求,有效关注到关系的复杂指标属性,用更精准高效的模型来满足实体关系以及相关属性的抽取需求,降低了人力损耗与时间成本。
57.应该理解的是,虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,本发明中的步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本发明步骤的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
58.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
59.实施例二基于上述实施例,本发明还提供了一种从研报自动构建产业链图谱的装置,其功能模块示意图如图5所示,该从研报自动构建产业链图谱的装置包括:产业链图谱模式载入模块,所述产业链图谱模式载入模块用于载入面向研报的,含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式,在所述产业链图谱模式中预定义了需抽取的实体类型信息以及需抽取的三元组类型信息,所述三元组为第一三元组或第二三元组,所述第一三元组和所述第二三元组为结构为“头实体类型-关系类型-尾实体类型”,在所述第二三元组中,所述关系类型还包括至少一个与所述关系类型对应的属性对,所述属性对为简单属性对或复杂属性对,所述简单属性对包括一个第一属性和一个第二属性,所述第一属性为所述属性对的名称,所述第二属性为所述属性对的取值;所述复杂属性对包括一个第一属性和多个第二属性,所述复杂属性对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束,具体如实施例一中所述;目标文本获取模块,所述目标文本获取模块用于获取原始研报文本集合,分别对所述原始研报集合中的每一个原始研报文本进行预处理,得到目标文本,所述目标文本由非空句子序列组成,具体如实施例一中所述;实体关系同步抽取模块,所述实体关系同步抽取模块用于采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体,所述目标三元组为目标第一三元组或初始第二三元组,具体如实施例一中所述;指标属性抽取模块,所述指标属性抽取模块用于采用指标属性抽取模型,所述指标属性抽取模型用于抽取含有指标描述的句子序列中的目标属性对,所述目标属性对中包括目标第一属性和目标第二属性,具体如实施例一中所述;属性-关系对齐模块,所述属性-关系对齐模块用于对于包含属性对的句子序列,将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的一个或多个所述目标属性对,具体如实施例一中所述;目标产业链图谱获取模块,所述目标产业链图谱获取模块用于将所述目标第一三元组和所述目标第二三元组添加到目标产业链图谱,具体如实施例一中所述。
60.实施例三基于上述实施例一所述的从研报自动构建产业链图谱的方法,本发明还提供了一种终端,其原理框图可以如图6所示。该终端包括存储器10和处理器20,存储器10中存储有从研报自动构建产业链图谱的程序,该处理器10执行计算机程序时至少可以实现以下步骤:
载入面向研报的,含有目标实体类型、目标关系类型及目标属性类型的产业链图谱模式,在所述产业链图谱模式中预定义了需抽取的实体类型信息以及需抽取的三元组类型信息,所述三元组为第一三元组或第二三元组,所述第一三元组和所述第二三元组为结构为“头实体类型-关系类型-尾实体类型”,在所述第二三元组中,所述关系类型还包括至少一个与所述关系类型对应的属性对,所述属性对为简单属性对或复杂属性对,所述简单属性对包括一个第一属性和一个第二属性,所述第一属性为所述属性对的名称,所述第二属性为所述属性对的取值;所述复杂属性对包括一个第一属性和多个第二属性,所述复杂属性对中的所述第二属性包括所述复杂属性对的取值和至少一个对所述复杂属性对的约束;获取原始研报文档集合,分别对所述原始研报集合中的每一个原始研报文本进行预处理,得到目标文本,所述目标文本由非空句子序列组成;采用实体关系同步抽取模型同时抽取所述句子序列中的目标三元组和目标独立实体,所述目标三元组为目标第一三元组或初始第二三元组;采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对,所述目标属性对中包括目标第一属性和目标第二属性;对于包含属性对的句子序列,将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的一个或多个所述目标属性对;将所述目标第一三元组和所述目标第二三元组添加到目标产业链图谱。
61.其中,所述对所述原始研报集合中的每一个原始研报文本进行预处理,包括:通过光学字符识别技术对所述原始研报文本进行文本识别,得到方便读写的第一文字文本;对所述第一文字文本进行文本清洗,去除所述第一文字文本中的噪音字符,得到第二文字文本,所述噪音字符为对真实文本无实际描述作用的字符;对所述第二文字文本进行分句处理,将所述第二文字文本划分为非空句子序列,得到所述目标文本。
62.其中,所述实体关系同步抽取模型包括句子序列编码模块,子任务特征选择模块和子任务目标信息预测模块;所述句子序列编码模块基于已标注实体和关系信息的训练集和验证集,采用通用预训练模型对所述句子序列进行编码,得到目标向量;所述子任务特征选择模块用于获取实体抽取子任务和关系预测子任务分别对应的特征信息,所述实体抽取子任务用于根据所述目标向量抽取所述句子序列中的目标实体片段;所述子任务目标信息预测模块基于所述实体抽取子任务的特征信息判断所述目标实体片段的类型是否属于所述目标实体类型,若是,则保留所述目标实体片段,若不是,则丢弃所述目标实体片段;所述子任务目标信息预测模块还基于所述关系预测子任务的特征信息判断所述实体对之间的关系,得到目标关系的特征表示,根据所述目标关系的特征表示判断所述目标关系的类型是否属于所述目标关系类型,若是,则保留所述目标关系,若不是,则丢弃所
述目标关系;根据所述目标实体片段及其对应的目标关系,得到目标三元组,没有对应关系的所述目标实体片段则为所述目标独立实体信息。
63.其中,所述抽取含有指标描述的句子序列中的目标属性对,包括:判断所述句子序列是否包含指标,若包含指标,则采用所述指标属性抽取模型抽取所述句子序列中的目标属性对;所述目标属性对为简单属性对或复杂属性对。
64.其中,所述将获取到的一个或多个所述目标属性对与所述初始第二三元组进行匹配对齐,包括:将获取到的所述目标属性对中的所述目标第二属性与对应的所述初始第二三元组进行匹配对齐,其中,所述目标第二属性中的部分属性与对应的所述初始第二三元组的关系进行对齐,所述目标第二属性中的另一部分部分属性对应的取值与所述三元组中头实体或尾实体进行匹配对齐,得到目标第二三元组,所述目标第二三元组中包含了所述初始第二三元组和所述初始第二三元组对应的属性信息。
65.其中,所述目标实体类型的列表根据所述目标文本和所述目标任务场景需求动态调整;所述目标关系类型的列表根据所述目标实体类型和所述目标文本动态调整;所述目标属性类型的列表根据所述目标属性类型和所述目标文本动态调整。
66.实施例四本发明还提供了一种存储介质,存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例所述的从研报自动构建产业链图谱的方法的步骤。
67.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献