一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于知识图谱辅助的文本处理方法和装置与流程

2022-06-05 12:50:03 来源:中国专利 TAG:


1.本说明书的实施方式涉及计算机技术领域,更具体地,本说明书的实施方式涉及一种基于知识图谱辅助的文本处理方法和装置。


背景技术:

2.本部分旨在为权利要求书中陈述的本说明书的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.对文本的处理,通常包括对文本的理解和分析,是自然语言处理领域的研究目标之一。而对文本的处理,通常是依赖人工智能模型来完成的。在实际应用中,可以将文本处理成特征向量,再将特征向量作为特征样本输入到人工智能模型进行计算,以完成针对该文本的处理。
4.例如,以针对文本进行分类预测为例,通常可以从文本中提取出若干文本特征构建成特征向量,再将该特征向量作为分类特征样本输入到用于对文本进行分类预测的人工智能模型中进行预测计算,再根据该人工智能模型输出的预测结果,为该文本标记相应的分类标签。


技术实现要素:

5.为克服相关技术中存在的问题,本说明书提供了以下方法及装置。
6.在本说明书实施方式的第一方面中,提供了一种基于知识图谱辅助的文本处理方法,所述方法包括:
7.获取目标企业的知识图谱,以及,获取与所述目标企业相关的新闻文本;其中,所述知识图谱描述了所述目标企业与若干其它企业之间的关系;
8.生成所述知识图谱对应的图向量,以及,生成与所述新闻文本中包括的各个句子分别对应的句子向量;
9.分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度,并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述新闻文本对应的目标向量;其中,所述目标向量用于作为分类特征样本针对所述目标对象企业进行风险分类预测。
10.在本说明书实施方式的第二方面中,提供了一种文本处理方法,所述方法包括:
11.获取目标对象的关系图,以及,获取与所述目标对象相关的文本;其中,所述关系图描述了所述目标对象与若干其它对象之间的关系;
12.生成所述关系图对应的图向量,以及,生成与所述文本中包括的各个句子分别对应的句子向量;
13.分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度,并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述文本对应的目标向量;其中,所述目标向
量用于作为分类特征样本针对所述目标对象进行分类预测。
14.在本说明书实施方式的第三方面中,提供了一种基于知识图谱辅助的文本处理装置,所述装置包括:
15.第一对象获取单元,用于获取目标企业的知识图谱,以及,获取与所述目标企业相关的文本;其中,所述知识图谱描述了所述目标企业与若干其它企业之间的关系;
16.第一向量生成单元,用于生成所述知识图谱对应的图向量,以及,生成与所述新闻文本中包括的各个句子分别对应的句子向量;
17.第一加权计算单元,用于分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度,并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述新闻文本对应的目标向量;其中,所述目标向量用于作为分类特征样本针对所述目标企业进行风险分类预测。
18.在本说明书实施方式的第四方面中,提供了一种文本处理装置,所述装置包括:
19.第二对象获取单元,用于获取目标对象的关系图,以及,获取与所述目标对象相关的文本;其中,所述关系图描述了所述目标对象与若干其它对象之间的关系;
20.第二向量生成单元,用于生成所述关系图对应的图向量,以及,生成与所述文本中包括的各个句子分别对应的句子向量;
21.第二加权计算单元,用于分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度,并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述文本对应的目标向量;其中,所述目标向量用于作为分类特征样本针对所述目标对象进行分类预测。
22.在本说明书实施方式的第五方面中,提供了一种存储介质;所述存储介质上存储有计算机程序,该计算机程序执行时实现如下所述方法的步骤:
23.获取目标企业的知识图谱,以及,获取与所述目标企业相关的新闻文本;其中,所述知识图谱描述了所述目标企业与若干其它企业之间的关系;
24.生成所述知识图谱对应的图向量,以及,生成与所述新闻文本中包括的各个句子分别对应的句子向量;
25.分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度,并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述新闻文本对应的目标向量;其中,所述目标向量用于作为分类特征样本针对所述目标对象企业进行风险分类预测。
26.在本说明书实施方式的第六方面中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如下方法:
27.获取目标企业的知识图谱,以及,获取与所述目标企业相关的新闻文本;其中,所述知识图谱描述了所述目标企业与若干其它企业之间的关系;
28.生成所述知识图谱对应的图向量,以及,生成与所述新闻文本中包括的各个句子分别对应的句子向量;
29.分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度,并将与
所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述新闻文本对应的目标向量;其中,所述目标向量用于作为分类特征样本针对所述目标对象企业进行风险分类预测。
30.在本说明书以上的实施方式,至少具有如下的有益效果:
31.在以上技术方案中,在对目标企业进行风险分类预测时,通过生成目标企业的知识图谱对应的图向量,与目标对象相关的新闻文本包括的各个句子对应的句子向量,并基于各个句子向量与图像量之间的相似度,为各句子向量设置权重,可以将作为样本特征的图向量和句子向量进行特征融合,从而可以在句子向量的基础上,引入额外的样本特征,对用于分类预测的特征样本进行扩展,进而提升对目标企业进行风险分类预测的准确度。
附图说明
32.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
33.图1示意性地示出了根据本说明书实施方式的一种基于知识图谱辅助的文本处理系统的架构示意图;
34.图2示意性地示出了根据本说明书实施方式的一种文本处理方法的流程图;
35.图3示意性地示出了根据本说明书实施方式的一种基于知识图谱辅助的文本处理方法的流程图;
36.图4示意性地示出了根据本说明书实施方式的一种基于知识图谱辅助的文本处理方法的示意图;
37.图5示意性地示出了根据本说明书实施方式的基于知识图谱辅助的一种文本处理装置的框图;
38.图6示意性地示出了根据本说明书实施方式的一种文本处理装置的框图;
39.图7示意性地示出了根据本说明书实施方式的一种基于知识图谱辅助的文本处理装置所在计算机设备的一种硬件结构图。
40.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
41.下面将参考若干示例性实施方式来描述本说明书的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书,而并非以任何方式限制本说明书的范围。相反,提供这些实施方式是为了使本说明书更加透彻和完整,并且能够将本说明书的范围完整地传达给本领域的技术人员。
42.本领域技术人员知道,本说明书的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本说明书可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
43.针对一个对象进行分类预测时,通常可以采集与该对象相关的文本,再从这些文本中提取特征,以进行分类预测。
44.例如,以针对企业进行风险预测为例,可以从与目标企业相关的新闻文本中提取相关特征,以预测其可能存在的风险。
45.在实际应用中,仅依据从文本中提取到的特征,来进行分类预测,采用的样本特征较单一,忽略了与目标对象相关的除了文本特征以外的其它形式的特征。
46.有鉴于此,本技术提出一种将从用于描述目标对象与若干其它对象之间的关系的关系图中提取到的特征,和从与目标对象相关的文本中提取到的特征进行特征融合,并将融合得到的特征作为针对目标对象进行分类预测的分类特征的技术方案。
47.例如,以上述目标对象为企业为例,可以将用于描述目标企业与若干其它企业之间的关系的知识图谱中提取到的特征,和从与目标企业相关的新闻文本中提取到的特征进行特征融合,并将融合得到的特征作为针对目标企业进行风险分类预测的分类特征。
48.在实现时,可以分别生成上述关系图对应的图向量,以及上述文本中包括的各个句子分别对应的句子向量;再分别计算各个句子对应的句子向量与所述图向量之间的相似度,并将与各个句子对应的相似度作为与各个句子对应的权重,针对与各个句子对应的句子向量进行加权平均计算,从而得到与上述文本对应的目标向量,以作为分类特征样本针对所述目标对象进行分类预测。
49.基于以上技术方案,在以上技术方案中,在对目标对象进行分类预测时,通过计算目标对象的关系图对应的图向量,与目标对象相关的文本包括的各个句子对应的句子向量,并基于各个句子向量与图像量之间的相似度,为各句子向量设置权重,可以将作为样本特征的图向量和句子向量进行特征融合,从而可以在句子向量的基础上,引入额外的样本特征,对用于分类预测的特征样本进行扩展,进而提升文本分类预测的准确度。
50.以下将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
51.需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
52.图1是一示例性实施例提供的一种文本处理系统的架构示意图。如图1所示,该系统可以包括网络10、服务器11、若干电子设备,如手机12、手机13和手机14等。
53.服务器11可以为包含一独立主机的物理服务器,或者该服务器11可以为主机集群承载的虚拟服务器、云服务器等。手机12-14只是用户可以使用的一种类型的电子设备。实际上,用户显然还可以使用诸如下述类型的电子设备:平板设备、笔记本电脑、掌上电脑(pdas,personal digital assistants)、可穿戴设备(如智能眼镜、智能手表等)等,本说明书一个或多个实施例并不对此进行限制。网络10可以包括多种类型的有线或无线网络。
54.在一实施例中,服务器11可以与手机12-14进行配合;其中,可由手机12-14接受用户操作,并将接受到的命令和文件通过网络10上传至服务器11,然后由服务器11基于本说
明书的方案对文件进行处理。在另一实施例中,手机12-14可以独立实现本说明书的文本处理方案;其中,由手机12-14接受用户操作,并基于本说明书的方案对接受的命令和文件进行处理,以实现文本处理。
55.下面结合附图对本说明书的方案进行详细说明。
56.请参见图2,图2是一示例性实施例提供的一种文本处理方法的流程图,所述方法该方法应用于处理设备,该处理设备例如可以为图1所示的服务器11或手机12-14等。所述方法执行以下步骤:
57.步骤202,获取目标对象的关系图,以及,获取与所述目标对象相关的文本;
58.上述目标对象,可以包括任意类型的可作为分类预测目标的对象。例如,在一个例子中,上述分类预测具体可以是风险分类预测;上述目标对象可以是用于进行风险分类预测的企业。
59.在实际应用中,在针对目标对象进行分类预测时,通常可以获取与目标对象相关的文本,再从获取到的文本中提取文本特征作为分类特征进行分类预测。
60.例如,以针对目标企业进行风险分类预测为例,所述文本可以包括与目标企业相关的新闻文本,在针对目标企业进行风险分类预测时,可以从与目标企业相关的新闻文本中提取文本特征作为分类特征来进行分类预测。
61.在本说明书中,在针对目标对象进行分类预测时,除了可以采用从与目标对象相关的文本中提取到的特征作为分类特征以外,还可以采用与目标对象相关的除了文本特征以外的其它形式的特征作为分类特征。
62.其中,在实际应用中,在对目标对象进行分类预测时,仅采用从与该目标对象相关的文本中提取到的文本特征作为分类特征,可能会忽略那些能够描述目标企业自身特点的特征。基于此,在本说明书中,以上描述的与目标对象相关的其它形式的特征,具体可以采用从能够描述目标对象自身特点的信息中提取到的特征。
63.例如,以对以针对目标企业进行风险分类预测为例,在这种情况下,上述能够描述目标对象自身特点的信息,具体可以是能够描述目标企业自身的风险的信息。
64.在示出的一种实施方式中,上述能够描述目标对象自身特点的信息,具体可以包括能够描述目标对象与若干其它对象之间的关系的关系图。
65.需要说明的是,图(gragh)是一种表示对象之间存在某种关系的数据结构。上述关系图是图的一种具体的形式。
66.例如,以上述目标对象为目标企业为例,在这种情况下,上述关系图具体可以是能够描述该目标企业与其它企业之间的关系的知识图谱(knowledge graph)。
67.在上述关系图中,具体可以包括若干节点,任意两个节点之间可以通过边进行连接。所述节点可以代表对象,在上述知识图谱中具体可以包括代表所述目标对象的节点,和代表与所述目标对象具有关联关系的其他对象的节点。而节点之间的边,具体可以表示节点所代表的对象之间的关联关系。所述节点对应的节点内容可以包括节点所代表的对象对应的若干维度的特征。
68.例如,当对象为企业时,关联关系可以包含投资关系、分支公司关系、共同高管关系、共同法人关系等。关系图中的节点还可以包括节点所代表的对象对应的若干特征。这些特征通常与需要预测的分类存在关联。因此,也可以提取这些特征,并与从文本中提取的特
征进行融合,以增加分类预测的准确性。
69.例如,当对象为企业,需要分类预测的信息包括企业风险信息时,上述对象对应的若干特征可以包括企业的工商事件标签特征,比如行政处罚次数、失信次数、被执行次数等。
70.在本说明书中,当处理设备在确定了需要进行分类预测的目标对象后,可以获取与该目标对象相关的文本;以及,获取目标对象的关系图。比如,以上述目标对象为目标企业为例,可以获取该目标企业的知识图谱。
71.其中,对于获取与该目标对象相关的文本的方式,例如,可以通过网络搜集,也可以通过商业采购,或其他合理的方式,本说明书不对此进行具体限定。
72.在本技术的一个示例性的实施例中,可以使用网络爬虫,将该目标对象的名称作为关键词,对该目标对象相关的文本进行爬取。
73.类似的,对于获取该目标对象的关系图的方式,可以直接获取已有的目标对象的关系图,也可以根据目标对象相关的信息,构建该目标对象的关系图,本说明书也不对此进行具体限定。
74.在本技术的一个示例性的实施例中,在获取目标对象的关系图时,可以首先将该目标对象作为关系图的元节点,然后获取与目标对象存在关联关系的其他对象作为关系图的节点,通过关联关系与元节点进行连接。其中,节点间关联关系可以是一级关联关系,也可以是多级关联关系。再将包括节点所代表的对象对应的若干维度的特征作为节点的内容,添加到关系图中。
75.步骤204,生成所述关系图对应的图向量,以及,生成与所述文本中包括的各个句子分别对应的句子向量;
76.进行分类预测,通常需要将获取到的关系图和文本转化为向量的形式。
77.在这种情况下,一方面,可以进一步生成与获取到的目标对象的关系图对应的图像量其中,生成与上述关系图对应的图像向量的具体方式,在本说明书中不进行特别限定;
78.例如,在实际应用中,可以采用基于深度学习的向量生成模型,来生成与上述关系图对应的向量。比如,上述向量生成模型具体可以是graphsage模型,gat模型,或gcn模型等图神经网络模型。
79.在实际应用中,由于关系图中的节点可能较多,节点间的关联关系可能比较复杂;比如,包括n级关系;为了降低计算量,可以对关系图进行简化,降低生成图向量时的计算复杂度,例如,只保留关系图中与元节点的关联关系在三级以内的节点。
80.另一方面,还可以进一步生成与获取到的与目标对象相关的文本包含的句子对应的句子向量,其中,与获取到的与目标对象相关的文本包含的句子对应的句子向量的具体方式,在本说明书中不进行特别限定;
81.可以理解的是,本说明书中的句子可以根据需要采用不同的方式进行划分,例如可以通过句号、问号、感叹号等传统分句符号进行划分,也可以通过逗号、分号等其他标点符号划分,还可以通过特定的字符例如空格等进行划分,本说明书不对此进行具体限定。
82.例如,在实际应用中,可以采用基于深度学习的向量生成模型,来生成与上述句子对应的句子向量。比如,上述向量生成模型具体可以是one-hot编码模型,word2vec模型,或transformer模型等神经网络模型。
83.步骤206,针对每个句子,计算所述句子向量与所述图向量之间的第一相似度,并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述文本对应的目标向量;
84.在本说明书中,当生成了与上述关系图对应的图向量,以及,与上述文本中包括的各个句子分别对应的句子向量之后,可以进一步将上述句子向量作为表征文本特征的向量,与上述图向量进行特征融合。其中,本说明书不对具体融合方式不进行特别限定。
85.在本说明书示出的一个示例性实施例中,可以使用将目标对象对应的关系图的图向量与文本对应的各个句子的句子向量的相似度作为加权值,对句子向量进行加权计算的方式,实现上述句子向量和图向量的融合。
86.在这种情况下,可以先计算各个句子对应的句子向量和上述图向量的向量分布相似度,作为各个句子对应的第一相似度。根据需要可以采用不同的相似度算法,例如点积相似度、余弦相似度、或欧几里得相似度等,本说明书不对此进行具体限定。
87.进一步的,可以基于计算得到的第一相似度,作为每个句子的权重,针对与所述各个句子对应的句子向量进行加权平均计算。
88.可以将各个句子向量构成一个句子向量矩阵,再基于各个句子向量与图向量的第一相似度,构成一个权重矩阵(attention矩阵);针对上述句子向量矩阵和权重矩阵进行矩阵运算,以完成针对句子向量的基于第一相似度的加权平均计算。
89.由于句子向量是深度学习模型从句子中学习到的特征构成的特征向量,而图向量是深度学习模型从关系图中学习到的特征构成的特征向量。
90.对于一个句子向量而言,如果其包含一个与图向量中包含的特征关联度比较高的特征,那么通常该句子向量与图向量的相似度会更高。因此,如果将相似度作为权重,会对这类包含关联特征的句子向量设置更高的权重,并通过该权重提醒分类模型更加关注这类特征。反之,对于不包含关联特征的句子向量,分类模型将淡化这类特征。
91.例如,当目标对象为企业,需要分类预测的信息包括企业风险信息时,与目标对象相关的文本可以为该企业的新闻文本,上述关系图可以为描述企业之间的关系的知识图谱;若该知识图谱中包含了与对象企业具有共同高管关系的某企业和云计算产业关联度比较大并且有较多诉讼记录的信息;新闻文本中包含以下句子:句子s1描述了电商产业相关的整体风险,句子s2描述了云计算产业相关的整体风险,句子s3描述诉讼相关的整体风险,句子s4描述了破产相关的整体风险,句子s1、s2、s3、s4对应的句子向量分别为v1、v2、v3、v4;
92.由于句子s2相对于s1、句子s3相对于句子s4,和知识图谱中包含的特征信息,即云计算产业信息和诉讼信息的关联更为紧密,那么句子向量v2相对于句子向量v1,句子向量v3相对于句子向量v4,应当与上述图向量具有更高的关联度,可以设定更高的权值,那么分类模型就会更加关注句子向量v2和句子向量v3所包含的特征。
93.在本说明书中的另一个示例性的实施中,可以采用将上述图向量和句子向量直接进行向量拼接的方式进行向量融合。
94.在本说明书中,通过特征融合得到目标向量,可以进一步作为分类模型的输入,进行分类预测。
95.例如,可以将上述加权平均计算得到的向量,作为上述文本对应的目标向量。
96.可以理解的是,上述目标向量可以作为分类模型的输入,可以在标注上相应的分类结果后,用于文本分类模型的训练;也可以在文本分类模型训练完成后,作为输入,进行文本分类的预测。
97.例如,仍以企业风险分类预测为例,针对上面两种情况分别举例子。比如第一种情况,可以准备大量新闻,通过人工打标,将这些新闻打上对应的风险信息标签;再针对每一个新闻通过以上描述的方式,得到一个目标向量,再将各个新闻对应的目标向量构建成样本集,将这个样本集中的一部分样本划分为训练集和测试集,训练文本分类模型。
98.又比如第二种情况,可以在文本分类模型训练完成后,将需要进行分类预测的目标企业的新闻文本通过以上描述的方式,得到一个目标向量,通过该文本分类模型进行预测,得到该目标企业可能存在的风险。
99.在本说明书中,对于待分类的目标对象,目标对象可能隶属的类别可以包括两种,也可以包括多种,本说明书不对此做出具体限定。
100.在示出的一个示例性实施例中,如果上述目标对象可能隶属于多种类别,在这种情况下,本说明书中所述文本分类预测可以包括多标签分类预测。
101.请参见图3,图3是一示例性实施例提供的一种基于知识图谱辅助的文本处理方法的流程图,所述方法仍然可以应用于处理设备,该处理设备例如仍然可以为图1所示的服务器11或手机12-14等。所述方法执行以下步骤:
102.步骤301,获取目标企业的知识图谱,以及,获取与所述目标企业相关的新闻文本;其中,所述知识图谱描述了所述目标企业与若干其它企业之间的关系;
103.具体步骤如前所述,此处不在进行赘述。
104.步骤302:将所述知识图谱输入至基于深度学习的第一向量生成模型,得到与所述知识图谱对应的图向量;
105.通过上述知识图谱得到对应的图向量,可以通过深度学习模型实现。将上述知识图谱输入到第一向量生成模型中,通过处理,可以得到对应的图向量。其中,上述第一向量模型可以根据需要采用不同的向量模型,例如graphsage模型,gat模型或gcn模型等图神经网络模型,本技术不进行具体限定。
106.在示出的一个示例性实施例中,所述基于深度学习的第一向量生成模型包括graphsage模型;
107.由于graphsage模型在每次训练和预测时只使用整张图中所有节点中的少量部分节点,并且训练出来的模型对新增节点的预测效果较好,具有良好的性能,因此可以采用graphsage模型进行图向量的生成。
108.步骤303:生成与所述新闻文本对应的全文向量;
109.由于与目标企业相关的新闻文本的全文,也包含了对于预测该企业的风险分类有较重要作用的较多信息量,因此,可以生成与上述新闻文本对应的全文向量;
110.其中,生成与上述新闻文本对应的全文向量的具体方式,在本说明书中不进行特别限定;
111.例如,在实际应用中,可以采用基于深度学习的向量生成模型,来生成与上述文本对应的全文向量。比如,上述向量生成模型具体可以是one-hot编码模型,word2vec模型,或transformer模型等神经网络模型。
112.步骤304:将所述新闻文本中包括的各个句子分别输入至基于深度学习的第二向量生成模型,得到与所述各个句子分别对应的句子向量;
113.通过上述各个句子得到的对应的句子向量,可以通过深度学习方法进行。将上述各个句子输入到第二向量生成模型中,通过处理,可以得到各个句子对应的句子向量。其中,上述第一向量模型可以根据需要采用不同的向量模型,例如one-hot编码模型,word2vec模型,或transformer模型等神经网络模型,本技术不进行具体限定。
114.在示出的一个示例性实施例中,所述基于深度学习的第二向量生成模型包括transformer模型。
115.transformer模型具有良好的并行性,并且能够较好的处理依赖关系,具有良好的综合性能,因此可以选择transformer模型进行文本向量的生成,包括全文向量和句子向量的生成。
116.步骤305:获取所述新闻文本中的中心句,并获取所述中心句的句子向量,作为中心句向量;
117.可以将新闻文本中包含与目标企业相关的关键词的句子作为关键句。显而易见的,包含与目标企业相关的关键词的句子通常在对目标企业进行预测分类时,可以具有更重要的作用。
118.上述与目标企业相关的关键词可以是与目标企业高度关联的关键词,例如目标企业的名称、别名、代号等,本说明书不对此做出具体限定。
119.步骤306:分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度;
120.具体步骤如前所述,此处不在进行赘述。
121.步骤307:针对每个句子,计算所述句子向量与所述中心句向量之间的第二相似度;
122.如上所述,新闻文本的中心句通常在对目标企业进行风险分类预测时,可以具有更重要的作用。那么新闻文本中各个句子中,对应的句子向量和新闻文本的中心句向量之间的关联程度越高的句子,通常也能在对目标企业进行风险分类预测时,可以具有更重要的作用。
123.因此,可以进一步将上述中心句向量和句子向量进行融合,融合的具体方式,本说明书不对此进行具体限定。
124.例如,可以使用新闻文本中各个句子对应的句子向量和新闻文本的中心句向量之间的向量分布相似度,作为第二相似度,来作为每个句子对应的句子向量的权重,对句子向量进行加权计算,以此实现上述中心句向量和句子向量的融合。
125.又例如,可以将上述中心句向量和句子向量直接进行拼接,以实现上述中心句向量和句子向量的融合。
126.计算各个句子对应的句子向量和文本的中心句的向量分布相似度时,根据需要可以采用不同的相似度算法,例如点积相似度、余弦相似度、或欧几里得相似度等,本说明书不对此进行具体限定。
127.如上所述,若句子和中心句之间的关联程度越高,通常该句子的重要程度也越高。而句子和中心句的关联程度可以包括句子的内容和中心句的关联程度,以及句子和中心句
的位置的关联程度。通常,中心句附近的句子,也会具有更高的重要性。
128.因此,可以使用能同时包含句子内容特征的向量和包含句子位置特征的向量进行融合,得到句子向量。具体的包含句子内容特征的向量和包含句子位置特征的向量的融合方式,本说明书不对此进行限定。
129.在示出的一个示例性的实施例中,可以将句子的文本对应的文本向量和与句子在所述新闻文本中的位置对应的位置向量拼接得到的向量作为句子对应的句子向量。
130.其中,上述句子对应的文本向量和位置向量都可以根据需要采用不同的神经网络模型生成,本说明书不对此进行具体限定。例如,one-hot编码模型,word2vec模型,或transformer模型等神经网络模型。
131.在本说明书示出的一个示例性的实施例中,上述位置向量可以参考transformer模型中的三角周期性函数进行赋值。
132.步骤308:将所述第一相似度与所述第二相似度的积,作为所述每个句子的权重,针对与所述各个句子对应的句子向量进行加权平均计算,计算各个句子的加权和;
133.由于新闻文本中的各个句子和上述图向量之间的第一相似度,以及和上述中心句向量之间的第二相似度,都能表征句子在对目标企业的风险分类预测中的重要程度。因此,可以将句子对应的上述第一相似度和第二相似度进行融合,作为句子的权重。其中,本说明书不对上述第一相似度和第二相似度进行融合的具体方式进行具体限定。
134.例如,可以将句子对应的上述第一相似度和第二相似度的积,作为句子的权重,以实现上述第一相似度和第二相似度进行融合;又例如,可以将句子对应的上述第一相似度和第二相似度的和,作为句子的权重,以实现上述第一相似度和第二相似度进行融合。
135.在本说明书示出的一个示例性的实施例中,使用上述第一相似度与上述第二相似度的积,作为所述每个句子的权重,针对与所述各个句子对应的句子向量进行加权平均计算。
136.可以将各个句子向量构成一个句子向量矩阵,再基于各个句子向量对应的上述第一相似度与上述第二相似度的积,构成一个权重矩阵(attention矩阵);针对上述句子向量矩阵和权重矩阵进行矩阵运算,以完成针对句子向量的上述第一相似度与上述第二相似度的积的加权平均计算。
137.步骤309:将所述加权平均计算得到的向量,与所述图向量、所述全文向量、所述中心句向量进行拼接,得到与所述新闻文本对应的目标向量;所述目标向量用于作为分类特征样本针对所述目标企业进行风险分类预测。
138.由于上述加权平均计算得到的向量,上述图向量,上述全文向量,上述中心句向量各自都包含了对目标企业的风险分类预测有价值的信息;
139.因此,可以将上述加权平均计算得到的向量分别和上述图向量,上述全文向量,上述中心句向量中的一个或多个进行特征融合,以得到与所述新闻文本对应的目标向量。其中,对于上述特征融合的具体方式,本说明书不进行具体限定。
140.在本说明书示出的一个示例性的实施例中,可以将上述加权平均计算得到的向量和上述图向量进行拼接,得到与所述新闻文本对应的目标向量。
141.在本说明书示出的另一个示例性的实施例中,可以将上述加权平均计算得到的向量和上述全文向量进行拼接,得到与新闻所述文本对应的目标向量。
142.在本说明书示出的另一个示例性的实施例中,可以将上述加权平均计算得到的向量和上述中心句向量进行拼接,得到与所述新闻文本对应的目标向量。
143.在本说明书示出的另一个示例性的实施例中,可以将上述加权平均计算得到的向量和上述图向量、上述全文向量,上述中心句向量进行拼接,得到与所述新闻文本对应的目标向量。
144.以下以上述目标对象为企业为例,对以上实施例进行详细描述。
145.请参见图4,图4是本说明书实施方式的一种基于知识图谱辅助的文本处理方法的示意图。
146.由于只根据相关新闻对目标企业进行风险分类预测,容易忽略企业本身存在的风险,以及企业本身的风险与这些新闻之间的相关关系,因此风险分类预测的结果可能会不够准确。因此,可以通过引入与企业本身的风险相关的信息,例如企业的知识图谱信息,来辅助新闻文本,对目标企业进行风险分类预测。
147.目标企业的知识图谱包括代表了目标企业以及与其有一级或多级关联关系的若干企业的各个节点,节点之间的连线代表了企业之间的关联关系,上述关联关系可以包括投资关系、分支公司关系、共同高管关系、共同法人关系等关系。目标企业的知识图谱上的每个节点中还包括了节点代表的企业的若干风险特征,例如行政处罚次数、失信次数、被执行次数等工商事件特征。
148.除了目标企业相关的新闻文本的全文外,新闻文本中每个句子都可能包含了不同的与目标企业风险相关的信息,因此利用神经网络模型与目标企业相关的新闻文本全文的全文向量,以及每个句子对应的句子向量。类似的,利用图神经网络模型,生成目标企业的知识图谱对应的图向量。
149.在实际场景中,通常企业相关新闻中,中心句包含的信息往往是最重要的,其中中心句指直接包含目标企业重要信息的句子,比如直接包含目标企业名称、简称、法人姓名等信息的句子。中心句的句子向量包含的信息比其他句子的句子向量更多。
150.综上,上述全文向量,各个句子向量,以及中心句向量,或这些向量之间的结合,都可以作为表征新闻文本中的信息的文本向量。
151.而图向量携带企业及其相关企业自身的风险信息,将上述文本向量与图向量进行融合,可以得到融合了文本向量和图向量中特征的目标向量,以用于对目标企业风险分类预测。
152.具体的融合方式可以按如下方式进行:
153.由于新闻文本中的各个句子的重要程度往往和上述企业图谱之间的关联程度有关,与企业图谱关联程度越大则重要程度通常也最高。因此可以计算各个句子的句子向量和图向量之间的第一相似度,并将其作为各个句子向量对应的权重,对各句子向量进行加权运算,得到加权结果;上述向量间的相似度可以使用点积相似度或余弦相似度。
154.类似的,新闻文本中的各个句子的重要程度往往和中心句之间的关联程度有关,与中心句位置越接近、内容越相似则重要程度通常也最高。因此可以计算各个句子的句子向量和中心句向量之间的第二相似度,将其作为各个句子向量对应的权重,对各句子向量进行加权运算,得到加权结果;
155.同时考虑上述两者,可以将上述第一相似度和第二相似度进行结合,例如使用第
一相似度和第二相似度的积作为各个句子向量对应的权重,对各句子向量进行加权运算,得到加权结果。
156.可以使用该加权结果,作为目标向量,用于企业的风险分类预测。由于上述全文向量、中心句向量、图向量也各自携带了目标企业相关的风险信息,因此也可以在该加权结果的基础上,再拼接上述全文向量、中心句向量、图向量,来作为目标向量,用于企业的风险分类预测。
157.在本说明书的示例性实施例中,还提供了一种基于知识图谱辅助的文本处理装置。请参见图5,图5是本说明书实施方式的一种基于知识图谱辅助的文本处理装置的框图。
158.该装置应用于客户端,包括:
159.第一对象获取单元510,用于获取目标企业的知识图谱,以及,获取与所述目标企业相关的文本;其中,所述知识图谱描述了所述目标企业与若干其它企业之间的关系;
160.第一向量生成单元520,用于生成所述知识图谱对应的图向量,以及,生成与所述新闻文本中包括的各个句子分别对应的句子向量;
161.第一加权计算单元530,用于分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度,并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述新闻文本对应的目标向量;其中,所述目标向量用于作为分类特征样本针对所述目标企业进行风险分类预测。
162.可选的,所述第一向量生成单元520具体用于:将所述知识图谱输入至基于深度学习的第一向量生成模型,得到与所述知识图谱对应的图向量;将所述新闻文本中包括的各个句子分别输入至基于深度学习的第二向量生成模型,得到与所述各个句子分别对应的句子向量;
163.可选的,所述第一向量生成单元520具体用于:将所述知识图谱输入至graphsage模型,得到与所述知识图谱对应的图向量;将所述新闻文本中包括的各个句子分别输入至transformer模型,得到与所述各个句子分别对应的句子向量;
164.可选的,所述第一向量生成单元520具体用于:生成与所述各个句子的文本对应的文本向量和与各个句子在所述文本中的位置对应的位置向量拼接得到的向量;
165.可选的,所述第一加权计算单元530具体用于:针对与所述各个句子对应的句子向量进行加权平均计算,并将加权平均计算得到的向量,与所述图向量进行拼接,得到与所述新闻文本对应的目标向量;
166.可选的,所述第一向量生成单元520还用于:生成与所述新闻文本对应的全文向量;
167.对应的,所述第一加权计算单元530具体用于:针对与所述各个句子对应的句子向量进行加权平均计算,并将加权平均计算得到的向量,与所述全文向量进行拼接,得到与所述新闻文本对应的目标向量;
168.可选的,所述第一加权计算单元530具体用于:针对与所述各个句子对应的句子向量进行加权平均计算,并将加权平均计算得到的向量,与所述中心句向量拼接,得到与所述新闻文本对应的目标向量;
169.可选的,所述第一加权计算单元530还用于:针对每个句子,计算所述句子向量与
所述中心句向量之间的第二相似度;将与所述各个句子对应的所述第一相似度和与所述各个句子对应的所述第二相似度的积,作为与所述各个句子对应的权重;
170.可选的,所述知识图谱包括若干节点;其中所述节点包括代表所述目标企业的节点,和代表与所述目标对象有关联关系的其他企业的节点;所述节点还包括节点所代表的企业对应的若干特征;
171.可选的,所述各个句子对应的句子向量与所述图向量之间的第一相似度,包括所述各个句子对应的句子向量与所述图向量之间的点积相似度,或所述各个句子对应的句子向量与所述图向量之间的余弦相似度。
172.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
173.在本说明书的示例性实施例中,还提供了一种文本处理装置。请参见图6,图6是本说明书实施方式的一种文本处理装置的框图。该装置应用于客户端,包括:
174.第二对象获取单元610,用于获取目标对象的关系图,以及,获取与所述目标对象相关的文本;其中,所述关系图描述了所述目标对象与若干其它对象之间的关系;
175.第二向量生成单元620,用于生成所述关系图对应的图向量,以及,生成与所述文本中包括的各个句子分别对应的句子向量;
176.第二加权计算单元630,用于分别计算所述各个句子对应的句子向量与所述图向量之间的第一相似度,并将与所述各个句子对应的所述第一相似度作为与所述各个句子对应的权重,针对与所述各个句子对应的句子向量进行加权平均计算,得到与所述文本对应的目标向量;其中,所述目标向量用于作为分类特征样本针对所述目标对象进行分类预测。
177.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
178.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
179.在本说明书的示例性实施例中,还提供了一种装置及其所应用的终端的实施例。
180.本说明书文本处理装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本说明书实施例文本处理装置所在计算机设备70的一种硬件结构图,除了图6所示的处理器712、内存730、网络接口720、以及非易失性存储器740之外,实施例中装置所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
181.在本说明书的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本说明书的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,
所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本说明书各种示例性实施例的步骤。
182.根据本说明书的实施例用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本说明书的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
183.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
184.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
185.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
186.可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
187.虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
188.类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统单元和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
189.由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
190.以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献