基于知识图谱的文本分类方法、系统及电子设备与流程

2022-03-23 09:07:00 来源：中国专利 TAG：

1.本发明涉及文本解析技术领域，尤其是涉及一种基于知识图谱的文本分类方法。

背景技术：

2.当今的互联网领域已深度进入了大数据时代，各社交网络平台、交流平台等每天产生大量的视频、声音、图片、文字等数据，而如何对这些数据进行有效解析并分类，对于服务端以及监管端而言是至关重要的。实际场景中，对于服务端而言，更精准的大数据解析能够对用户提供更加精准的广告推送服务；对于监管端而言，更精准的大数据解析有利于更加详细的收集用户的行为，并对其行为进行提前管控。
3.现有技术中对于网络平台数据的解析分类主要针对于文本数据，而对于文本数据的分类主要采用人工辨别的手段来实现，效率低下且错误率较高；随着自然语言处理技术的普及，利用相关卷积神经网络模型也实现了文本数据的类型解析过程，但现有的网络模型结构较为复杂，且解析精度还有待提高。
4.综上所示，现有技术中在文本的类型解析过程中还存在着精度低的问题。

技术实现要素：

5.有鉴于此，本发明的目的在于提供一种基于知识图谱的文本分类方法，该方法利用文本数据里的实体信息以及该实体在现有知识图谱中对应的一跳实体的信息对文本数据进行分类预测，通过突出实体信息并加入一些相关的外部信息使得句子向量包含的内容更加丰富，进一步提升文本分类精度。
6.第一方面，本发明实施例提供了一种基于知识图谱的文本分类方法，该方法包括以下步骤：
7.对待解析文本数据进行命名实体识别，确定待解析文本数据的实体向量以及句子向量；
8.利用已初始化的知识图谱确定实体向量对应的一跳实体向量；
9.根据已确定的一跳实体向量对实体向量进行更新，并利用已完成更新的实体向量对句子向量进行更新；
10.利用已完成更新的句子向量进行文本分类预测，得到待解析文本数据对应的文本类型。
11.在一些实施方式中，对待解析文本数据进行命名实体识别，确定待解析文本数据的实体向量以及句子向量的步骤，包括：
12.对待解析文本数据进行token化操作；
13.将已完成token化操作的待解析文本数据输入至bert模型中，得到待解析文本数据的隐藏表示结果以及句子向量；
14.根据待解析文本数据的隐藏表示结果确定待解析文本在每个token上的标准分类概率，并根据标准分类概率确定待解析文本的实体向量。
15.在一些实施方式中，bert模型的训练过程，包括：
16.获取用于模型训练的文本数据，并对文本数据实体类型以及文本类型进行标注；
17.将文本数据输入至已初始化的bert模型中，利用预设损失函数对bert模型进行训练；其中，损失函数为：
[0018][0019]
其中，n为样本数量；m为文本类型数量；g
ic
为符号函数；p
ic
为观测样本i属于类别c的预测概率；
[0020]
当损失函数的输出值低于预设阈值时，停止bert模型的训练。
[0021]
在一些实施方式中，根据已确定的一跳实体向量对实体向量进行更新，包括：
[0022]
从知识图谱中确定每个节点的第一特征向量；
[0023]
对第一特征向量进行线性变换，得到节点的第二特征向量；
[0024]
利用attention机制计算相邻节点的重要性得分，并根据重要性得分将第二特征向量确定节点的第三特征向量。
[0025]
在一些实施方式中，利用已完成更新的实体向量对句子向量进行更新的步骤，包括：
[0026]
获取节点的第三特征向量；
[0027]
将句子向量中节点对应的实体向量替换为节点的第三特征向量，得到第二句子向量。
[0028]
在一些实施方式中，利用已完成更新的句子向量进行文本分类预测，得到待解析文本数据对应的文本类型的步骤，包括：
[0029]
对已完成更新的句子向量进行平均池化操作，并根据池化结果确定句子向量对应的词向量；
[0030]
将词向量进行文本分类预测，确定词向量中包含的文本类型的概率分布；
[0031]
将概率分布中概率值最大的文本类型确定为待解析文本数据对应的文本类型。
[0032]
在一些实施方式中，将词向量进行文本分类预测，确定词向量中包含的文本类型的概率分布的步骤，包括：
[0033]
将句子向量对应的词向量输入至已初始化的线性层；
[0034]
利用softmax函数对已经过线性层的词向量进行计算，得到词向量中包含文本类型的概率分布。
[0035]
第二方面，本发明实施例提供了一种基于知识图谱的文本分类系统，该系统包括：
[0036]
命名实体识别模块，用于对待解析文本数据进行命名实体识别，确定待解析文本数据的实体向量以及句子向量；
[0037]
知识图谱计算模块，用于利用已初始化的知识图谱确定实体向量对应的一跳实体向量；
[0038]
向量更新模块，用于根据已确定的一跳实体向量对实体向量进行更新，并利用已完成更新的实体向量对句子向量进行更新；
[0039]
预测解析模块，用于利用已完成更新的句子向量进行文本分类预测，得到待解析文本数据对应的文本类型。
[0040]
第三方面，本发明实施例提供了一种电子设备，该电子设备包括：处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行如第一方面提到的基于知识图谱的文本分类方法的步骤。
[0041]
第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时实现上述第一方面提到的基于知识图谱的文本分类方法的步骤。
[0042]
本发明实施例带来了以下有益效果：本发明实施例提供了一种基于知识图谱的文本分类方法、系统及电子设备，该方法首先对待解析文本数据进行命名实体识别，确定待解析文本数据的实体向量以及句子向量；然后利用已初始化的知识图谱确定实体向量对应的一跳实体向量；再根据已确定的一跳实体向量对实体向量进行更新，并利用已完成更新的实体向量对句子向量进行更新；最后利用已完成更新的句子向量进行文本分类预测，得到待解析文本数据对应的文本类型。该方法利用文本数据里的实体信息以及该实体在现有知识图谱中对应的一跳实体的信息对文本数据进行分类预测，通过突出实体信息并加入一些相关的外部信息使得句子向量包含的内容更加丰富，进一步提升文本的分类精度。
[0043]
本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0044]
为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
[0045]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0046]
图1为本发明实施例提供的一种基于知识图谱的文本分类方法的流程图；
[0047]
图2为本发明实施例提供的一种基于知识图谱的文本分类方法中，步骤s101的流程图；
[0048]
图3为本发明实施例提供的一种基于知识图谱的文本分类方法中，bert模型的训练过程的流程图；
[0049]
图4为本发明实施例提供的一种基于知识图谱的文本分类方法中，根据已确定的一跳实体向量对实体向量进行更新的流程图；
[0050]
图5为本发明实施例提供的一种基于知识图谱的文本分类方法中，利用已完成更新的实体向量对句子向量进行更新的流程图；
[0051]
图6为本发明实施例提供的一种基于知识图谱的文本分类方法中，步骤s104的流程图；
[0052]
图7为本发明实施例提供的一种基于知识图谱的文本分类系统的结构示意图；
[0053]
图8为本发明实施例提供的一种电子设备的结构示意图。
[0054]
图标：
[0055]
710-命名实体识别模块；720-知识图谱计算模块；730-向量更新模块；740-预测解析模块；
[0056]
101-处理器；102-存储器；103-总线；104-通信接口。
具体实施方式
[0057]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0058]
当今的互联网领域已深度进入了大数据时代，各社交网络平台、交流平台等每天产生大量的视频、声音、图片、文字等数据，而如何对这些数据进行有效解析并分类，对于服务端以及监管端而言是至关重要的。实际场景中，对于服务端而言，更精准的大数据解析能够对用户提供更加精准的广告推送服务；对于监管端而言，更精准的大数据解析有利于更加详细的收集用户的行为，并对其行为进行提前管控。
[0059]
现有技术中对于网络平台数据的解析分类主要针对于文本数据，而对于文本数据的分类主要采用人工辨别的手段来实现，效率低下且错误率较高；随着自然语言处理技术的普及，利用相关卷积神经网络模型也实现了文本数据的类型解析过程，但现有的网络模型结构较为复杂，且解析精度还有待提高。
[0060]
综上所示，现有技术中在文本的类型解析过程中还存在着分类精度低的问题。
[0061]
针对上述问题，本发明提出一种基于知识图谱的文本分类方法、系统及电子设备，该方法利用文本数据里的实体信息以及该实体在现有知识图谱中对应的一跳实体的信息对文本数据进行分类预测，通过突出实体信息并加入一些相关的外部信息使得句子向量包含的内容更加丰富，进一步提升文本的分类精度。
[0062]
为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于知识图谱的文本分类方法进行详细介绍，该方法的流程图如图1所示，包括：
[0063]
步骤s101，对待解析文本数据进行命名实体识别，确定待解析文本数据的实体向量以及句子向量。
[0064]
待解析文本数据的分类过程中主要是对其隐含的内容进行分类，对这些待解析文本数据进行类型解析主要是对文本数据中的内容进行分析、归纳、推理，从而确定这些文本数据中包含的情感倾向性，如：喜怒哀乐、赞扬、诋毁等。在步骤s101中使用命名实体识别的方式来对待解析文本数据进行初步解析，命名实体识别(named entity recognition，简称ner)是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。
[0065]
具体的说，待解析文本可从某个社交平台中的用户描述文本数据，通过预设的实体类型和文本类型，确定待解析文本数据的实体向量以及句子向量。待解析文本数据的实体向量以及句子向量的获取过程还可根据相应的人工智能相关模型来实现，例如使用bert模型识别句中的实体向量以及句子向量。
[0066]
步骤s102，利用已初始化的知识图谱确定实体向量对应的一跳实体向量。
[0067]
实体向量以及文本向量中包含了实体类型以及文本类型，根据文本类型并从已有的知识图谱中找到识别出实体的所有一跳实体，并根据一跳实体确定对应的一跳实体向
量。
[0068]
步骤s103，根据已确定的一跳实体向量对实体向量进行更新，并利用已完成更新的实体向量对句子向量进行更新。
[0069]
一跳实体向量确定后，将该向量以及对应的一跳实体输入至相应的人工智能相关模型中，最终得到新的实体向量。值得一提的说，该步骤中提到的新的实体向量对应的是步骤s101中的实体向量，即通过步骤s102以及步骤s103之后将步骤s101的实体向量进行了更新。
[0070]
新的实体向量获取后，将句子向量中使用新的实体向量取代原来位置的实体向量，从而构成新的句子向量。
[0071]
步骤s104，利用已完成更新的句子向量进行文本分类预测，得到待解析文本数据对应的文本类型。
[0072]
新的句子向量中的组成部分为新的实体向量，这些新的实体向量相比初始的实体向量而言更加凸出了实体信息，并通过相关知识图谱加入了外部信息使得句子内容更加丰富。因此在利用已更新完成的句子向量进行文本分类预测时，可进一步提升文本分类的解析精度。
[0073]
在一些实施方式中，对待解析文本数据进行命名实体识别，确定待解析文本数据的实体向量以及句子向量的步骤s101，如图2所示，包括：
[0074]
步骤s201，对待解析文本数据进行token化操作。
[0075]
具体的说，待解析文本数据进行token化后如下表示：
[0076]
x＝[x1,x2…
xn]；
[0077]
其中，x
t
为在文本t位置的token。
[0078]
步骤s202，将已完成token化操作的待解析文本数据输入至bert模型中，得到待解析文本数据的隐藏表示结果以及句子向量。
[0079]
将已完成token化操作的待解析文本数据输入至bert模型后，得到文本的隐藏表示h＝[h1,h2…hn
]，该过程的表示式如下：
[0080]
h＝bert(x)。
[0081]
步骤s203，根据待解析文本数据的隐藏表示结果确定待解析文本在每个token上的标准分类概率，并根据标准分类概率确定待解析文本的实体向量。
[0082]
首先可根据bio的标注文本，构造出实体识别的标签g＝[g1,g2…gn
]。bio是将每个元素标注为“b-x”、“i-x”或者“o”。其中，“b-x”表示此元素所在的片段属于x类型并且此元素在此片段的开头，“i-x”表示此元素所在的片段属于x类型并且此元素在此片段的中间位置，“o”表示不属于任何类型。然后在将隐藏表示h＝[h1,h2…hn
]输入至相关指针网络中，从而得到待解析文本在每个token上的标准分类概率p＝[p1,p2…
pn]，并根据标准分类概率确定待解析文本的实体向量。
[0083]
在一些实施方式中，bert模型的训练过程，如图3所示，包括：
[0084]
步骤s301，获取用于模型训练的文本数据，并对文本数据实体类型以及文本类型进行标注。
[0085]
用于模型训练的文本数据可从多个社交平台中获取，获取到的文本数据按照预设的实体类型以及文本类型进行标注。文本类型设定完成后，生成确定格式的标注文本作为
训练数据和验证数据，最终用于模型的训练。
[0086]
步骤s302，将文本数据输入至已初始化的bert模型中，利用预设损失函数对bert模型进行训练；其中，损失函数为：
[0087][0088]
其中，n为样本数量；m为文本类型数量；g
ic
为符号函数；p
ic
为观测样本i属于类别c的预测概率。
[0089]
模型训练的过程中采用的损失函数也可为交叉熵函数及其变种，损失函数作为训练过程的重要参数，用于确定模型的性能并确定模型的训练程度。
[0090]
步骤s303，当损失函数的输出值低于预设阈值时，停止bert模型的训练。
[0091]
模型是否训练完成可根据损失函数的输出值来确定，当损失函数的输出值低于预设阈值时，表明模型当前性能已足够满足使用需求，因此可停止模型的训练，进而完成bert模型的训练过程。
[0092]
在一些实施方式中，根据已确定的一跳实体向量对实体向量进行更新，如图4所示，包括：
[0093]
步骤s401，从知识图谱中确定每个节点的第一特征向量。
[0094]
假设知识图谱中包含了n个节点，每个节点的特征向量为hi，则第一特征向量为h＝[h1,h2…hn
]。
[0095]
步骤s402，对第一特征向量进行线性变换，得到节点的第二特征向量。
[0096]
对第一特征向量h＝[h1,h2…hn
]进行线性变换，得到新的特征向量hi′
，线性变换矩阵记为w，则：
[0097]hi
′
＝whi；
[0098]h′
＝[h1′
,h2′…h′n]。
[0099]
步骤s403，利用attention机制计算相邻节点的重要性得分，并根据重要性得分将第二特征向量确定节点的第三特征向量。
[0100]
节点j是节点i的相邻节点，可使用attention注意力机制来计算节点j对于节点i的重要性，即attention score。具体的说，e
ij
为节点j对于节点j的重要性得分；a
ij
为重要性分布；ni为邻居集合：
[0101]eij
＝attention(whi,whj)，
[0102][0103]
经过attention之后，节点i的特征向量，即第三特征向量为其中，σ为无量纲系数。
[0104]
用上述得到的特征向量替换句子向量里对应的实体向量，构成一个新的句子向量。因此在一些实施方式中，利用已完成更新的实体向量对句子向量进行更新的过程，如图5所示，包括：
[0105]
步骤s501，获取节点的第三特征向量。
[0106]
以图4中实施例为例，第三特征向量即为
[0107]
步骤s502，将句子向量中节点对应的实体向量替换为节点的第三特征向量，得到第二句子向量。
[0108]
将第三特征向量替换句子向量h里对应的实体向量，构成一个新的句子向量h
′
。
[0109]
在一些实施方式中，利用已完成更新的句子向量进行文本分类预测，得到待解析文本数据对应的文本类型的步骤s104，如图6所示，包括：
[0110]
步骤s601，对已完成更新的句子向量进行平均池化操作，并根据池化结果确定句子向量对应的词向量。
[0111]
完成更新的句子向量获取后，对该句子向量进行平均池化操作，得到对应的词向量，该词向量用于进行文本分类预测过程。
[0112]
步骤s602，将词向量进行文本分类预测，确定词向量中包含的文本类型的概率分布。
[0113]
平均池化操作后得到的词向量经过一个线性层，然后利用softmax函数得到相应的概率分布，这个概率分布即为文本类型的概率分布，包含着该文本包含的所有分类结果的概率。
[0114]
步骤s603，将概率分布中概率值最大的文本类型确定为待解析文本数据对应的文本类型。
[0115]
从概率分布中获取概率值最大的文本类型，该文本类型就是待解析文本数据对应的文本类型。
[0116]
通过上述实施例提到的基于知识图谱的文本分类方法可知，该方法利用文本数据里的实体信息以及该实体在现有知识图谱中对应的一跳实体的信息对文本数据进行分类预测，并可利用上述数据来训练神经网络从而用于文本的分类过程，该方法对文本数据先进行命名实体识别，再根据已有的知识图谱寻找到识别出实体的所有一跳实体，再将该实体及其一跳实体放入相关神经网络中进行训练，并用新的实体向量替代原来的实体向量，通过突出实体信息和加入一些相关的外部信息使句子信息内容更加丰富，从而能够更好的完成文本分类的任务。
[0117]
对应于上述基于知识图谱的文本分类方法的实施例，本实施例还提供一种基于知识图谱的文本分类系统，如图7所示，该系统包括以下模块：
[0118]
命名实体识别模块710，用于对待解析文本数据进行命名实体识别，确定待解析文本数据的实体向量以及句子向量；
[0119]
知识图谱计算模块720，用于利用已初始化的知识图谱确定实体向量对应的一跳实体向量；
[0120]
向量更新模块730，用于根据已确定的一跳实体向量对实体向量进行更新，并利用已完成更新的实体向量对句子向量进行更新；
[0121]
预测解析模块740，用于利用已完成更新的句子向量进行文本分类预测，得到待解析文本数据对应的文本类型。
[0122]
本发明实施例所提供的基于知识图谱的文本分类系统，其实现原理及产生的技术效果和前述基于知识图谱的文本分类方法的实施例相同，为简要描述，实施例部分未提及
之处，可参考前述方法实施例中相应内容。
[0123]
本实施例还提供一种电子设备，为该电子设备的结构示意图如图8所示，该设备包括处理器101和存储器102；其中，存储器102用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述基于知识图谱的文本分类方法。
[0124]
图8所示的服务器还包括总线103和通信接口104，处理器101、通信接口104和存储器102通过总线103连接。
[0125]
其中，存储器102可能包含高速随机存取存储器(ram，random access memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线103可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
[0126]
通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的ipv4报文或ipv4报文通过网络接口发送至用户终端。
[0127]
处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成前述实施例的方法的步骤。
[0128]
本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述实施例的方法的步骤。
[0129]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0130]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0131]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0132]
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0133]
最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于物联网和区块链的农产品溯源系统的制作方法

基于知识图谱的文本分类方法、系统及电子设备与流程

相关文献

最热文献