一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

融合领域知识图谱的跨境民族文本分类方法及装置与流程

2022-02-20 00:24:40 来源:中国专利 TAG:

技术特征:
1.融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述方法的具体步骤如下:step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱;step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示;step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型;step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。2.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述step1的具体步骤为:step1.1、跨境民族文化知识图谱类别体系构建:将跨境民族文化文本数据分为六个大类,包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族;step1.2、跨境民族实体属性定义:跨境民族文化实体的属性包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签;针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注;step1.3、跨境民族关系属性定义:将跨境民族文化中的实体关系定义为以下几种:包含关系、属性关系、位置关系。3.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述step2的具体步骤为:step2.1、通过爬取各大网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词操作后获得跨境民族文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度集中在10到20个字符,正文的长度在100到250个字符之间,正文句子为5到10句;step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词;最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化;
step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展;实体的标签由实体的别称和实体的类别标签构成,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示、关系向量表示以及标签向量表示,最后把相应的实体向量和关系向量进行对位相加得到实体语义向量;最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。4.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述step3的具体步骤为:step3.1、使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向量表示,利用双向循环神经网络编码上下文信息的特性,进行跨境民族标题信息的编码;h
i
=bigru(x
i
),i∈[1,n]其中h
i
表示标题中第i个单词的前向和后向隐状态信息的结合将得到的跨境民族文化文本隐状态信息h
i
输入到掩码自注意力机制网络中,利用掩码自注意力机制捕获上下文特征的特点,提取跨境民族标题中的关键信息,并忽略不重要的信息;f(h
i
,h
j
)=c
·
tanh([w
(1)
h
i
w
(2)
h
j
b]/c) m
ij
11其中,w
(1)
,表示权重矩阵;tanh(.)表示激活函数;c表示为标量,实验中设置c=5;m
ij
1中1代表全是1的向量,m
ij
代表编码时序信息的掩码矩阵;表示标题中第j个序列h
j
的输出;step3.2、实现对正文数据实体语义向量的扩充和词级语义特征的提取:由于正文由多个句子构成,首先将正文进行分句,并对每个句子进行分词处理得到词向量,提取两个字以上的词语并通过跨境民族实体语义向量表查找相应的实体语义向量,之后,通过实体在文本中的位置将向量对位相加得到文本的词向量,然后,对正文采用同标题一样的编码和词级特征提取方式得到正文词级特征向量表示,最后,将正文和标题的特征向量进行融合;step3.3、融合标题和正文中的信息并进行特征的提取:将标题和正文词级信息进行融合并捕获融合后的信息的全局特征信息,探索融合后提取的词向量信息与整个文档的上下文依赖关系,具体表示如下:f(x
i
)=w
t
σ(w1se
i
b1) b其中,w
t
,w1,b1,σ(.)表示激活函数;为了获得融合了标题和正文的文档全局信息采用门控机制将标题和正文的词级和句子级信息进行联合,具体如下所示:f=sig mod(w
(f1)
o w
(f2)
v b
f
)r=f
·
v (1-f)o
其中o表示融合标题和正文的句子级特征信息,v表示标题和正文的词级特征信息;step3.4、提取文档上下文特征信息:采用双向循环神经网络编码全局信息,获得全局信息的上下文编码矩阵;利用注意力机制能够提取重要特征的特性,捕获全局信息的重要特征信息,根据文本中词语的重要性程度分配不同的权重,权重越大说明词越重要,更好的关注于标题和正文之间的交互;step3.5、从网络层输出的跨境民族文本特征中提取最显著特征y来判断跨境民族文化数据类别;y=soft max(w
i
u
i
)最终得到的y表示跨境民族文化类别的概率分布,w
i
∈r
4de
×
l
表示可训练的权重向量,其中l表示划分的跨境民族文化类别数。5.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类装置,其特征在于:包括用于执行如权利要求1-4任一项权利要求所述方法的模块。

技术总结
本发明涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理技术领域。本发明提出了一种融合领域知识图谱的跨境民族文本分类方法,主要包括跨境民族文化知识图谱构建、跨境民族文本数据预处理、融合领域知识图谱的跨境民族文本分类模型训练、跨境民族文化类别预测等四个部分构成。本发明实现了对跨境民族文本数据的文化类别分类,解决了跨境民族文本数据中存在的分类问题,具有重要的理论和实际运用价值。理论和实际运用价值。理论和实际运用价值。


技术研发人员:毛存礼 陈春吉 余正涛 黄于欣 高盛祥 张勇丙
受保护的技术使用者:昆明理工大学
技术研发日:2021.09.13
技术公布日:2022/1/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献