一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度语义感知图卷积网络的粤语谣言检测方法

2022-05-08 08:51:48 来源:中国专利 TAG:


1.本发明涉及谣言检测技术领域,具体为一种基于深度语义感知图卷积网络的粤语谣言检测方法。


背景技术:

2.社交媒体为人们提供了一个关注热点事件、发表观点、结交好友的平台,在人们的生活中扮演着不可或缺的角色。《digital 2021》报告显示,截至2021年1月,全球社交媒体活跃用户已达到42亿,约占世界总人口的53.6%。得益于社交网络对舆论的巨大影响力,谣言在社交网络中层出不穷,不仅会扰乱网络秩序,引发社会恐慌,也会在现实世界中带来经济损失,危害国家安全。除了常见的英文和中文谣言外,粤语谣言也是目前社交网络中的一大顽疾。粤语作为汉语的分支,其不仅在中国境内的广东、香港、澳门等地区盛行,也在海外的华人区中广泛分布。全球共有超过1.2亿的粤语使用者,社交网络中广泛传播的粤语谣言也对线下世界产生了很大的不良影响。因此,亟需提出一种有效的方法来对社交网络中的粤语谣言进行自动化检测。
3.传统的谣言检测方法主要采取监督学习的策略,运用从文本内容、用户主页、传播模式中手工提取出的特征来训练机器学习分类器,例如:svm(support vector machine支持向量机)、rf(random forest随机森林)、bayes(贝叶斯)、dt(decision tree决策树)。进一步的研究提取了更多有效的特征,例如时序特征、话题特征等。基于传统机器学习的检测方法主要依赖于特征工程,这一方法需要投入大量的时间。并且,人工提取出有效的高阶特征表示是困难的,这阻碍了这类方法在性能方面的提升。
4.近年来,强大的深度学习模型被广泛运用于此任务中来解决基于机器学习的检测方法中存在的问题。rnn(recurrent neural network循环神经网络)、lstm(long short-term memory长短期记忆)、gru(gate recurrent unit门控循环单元)、cnn(convolutional neural network卷积神经网络)及其变体和组合形式都在谣言检测领域取得了重大的成果。此外,一些研究通过引入注意力机制、生成对抗学习等技术进一步提升了模型的检测效果。但是,以上这些方法大多将待检测的微博文视为独立的个体,而忽略了他们之间的联系。众所周知,社交网络以图为基础结构,不仅包含用户、帖子、主题标签等实体,也包含好友、转发、评论等关系。图结构包含了丰富的信息,从而为谣言检测提供了新的特征。例如,一个用户与多个谣言用户之间存在频繁的互动行为(例如:转发/评论/关注),那么这一用户发布的帖子为谣言的可能性会大大提升。
5.为解决这一问题,近期的研究集中于运用图结构中的传播结构信息来进行谣言检测。一些研究将帖子的传播行为构造为传播树,并设计出ptk(propagation tree kernel传播树内核)、rvnn(recursive neural network递归神经网络)等模型对传播树的结构特征进行学习。同时,gcn(graph convolutional network图卷积网络)、gat(graph attention network图注意力网络)、pgnn(propagation graph neural network传播图神经网络)等方法也被提出用来从传播图中提取帖子的全局结构特征,从而提升检测模型的效果。然而,这
类方法大多只着眼于从帖子随时间传输和发展的过程获取传播和结构信息,却忽略了来自文本内容、用户主页等地方的特征,这就会导致一些重要信息(例如:文本特征)的丢失,并对最终的检测效果产生影响。并且,对于gcn网络而言,浅层的模型无法学习到远距离的节点的特征。研究表明,尽管更深层的gcn能够捕获到更丰富的邻居信息,2层的gcn网络表现最佳。
6.在文献[ke l, chen x, lu z, et al. a novel approach for cantonese rumor detection based on deep neural network: 33rd ieee international conference on systems, man, and cybernetics[c], toronto, canada, 2020.]中首次开展了针对粤语谣言检测的相关研究,对twitter中的粤语谣言进行了广泛采集,从而构建出第一个较为完整的粤语谣言数据集cr-dataset。同时,文中提出了27个粤语谣言的统计特征,并设计了一个基于深度学习方法的检测模型,融合了谣言的语义特征和统计特征进行检测。实验证明这一方法取得了优秀的检测效果。但是,这个方法对传播结构特征考虑不足,而这一特征在实际情境中对于谣言的判别具有很重要的价值。此外,其构建的cr-dataset中还缺少推文的结构信息。
[0007]
一方面,传统的谣言检测方法无法直接运用于粤语的场景中。以上提到的这些方法主要针对社交网络中的英文谣言和普通话谣言进行了研究,缺乏针对粤语谣言场景的解决方案。而粤语中含有的新造词语、独特的口语词汇以及中英文混合的语法结构都使得传统的方法无法发挥其最佳的检测效果。另一方面,社交网络中广泛传播的粤语谣言会对现实世界产生严重的负面影响。作为中文中最流行、最具影响力的方言之一,粤语在全球拥有超过1.2亿的使用者,粤语使用者不仅遍布中国的广东省、香港、澳门,也在新加坡、泰国、美国、加拿大等其他12个国家中广泛分布。
[0008]
因此,需要一种全新的基于图结构的方法开展对社交网络中粤语谣言的检测研究。
[0009]
粤语所具备的独特的语言特征为面向社交网络的粤语谣言检测带来了严峻的挑战。与普通话不同的是,粤语中包含很多异体字(例如:贃-賺)和罕见字(例如:壖)。虽然现代标准汉语和粤语在词源相关的词形音节上具有相同(或最终相关)的含义,但一些粤语使用者可能会以变体字符来进行书写,即为异体字。然而,中文语言模型想要自动学习到这些特有字符的语义是很困难的。同时,粤语中中英混合的语法结构使得语义特征的提取变得困难。随着历史的发展,粤语使用者逐渐将英文词汇融合到粤语语言体系之中。例如:甘做唔work咖(指这样做是行不通的)。这种用法使得分词和对词语的上下文语义的获取变得困难。
[0010]
近年来,研究者对社交网络中的谣言自动化检测问题进行了广泛的研究,主要包括基于传统机器学习的检测方法和基于深度学习的检测方法。
[0011]
(1)基于传统机器学习的检测方法多数的谣言检测研究集中于利用从微博文的文本内容、用户主页、传播路径等方面手工提取出的特征训练谣言分类器,从而实现对谣言的检测。castillo等人从twitter平台中的“发推”和“转推”行为中提取出了基于用户、消息、话题、传播的特征,从而来对给定推文的可信度进行评估。yang等人扩展了castillo等人提出的特征集,在先前的基于内容、账户、传播的特征的基础上提出了基于客户端和地点的特征,实现了对新浪微博平台的谣
言检测。kwon等人探索了常规的结构和语言学特征和新颖的由谣言随时间的突发波动而产生的时序特征。ma等人设计了一个时间序列模型来捕获谣言的社会背景信息随时间的变化,而不仅限于推文容量特征。这一类基于传统机器学习的检测方法主要依赖于特征工程,因此需要投入大量的研究时间和人力劳动。不仅如此,特征工程难以发现一些隐式特征,且人工提取的特征无法具备很强的鲁棒性,这就导致这一类方法在性能提升方面显得尤为困难。
[0012]
(2)基于深度学习的检测方法为了解决以上提到的传统机器学习方法面临的问题,许多研究运用深度学习方法来进行特征学习,从而捕捉到高阶的特征表示,达到更好的分类效果。ma等人首次通过运用rnn模型学习谣言帖子的时序和文本表示来识别谣言。在此基础上,chen等人提出在rnn模型中融入注意力机制来捕获对检测任务更为重要的文本特征。jin等人从谣言的文本、图像和社会背景中提取出多模态特征来进行谣言检测任务。以上这些基于rnn的方法能够高效地检测出谣言,但却不适用于谣言的早期检测任务。针对这一问题,yu等人设计了一个基于cnn网络的模型来有效地识别错误信息,并实现了在传播早期的检测。并且,最近的一些研究采用了rnn和cnn的混合体来进行检测。liu等人运用rnn和cnn网络对用户特征的全局和局部变化进行了学习,从而识别假新闻。ma等人引入生成对抗学习的思想,通过产生对抗性的噪音来使得分类器学习到更强的谣言表示,实现更加鲁棒、有效的检测。此外,ke等人首次开展了面向社交网络的粤语谣言检测研究,提取了27个粤语谣言的统计特征,共包含内容、用户、传播、评论四个类别,并设计了一个粤语谣言检测模型bla(bert based bi-lstm network with attention mechanism基于bert的融合注意力机制的bi-lstm网络),利用bert(bidirectional encoder representations from transformers基于transformers的双向编码器表示)模型、bi-lstm(bi-directional long short-term memory双向长短期记忆)网络以及注意力机制提取了推文的语义特征,之后将其与提取的统计特征进行拼接,实现了对粤语谣言的有效识别。然而,经典的深度学习谣言检测技术大多着眼于提取文本、图像等类别的特征,而忽略了谣言传播的结构特征。
[0013]
此外,在社交网络的结构图中,谣言的传递过程蕴含着丰富的信息。一些研究利用图结构中的传播关系来进行谣言检测。sicilia等人结合了基于内容的特征和一些受图论启发的细粒度特征,以检测与健康类新闻相关的单个主题域帖子中的谣言。ma等人提出了一种基于核的方法,通过比较微博文的传播树结构的相似性来获取高阶的谣言表示。这一方法取得了良好的检测效果,但在不具备包含噪音的扁平特征的情况下无法自动学习到高阶的特征。为了解决这个问题,ma等人提出运用rvnn网络对微博文的传播树进行学习,从而提取出有效的语义和传播特征。yuan等人在以上这些方法的基础上还考虑了不同的传播树之间的联系,并提出了一个新颖的模型对局部的上下文信息和全局的结构信息进行了编码。bian等人创新性地提出了一个双向图模型bi-gcn来从传播和散布两个方向上学习高阶的特征表示。yang等人设计了一种图对抗学习的方法来增强谣言检测模型的鲁棒性和可泛化性。这一类基于图结构的检测方法大多没有考虑多种特征的融合,这就会导致一些重要信息的丢失,例如文本内容、用户信息等。同时,常用的浅层gcn网络无法捕获远距离邻居的特征。并且,目前开展的一系列研究中缺乏对粤语谣言领域的探索,而粤语作为汉语的一大分支,其使用人群分布广泛,且社交网络中的粤语谣言也层出不穷,因此本发明基于图结构
和特征融合的方法对twitter中的粤语谣言进行了检测研究。
[0014]
然而,现有的大多数基于图结构的检测方法都忽略了多个特征的融合,导致一些重要信息(如文本内容)的丢失。同时,常用的浅层gcn可能无法捕捉到远距离邻居的特征。


技术实现要素:

[0015]
针对上述问题,本发明的目的在于提供一种基于深度语义感知图卷积网络的粤语谣言检测方法,借助改进的gcn网络学习了推文的结构特征,并运用在粤语数据上进行了再训练和微调的bert粤语预训练模型捕获了推文的语义特征,最终模型将结构特征和语义特征进行了拼接,在检测效果与早期检测能力方面都优于其他常用的检测方法。技术方案如下:一种基于深度语义感知图卷积网络的粤语谣言检测方法,包括以下步骤:步骤1:构造多组健康类粤语谣言关键词,对相关的推文、用户、转发及评论信息进行获取,构建具备图结构信息的粤语谣言数据集net-cr-dataset,即根据社交网络中的实体及其之间的关系建模为图g=《v,e》;步骤2:融合bert模型、gcn网络以及注意力机制,提出社交网络粤语谣言检测模型sa-gcn(semantic-aware graph convolutional network语义感知图卷积网络):运用改进的gcn网络提取推文的结构特征向量;根据粤语独特的语言特征对bert中文预训练模型进行优化,同时运用收集的大量粤语语料对bert中文预训练模型进行进一步预训练和微调,从而提取出推文的语义特征向量;最终对这两类特征进行融合,得最终的分类结果。
[0016]
进一步的,所述根据社交网络中的实体及其之间的关系建模为图g=《v,e》具体为:用t={t1,t2,

,tm}表示原推文集合,m为原推文数;用表示原推文ti的转推与评论集合,其中,为ti的转推/评论,n为转推与评论的数量;v={v1,v2,

,vm},其中,v
i=
{ti,ri}为原推文ti的节点集合,包含节点ti和转推与评论节点集合ri;e={e1,e2,

,em},其中,为原推文ti的边集合,表示节点之间的转发/评论关系;x={x1,x2,

,xm}表示原推文集合t的特征矩阵,,k为特征xi的维度;xi表示节点ti的特征向量;为图g的邻接矩阵,表示节点之间相邻关系的矩阵,指示图中任意两个节点之间是否有边相连;假设转推与评论节点与之间存在边,则邻接矩阵a的表现形式如下所示:(1)
其中,ec为原推文tc的边集合;将谣言检测任务考虑为一个二分类问题,原推文ti对应标签yi∈{f,t};则谣言检测目标即为学习分类器f:(2)其中,t和y分别对应原推文集合和标签集合。
[0017]
更进一步的,所述步骤2具体包括:步骤2.1:提取结构特征:将net-cr-dataset中的原推文、转推、评论作为节点,将转发和评论关系作为边进行建模,将社交网络中推文的传播路径转化为图结构数据,并运用改进的gcn网络来对推文的传播路径上的信息进行聚合,从而生成推文的高级结构特征向量;步骤2.2:提取语义特征:构建一张映射表,将粤语中的异体字转换为其在普通话中对应的字符,并将罕见字进行拆分;并对bert中文预训练模型的词表进行扩充;使用采集到的粤语语料对bert-base-chinese模型进行进一步预训练,使其学习到更多粤语的特征,并用net-cr-dataset数据集对bert中文预训练模型进行微调,得到bert粤语预训练模型,据此提取推文的语义特征向量;步骤2.3:sa-gcn模型将结构特征向量和语义特征向量进行融合,获得最终的分类结果。
[0018]
更进一步的,所述步骤2.1提取结构特征具体包括:步骤2.1.1:运用多头注意力机制来挖掘顶点之间的潜在结构相关性,包括非直连的、之间经过多跳的节点;具体过程如下:先使用fasttext提供的粤语预训练词向量来生成节点的特征u={u1,u2,

,un},其中,n为所有的节点数;再通过构建注意力邻接矩阵a将原始推文的传播树转化为以权重边全连接的图,从而综合考虑各个推文节点之间的结构关系;第m个头相关的第m个注意力邻接矩阵的计算如下:(3)其中,q和k等同于节点特征,即为提取的节点特征u;d是特征向量的维度;和分别为q和k的传递矩阵;步骤2.1.2:使用紧密连接层来捕获本地和远距离的节点特征,解决浅层gcn无法学习到深层关联节点信息的问题,并生成更好的节点表示;每一个紧密连接层都包含l个子层;对于节点i来说,其经过第l个子层的输出如下式所示:(4)其中,为relu函数,权重矩阵和偏置取决于a
(m)
;a
(m)
为第m个头相关的
第m个注意力邻接矩阵;表示节点i和节点j的连接情况,为矩阵a
(m)
中的元素;为节点j在第l个子层的输入特征,由h
(0)
和{1,2,

,l-1}子层更新产生的节点特征h
(1)
,

,h
(l-1)
拼接而成,计算方式如下式所示:(5)步骤2.1.3:引入线性组合层来整合来自不同密集连接层的表示,线性组合层的输出s定义如下式所示:s=w
combhout
b
comb
(6)其中,h
out=
[h
(1)
;

;h
(m)
],h
(m)
表示第m个紧密连接层输出的特征向量;w
comb
为各特征向量的权重矩阵,b
comb
为偏置向量。
[0019]
更进一步的,所述步骤2.2中,对bert中文预训练模型的词表进行扩充包括:采用pycantonese库提供的词表和fasttext粤语预训练词向量,在词表中加入粤语中常用的英文词,并对其权重进行随机初始化,避免英语词汇被拆分成词根和词缀,以提升模型对粤语中的英语词汇语义的学习能力。
[0020]
更进一步的,所述步骤2.2中,运用net-cr-dataset数据集对bert中文预训练模型进行微调包括:将原推文及转推/评论数据v={v1,v2,

,vm}标记化后得到。之后,将输入至经过再训练和微调的bert模型,并使用transformer来提取句子特征,得到句向量w={w1,w2,

,wm},如下式所示:(7)(8)其中,tokenize是bert模型中的分词操作。
[0021]
更进一步的,所述步骤2.3具体包括:步骤2.3.1:sa-gcn模型对结构特征向量s和语义特征向量w进行拼接,得到特征向量f,如下式所示:f=s

w(9)步骤2.3.2:将推文的特征向量f经过softmax函数获得最终的分类结果,如下式所示:pd=softmax(f)(10)其中,pd为待预测推文样本d为谣言的概率;步骤2.3.3:模型的优化目标为最小化交叉熵损失函数,如下式所示:(11)其中,d表示样本数据集,yd表示待预测推文样本d的真实值,pd为待预测推文样本d预测为正类的概率。
[0022]
本发明的有益效果是:1、为了开展基于图结构的谣言检测研究,本发明构建了一个具备图结构的粤语谣言数据集,该数据集共包含2,419条原始推文,112,539条转推,92,260条评论,共同构成了207,218个节点和202,437条边。
[0023]
2、本发明运用采集的大量粤语语料对bert中文预训练模型进行了进一步预训练和调优,使得模型学习到粤语中的独特词汇的语义信息。同时,修改了训练前的预处理流程,并扩展了bert中文预训练模型的词表,使其能够对粤语中的异体字和罕见字进行处理,同时更加适应粤语独特的中英混合的语法结构,从而捕获到更加丰富的语义信息。
[0024]
3、本发明设计了一个基于深度语义感知图卷积网络的粤语谣言检测模型sa-gcn,该模型运用改进的图卷积神经网络提取了推文的结构特征,并使用在粤语数据上进行了进一步预训练和微调的bert粤语预训练模型捕获了推文的语义特征,最终将这两类特征进行了融合。
附图说明
[0025]
图1为本发明的sa-gcn模型结构图。
[0026]
图2为特征消融对比图。
[0027]
图3为roc曲线。
[0028]
图4为模型早期检测能力示意图。
具体实施方式
[0029]
下面结合附图和具体实施例对本发明做进一步详细说明。
[0030]
本发明提出了一种基于深度语义感知图卷积网络的社交网络粤语谣言检测方法。首先构造了多组健康类粤语谣言关键词,并构建了web爬虫对相关的推文、用户、转发及评论信息进行了获取,在完成数据标注后构造出数据集net-cr-dataset。其次,本发明设计了一个深度语义感知图卷积神经网络模型sa-gcn。根据粤语独特的语言特征对bert中文预训练模型进行了优化,同时运用收集的大量粤语语料对bert预训练模型进行了进一步预训练和微调,从而提取出推文的语义特征向量。并且,运用改进的gcn网络,从而提取出推文的结构特征,生成结构特征向量。最终,sa-gcn模型将结构特征向量和语义特征向量进行了融合,获得了最终的分类结果。
[0031]
本发明方法的具体过程如下:步骤1:构造多组健康类粤语谣言关键词,对相关的推文、用户、转发及评论信息进行获取,构建具备图结构信息的粤语谣言数据集net-cr-dataset,即根据社交网络中的实体及其之间的关系建模为图g=《v,e》。社交网络中包含原推文、转发推文、评论推文等实体,也包含发推、转推、评论等行为。本发明将社交网络中的实体及其之间的关系建模为图g=《v,e》。t={t1,t2,

,tm}表示原推文集合,m为原推文数。表示原推文ti的转推与评论集合,其中,为ti的转推/评论,n为转推与评论的数量。v={v1,v2,

,vm},其中,v
i=
{ti,ri}为原推文ti的节点集合,包含节点ti和转推与评论节点集合ri。e={e1,e2,

,em},其中,为原推文ti的边集合,表示节点之间的转发/评论关系。例如,为的评论,则存在边,即。本发明的研究对象为无向图,因此未考虑边的方向。x={x1,x2,

,xm}为原推文集合t的特征矩阵,,k为特征xi的维度。xi表示节点
ti的特征向量。为图g的邻接矩阵。邻接矩阵是表示节点之间相邻关系的矩阵,可以指示图中任意两个节点之间是否有边相连。假设节点与之间存在边,则邻接矩阵a的表现形式如式(1)所示:(1)本发明将谣言检测任务考虑为一个二分类问题,原推文ti对应标签。因此,本发明的谣言检测目标即为学习分类器f,如式(2)所示:(2)其中,t和y分别对应原推文集合和标签集合。本发明将基于推文的结构特征和语义特征来对推文的标签进行预测。
[0032]
步骤2:融合bert模型、gcn网络以及注意力机制,提出社交网络粤语谣言检测模型sa-gcn:运用改进的gcn网络提取推文的结构特征向量;根据粤语独特的语言特征对bert中文预训练模型进行优化,同时运用收集的大量粤语语料对bert中文预训练模型进行进一步预训练和微调,从而提取出推文的语义特征向量;最终对这两类特征进行融合,得最终的分类结果。
[0033]
本发明提出了一个新颖的社交网络粤语谣言检测模型sa-gcn,该模型融合了bert模型、gcn网络以及注意力机制,实现了对粤语谣言的有效检测。sa-gcn模型的结构如图1所示。
[0034]
步骤2.1:结构特征提取gcn是直接在图上运作的多层神经网络,它能够根据节点的邻域属性更新节点的表示形式。kipf等人的工作已经证明了图卷积网络在节点分类任务中的有效性。l层的gcn网络能够捕获到l跳邻居节点的信息。因此,浅层的gcn网络无法聚合远距离节点的特征。并且,研究表明,深层的gcn网络表现不如2层的网络。为了解决这个问题,guo等人将紧密连接引入gcn网络,并针对关系抽取任务提出了一个以注意力为导向的图卷积网络。本发明提出的模型sa-gcn由此得到灵感。
[0035]
由于推文的传播路径上的转推和评论分布与原推文的谣言判定结果之间存在着紧密的关联,因此本发明将net-cr-dataset中的原推文、转推、评论作为节点,将转发和评论关系作为边进行建模,将社交网络中推文的传播路径转化为图结构数据,并运用改进的gcn网络来对推文的传播路径上的信息进行聚合,从而生成推文的高级结构特征表示。
[0036]
(1)多头注意力机制改进后的gcn网络由m个块组成,每个块包含三个模块:多头注意力机制、密集连接和线性组合。在这一部分中,运用多头注意力机制来挖掘顶点之间的潜在结构相关性,尤其是那些非直连的、之间经过多跳的节点。具体来说,首先使用fasttext提供的粤语预训练词向量来生成节点的特征u={u1,u2,

,un},其中,n为所有的节点数目。接着,通过构建注意力邻接矩阵a将原始推文的传播树转化为以权重边全连接的图,从而综合考虑各个推文节点之间的结构关系。与第m个头相关的第m个注意力邻接矩阵的计算如式(3)所示:
(3)其中,q和k等同于节点特征,即为提取的节点特征u。d是特征向量的维度。和分别为q和k的传递矩阵。a
(m)
将用于下面的图卷积过程中。
[0037]
(2)紧密连接层在这一部分中,使用紧密连接层来捕获本地和远距离的节点特征,解决浅层gcn无法学习到深层关联节点信息的问题,并生成更好的节点表示。每一个紧密连接层都包含l个子层。对于节点i来说,其经过第l个子层的输出如式(4)所示:(4)其中,为relu函数,权重矩阵和偏置取决于a
(m)
。为节点j在第l个子层的输入特征,由h
(0)
和{1,2,

,l-1}子层更新产生的节点特征h
(1)
,

,h
(l-1)
拼接而成,计算方式如式(5)所示:(5)(3)线性组合这一部分引入线性组合层来整合来自不同密集连接层的表示。线性组合层的输出定义如式(6)所示:s=w
combhout
b
comb
(6)其中,h
out=
[h
(1)
;

;h
(m)
],h
(m)
表示第m个紧密连接层输出的特征向量。w
comb
为权重矩阵,b
comb
为偏置向量。
[0038]
步骤2.2:语义特征提取由于本发明的语义信息对谣言检测具有重要的作用,而bert模型生成的上下文相关的词嵌入能够捕获多种维度的信息,并产生更精确、有效的特征表示,因此本发明使用bert粤语预训练模型作为推文词嵌入提取器。
[0039]
本发明结合香港科技大学提供的数据生成了一张映射表,将粤语中的异体字转换为其在普通话中对应的字符,并将罕见字进行拆分,从而缓解了中文预训练模型可能无法学习到异体字和罕见字的语义信息的问题。此外,为了使模型能更好地处理粤语的中英文混合的语法结构,结合pycantonese库提供的词表和fasttext粤语预训练词向量对bert中文预训练模型的词表进行了扩充。具体来说,在词表中加入了粤语中常用的英文词,并对它们的权重进行了随机初始化,从而避免英语词汇被拆分成词根和词缀,提升模型对粤语中的英语词汇语义的学习能力。
[0040]
本发明使用从twitter平台广泛采集的粤语语料对bert-base-chinese模型进行了进一步预训练,使其学习到更多粤语的特征。在此基础上,运用net-cr-dataset数据集对bert中文预训练模型进行微调,使其更加适用于本发明的技术问题。具体来说,将原推文及转推/评论数据v={v1,v2,

,vm}标记化后得到。之后,将输入至经过再训练和微调的bert模型,并使用transformer来提取句子特征,得到句向量w={w1,w2,

,
wm},如式(7)和(8)所示:(7)(8)其中,tokenize是bert模型中的分词操作。
[0041]
步骤2.3特征融合sa-gcn模型对结构特征向量s和语义特征向量w进行了拼接,从而得到特征向量f,如式(9)所示:f=s

w(9)将推文的特征向量f经过softmax函数获得了最终的分类结果,如式(10)所示:pd=softmax(f)(10)其中,pd为预测推文d为谣言的概率;模型的优化目标为最小化交叉熵损失函数,如式(11)所示:(11)其中,d表示样本数据集,表示样本d的真实值,pd为样本d预测为正类的概率。
[0042]
实验过程:(1)数据集目前的研究中缺乏公开的、权威的粤语谣言基准数据集,且先前文献[ke l, chen x, lu z, et al. a novel approach for cantonese rumor detection based on deep neural network: 33rd ieee international conference on systems, man, and cybernetics[c], toronto, canada, 2020.]中构建的粤语谣言数据集cr-dataset不具备丰富的图结构信息,无法为检测模型提供谣言的传播结构特征,因为本发明构建了一个全新的粤语谣言数据集。
[0043]
本发明基于scrapy框架开发了web爬虫,对twitter平台中的粤语推文及其多层级转推、评论信息进行了采集,并按照严格的标准完成了数据标注工作,从而构建出net-cr-dataset数据集。由于谣言通常聚焦于健康问题这一类敏感话题,因此本发明以twitter中的健康类粤语谣言为主要研究对象,不仅能够较为容易地获取到大量的相关数据,为研究提供有力的支撑,也能够使得本项研究具备重要的现实意义。
[0044]
本发明以权威的官方媒体发布的内容作为事实基础,严格按照本发明中使用的谣言定义(在人群中产生和传播的、其真实值为无法确认或故意虚假的信息。一般在紧急情况下产生,容易引发公众恐慌,破坏社会秩序,降低政府信誉,甚至危害国家安全)对采集到的粤语推文进行了数据标注工作,并对缺乏事实基础、无法判别其真实性的推文数据进行了过滤。本发明通过比较同一事件下源推文与权威媒体对客观事实的报导内容进行判断,若一致,则标为0;若相反,则标为1。
[0045]
最终,构建了一个包含丰富的图结构信息的粤语谣言数据集net-cr-dataset数据集。数据集包含2,419条原始推文,112,539条转推,92,260条评论,共计207,218个节点和202,437条边。表1展示了数据集的详细信息。
[0046]
(2)实验设置及数据集本发明的实验环境为intel(r) core(tm) i7-7500u cpu @ 2.70ghz和tesla-v100 32g gpu服务器。所有实验使用的数据集为本发明构建的net-cr-dataset,数据集相关信息如表1所示。实验中划分谣言数据集的80%作为训练集,10%作为验证集,10%作为测试集。每个实验均进行10次,并取平均值作为最终结果。10次实验中用到的训练集、验证集、测试集均为随机划分。
[0047]
(3)实验一:特征消融为了证明sa-gcn模型各部分的有效性,本发明对比了sa-gcn模型及其变体形式在net-cr-dataset上的检测效果,涉及的模型具体信息如下:1)sa-gcn\str:sa-gcn模型中不引入结构特征,仅利用语义特征;2)sa-gcn\sem:sa-gcn模型中不引入语义特征,仅利用结构特征;3)sa-gcn\att:sa-gcn模型中不引入注意力机制;4)sa-gcn\bert:sa-gcn模型中未使用bert模型生成词嵌入。运用fasttext提供的中文预训练词向量和粤语预训练词向量生成了词嵌入矩阵,并将其导入bi-lstm网络前的embedding层;5)sa-gcn:本发明提出的完整模型。
[0048]
实验结果如图2所示。可以看出,本发明提出的sa-gcn模型表现最佳,且在所有指标上均为最优。对比sa-gcn和sa-gcn\sem模型可以发现,推文的语义特征在谣言检测任务中发挥了重要的作用。同时,由于社交网络中的用户之间存在交互行为,节点之间有着紧密的关联,节点自身的特征会受到邻域的影响,因此,考虑了节点结构特征的sa-gcn模型在检测效果上优于sa-gcn\str模型。并且,对比sa-gcn\str和sa-gcn\sem模型可以看出在此任务中,语义特征对检测效果的贡献大于结构特征,可能的原因为实验中采用的net-cr-dataset数据集中转推和评论的数量分布不够均匀,导致模型对传播量较小的数据学习到的结构特征不足。此外,sa-gcn\bert模型取得了0.8692的f1分数,相比于sa-gcn模型下降了约12%,这一结果体现了相比于fasttext等常见的预训练模型,本发明采用的bert中文预训练模型以及在粤语语料上实施的进一步预训练和微调的操作能够使得模型更好地学习到粤语数据的特征,从而进行高效的谣言检测。另外,对比sa-gcn\att模型和sa-gcn模型的表现,不难发现模型中引入的注意力机制能够自动发现对检测任务而言重要的词语和特征,其对检测效果的提升也有所贡献。
[0049]
(4)实验二:检测模型效果本发明将提出的sa-gcn模型与谣言检测中的其他常用方法进行了对比,涉及的模型具体信息如下:
1)svm-rbf:基于rbf内核的svm模型,利用了基于所有帖子统计信息的手工提取的特征;2)dtc:一种基于各种手工特征的决策树分类器的谣言检测方法,以获取信息的可信度;3)rfc:利用用户特征、语言特征和结构特征的随机森林分类器;4)textcnn:使用卷积神经网络为分类任务捕获文本语义;5)bi-gcn:一种针对图结构数据的谣言检测模型,能够捕获谣言的双向传播结构特征;6)glan:一种全局-局部注意力网络,其融合了局部语义特征和全局结构特征;7)sa-gcn:本发明提出的检测模型。
[0050]
本实验中,svm-rbf、dtc、rfc模型的输入为由tf-idf算法生成的向量,textcnn模型的输入为利用fasttext中文预训练词向量和粤语预训练词向量生成的词嵌入。从表2、图3中可以看出,本发明提出的sa-gcn模型在f1分数上达到了0.9845,auc值为0.9677,取得了最佳的检测效果。并且,基于深度学习的检测模型(textcnn、bi-gcn、glan、sa-gcn)的表现普遍优于基于传统机器学习的模型(svm-rbf、dtc、rfc),这是由于深度学习模型能够学习到谣言的高阶表示形式,从而捕获有效的特征。此外,textcnn的表现不如glan和sa-gcn,从侧面证明了在检测过程中加入传播结构特征能够有效地提升检测效果,充分体现了本发明将结构特征和语义特征相结合的重要意义。同时,由于transformer在语义特征提取方面的效果优于cnn网络,因此以transformer为特征抽取器的sa-gcn模型的表现超过了以cnn为特征抽取器的textcnn和glan。并且,为了构建出更加适用于粤语谣言检测任务的粤语词嵌入提取器,本发明基于粤语语料和数据集对bert中文预训练模型进行了再训练和调优,这使得sa-gcn模型能够学习到更多粤语数据的特征,取得更好的检测效果。同时,对比bi-gcn和sa-gcn模型可以发现,sa-gcn在f1分数方面相对于bi-gcn提升了接近9%,这是因为本发明提出的sa-gcn模型在获取结构特征的基础上还融入了谣言的语义特征,而语义特征能够从根本上反映推文本身所表达的含义,从而对模型的检测性能有显著的提升。
[0051]
(5)实验三:早期检测能力早期检测能力指的是在谣言传播初期模型对谣言的检测效果,这也是评判谣言检测模型性能的重要指标之一。本实验设置了不同的截止时间,并分别选取截止时间前的数
据输入模型。本实验以模型的准确率为指标,对比了不同的模型在早期检测能力方面的表现。
[0052]
实验结果如图4所示。可以看到,在不同的截止时间下,本发明提出的sa-gcn模型的准确率始终高于其他模型,且在推文刚开始传播时就达到了超过0.8944的准确率,并在推文传播的3小时之内达到了0.9425的准确率,这一现象证明了sa-gcn模型中引入的语义特征和结构特征不仅在长期的谣言检测任务中十分有效,也在谣言的早期检测中有所贡献。此外,随着截止时间的推迟,推文的语义信息和结构信息变得更加丰富,同时数据的噪声也越来越大,但是相比于其他模型,sa-gcn模型的准确率曲线的波动幅度较小,这也证明了提出的sa-gcn模型的稳定性。
[0053]
综上,本发明针对社交网络中的粤语谣言检测问题提出了一个基于深度语义感知图神经网络的方法。首先,本发明构造了web爬虫,并基于多组谣言关键词获取了twitter中的相关数据。同时,也对推文的转发数和评论数设置了限制,从而保证了数据具备丰富的图结构信息。在完成人工数据标注工作后,构建出数据集net-cr-dataset数据集。其次,本发明设计了一个全新的粤语谣言检测模型sa-gcn,该模型借助改进的gcn网络学习了推文的结构特征,并运用在粤语数据上进行了再训练和微调的bert粤语预训练模型捕获了推文的语义特征,最终模型将结构特征和语义特征进行了拼接。实验结果表明,本发明提出的sa-gcn模型在粤语谣言检测任务中的表现优于经典的检测方法,且模型具备很强的早期谣言检测能力。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献