一种基于异质图对比学习的虚假新闻识别方法与流程

2022-02-22 18:22:45 来源：中国专利 TAG：

1.本发明涉及网络交互虚假新闻检测领域，尤其是涉及一种基于异质图对比学习的虚假新闻识别方法。

背景技术：

2.当今社会，在线社交网络已经成了人们不可或缺的信息交流平台。与此同时，社交平台也正在不知不觉中成为了虚假新闻传播的温床。由于社交平台的流行性，这些虚假新闻的传播力也大大提升。根据有关数据显示，在某国2016年总统大选期间，互动量最高的20条假新闻在facebook平台上产生了总计超过800万次的用户互动，这一数字远高于互动量最高的20条真实新闻所产生的互动数。2020年，人类社会遭遇了新冠流感的冲击。在正面战场之外，网络平台上也上演了一场对于虚假新闻的攻坚战。在流感爆发期间，大量虚假新闻通过社交平台进行传播，造成了恶劣的社会影响，而联合国卫生组织也将这一现象称为”信息流感(infodemic)”，可见其危害程度之高，综上所述，针对社交平台的虚假新闻识别是非常有现实价值的一项技术。
3.虚假新闻识别在业界有很长的研究历史，众多研究者也针对这一问题提出了一些有针对性的解决方案。基于方法对虚假新闻识别的技术进行分类的话，可以分为基于文本的方法以及融合了社交网络交互信息的方法。基于文本的方法将虚假新闻识别这一任务视作自然语言处理中的文本分类任务。kaliyar与goswamiz提出了一种使用bert语言模型来识别虚假新闻的方法。这类方法的缺点是需要大量的文本语料来训练语言模型，同时自监督的预训练不一定能够提升有监督的下游任务上的性能。另外，在一些语料库中没有出现的新闻文本出现时，这类方法的表现很差。针对算法生成的对抗性文本新闻，纯文本的方法可能会完全失效。为了弥补这些问题，可以在文本的基础上融合社交网络中用户和新闻之间的交互关系。通过这些交互信息，可以发现新闻与新闻之间深层次的结构关系，然后通过图表示学习的方法来挖掘这些信息，从而提升虚假新闻识别的性能。dou与shu考虑了推特平台上新闻帖子之间的传播路径，构建了一张树状传播图，通过表示学习获取了新闻的社区信息，然后将文本与社区信息结合进行分类。ren与wang将用户、新闻以及主题一起建模成一张异质图，然后使用学习到的新闻节点特征来进行分类。然而，这些方法中的大部分依旧需要大量标注数据来进行训练，而这与现实中的条件是不符合的。
4.综上，现有的虚假新闻识别方法主要存在以下的不足：
5.(1)单纯基于文本的算法缺乏鲁棒性同时高度依赖语料库，无法针对新的数据进行有效识别。
6.(2)基于文本以及融合社区信息的方法都需要大量标注数据来进行训练，与现实条件不符，同时对标注数据的质量也有一定要求。
7.(3)部分融合社区信息的方法复杂度过高，需要获取大量用户的个人信息来生成用户的特征，增加了模型的复杂度，如果用户的特征数据质量不高，则会显著影响模型的性能。

技术实现要素：

8.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于异质图对比学习的虚假新闻识别方法。
9.本发明的目的可以通过以下技术方案来实现：
10.一种基于异质图对比学习的虚假新闻识别方法，包括以下步骤：
11.1)从社交网络平台上获取新闻相关的数据，包括新闻原始的文本内容与新闻产生互动转发的用户群体以及新闻的类别主题信息，并构建关于新闻节点的虚假新闻异质图；
12.2)根据新闻原始的文本内容通过预训练语言模型获取新闻的文本特征信息f，作为新闻节点的初始文本特征；
13.3)通过新闻-用户与新闻-主题两条元路径，构造基于新闻-用户-新闻以及新闻-主题-新闻两条元路径的子图与
14.4)对于子图与分别通过恒等变换得到第一组视图a
nu
与a
no
，通过随机结构变换得到第二组视图a
′
nu
与a
′
no
；
15.5)对于两组视图通过图神经网络gnn1与gnn2进行特征提取，分别得到对应的特征矩阵z＝gnn1(a
nu
,a
no
)和z
′
＝gnn2(a
′
nu
,a
′
no
)；
16.6)通过对比学习与反向传播训练图神经网络gnn1与gnn2的参数，以第一组视图的图神经网络gnn1作为新闻节点的编码器，输入新闻节点的初始文本特征得到新闻节点特征；
17.7)将得到的新闻节点特征作为多层感知机的输入并训练，得到训练好的分类模型，并根据该训练好的分类模型进行虚假新闻识别。
18.所述的步骤1)中，对于与新闻产生互动转发的用户群体，仅获取新闻与用户之间的连接关系e
nu
；对于新闻的类别主题信息，若新闻中存在相关的主题则直接使用，否则通过lda类的主题生成方法获取新闻的主题分类，然后构造出新闻与主题类别之间的关系e
no
。
19.所述的步骤2)中，对于短文本，则直接将其作为语言模型的输入；对于有标题和正文部分的文本，则将其分别作为模型的输入，然后拼接起来；对于下方包含互动评论序列的文本，则通过lstm网络来捕捉互动文本信息，将所有特征拼接起来作为最后的文本特征信息。
20.所述的步骤4)中，所述的恒等变换具体为不对两个子图做任何改变，所述的随机结构变换包括边采样、边增加和personalized pagerank。
21.所述的边采样具体为：
22.对子图的邻接矩阵进行采样，随机选取邻接矩阵中一部分的元素设为0；
23.所述的边增加具体为：
24.对子图的邻接矩阵中的元素进行随机添加，随机选取一部分的元素设为1。
25.所述的personalized pagerank具体为：
26.对邻接矩阵中的每一个元素计算反映元素重要性的ppr分数，对重要性进行排序后剔除重要度低的边。
27.所述的步骤5)具体包括以下步骤：
28.51)将子图的邻接矩阵输入一个图卷积神经网络中得到特征向量；
29.52)将特征向量代入一个语义注意力网络得到特征矩阵。
30.所述的步骤52)中，特征矩阵z中每一个点的计算公式为：
[0031][0032][0033][0034]
式中，zi为特征矩阵z中的第i行，对应第i个新闻节点的特征，n表示新闻节点集合，语义注意力网络由一个单层感知机和一个权重参数组成，参数a、w、b分别为语义注意力网络要学习的参数，其中，参数w,b为单层感知机的学习参数，a为权重参数，用以自适应地调整不同视图下的表示在特征zi中的占比，上标与下标k表示视图中的第k个子图，且k＝1，2，βk为对应不同子图的表示融合时的权重，且由权重wk经过归一化后得到。
[0035]
所述的步骤6)具体包括以下步骤：
[0036]
61)对于每个新闻节点，分别根据异质结构相似性hps选择正负样本；
[0037]
62)根据得到的正负样本采用最小化总损失函数对图神经网络的参数进行训练，具体为：
[0038]
对于第一组经过恒等变换的视图中第i个新闻节点的损失函数的表达式为：
[0039][0040]
同样的，对于经过随机结构变换后得到的第二组视图中第i个新闻节点的损失函数的表达式为：
[0041][0042]
其中，表示对于第i个新闻节点的正样本集合，表示对于第i个新闻节点的负样本集合，ξ为可调参数，zi为第一组视图中第i个新闻节点的节点特征，z
′j为第二组视图中第j个新闻节点的节点特征，sim(zi,z
′j)表示新闻节点特征zi与z
′j之间的相似度；
[0043]
将所有新闻节点的损失求和取平均后得到总损失函数表达式为：
[0044][0045]
其中，θ为手动设置的超参数。
[0046]
所述的步骤61)中，新闻节点i和j的异质结构相似性hps的表达式为：
[0047][0048]
其中，s为元路径的数目，且s＝2，λs为平衡不同元路径s之间的权重参数，与分别为元路径s上的异构邻居集合。
[0049]
所述的步骤61)中，对于每个新闻节点，选择hps最大的前τ个点作为正样本，其余选择得到负样本。
[0050]
与现有技术相比，本发明具有以下优点：
[0051]
1、本发明提供的虚假新闻识别方法利用对比学习的技术，可以在小样本标注的条件下依旧得到良好的性能，这使得它能够在真实的业务场景下有更好的应用性。
[0052]
2、本发明提供的虚假新闻识别方法相比于基于文本的识别技术，能够有效地融合新闻本身的交互属性，使得在面对新事件以及文本对抗攻击时有更好的鲁棒性。
[0053]
3、相比较其他一些需要复杂用户信息的方法，本发明利用元路径抽取的方法绕过了显示表征用户特征这一问题，在用户信息难以获取的场景下，有更好的实用性。
附图说明
[0054]
图1为本发明的原理方法的解释说明图。
[0055]
图2为本发明与除本发明外效果最好的方法han在标注样本比例分别为5％、10％、20、30％、50％的条件下的性能比较，横坐标表示标注样本占所有数据的比例，纵坐标为分类的准确率，han表示han方法，fncrl表示本发明，其中，图(2a)为politifact-old数据集上的性能比较，图(2b)为politifact-new数据集上的性能比较。
[0056]
图3为本发明所学习到的节点特征在二维平面上的投影，其中，图(3a)为sentence transformers算法的投影，图(3b)为han算法的投影，图(3c)为hcn算法的投影，图(3d)为本发明方法的投影。
具体实施方式
[0057]
下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。
[0058]
实施例
[0059]
如图1所示，本发明提供一种基于异质图对比学习的虚假新闻识别方法，该方法的主要步骤如下：
[0060]
第一步，根据需要识别的新闻从网络上爬取相关的新闻内容、参与互动的用户以及新闻本身的主题，如果新闻本身没有给出相关的主题，可以通过lda算法进行主题的生成。
[0061]
第二步，通过sentence transformer这一预训练语言模型获取新闻文本的特征信息，对于短文本，直接将其作为语言模型的输入，对于有标题和正文部分的文本，将其分别作为模型的输入，然后拼接起来。如果文本下方有较长的互动评论序列，可以通过lstm来捕
捉它们之间的互动文本信息，将所有特征拼接起来作为最后的文本特征内容。对于拼接后维度不一致的情况，可以使用pca方法进行维度上的调整，不管采用以上哪种方法，最后得到一个维度相同的文本特征f＝{f1,
…
,f
|n|
}。
[0062]
第三步，通过新闻-用户与新闻-主题两条元路径，构造基于新闻-用户-新闻以及新闻-主题-新闻两条元路径的子图与
[0063]
第四步，对于两个子图与施加两组不同的变换，第一组变换为恒等变换，不对两个子图做任何改变，得到第一组视图a
nu
与a
no
。第二组变换为一个随机结构变换，对两个子图的边结构做一些变换，来强化对比学习的效果，常见的变换包括边采样、边增加以及personalized pagerank等，本例中可以根据实际数据集上的性能来选择合适的图变换，通过第二组变换，可以得到第二组视图a
′
nu
与a
′
no
。
[0064]
第五步，对于得到的两组视图，利用图神经网络对其进行表示学习，以第一组视图为例，从上一步中得到第一组视图下新闻-用户与新闻-主题两条元路径对应子图的邻接矩阵a
nu
与a
no
。网络的第一层将第一组视图下的a
nu
与a
no
输入到一个图卷积神经网络，得到特征向量表示与其中f为第二步得到的文本特征，而为的对角节点度数矩阵，接下来，将h1与h2代入一个语义注意力网络，从而得到最后的特征矩阵z，矩阵z中每一个点zi的计算公式如下：
[0065][0066][0067][0068]
其中，zi为特征矩阵z中的第i行，对应了第i个点的特征，语义注意力网络由一个单层感知机和一个权重参数组成。参数a,w,b为语义注意力网络要学习的参数，参数w,b对应感知机的参数，而a为权重参数，可以自适应地调整不同视图下的表示在总特征zi中的占比，这里上标与下标k对应视图中的第k个子图(本算法中,k＝2)，下标i表示第i个节点。wk经过归一化后得到βk，作为对应不同子图的融合时的权重。
[0069]
同理，能够得到添加了图变换的第二个视图的特征向量h
′1与h
′2，然后计算得到对应的特征矩阵z
′
；
[0070]
第六步，调用对比学习对异质图进行表示学习，具体地，采用异质结构相似性(hps)作为选择正负样本的依据，新闻节点i和j的异质结构相似性hps的表达式为：
[0071][0072]
其中，s为元路径的数目，且s＝2，λs为平衡不同元路径s之间的权重参数，与分别为元路径s上的异构邻居集合。
[0073]
定义hps最大的前τ个点作为某个点的正样本，其余的为负样本，注意，在这个定义下，节点一定是自己的正样本，符合正样本设计的直觉。
[0074]
第七步，依据上一步得到的正负样本，对于第一个没有经过变换的视图中节点i的损失函数如下
[0075][0076]
对称的，对于经过变换后得到的第二个视图中节点i的损失函数如下
[0077][0078]
公式中，表示对于第i个节点的正样本集合，表示对于第i个节点的负样本集合，ξ为可调参数。zi为第一组视图中第i个新闻节点的节点特征，z
′j为第二组视图中第j个新闻节点的节点特征，sim(zi,z
′j)表示节点zi与z
′j的相似度，一般可以取内积，即sim(zi,z
′j)＝z
itz′j。
[0079]
将所有节点的损失求和并取平均后可以得到总的损失函数，θ是手动设置的超参数，默认值为0.5。
[0080][0081]
最后，将新闻节点的初始文本特征f输入第一个视图下的图卷积神经网络与语义注意力模型，可以得到经过学习的新闻节点表示。将此表示输入一个多层感知机，训练得到最后的分类模型。要对某一条虚假新闻进行识别，只需要将它的文本特征输入到训练好的多层感知机，即可得到最后的结果。
[0082]
为了更清楚地说明本实施例中的技术方案，列举如下的具体的应用实施进一步说明：
[0083]
假设一个公司想要对网络上的信息进行治理，首先就需要找出网络上的虚假新闻，比如，这家公司希望对微博上的虚假新闻进行打击，那么可以将其表示为如下的数学问题：给定新闻本身的文本内容以及与新闻产生互动的用户与新闻之间的边关系e
nu
，与新闻有关的主题与新闻之间的边关系e
no
，希望对每个新闻节点学习到一个同时考虑了文本特征与网络结构特征的zi，然后利用这个特征训练出最后的分类器。
[0084]
为了实现上述的目标，第一步需要爬取到所需形式的数据，在爬取的过程中，可以利用网络平台提供的数据获取接口，也可以自己编写脚本抓取数据，以微博平台为例，官方提供了各种编程语言的数据获取接口，可以轻松获取到所需格式的数据。
[0085]
在实际应用本方法的过程中，第二步可能会遇到多语种的问题。以微博为例，如果遇到中文的新闻，那么在英文语料上训练的sentence transformer模型不可能有好的表现。为了解决这个问题，可以仿照sentence transformer的预训练方法在中文语料库上训练中文版的预训练模型，预训练过程中所需的中文语料都是在网络上免费公开的。综上所述，多语种的问题可以通过替换预训练模型来解决，不影响本方法的一般性。
[0086]
接下来，按照实施例中的步骤三到步骤七实施方法。值得注意的是，第五步中的图变换需要根据实际数据集上的性能来进行选择。定义以下几种常见的图变换技术，包括：
[0087]
(1)边采样：给定图的邻接矩阵对中的元素进行采样，随机选取一部分的元素设为0，为了保证边采样不会对结构产生过多影响，设置一个参数λ来控制边采样的力度并要求
[0088]
(2)边增强：给定图的邻接矩阵对中的元素进行随机添加，随机选取一部分的元素设为1。为了保证边采样不会对结构产生过多影响，设置一个参数λ
′
来控制边增强的力度并要求
[0089]
(3)个性化网页排名personalized pagerank：对邻接矩阵中的每一个元素计算ppr分数，反映了在图结构中这个元素的重要性，对重要性进行排序后剔除那些重要度低的边。
[0090]
其他常见的图变换技术还包括马尔可夫扩散等，在此不进行一一罗列。在实际的应用场景中，用户可以根据训练过程中验证集上的性能来选择合适的图变换。在的实验结果中，边采样与边增强是最有效的两种图变换，二者的性能差异不大，可以作为默认的选择。
[0091]
最后，只需要将学习到的新闻节点的表征输入到一个分类器中进行训练，即可得到最后用于新闻节点分类的分类模型。这里，需要对一定数量的新闻进行真新闻与假新闻的标注。在的实验结果中，标注数据在总数据中所占的比重只需要达到5％，分类的准确率在实验数据集上即可达到90％以上。
[0092]
本实施例的有效性可以通过下面的仿真实验来进一步说明。需要说明的是，实验中应用的参数不影响本发明的一般性。
[0093]
1)仿真条件：
[0094]
cpu intel(r)xeon(r)e5-2630 v4@2.20ghz，ram 256.00gb，操作系统centos 7，gpu nvidia titan rtx，仿真程序编写语言为python。
[0095]
2)仿真内容：
[0096]
为了考察本发明在实际数据集上的表现，挑选了politifact这一新闻真实性验证网站的数据集。politifact是一家美国的公益组织，专门研究网络上特别是社交平台上各种新闻的真实性。首先挑选了由俄亥俄州立大学研究人员开源的fakenewsnet数据集中的politifact部分。这一数据集包括了新闻本身的文本内容，与新闻产生互动的用户信息。另外，通过原本的新闻链接爬取到了原始新闻网站上的新闻主题。这些作为仿真中的第一个数据集politifact-old。为了进一步验证本发明的有效性，从politifact网站上爬取了最新的在推特平台上传播的经过验证的新闻。与politifact-old一样，这些数据包括了新闻本身的文本内容，与新闻产生互动的用户信息，以及politifact网站提供的新闻主题信息。
[0097]
为了验证本发明的效果，主要做了以下三个实验。首先，比较了模型在弱监督的现实场景下的性能。弱监督指的是标注训练数据占总数据的5％。20％的总数据被选为验证集，30％的总数据被选为测试集。为了保证分类问题的公平性，验证集与测试集中正负样本的比例为1：1，结果为表1，比较了模型在弱监督的现实场景下的性能，其次，比较了除本发明外最好的方法han与本发明在标注数据所占总比重为5％，10％，20％，30％以及50％时的准确率，结果为图2。最后，可视化地比较了纯语言模型、gcn、han以及本发明学习到的新闻节点特征在二维平面上的分类结果，结果为图3，从效果上可以看出本发明学习到的特征被分隔得最好。
[0098]
表1实验结果表
[0099] politifact-oldpolitifact-new 准确率准确率文本模型(半监督)0.7370.857gcn(弱监督)0.7170.750dgi(弱监督)0.8480.912han(弱监督)0.8000.883本发明(弱监督)0.9000.946
[0100]
参与比较的方法有如下几个：
[0101]
1、sentence transformers：纯语言模型，不考虑网络结构信息
[0102]
2、gcn：图卷积神经网络，由kipf,welling发表在2017年的iclr会议上。由于是同质图的方法，比较时使用两个元路径视图中较好的那个结果。
[0103]
3、dgi：同质图上的对比学习技术，由fedus等人发表在2019年的iclr会议上。由于是同质图的方法，比较时使用两个元路径视图中较好的那个结果。
[0104]
4、han：异构图注意力网络，由wang,ji等人发表在2019年的www会议上。
[0105]
从最后的结果中可以看出，本发明在两个数据集上都有超越其他方法的表现，特别是在小样本标注的条件下。
[0106]
以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于类增量学习模型的数据处理方法及装置与流程

一种基于异质图对比学习的虚假新闻识别方法与流程

相关文献

最热文献