基于图内图间联合信息传播的假新闻检测方法及系统

2022-08-17 08:07:34 来源：中国专利 TAG：

1.本发明属于自然语言处理技术领域，尤其涉及基于图内图间联合信息传播的假新闻检测方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.互联网时代，每个网民都可以通过社交媒体等途径向外发布新闻。新闻职业道德的欠缺、约束机制和整顿措施不完善等原因，导致假新闻事件层出不穷，不仅会误导不明真相的读者，而且会造成恶劣的社会影响。
4.为检测假新闻，很多组织采用人工标注方法核查新闻的真实性。大量假新闻出现之后，劳动密集型的人工标注方法已无法实现对假新闻及时处理。对比人工标注方法，假新闻智能检测已成为假新闻识别的新方向。现有卷积神经网络(cnn)、循环神经网络(rnn)等深度学习方法在假新闻检测已经取得很大的成功，该类方法的最大优势在于不依赖人工特征且能够分析可变长度的序列数据并发现文本数据中隐藏的复杂模式。然而，由于卷积核大小的限制，cnn 无法捕获长距离和非连续单词之间的依赖关系；虽然长短期记忆网络(longshort term memory，lstm)克服了rnn长距离依赖梯度消失的困难，但仍不能有效捕获长距离依赖。
5.假新闻智能检测中首要环节就是文本向量化，将文本数据转换为计算机可以识别的二进制数字表示。one-hot编码将每一个单词或字符对应一个向量，但编码的向量无法体现出单词之间的相似性和联系，也不包含任何语义信息。作为改进方法，词嵌入是将单词表示为维度较低且稠密向量的一种方法，每个维度上都有实数。将词嵌入与全连接神经网络结合后，提出了word2vec、glove 和fasttext等一系列深度学习技术，为文本提供了多种数值化的表示方法。以短文本呈现内容数据已经成为信息传播的一种重要形式，但是，其所包含的数据单词个数少、描述信息弱，造成文本特征稀疏，难以从文本中抽取到样本特征用于文本向量化。

技术实现要素：

6.为了解决上述背景技术中存在的技术问题，本发明提供基于图内图间联合信息传播的假新闻检测方法及系统，基于文本中存在的多种信息，实现同构和异构信息的全局交互，解决了短文本向量化时存在的特征稀疏问题，丰富了文本向量表示，解决了长距离和非连续文本信息交互缺失问题，提高了文本表示的精确度。
7.为了实现上述目的，本发明采用如下技术方案：
8.本发明的第一个方面提供基于图内图间联合信息传播的假新闻检测方法，其包括：
9.获取待检测文本，并进行预处理；
10.基于预处理后的文本，分别提取文本顺序特征、文本语法特征和文本语义特征，进而构建文本顺序图、文本语法图和文本语义图；
11.基于文本顺序图、文本语法图和文本语义图，先进行图内信息交互，再进行图间信息交互后，得到联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图；
12.基于联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图，通过图注意力机制和节点注意力机制，得到待检测文本的向量表示；
13.将待检测文本的向量表示输入到分类器，得到待检测文本是否属于假新闻的结果。
14.进一步地，所述预处理为对所述待检测文本进行归一化处理后，进行数据增强。
15.进一步地，所述归一化处理包括：去除特殊字符、分词、删除停用词、词干提取和单词小写。
16.进一步地，所述数据增强包括同义词替换、随机插入、随机交换和随机删除。
17.进一步地，所述文本顺序特征的提取方法为：
18.利用滑动窗口机制遍历所述预处理后的文本，计算每个单词对在同一滑动窗口中出现的次数，以及每个单词在所有滑动窗口中出现的次数；
19.基于所述每个单词对在同一滑动窗口中出现的次数和每个单词在所有滑动窗口中出现的次数，计算文本顺序权重。
20.进一步地，所述图内信息交互采用重置门和更新门，分别对文本顺序图、文本语法图和文本语义图中的节点表示以及节点之间的权重进行更新。
21.进一步地，所述图间信息交互在进行图内信息交互后的文本顺序图、文本语法图和文本语义图之间进行信息传播。
22.本发明的第二个方面提供基于图内图间联合信息传播的假新闻检测系统，其包括：
23.预处理模块，其被配置为：获取待检测文本，并进行预处理；
24.图构建模块，其被配置为：基于预处理后的文本，分别提取文本顺序特征、文本语法特征和文本语义特征，进而构建文本顺序图、文本语法图和文本语义图；
25.信息传播模块，其被配置为：基于文本顺序图、文本语法图和文本语义图，先进行图内信息交互，再进行图间信息交互后，得到联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图；
26.向量表示模块，其被配置为：基于联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图，通过图注意力机制和节点注意力机制，得到待检测文本的向量表示；
27.分类模块，其被配置为：将待检测文本的向量表示输入到分类器，得到待检测文本是否属于假新闻的结果。
28.本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于图内图间联合信息传播的假新闻检测方法中的步骤。
29.本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于图内图间联合信息传播的假新闻检测方法中的步骤。
30.与现有技术相比，本发明的有益效果是：
31.本发明提供了基于图内图间联合信息传播的假新闻检测方法，其通过使用三阶文本图张量描述文本，达到丰富文本特征的目的，解决短文本存在的特征稀疏问题，提高了假新闻检测的精度。
32.本发明提供了基于图内图间联合信息传播的假新闻检测方法，其通过对文本进行图内图间联合信息传播，实现同构和异构信息的全局交互，解决长距离和非连续文本交互缺失问题，提高了文本表示的精确度。
附图说明
33.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
34.图1是本发明实施例一的基于图内图间联合信息传播的假新闻检测方法流程图；
35.图2是本发明实施例一的文本归一化流程图；
36.图3是本发明实施例一的语法特征提取流程图；
37.图4(a)是本发明实施例一的图内信息传播流程图；
38.图4(b)是本发明实施例一的图间信息传播流程图。
具体实施方式
39.下面结合附图与实施例对本发明作进一步说明。
40.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
41.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
42.实施例一
43.本实施例提供了基于图内图间联合信息传播的假新闻检测方法，首先，获取待检测文本，并进行预处理(对待检测文本进行归一化处理，将归一化的文本进行数据增强，得到增强文本)；其次，基于预处理后的文本，三阶文本图张量描述三种文本特征，得到特征向量；再次，基于特征向量，图内图间信息传播进行同构和异构信息的交互，得到特征图向量；然后，基于特征图向量，通过图注意力机制和节点注意力机制进行单词权重学习，得到文本向量；最后，基于文本向量，分类器得到待检测文本是否属于假新闻的结果。具体包括以下步骤：
44.步骤(1)：获取待检测文本，对待检测文本进行归一化处理。对待检测文本进行清洗，清除与假新闻检测任务不相关的字符。如图2所示的文本归一化流程图，文本归一化包括以下步骤：
45.步骤(101)：清理文本：去除待检测文本内包含的url标签和标点符号等特殊字符。
46.步骤(102)：分词：将去除特殊字符后的待检测文本分割成若干单词。
47.步骤(103)：删除停用词：删除文章中经常出现，但和文本无关的部分单词，例如介词、代词和助词。
48.步骤(104)：词干提取：利用nltk工具进行词形还原，提取单词的词干，并将提取出来的词干全部小写。
49.如图2所示，对获取到的文本进行归一化处理，经过删除多余字符、分词、删除停用词、词干提取和单词小写后，得到整洁的文本，方便词典的构建。
50.步骤(2)：将归一化后的文本进行数据增强，得到增强文本。具体的：将文本分别进行同义词替换、随机插入、随机交换和随机删除，将同义词替换、随机插入、随机交换和随机删除后的文本与原文本组合，得到增强文本，如表1 所示，解决文本中存在的数据不平衡和标签数据不足问题。
51.(1)同义词替换：随机选择句子中的一个单词，并随机选择该单词的一个同义词替换该单词；
52.(2)随机插入：随机选择句子中的一个单词，随机选择该单词的一个同义词并随机插入到句子中；
53.(3)随机交换：随机选择句子中的两个单词进行交换位置；
54.(4)随机删除：随机选择句子中的一个单词进行删除。
55.表1、数据增强示例表
[0056][0057]
步骤(3)：基于增强文本，构建三阶文本图张量，描述三种文本特征，得到特征向量，用于进行假新闻特征的学习，使分类效果更加精确。文本顺序特征，借助滑动窗口机制遍历文本，描述单词之间局部共现的语言属性；文本语法特征，获取单词与单词之间语法上的相互依赖关系；文本语义特征，获取文本的主题分布以及主题关键词分布。
[0058]
如图1所示，三阶文本图张量构建主要进行以下处理：
[0059]
步骤(301)：文本顺序特征提取：借助滑动窗口机制，使用逐点互信息 point-wise mutual information(pmi)来描述顺序上下文信息。
[0060]
首先，定义一个滑动窗口的大小window_size，作为能够遍历最长字符的长度；
[0061]
其次，利用滑动窗口机制遍历预处理后的待检测文本，根据数据长度seq_len 得到文本所包含的滑动窗口数目n
windows
；
[0062]
最后，根据滑动窗口的数量，利用pmi来描述任意两个单词之间的顺序权重，即文
本顺序特征：
[0063][0064]
其中，表示单词对(wi,wj)在同一滑动窗口中出现的概率,n
co-occurence
(wi,wj)表示单词对(wi,wj)在同一滑动窗口中出现的次数；表示单词wi在所有滑动窗口中出现的概率， n
occurrence
(wi)表示单词wi在所有滑动窗口中出现的次数。
[0065]
步骤(302)：文本语法特征提取：获取单词与单词之间语法上的相互依赖关系。利用stanford corenlp提取单词语法依赖关系来描述文本语法特征。如图3 所示，给定一个文本，可以提取出多样的单词语法依赖关系，其中，xcomp、dobj、 nbsuj为部分依赖关系名称的简写形式；root是corenlp工具提取一条语句中的依赖关系的开始符号，无任何实际意义。每一个单词语法依赖关系均为单向的三元组：(governor,dependent,the name of relation)。该三元组是stanfordcorenlp工具提取文本中存在的单词语法依赖关系的一种描述形式，其中， governor描述依赖关系的发起单词；dependent描述依赖关系的接收单词；thename of relation描述依赖关系的名称；给定一条预处理之后的待检测文本，调用corenlp函数，提取文本中三元组形式的依赖关系。定义三元组中的单词语法权重，即文本语法特征，为：e(governor,dependent)＝1。
[0066]
步骤(303)：文本语义特征提取：提取文本中存在的主题信息以及主题相关的关键字，利用主题以及关键词描述文本语义信息。其具体包括如下步骤：
[0067]
步骤(30301)：利用latent dirichlet allocation(lda)提取文本中的主题分布 t＝(t1,t2,
…
,tk)(k为主题数量)；
[0068]
步骤(30302)：对于每一个主题ti，可以用单词概率分布来表示，可以用单词概率分布来表示
[0069]
步骤(30303)：为进一步精确的表示主题，认定每一主题可以表示为与其最相关的m个单词进行描述:
[0070]
步骤(30304)：给定任意文本 x＝(w1,w2,
…
wh,
…
,wn)(n为单词数目，包含n个单词)，该文本对应一个主题tj， tj是由单词集合描述若文本x中存在一个单词个单词则可以定义wh和文本x中其他任意单词wk组成的单词对 (wi,wk)的语义权重，即文本语义特征，为e(wi,wk)＝1(i＝h,k≠h)。
[0071]
基于文本顺序特征、文本语法特征和文本语义特征，分别构建文本顺序图 g
seq
、文本语法图g
syn
和文本语义图g
sem
，每一张文本图均可表示为g＝(v,e)，其中，v(|v|＝n)表示节点集合，e描述节点之间权重，其中，顺序图对应步骤 301中的d
sequential
(wi,wj)，语法图对应步骤302中的e(governor,dependent)，语义图对应步骤30304中的e(wi,wk)。
[0072]
步骤(4)：图内图间联合信息传播，对文本顺序图g
seq
、文本语法图g
syn
和文本语义图g
sem
先进行图内信息交互，再进行图间信息交互，得到联合信息特征图。基于特征向量，进
行图内信息传播，实现同构信息的全局交互，得到同构图向量；基于同构图向量，进行图间信息传播，实现异构信息的全局交互，得到特征图向量。具体实现为：
[0073]
步骤(401)：图内信息交互，采用重置门和更新门，分别对文本顺序图、文本语法图和文本语义图中的节点表示以及节点之间的权重进行更新，具体的：在同一张图中，每个单词节点与图内其他节点交换同构信息，更新节点表示，如图4(a)所示。给定当前节点的表示x
t
，和上一个节点传递下来的状态h
t-1
，重置门r
t
＝σ(wr·
[h
t-1
,x
t
])决定如何将新的输入信息与前面的信息相结合，更新门z
t
＝σ(wz·
[h
t-1
,x
t
])定义前面信息保存到当前时间的量，得到传递给下一节点的状态h
t
＝(1-z
t
)*h
t-1
z
t
*h
′
，其中，h
′
＝tanh(wh′
·
[r
t
*h
t-1
,x
t
]) 和当前节点的更新表示y
t
＝σ(wy·ht
)，wr、wz、wh′
和wy均表示可训练得到的参数。文本顺序图g
seq
、文本语法图g
syn
和文本语义图g
sem
分别进行节点以及节点之间的权重的更新，得到更新后的文本顺序图g
seq
、文本语法图g
syn
和文本语义图g
sem
。
[0074]
步骤(402)：图间信息交互：是指在进行图内信息交互后的文本顺序图、文本语法图和文本语义图之间进行信息传播，实现异构特征之间的信息交互。图内更新机制之后，每一节点对不同的文本特征均有单独表示，但特征之间彼此还是分割的。图间信息交互机制，目的在于将不同的信息集成，实现异构信息的交互，如图4(b)所示。经不同图之间的节点表示与相应的节点表示相加，即 g
′
seq
＝g
seq
g
sem
,g
′
sem
＝g
sem
g
syn
，g
′
syn
＝g
syn
g
seq
计算之后，得到联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图，g
′
seq
、g
′
syn
和 g
′
sem
，实现图间信息的传播，并更新图表示。其中，g
seq
、g
syn
和g
sem
为图内信息传播更新后的文本顺序图、文本语法图和文本语义图。
[0075]
步骤(5)：基于联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图，通过图注意力机制和节点注意力机制进行单词权重学习，得到文本向量。具体包含以下处理：
[0076]
步骤(501)：构建图注意力机制，学习不同文本图对最终分类结果的影响，并得到最终的文本图表示gf，由公式(1)得到：
[0077][0078]
其中，β
t
表示第t个文本图(g1为g
′
seq
的所有节点表示，g2为g
′
syn
的所有节点表示，g3为g
′
sem
的所有节点表示)的重要性，由公式(2)和公式(3)得到：
[0079]ut
＝tanh(w
tgt
b
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0080][0081]
其中，u
t
是将g
t
送入到全连接层得到的隐藏表示，w
t
，b
t
是可以训练得到的参数。
[0082]
步骤(502)：由于gf中的节点信息已经充分表示，为了学习不同单词对最终分类结果的影响，使用单词注意力机制进行计算，得到最终的待检测文本的向量表示wf，由公式(4)和公式(5)计算得到：
[0083]
wi＝σ(f1(wi))
⊙
tanh(f2(wi))
ꢀꢀꢀꢀꢀꢀ
(4)
[0084][0085]
其中，wi是gf中第i个单词的表示，f1和f2均为感知器。
[0086]
步骤(6)：分类器：将待检测文本的向量表示wf输入到分类器进行分类预测，得到
待检测文本是否属于假新闻的结果，并将分类结果以可视化的方式展现给用户。
[0087]
本发明基于文本中存在的多种信息，实现同构和异构信息的全局交互。首先依据文本内容，提取文本之间的多种信息；然后基于多种文本信息，图内图间联合信息传播实现同构和异构信息的交互，得到特征图向量；基于特征图向量，通过图注意力机制和节点注意力机制，得到文本向量；最后基于文本向量，分类器得到待检测文本是否属于假新闻的结果。该发明解决了短文本向量化时存在的特征稀疏问题，丰富了文本向量表示；解决了长距离和非连续文本信息交互缺失问题，提高了文本表示的精确度。
[0088]
本发明通过提取文本中的多样信息，进行图内图间联合信息传播，有效的解决短文本特征稀疏问题和长距离、非连续文本交互缺失的问题，提高检测网络环境中的假新闻的精确度。
[0089]
实施例二
[0090]
本实施例提供了基于图内图间联合信息传播的假新闻检测系统，其具体包括如下模块：
[0091]
预处理模块，其被配置为：获取待检测文本，并进行预处理；
[0092]
图构建模块，其被配置为：基于预处理后的文本，分别提取文本顺序特征、文本语法特征和文本语义特征，进而构建文本顺序图、文本语法图和文本语义图；
[0093]
信息传播模块，其被配置为：基于文本顺序图、文本语法图和文本语义图，先进行图内信息交互，再进行图间信息交互后，得到联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图；
[0094]
向量表示模块，其被配置为：基于联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图，通过图注意力机制和节点注意力机制，得到待检测文本的向量表示；
[0095]
分类模块，其被配置为：将待检测文本的向量表示输入到分类器，得到待检测文本是否属于假新闻的结果。
[0096]
此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。
[0097]
实施例三
[0098]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于图内图间联合信息传播的假新闻检测方法中的步骤。
[0099]
实施例四
[0100]
本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于图内图间联合信息传播的假新闻检测方法中的步骤。
[0101]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0102]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0103]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0104]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0105]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory， rom)或随机存储记忆体(random accessmemory，ram)等。
[0106]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：感知信息的处理方法及装置、家电设备与流程

基于图内图间联合信息传播的假新闻检测方法及系统

相关文献

最热文献