一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本隐写分析方法、系统、装置及存储介质

2022-10-12 23:44:39 来源:中国专利 TAG:


1.本发明涉及一种文本隐写分析方法、系统、装置及存储介质,属于加密技术领域。


背景技术:

2.随着互联网的不断发展,人们频繁的使用互联网来互相通讯,信息传递中的安全问题也不容忽视;不法分子采用某种隐写方式将秘密信息隐藏到文本之中进行不可见的传递,这给人们的生命财产安全和社会稳定带来了巨大的隐患;对文本进行分析判断文本中是否含有秘密信息已经广受认可,其中一类方法是基于神经网络的文本隐写分析方法,利用神经网络提取文本特征,根据文本特征在高维语意空间中的分布不同进而判断文本是否经过隐写。
3.目前,利用神经网络进行文本隐写分析的方法有:利用不同大小的卷积核提取文本不同尺度的特征进行判断;将卷积神经网络与循环神经网络提取到的局部特征和全局特征得到融合特征来进行分析;利用多头注意力机制提取文本的显著特征进行判断。
4.将卷积神经网络和循环神经网络提取到的文本局部特征和文本长距离特征结合起来;这种方法提取到的特征更加具有可区分度,但是会导致特征中存在某些不相关的冗余特征,从而影响文本隐写效率。
5.使用多头注意力机制提取文本显著性特征;这种方法利用多头注意力机制能够更加关注文本中的可疑信息,且多头操作能够加快特征提取速度从而提升文本隐写分析的效率;但是还是只关注到在当前文本中的特征关系,没有考虑到文本之间的全局相关性。


技术实现要素:

6.本发明的目的在于提供一种文本隐写分析方法、系统、装置及存储介质,解决现有技术中文本隐写分析效率低、不考虑文本间全局相关性等问题。
7.为实现以上目的,本发明是采用下述技术方案实现的:一种文本隐写分析方法,包括:获取待分析文本;将待分析文本输入到预训练好的多图神经网络中,得到网络输出,若网络输出小于预设阈值,待分析文本为正常文本,否则待分析文本为隐写文本;所述多图神经网络通过以下方法进行训练:获取训练样本集,将训练样本集中的文本转换为词向量;每次训练时,将词向量输入到构图模块,生成包括逻辑图、语意图和句法图的三张图,并根据三张图内的各目标节点及目标节点的周围节点的信息对三张图进行图内信息更新;将更新后的三张图进行图间融合得到总图;对总图进行图池化得到文本的最终表示;将文本的最终表示输入到分类器,得到分类器输出;
根据分类器输出,以交叉熵函数作为损失函数对多图神经网络进行更新,重复进行迭代训练直至训练样本集中的文本使用完毕,得到训练好的多图神经网络。
8.优先地,所述训练样本集由隐写样本数据集和正常样本数据集组成。
9.优先地,在生成逻辑图的过程中,所述逻辑图中的边权重通过以下公式进行计算:其中,是逻辑图中单词a、b之间边的边权重,表示单词a、b共同出现的概率,表示单词a在语料库中出现的概率,表示单词b在语料库中出现的概率。
10.优先地,在生成语意图的过程中,所述语意图中的边权重通过以下公式进行计算:其中,表示语意图中单词a、b之间边的边权重,表示单词a、b有语意关系的滑动窗口个数,表示单词a、b同时出现的滑动窗口个数。
11.优先地,在生成句法图的过程中,所述句法图中的边权重通过以下公式进行计算:其中,表示句法图中单词a、b之间边的边权重,表示单词a、b有句法关系的滑动窗口个数,表示单词a、b同时出现的滑动窗口个数。
12.优先地,对逻辑图、语意图和句法图进行图内信息更新包括:对于任一张图中的任一目标节点,通过下式从图中各目标节点的周围节点中收集信息:其中,mn表示收集到的信息,max表示取周围节点信息中每个维度的最大值,表示与目标节点相连接的p个节点,ec表示单词c与目标节点之间的权重,表示单词c的词向量;通过下式将收集到的信息与目标节点自身进行信息聚合:其中,表示单词a聚合后的词向量,b表示信息要保留的程度,。
13.优先地,所述损失函数的表达式为:其中,yi表示样本的预测标签,pi表示样本的预测标签,n是样本数量。
14.一种文本隐写分析系统,包括:文本获取模块:用于获取待分析文本;
文本隐写分析模块:用于将待分析文本输入到预训练好的多图神经网络中,得到网络输出,若网络输出小于预设阈值,待分析文本为正常文本,否则待分析文本为隐写文本;所述文本隐写分析模块中包括网络训练单元,用于通过以下方法对多图神经网络进行训练:获取训练样本集,将训练样本集中的文本转换为词向量;每次训练时,将词向量输入到构图模块,生成包括逻辑图、语意图和句法图的三张图,并根据三张图内的各目标节点及目标节点的周围节点的信息对三张图进行图内信息更新;将更新后的三张图进行图间融合得到总图;对总图进行图池化得到文本的最终表示;将文本的最终表示输入到分类器,得到分类器输出;根据分类器输出,以交叉熵函数作为损失函数对多图神经网络进行更新,重复进行迭代训练直至训练样本集中的文本使用完毕,得到训练好的多图神经网络。
15.一种文本隐写分析装置,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行上述任一项所述方法的步骤。
16.计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
17.与现有技术相比,本发明所达到的有益效果是:本发明提供的一种文本隐写分析方法、系统、装置及存储介质,通过预先训练好的多图神经网络对待分析文本进行隐写分析,利用多图神经网络中的构图模块生成逻辑图、语意图和句法图,分析文本间的统计性关系、语意关系、句法关系,综合这三种关系对文本进行消息更新和特征提取,得到区分度更高的特征,弥补了隐写分析中序列模型未考虑全局特征的不足,大大提高了多图神经网络的分析效率;对更新后的逻辑图、语意图和句法图进行图间融合得到总图,总图池化得到待分析文本的最终表示,能够使得最终表示包含更丰富的信息,提高文本隐写分析的准确性。
附图说明
18.图1是本发明实施例提供的一种文本隐写分析方法的流程图之一;图2是本发明实施例提供的一种文本隐写分析方法的流程图之二;图3是本发明实施例提供的图内信息更新的示意图。
具体实施方式
19.下面结合附图对本发明作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
20.实施例1如图1所示,本发明实施例提供的一种文本隐写分析方法,包括:s1、获取待分析文本。
21.通过通讯接收端接收待分析文本。
22.s2、将待分析文本输入到预训练好的多图神经网络中,得到网络输出,若网络输出小于预设阈值,待分析文本为正常文本,否则待分析文本为含密文本。
23.预先对多图神经网络进行训练,由隐写样本数据集和正常样本数据集组成训练样本集,每训练一次后以交叉熵函数作为损失函数对多图神经网络的参数进行更新,直至训练样本集中的文本使用完毕,得到训练好的多图神经网络。
24.在本实施例中,训练的具体过程如下:以rnn-stega隐写方式生成的6000条隐写样本并作为隐写样本数据集,从真实场景中抓取6000条正常样本作为正常样本数据集,由隐写样本数据集和正常样本数据集组成训练样本集,训练样本集中包含12000条文本。
25.将包含12000条文本的训练样本集输入到多图神经网络中的嵌入层,进行文本到词向量之间的转换,得到词向量的集合。
26.将词向量的集合x输入到多图神经网络中构图模块,生成三张图,分别是逻辑图、语意图、句法图,每张图的表示为,其中表示单词节点,代表边权重。
27.逻辑图中的边权重通过以下公式进行计算:其中,是逻辑图中单词a、b之间边的边权重,表示单词a、b共同出现的概率,表示单词a在语料库中出现的概率,表示单词b在语料库中出现的概率。
28.语意图中的边权重通过以下公式进行计算:其中,表示语意图中单词a、b之间边的边权重,表示单词a、b有语意关系的滑动窗口个数,表示单词同时出现的滑动窗口个数。
29.所述句法图中的边权重通过以下公式进行计算:其中,表示句法图中单词a、b之间边的边权重,表示单词a、b有句法关系的滑动窗口个数,表示单词a、b同时出现的滑动窗口个数。
30.对三张图分别进行图内信息更新,以单张图中目标节点更新的过程为例(如图3所示,图中a为目标节点,和a通过实线连接的均为其周围节点);目标节点更新过程分为两步:收集和聚合。
31.首先,对于任一张图中的任一目标节点,通过下式从图中各目标节点的周围节点中收集信息:其中,mn表示收集到的信息,max表示取周围节点信息中每个维度的最大值,表示与目标节点相连接的p个节点,ec表示单词c与目标节点之间的权重,表示单词c的词向量;然后通过下式将收集到的信息与目标节点自身进行信息聚合:其中,表示单词a聚合后的词向量,b表示信息要保留的程度,。
32.三张图最终得到的更新结果为:。
33.为了使得到的文本能够包含更丰富的信息,将三张图更新后的结果进行图间融合,得到含有文本间逻辑、语意、句法关系的总图:。
34.对总图进行图池化操作,得到文本的最终表示:。
35.将文本的最终表示输入到分类器:,分类器的输出p为0到1之间的数值,通过以下方法判断文本中是否含有秘密信息:我们为其设置阈值为η,当时认为文本为含密文本,当时认为文本为正常文本。
36.损失函数的表达式为:其中,yi表示样本的预测标签,pi表示样本的预测标签,n是样本数量。
37.在多图神经网络训练好之后,将待分析文本输入到多图神经网络中,得到网络输出,若网络输出小于预设阈值,待分析文本为正常文本,否则待分析文本为含密文本。
38.本发明实施例提供的一种文本隐写分析方法,能够用图2所示的流程图表示,将待分析文本text输入到预训练好的多图神经网络中,依次经过图内信息更新、图间信息融合(即上述的将三张图更新后的结果进行图间融合)和池化,将池化结果输入到分类器中最终得到多图神经网络的输出,若网络输出小于预设阈值,待分析文本为正常文本,否则待分析文本为含密文本,完成待分析文本的隐写分析。
39.实施例2本发明实施例提供的一种文本隐写分析系统,包括:文本获取模块:用于获取待分析文本;文本隐写分析模块:用于将待分析文本输入到预训练好的多图神经网络中,得到网络输出,若网络输出小于预设阈值,待分析文本为正常文本,否则待分析文本为隐写文本;所述文本隐写分析模块中包括网络训练单元,用于通过以下方法对多图神经网络进行训练:
获取训练样本集,将训练样本集中的文本转换为词向量;每次训练时,将词向量输入到构图模块,生成包括逻辑图、语意图和句法图的三张图,并根据三张图内的各目标节点及目标节点的周围节点的信息对三张图进行图内信息更新;将更新后的三张图进行图间融合得到总图;对总图进行图池化得到文本的最终表示;将文本的最终表示输入到分类器,得到分类器输出;根据分类器输出,以交叉熵函数作为损失函数对多图神经网络进行更新,重复进行迭代训练直至训练样本集中的文本使用完毕,得到训练好的多图神经网络。
40.实施例3本发明实施例提供的一种文本隐写分析装置,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行下述方法的步骤:获取待分析文本;将待分析文本输入到预训练好的多图神经网络中,得到网络输出,若网络输出小于预设阈值,待分析文本为正常文本,否则待分析文本为隐写文本;所述多图神经网络通过以下方法进行训练:获取训练样本集,将训练样本集中的文本转换为词向量;每次训练时,将词向量输入到构图模块,生成包括逻辑图、语意图和句法图的三张图,并根据三张图内的各目标节点及目标节点的周围节点的信息对三张图进行图内信息更新;将更新后的三张图进行图间融合得到总图;对总图进行图池化得到文本的最终表示;将文本的最终表示输入到分类器,得到分类器输出;根据分类器输出,以交叉熵函数作为损失函数对多图神经网络进行更新,重复进行迭代训练直至训练样本集中的文本使用完毕,得到训练好的多图神经网络。
41.实施例4本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现下述方法的步骤:获取待分析文本;将待分析文本输入到预训练好的多图神经网络中,得到网络输出,若网络输出小于预设阈值,待分析文本为正常文本,否则待分析文本为隐写文本;所述多图神经网络通过以下方法进行训练:获取训练样本集,将训练样本集中的文本转换为词向量;每次训练时,将词向量输入到构图模块,生成包括逻辑图、语意图和句法图的为三张图,并根据三张图内的各目标节点及目标节点的周围节点的信息对三张图进行图内信息更新;将更新后的三张图进行图间融合得到总图;对总图进行图池化得到文本的最终表示;
将文本的最终表示输入到分类器,得到分类器输出;根据分类器输出,以交叉熵函数作为损失函数对多图神经网络进行更新,重复进行迭代训练直至训练样本集中的文本使用完毕,得到训练好的多图神经网络。
42.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
43.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
44.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
45.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
46.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献