一种基于图注意网络的灾难信息过滤方法及系统

2022-05-06 06:55:18 来源：中国专利 TAG：

1.本发明属于机器学习领域，具体涉及一种基于图注意网络的灾难信息过滤方法及系统。

背景技术：

2.社交媒体已经成为紧急情况下分享信息的重要媒介。社交媒体和传统新闻来源的主要区别在于能够实时收到受影响人群的反馈。救援组织可以从这一双向沟通渠道中获益，向人们通报情况，并从受影响人群收到的最新情况中获得见解。因此，从社交平台上的帖子中提取危机信息，可以充分利用情境意识，从而更快地做出反应。
3.大多数研究都将社交媒体中的信息提取作为二进制文本分类问题。研究表明，在灾难发生时，社交媒体作为主要信息来源的作用。有些研究专注于从帖子中过滤相关信息，而另一些研究则提出了注释方案，将帖子分类为细粒度标签，这些标签考虑了人们在灾难发生前、期间和之后发布帖子的态度、信息源和决策行为。为了推进社会媒体危机监测解决方案的状态，最近几年推出了相关的倡议。其中之一是始于2018年的文本检索会议的事件流跟踪。该专题旨在将与灾难相关的推文分类为多种信息类型。
4.同时，帖子分类是一项具有挑战性的短文本自然语言处理任务。这是因为帖子没有足够的上下文信息，而且包含固有的嘈杂，例如拼写错误、缩略词、表情符号等。此外，在多标签的情况下，分类任务变得更加困难，因为一条帖子可能同时属于一个或多个标签。早期的文本分类研究将特征工程和模型训练作为不同的子任务。随着端到端深度学习方法和注意机制的出现，多标签文本分类领域取得了显著进展。传统方法可以适当地截取文本的特征。
5.然而，这些方法忽略了文本语料库中词语之间的结构信息和关系。预先训练过的语言模型，如bert，在文本分类任务中变得越来越流行。然而，由于bert仅捕获本地上下文信息，bert嵌入不能充分捕获关于语言词汇的全局信息。为了解决这一问题，理解词汇表中单词之间的全局关系，基于图的方法，如图卷积网络和图注意网络是很有前景的。
6.最近的研究利用了bert和图网络相结合的优势。对于输入句子，采用bert嵌入方法获取局部上下文信息，采用图嵌入方法提取句子中每个单词的全局信息，然后用bert连接。然后，bert和图卷积网络的两种表示通过自我注意机制相互作用来执行分类任务。
7.然而，目前还缺乏有效的系统来将相关帖子映射到更细粒度的标签上。这种细粒度的标签对危机应对者尤其有价值，因为他们可以过滤关键信息，以快速做出灾难响应。

技术实现要素：

8.本发明是为了解决上述问题而进行的，目的在于提供一种基于图注意网络的灾难信息过滤方法及系统。
9.本发明提供了一种基于图注意网络的灾难信息过滤方法，具有这样的特征，使用图注意网络理解帖子的单词和相应信息类型之间的相关性，过滤得到可执行的信息，包括
以下步骤：步骤1，对数据集中的帖子进行预处理，得到预处理后的数据；步骤2，搭建信息过滤网络模型；步骤3，把预处理后的数据输入信息过滤网络模型中进行训练，得到训练完成的信息过滤网络模型；步骤4，将待分类的帖子输入训练完成的信息过滤网络模型，得到分类结果。其中，信息过滤网络包括bert编码器、图注意网络以及关系网络。
10.在本发明提供的基于图注意网络的灾难信息过滤方法中，还可以具有这样的特征：其中，bert编码器捕捉推文的语义，并表示为一个低维向量。
11.在本发明提供的基于图注意网络的灾难信息过滤方法中，还可以具有这样的特征：其中，步骤2中，使用可学习的距离度量，以监督的方式，学习帖子向量和标签向量之间的相似性。
12.在本发明提供的基于图注意网络的灾难信息过滤方法中，还可以具有这样的特征：其中，步骤2中，信息过滤网络模型学习了trec-is数据集，并采用了来自trec-is挑战作者的可行动信息定义。
13.在本发明提供的基于图注意网络的灾难信息过滤方法中，还可以具有这样的特征：其中，步骤2中，使用累计警报值来评估信息过滤网络模型的表现，以识别推文中的可操作信息。
14.在本发明提供的基于图注意网络的灾难信息过滤方法中，还可以具有这样的特征：其中，步骤2中，采用元学习的方式来学习输入特征和多标签输出之间的映射。
15.在本发明提供的基于图注意网络的灾难信息过滤方法中，还可以具有这样的特征：其中，步骤2中，使用监督学习的方法训练关系网络来学习相似度。
16.在本发明提供的基于图注意网络的灾难信息过滤方法中，还可以具有这样的特征：其中，步骤s3包括如下步骤：步骤s3-1，将预处理后的数据依次输入到信息过滤网络模型中并进行一次迭代；步骤s3-2，进行迭代后，采用最后一层的模型参数分别计算出损失误差，然后将损失误差反向传播，从而更新模型参数；步骤s3-3，重复步骤s3-1到s3-2直至达到训练完成条件，得到训练后的信息过滤网络模型。
17.本发明提供了一种基于图注意网络的灾难信息过滤系统，具有这样的特征，使用图注意网络理解帖子的单词和相应信息类型之间的相关性，过滤得到可执行的信息，包括：预处理部，对数据集中的帖子进行预处理，得到预处理后的数据；信息过滤部，搭建信息过滤网络模型，把预处理后的数据输入信息过滤网络模型中进行训练，得到训练完成的信息过滤网络模型，将待分类的帖子输入训练完成的信息过滤网络模型，得到分类结果。其中，信息过滤网络包括bert编码器、图注意网络以及关系网络。
18.发明的作用与效果
19.根据本发明所涉及的基于图注意网络的灾难信息过滤方法，使用图注意网络理解帖子的单词和相应信息类型之间的相关性，过滤得到可执行的信息，因为包括以下步骤：步骤1，对数据集中的帖子进行预处理，得到预处理后的数据；步骤2，搭建信息过滤网络模型；步骤3，把预处理后的数据输入信息过滤网络模型中进行训练，得到训练完成的信息过滤网络模型；步骤4，将待分类的帖子输入训练完成的信息过滤网络模型，得到分类结果.其中，信息过滤网络模型包括bert编码器、图注意网络以及关系网络。
20.因此，本发明采用bert编码器和音图注意网络结合的模型，该模型能够将推文的上下文化表示与推文及其标签之间的相关性集成在一起。因此能够自动将推文分类为多标
签信息类型，并从庞大的社交媒体数据中过滤关键信息。
21.此外，本发明的基于图注意网络的灾难信息过滤方法及系统特别适合在社交平台中使用。
附图说明
22.图1是本发明的实施例中基于图注意网络的灾难信息过滤方法的流程图；
23.图2是本发明的实施例中信息过滤网络的结构示意图；以及
24.图3是本发明的实施例中图注意网络的结构示意图。
具体实施方式
25.为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明一种基于图注意网络的灾难信息过滤方法及系统作具体阐述。
26.在本实施例中，提供了一种基于图注意网络的灾难信息过滤方法。
27.本实施例实现的平台，操作系统为ubuntu16.04，使用python2.7语言实现，神经网络框架使用tensorflow-gpu 1.8.0版本，cuda版本为9.0，计算加速单元使用nvidia 1080ti gpu。
28.本实施例采用的数据集是trec提供的两个公共数据集。trec-is数据集包含2012年至2019年期间33个不同灾难期间收集的约35000个帖子，包含野火、地震、飓风、爆炸和洪水等类型。这些帖子由人类专家和志愿者标记了25种信息类型。covid-19帖子数据集包含关于不同受影响地区covid-19疫情的帖子集合。总计，数据有7590条帖子，和trec-is数据集一样，标记了完整的12个信息类型标签中的一个或多个。
29.本实施例以80％-20％的比例分割每个数据集，其中使用80％的帖子进行训练，20％用于测试。在训练阶段，使用20％的训练数据来验证模型。
30.本实施例首先对数据集的帖子进行预处理，然后搭建bert编码器和图注意网络，训练信息过滤网络，在测试集上进行评估，最后将待分类的帖子输入训练好的模型得到分类后的结果。具体包括4个过程：预处理、搭建信息过滤网络模型、训练信息过滤网络模型、将待分类的帖子输入训练好的模型得到结果。
31.图1是本实施例中基于图注意网络的灾难信息过滤方法的流程图。
32.如图1所示，本实施例中的基于图注意网络的灾难信息过滤方法的流程包括如下步骤：
33.步骤s1，对数据集中的帖子进行预处理，得到预处理后的数据。
34.本实施例中，帖子内容来自数据集中的帖子，需要执行特别的预处理步骤来捕获帖子的语义。预处理过程如下：
35.首先，使用nltk的tweettokenize模块来标记帖子并保留文本内容。其次，删除停止字、url、用户名和unicode字符。再次，再删除多余的空格、重复的句号、问号和感叹号。再次，使用emoji库将表情符号转换为文本。最后，使用了spacy库，从帖子中提取命名实体。
36.步骤s2，搭建信息过滤网络模型。
37.本实施例中利用现有的深度学习框架tensorflow搭建信息过滤网络模型。信息过滤网络中的第一部分是bert编码器，将输入的帖子转化成其上下文的向量表示。bert编码
器将帖子分为多个标记，然后输出嵌入向量。bert编码器捕捉推文的语义，并表示为一个低维向量。
38.图2是本发实施例中信息过滤网络的结构示意图。
39.如图2所示，bert编码具体包括如下结构：
40.bert编码器包含12个编码块，768个隐藏尺寸，12个注意头。此外，对bert输入进行了特殊的预处理。在帖子开头增加了一个标记，还在每句话之后加入了一个标记作为句子边界的指示。每个标记被划分为三种嵌入，分别是标记、分割和位置。将这三种嵌入相加求和为单个输出向量，该向量捕获输入帖子的含义。
41.信息过滤网络中的第二部分是图注意网络。图注意网络根据相邻节点的相对重要性来学习节点间的结构信息。然后提取学习过的标签表示，并将其与帖子的向量连接起来，作为最后一个部分的输入。
42.图3是本实施例中图注意网络的结构示意图。
43.如图3所示，图注意网络首先从数据集构建图。每个节点可以是一个单词、命名实体或是标签。使用一个特征矩阵来表示节点，矩阵中的每个元素是是节点的特征向量。
44.首先，使用预训练的嵌入初始化节点的表示。接着，用邻接矩阵建模节点之间的关系。图注意网络包含2个图注意层。每层把节点的特征矩阵作为输入，通过一个注意力操作，基于每个节点的相邻节点的重要性学习到新的特征矩阵。对所有节点上使用共同注意力机制。注意力操作是一个单层的前馈网络，每个节点的参数矩阵相同。最后，用softmax函数归一化注意力评分。
45.信息过滤网络中的第三部分是关系网络。构建关系网络是为了在帖子的向量和标签向量之间用监督学习的方式学习相似性度量。本实施例中，使用监督学习的方法训练关系网络来学习相似度。
46.此外，使用神经网络作为一个可学习的非线性距离函数，学习如何匹配帖子的向量和每个标签之间的相似性。关系网络把bert编码器输出的连接矩阵作为输入，输出标签向量，损失函数为二元交叉熵。接着，在输出层使用一个sigmoid函数计算每个标签在所有可能标签中的独立可能性。最后，返回一组相关的标签作为最终输出。
47.步骤s3，把预处理后的数据输入信息过滤网络模型中进行训练，得到训练完成的信息过滤网络模型。
48.通过网格搜索方法优化超参数，以找到最佳性能的最优值。设置批次大小为128，训练epoch次数为200。采用adam算法进行优化，初始学习率为0.00002。为了避免过拟合，增加了一个dropout层，并在模型训练期间应用了早停止技术。
49.具体实施过程为：
50.步骤s3-1，将预处理后的数据依次输入到信息过滤网络模型中并进行一次迭代。
51.步骤s3-2，每次迭代(即训练集音频和视频通过模型)后，采用最后一层的模型参数分别计算出损失误差，然后将损失误差反向传播，从而更新模型参数。
52.步骤s3-3，重复步骤s3-1到s3-2直至达到训练完成条件，得到训练后的信息过滤网络模型。
53.模型训练的训练完成条件与常规的深度学习网络模型相同，即，各层的模型参数收敛后就完成训练。
54.经过上述迭代训练并在迭代过程中进行误差计算和反向传播的过程，即可获得训练完成的信息过滤网络。本实施例用训练完成的模型在生成的测试集上进行测试。
55.步骤s4，将待分类的帖子输入训练完成的信息过滤网络模型，得到分类结果。
56.实验使用多标签分类任务的标准评估指标，具体为加权平均f1分数、汉明损失以及jaccard指数来评估网络的性能。
57.f1分数是准确率和召回率分数的调和平均值。使用加权平均来计算每个标签独立的f1分数，然后将它们相加，并使用相对于每个标签的帖子数量的权重。为了估计分类中的错误率，使用汉明损失函数来计算所有预测标签中错误预测标签的比例。值越小，性能越好。为了评估系统的准确性，使用jaccard指数来评估预测标签和真实标签之间的相似性。
58.实验使用不同的评价指标在多标签分类中对信息过滤网络和其他网络进行比较。实验选择了textcnn、han、bilstm、magnet网络来进行比较。这些网络的超参数都使用了论文中的设置。为了保证评估的公平性，使用相同的训练数据集训练所有模型，使用相同的测试数据集进行评估。
59.本实施例中学习了trec-is数据集，并采用了来自trec-is挑战作者的可行动信息定义。本实施例中整理了每个模型在trec-is数据集和covid-19帖子数据集上的实验效果，结果如下表1所示。实验选择加权平均f1分数为比较的主要指标。加权平均f1分数考虑了所有信息类型中每个网络的平均性能。
60.表1未不同模型在trec-is数据集和covid-19帖子数据集上的实验结果。
61.表1
[0062][0063][0064]
表1中，信息过滤网络在大部分指标下都优于其他网络的结果。尤其是，信息过滤网络在trec-is数据集上比magnet网络的加权平均f1评分高出6个百分点，在covid-19帖子数据集上比magnet网络的加权平均f1评分高出4个百分点。
[0065]
在进一步的分析中，使用jaccard指数和汉明损失来评估准确率和错误率。信息过
滤网络的jaccard指数在两个数据集上都优于其他网络。信息过滤网络在这两个数据集上的jaccard指数达到了0.43，而之前最优的magnet网络在trec-is数据集上为0.38，在covid-19帖子数据集上为0.40。另一方面，信息过滤网络使用汉明损失作为评价损失表现仅次于最优的han网络。在trec-is数据集上，信息过滤网络表现最优，达到0.07。在covid-19帖子数据集上，比起han网络最优的结果0.04，信息过滤网络的0.08取得了第二。
[0066]
实验表明，信息过滤网络在将灾害相关的推文分类为多种信息类型时表现得相当不错。这是由于：(1)构建了bert编码器利用上下文的嵌入来捕获推文中的上下文信息。(2)通过注入标签信息并使用图注意网络在帖子的标记和标签之间集成额外的结构信息，丰富了帖子表示的语义。(3)最后，使用关系网络自动学习推文和标签之间的相似性。通过使用可学习距离函数，用监督学习的方式学习到一个有效的度量，以促进推文和多标签输出之间的映射。本实施例中，采用元学习的方式来学习输入特征和多标签输出之间的映射。
[0067]
由于最终目的是评估网络在识别带有可操作信息的帖子时的有效性，即如果输入的推文包含可执行信息，系统应触发警报。因此，实验还使用了trec-is引入的新的评估指标，称为累积警报值，以评估系统在危机期间检测可采取的信息。本实施例中使用累计警报值来评估信息过滤网络模型的表现，以识别推文中的可操作信息。
[0068]
累积警报值评分范围为-1～ 1，为正值表示推文中信息的重要性高，为负值表示信息的重要性低。实验选择根据信息类型来定义可执行的信息。使用累积警报值的实验结果如表2所示。前四行为多标签分类中其他网络的评价结果。最后一行为信息过滤网络的评价结果。
[0069]
表2为不同模型使用累积警报值的实验结果。
[0070]
表2
[0071][0072]
从表2的实验结果可以看出，信息过滤网络显著优于其他所有网络。特别是，在高优先级的累积警报值中，信息过滤网络比magnet网络模型实现了提升了26个百分点。此外，信息过滤网络是唯一一个在高优先级上累积警报值分数为正值的网络。
[0073]
本实施例中还提供了一种基于图注意网络的灾难信息过滤系统，使用图注意网络理解帖子的单词和相应信息类型之间的相关性，过滤得到可执行的信息，包括：
[0074]
预处理部，利用本实施例中步骤s1中的方法进行预处理。
[0075]
信息过滤部，用本实施例中步骤s1～s4中的方法进行信息过滤，得到分类结果。
[0076]
实施例的作用与效果
[0077]
根据本实施例所涉及的基于图注意网络的灾难信息过滤方法，使用图注意网络理解帖子的单词和相应信息类型之间的相关性，过滤得到可执行的信息，因为包括以下步骤：步骤1，对数据集中的帖子进行预处理，得到预处理后的数据；步骤2，搭建信息过滤网络模型；步骤3，把预处理后的数据输入信息过滤网络模型中进行训练，得到训练完成的信息过滤网络模型；步骤4，将待分类的帖子输入训练完成的信息过滤网络模型，得到分类结果.其中，信息过滤网络模型包括bert编码器、图注意网络以及关系网络。
[0078]
因此，本实施例采用bert编码器和音图注意网络结合的模型，该模型能够将推文的上下文化表示与推文及其标签之间的相关性集成在一起。因此能够自动将推文分类为多标签信息类型，并从庞大的社交媒体数据中过滤关键信息。
[0079]
此外，本发明的基于图注意网络的灾难信息过滤方法及系统特别适合在社交平台中使用。
[0080]
上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：兴趣点命名方法、装置、电子设备和存储介质与流程

一种基于图注意网络的灾难信息过滤方法及系统

相关文献

最热文献