一种基于自注意力网络的企业文件密点标注方法与流程

2022-04-07 02:12:48 来源：中国专利 TAG：

1.本发明涉及自然语言处理中的语义理解领域。

背景技术：

2.定密是一项知识性、规范性很强的工作，要做好定密工作，首先要根据企业秘密信息的保密范围明确定密依据。目前的定密方式主要根据公司的《涉密事项范围目录》提取出所有文件材料名作为“企业秘密事项”范围，再逐一确定密级、保密期限和知悉范围。但这种定密方式难以做到精准有效，对于同一事项中的涉密信息点(即“密点”)和非涉密信息点、低密级密点和高密级密点之间的界限无法进行详细划分，导致定密范围过宽、密级偏高，或该定密不定、不该定密乱定的情况，不利于信息资源合理利用。同时，面对海量的企业文件，单纯地凭借人工进行密点标注，不仅费时费力，其划分标准更受到人为主观意识的影响。因此，从传统人工定密向精准智能“密点化”定密方式转变，进行更精准地自动定密，是企业保密管理工作中需要迫切解决的重要问题。然而，目前国内外对于企业文件智能定密的研究主要集中在文本密级分类上，对文本中的密点进行标注却鲜有研究。

技术实现要素：

3.本发明为了解决上述存在的问题，提出基于自注意力网络的企业文件密点标注方法，利用自注意力网络学习序列中词语之间关系的能力以及其对文本中语义信息的学习能力，来提升企业文件密点标注的精确度。
4.本发明所采用的技术方案如下：
5.一种基于自注意力网络的企业文件密点标注方法，具体步骤如下：
6.1)获取需要进行密点标注的文本；
7.2)将文本di的内容以逗号、句号或者分号进行分割，分成一系列子序列sn；基于条件随机场和长短期记忆网络将子序列sn分为词的序列wm；
8.3)通过图卷积神经网络学习词的向量表示并将向量表示嵌入词的序列wm中；
9.4)通过自注意力神经网络处理得到最终的分类结果；
10.所述的自注意力神经网络的输入为词嵌入层，执行的步骤如下：
11.1)计算词的位置嵌入信息，公式如下：
12.p
(p,2i)
＝sin(p/10000
2id
)
13.p
(p,2i 1)
＝cos(p/10000
2id
)
14.获得，其中p代表位置嵌入信息，p代表词语在句子中的位置，表示嵌入的位置的维度 (与词嵌入一样)，2i表示偶数的维度，2i 1表示奇数的维度。
15.2)将单词的词嵌入和位置嵌入信息相加，就可以得到单词的表示向量；
16.所述的自注意力神经网络还包括编码器和解码器，所述的编码器包含6个相同的单元，每个单元由两个子单元组成，分别是多头自注意力机制和全连接反馈网络组成，且两个子单元之间加入残差连接和归一化单元；
17.经过解码器中的多头注意力机制和层归一化操作，将编码器的输出送入一个全连接层，包含两个线性变换和一个非线性激活函数——线性整流单元，再经过softmax层，输出最终的分类结果。
18.步骤2)中基于条件随机场和长短期记忆网络的训练方法如下：
19.首先，将语料库中的文本中的每一个字根据词嵌入矩阵进行向量化表示；然后，将每个向量化的文本向量输入双向长短期记忆网络；最后，每个长短期记忆网络单元的输出利用条件随机场进行建模，得到分词的结果。
20.步骤3)所述的图卷积神经网络的训练方法如下：
21.a、每个子序列节点和每个词节点都由一个one-hot向量进行表示将每一个词和每一个子序列都被视为一个节点，如果一个词存在于某个子序列中，那么就在它们之间建立一条边，然后所有涉及密点信息的词之间建立一条边，完成图的构建；每个子序列和每个词之间构建的边的权重是序列中词频的逆文档频率(tf-idf)；每个词之间构建的边的权重由点互信息 (pmi)计算获得；
22.b、将构建好的图送入2层的图卷积神经网络，第一层用于输入每个节点的词的one-hot 向量，第二层的词和子序列所在节点用来学习其向量表示；
23.c、将第二层的节点向量输入softmax分类器，输出两个score，对应两个标签——密点信息和非密点信息，哪个标签对应的score值大，就归属于哪类；损失函数选为交叉熵损失函数；
24.d、利用自适应梯度下降算法(adam)来训练图卷积网络中的权重参数；
25.e、通过人工方式进行密点标注将步骤2)中分割得到的子序列sn分成含有密点信息的子序列数据集和不含密点信息的子序列数据集，作为训练集训练图卷积神经网络。
26.步骤4)所述自注意力神经网络的训练方法，
27.a、通过人工方式进行密点标注将步骤2)中分割得到的子序列sn分成含有密点信息的子序列数据集和不含密点信息的子序列数据集，作为训练集；
28.b、对两个数据集分别基于条件随机场和长短期记忆网络将子序列sn分为词的序列wm；
29.c、通过图卷积神经网络将向量表示嵌入训练集的词序列wm中；
30.d、将两个数据集获得的序列wm输入自注意力神经网络，学习密点信息的特征表达，训练得到自注意力神经网络。
31.本发明的有益效果：
32.1、本发明能够实现文件密点自动标注及辅助定密。文件起草后，通过密点数据库可对文件内容进行智能检索分析，精准锁定密点位置、涉密等级、保密期限、定密依据，智能识别企业秘密文件中涉密事项及等级。并依据文件最高涉密等级密点确定文件密级，辅助文件起草人员准确高效定密。
33.2、能够对现有文件可实现高效检索判定，实现企业商业秘密文件密级及密点信息精准检索、判定，全面监控起草人员定密准确性。
34.3、解决目前文件起草后仍需依靠人工经验识别及关键字逐一筛查识别的低效问题。应用智慧定密体系可快速识别密级及密点信息。
35.4、本发明解决了现有人工定密带有主观性，定密标准不统一、不规范的问题。
附图说明
36.图1为本发明实施例提供的一种企业文件密点标注方法的方法流程框图；
37.图2为本发明实施例提供的一种自注意力神经网络结构示意图。
具体实施方式
38.下面将参照附图更详细地描述本专利的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
39.本发明实施例提供了一种企业文件密点信息标注系统，参照图1，可以包括：
40.s11、构建涉密文件库；
41.其中，收集了国网吉林省电力有限公司2018-2020年涉密文件，构成涉密文件库。
42.s12、构建含有密点信息的文本库；
43.其中，在核心商密和普通商密文件中，一共包含18936个句子(每个句子通过逗号或者句号划分)，在非涉密文件中一共包含9427个句子，所述的句子即子序列sn。经过相关专业人员的人工密点标注，共获得了1382个密点信息句子，随机选取其中1000个密点信息句子作为训练数据集的正样本；再从非涉密文件中随机选取1400个不含密点信息的句子。随机选取其中的1100个不含密点信息的句子作为训练集的负样本。训练集的所有样本用于模型的训练，将除以上之外的密点词语和非密点词语构成测试集，用于模型的测试与验证。
44.s13、基于条件随机场和长短期记忆网络的中文分词；
45.首先，将语料库中的文本中的每一个字根据词嵌入矩阵进行向量化表示；其次，将每个向量化的文本向量输入双向长短期记忆网络；最后每个长短期记忆网络单元的输出利用条件随机场进行建模，得到分词的标注结果。经过预处理和中文分词之后，得到了容量为3 871 的词典，并将涉密文件划分出230187个词语，将非涉密文件划分出11823个词语。经过该企业相关专业人员的人工标注，共获得了14773个密点信息词语。训练集中包含11394个密点信息词语和10848个非密点词语。
46.s14、训练好的词嵌入矩阵；
47.利用图卷积神经网络训练好每个词和子序列的向量表示，然后分别对训练文本和测试文本进行向量嵌入。
48.s15、自注意力网络；
49.其中，词嵌入层就是利用词嵌入矩阵对文本进行向量化表示。
50.步骤s15的具体实现方式如图2所示，可以是：
51.由于普通的注意力机制没有包含序列信息(即语句顺序并不影响结构)，因此需要加入位置的信息，在自注意力网络中选择将顺序的信息加入到嵌入层中。位置的嵌入信息由
52.p
(p,2i)
＝sin(p/10000
2id
)
53.p
(p,2i 1)
＝cos(p/10000
2id
)
54.获得，其中p代表位置嵌入信息，p代表词语在句子中的位置，表示嵌入的位置的维度 (与词嵌入一样)，2i表示偶数的维度，2i 1表示奇数的维度。将单词的词嵌入和位置嵌
入相加，就可以得到单词的表示向量，也就是自注意力网络的输入。
55.多头注意力机制本质上就是多个自注意力机制的迭代。自注意力机制的输入矩阵x可以通过线性变换矩阵wq、wk、wv计算得到矩阵q、k和v，而x、q、k、v矩阵中的每一行都代表一个单词。
56.所述的q、k、v是自注意力网络中固有的向量；w是权重向量、q表示查询向量、k 表示被查询信息与其他信息的相关性的向量、v表示被查询信息的向量他们最终的值都是被随机初始化的，经过网络的训练迭代，根据训练集数据自动更新。
57.根据q、k、v可以计算自注意力机制的输出：
[0058][0059]
其中a代表注意力机制的输出，dk是q、k矩阵的列数，即向量维度。
[0060]
层归一化能够将每一层神经元的输入都转成均值方差相同，这样可以加快收敛。在层归一化中加入了残差连接，可以让网络只关注当前差异的部分，使网络的效果得到提升。
[0061]
最后，输出的信息被送入一个全连接层，包含两个线性变换和一个非线性激活函数——线性整流单元，在经过softmax层，得到最终的分类结果。
[0062]
以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：具有高散热性能的服务器终端的制作方法

一种基于自注意力网络的企业文件密点标注方法与流程

相关文献

最热文献