一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自注意力网络的企业文件密点标注方法与流程

2022-04-07 02:12:48 来源:中国专利 TAG:

技术特征:
1.一种基于自注意力网络的企业文件密点标注方法,具体步骤如下:1)获取需要进行密点标注的文本;2)将文本d
i
的内容以逗号、句号或者分号进行分割,分成一系列子序列s
n
;基于条件随机场和长短期记忆网络将子序列s
n
分为词的序列w
m
;3)通过图卷积神经网络学习词的向量表示并将向量表示嵌入词的序列w
m
中;4)通过自注意力神经网络处理得到最终的分类结果;所述的自注意力神经网络的输入为词嵌入层,执行的步骤如下:1)计算词的位置嵌入信息,公式如下:p
(p,2i)
=sin(p/10000
2i/d
)p
(p,2i 1)
=cos(p/10000
2i/d
)获得,其中p代表位置嵌入信息,p代表词语在句子中的位置,表示嵌入的位置的维度,2i表示偶数的维度,2i 1表示奇数的维度。2)将单词的词嵌入和位置嵌入信息相加,就可以得到单词的表示向量;所述的自注意力神经网络还包括编码器和解码器,所述的编码器包含6个相同的单元,每个单元由两个子单元组成,分别是多头自注意力机制和全连接反馈网络组成,且两个子单元之间加入残差连接和归一化单元;经过解码器中的多头注意力机制和层归一化操作,将编码器的输出送入一个全连接层,包含两个线性变换和一个非线性激活函数——线性整流单元,再经过softmax层,输出最终的分类结果。2.根据权利要求1所述的基于自注意力网络的企业文件密点标注方法,其特征在于,步骤2)中基于条件随机场和长短期记忆网络的训练方法如下:首先,将语料库中的文本中的每一个字根据词嵌入矩阵进行向量化表示;然后,将每个向量化的文本向量输入双向长短期记忆网络;最后,每个长短期记忆网络单元的输出利用条件随机场进行建模,得到分词的结果。3.根据权利要求1所述的基于自注意力网络的企业文件密点标注方法,其特征在于,步骤3)所述的图卷积神经网络的训练方法如下:a、每个子序列节点和每个词节点都由一个one-hot向量进行表示将每一个词和每一个子序列都被视为一个节点,如果一个词存在于某个子序列中,那么就在它们之间建立一条边,然后所有涉及密点信息的词之间建立一条边,完成图的构建;每个子序列和每个词之间构建的边的权重是序列中词频的逆文档频率(tf-idf);每个词之间构建的边的权重由点互信息(pmi)计算获得;b、将构建好的图送入2层的图卷积神经网络,第一层用于输入每个节点的词的one-hot向量,第二层的词和子序列所在节点用来学习其向量表示;c、将第二层的节点向量输入softmax分类器,输出两个score,对应两个标签——密点信息和非密点信息,哪个标签对应的score值大,就归属于哪类;损失函数选为交叉熵损失函数;d、利用自适应梯度下降算法(adam)来训练图卷积网络中的权重参数;e、通过人工方式进行密点标注将步骤2)中分割得到的子序列s
n
分成含有密点信息的子序列数据集和不含密点信息的子序列数据集,作为训练集训练图卷积神经网络。
4.根据权利要求1所述的基于自注意力网络的企业文件密点标注方法,其特征在于,步骤4)所述自注意力神经网络的训练方法,a、通过人工方式进行密点标注将步骤2)中分割得到的子序列s
n
分成含有密点信息的子序列数据集和不含密点信息的子序列数据集,作为训练集;b、对两个数据集分别基于条件随机场和长短期记忆网络将子序列s
n
分为词的序列w
m
;c、通过图卷积神经网络将向量表示嵌入训练集的词序列w
m
中;d、将两个数据集获得的序列w
m
输入自注意力神经网络,学习密点信息的特征表达,训练得到自注意力神经网络。

技术总结
本发明公开了一种基于自注意力网络的企业文件密点标注方法,属于涉及自然语言处理中的语义理解领域。针对解决目前文件起草后仍需依靠人工经验识别及关键字逐一筛查识别的低效问题,人工定密带有主观性,定密标准不统一、不规范的问题。本发明步骤如下:1)获取需要进行密点标注的文本;2)将文本D


技术研发人员:董添 李广 杨振宇 张博 于波 王巍
受保护的技术使用者:国网吉林省电力有限公司
技术研发日:2021.11.15
技术公布日:2022/4/5
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献