一种基于BART模型的正则表达式描述生成方法与流程

2021-10-20 00:33:00 来源：中国专利 TAG：

embedding；
12.(3
‑
3)通过语义编码学习相邻两个句子之间的语义关系向量segment embedding，最后将上述三个向量相加生成最终的特征向量x，即x＝position embedding segment embedding word embedding；
13.(4)对bart模型进行改进，得到具体的正则表达式描述生成模型，具体包括如下改进步骤：
14.(4
‑
1)本发明使用norm
‑
attention机制代替了原始bart模型中的self
‑
attention机制，这种注意力机制可以使得softmax函数在不牺牲表达式的情况下不容易发生任意饱和，从而在资源较少的情况下仍能保证bart模型生成自然语言描述的质量；
15.(4
‑
2)在softmax函数之后的生成部分我们增加了beam search束搜索算法，使用beam search束搜索算法可以改善生成的自然语言描述质量低下的问题；
16.(5)按照8：1：1的比例将数据集划分成训练集，验证集和测试集，使用划分的训练集对构建的基于改进bart模型进行训练，得到正则表达式描述生成模型：
17.所述正则表达式描述生成模型的参数设置如下：
18.所述正则表达式描述生成模型的dropout设置为0.1；
19.所述正则表达式描述生成模型的激活函数设置为gelu；
20.所述正则表达式描述生成模型的attention
‑
heads设置为16；
21.所述正则表达式描述生成模型的词嵌入维度设置为1024；
22.所述正则表达式描述生成模型的隐藏层层数设置为12；
23.所述正则表达式描述生成模型的vocab_size设置为50265；
24.所述正则表达式描述生成模型的编码器
‑
解码器层数设置为12。
25.与现有技术相比，本发明的有益效果为：本发明提出的一种基于bart模型的正则表达式描述生成方法通过改进bart模型来构建正则表达式描述生成模型，使用新提出的norm－attention机制代替原bart模型中的self－attention机制，并且增加了beam search束搜索算法来改善了翻译的自然语言描述质量低下的问题。因此本发明的方法在性能上是可观的，翻译生成的自然语言描述经过各项指标衡量证明可以高质量的解释正则表达式含义，从而帮助计算机理论初学者更好的学习正则表达式。
附图说明
26.附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。
27.图1为本发明提供的一种基于bart模型的正则表达式描述生成方法的系统框架图。
28.图2为本发明提供的方法中的嵌入层的流程图。
29.图3为本发明提供的方法的编码器的结构图。
30.图4为本发明使用的norm
‑
attention机制的结构图。
具体实施方式
31.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对
本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
32.实施例1
33.参照图1所示的一种基于bart模型的正则表达式描述生成方法，具体包括以下内容：
34.(1)搜集高质量的正则表达式并通过人工标注的方式对其添加对应的自然语言描述，该数据集中包括10000对正则表达式和相应的自然语言描述，表1显示了数据集中正则表达式的长度统计信息，表2显示了数据集中正则表达式对应的自然语言描述长度的统计信息。
35.表1
[0036][0037]
表2
[0038][0039]
(2)使用字节级的bbpe(byte
‑
level bpe)算法对正则表达式进行分词，原正则表达式为“(([0
‑
9]) ).*(dog).*”，分词后的结果为“((”“[”“0”“.”“9”“])”“*”“).”“(”“dog”“).”“*”，使用字节级bbpe算法可以有效解决oov问题且分词效果好；
[0040]
(3)如图2所示，经过嵌入层将输入的分词转换成对应的特征向量x，特征向量的公式如下：
[0041]
特征向量x＝position embedding segment embedding word embedding；
[0042]
(4)将数据集按照8：1：1的比例将数据集划分成训练集、验证集和测试集，在这里训练集用于训练和微调模型，验证集用于执行模型优化，测试集用于评估所构建的模型的性能。
[0043]
(5)对bart模型进行改进，使用norm
‑
attention替代编码器和解码器中原来的self
‑
attention，编码器的结构如图3所示；在softmax函数之后的生成部分我们增加了beam search束搜索算法，beam search束搜索算法搜索一次可以考虑多个结果，因此可以得到比其他搜索算法更好的输出结果；
[0044]
(6)基于上述构建的数据集，对构建的基于改进bart模型进行训练，得到正则表达式描述生成模型：
[0045]
所述正则表达式描述生成模型的参数设置如下：
[0046]
所述正则表达式描述生成模型的dropout设置为0.1；
[0047]
所述正则表达式描述生成模型的激活函数设置为gelu；
[0048]
所述正则表达式描述生成模型的attention
‑
heads设置为16；
[0049]
所述正则表达式描述生成模型的词嵌入维度设置为1024；
[0050]
所述正则表达式描述生成模型的隐藏层层数设置为12；
[0051]
所述正则表达式描述生成模型的vocab_size设置为50265；
[0052]
(7)将步骤(4)中训练生成的特征向量x输入进步骤(6)的正则表达式描述生成模型中，对正则表达式进行自然语言描述生成，使用bleu，meteor，rouge
‑
l，cider四种指标对翻译的结果进行衡量：
[0053]
表3基于四种指标的实验结果
[0054][0055]
经实验表明，本发明所提出的基于bart模型的正则表达式描述生成方法和其余使用transformer、bert模型构建的自然语言描述生成模型相比，在各项指标上均为最佳。
[0056]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于BART模型的正则表达式描述生成方法与流程

相关文献

最热文献