基于自注意力的深度神经网络编码光子晶体的方法

2023-01-06 03:25:23 来源：中国专利 TAG：

1.本发明涉及光子晶体技术领域，尤其涉及的是一种基于自注意力的深度神经网络编码光子晶体的方法。

背景技术：

2.近年来，深度学习（deep learning，dl）已广泛应用于医学成像、自然语言处理（natural language processing，nlp）、自动驾驶、人脸识别和物体检测等多个领域。深度神经网络（deep neural networks，dnn）通过其强大的高维数据处理能力，可以有效地从大数据中学习到丰富的特征。受到深度学习广泛应用前景的影响，近年来许多学者使用以多层感知器（multilayer perceptron，mlp）和卷积神经网络（convolutional neural networks，cnn）为代表的dnn来设计和优化纳米半导体激光器等诸多光电器件。纳米级激光器的特有属性可以通过计算量子阱/点中的材料增益和缺陷微腔中的横向/纵向模式来表征。然而，传统的设计纳米级激光器的方法通常耗时且效率低下，因为所有物理参数都是通过comsol和lumerical等仿真工具进行人为手动调整，并且其应用的有限差分时域（finite-difference time-domain，fdtd）或有限元分析（finite element analysis，fea）方法具有很高的计算密集度和复杂度的缺点。此外，由于与物理系统相关的高维参数空间存在多个局部最小值，基于梯度的优化方法通常会面临收敛困难的问题。这种复杂的设计在很大程度上取决于计算的易处理性和设计师的丰富经验。因此，如果深度学习能够成功地应用于光电设计领域，那么毫无疑问，它将在设计结构出色的光子器件方面节省大量的人力物力。然而，像cnn和mlp（如图1）这样的传统dl模型在设计高度复杂的物理系统时似乎面临着难以克服的性能瓶颈。例如，通过调整dnn的超参数或仅采用基于梯度的优化算法来增加预测结果的相关系数仍然相当困难。
3.inas/gaas量子点光子晶体（photonic crystal，pc）纳米腔激光器可以在硅晶片衬底上进行实验生长，但由于其物理结构的高度复杂性，如何有效地计算这类纳米光子器件的品质因子（q-factor）仍然是一个未解决的问题。同时，基于fdtd的仿真工具需要大量时间来仿真和计算目标结构的光学特性。最近有人提出的cnn模型可以用一个小的训练数据集（大约1000个样本）来训练和预测q因子，但是该模型没有考虑pc孔洞半径对q的影响。同时，此模型实现的预测误差高达16%，无法在实际操作中可靠地使用。在日本研究人员最近取得的进展的基础上，一些工作证明使用更大的数据集可以显著提高cnn模型的性能。除了q因子外，模式体积v也是评估纳米激光器性能和属性的重要参数，因为v对于减少器件的尺寸面积和实现紧密的片上集成这两方面至关重要。考虑到模式体积v，一些作者近年来成功地实现了同时训练和预测q和v，并保持了较低的测试误差，这使其成为目前最先进的结果。但是v的相关系数还是比较低（测试集中v的系数=80.5%）。一般来讲，相关系数越高，模型的预测结果就会越准确。理想情况下，系数如果等于100%，dl模型可以获得及其可靠并且可重复的设计输出。因此，现有技术中，采用dnn模型预测光子晶体的q因子和模式体积v时，速度和准确度还有待提高。
4.因此，现有技术还有待于改进和发展。

技术实现要素：

5.本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于自注意力的深度神经网络编码光子晶体的方法，旨在解决现有技术中采用dnn模型预测光子晶体的q因子和模式体积v时，速度和准确度还有待提高的问题。
6.本发明解决技术问题所采用的技术方案如下：一种基于自注意力的深度神经网络编码光子晶体的方法，提出povit模型，并将其应用到编码光子晶体，所述povit模型包括：嵌入模块、位置编码模块、transformer编码模块以及全连接层模块；所述方法包括步骤：获取光子晶体的几何结构参数图像；其中，所述光子晶体具有若干个空气孔，若干个空气孔排列形成周期性空气孔阵列，所述几何结构参数图像的每个像素包括：空气孔的位置和半径；对所述几何结构参数图像进行维度重塑，得到若干个补丁图像；将所述补丁图像输入所述嵌入模块和位置编码模块，得到符号序列；其中，所述符号序列按照补丁图像在几何结构参数图像中对应的位置排序；将所述符号序列输入所述transformer编码模块，得到编码特征；将所述编码特征输入所述全连接层模块，得到品质因子和模式体积。
7.所述的基于自注意力的深度神经网络编码光子晶体的方法，其中，所述transformer编码模块包括：若干个编码block，每个编码block包括：第一标准化层、多头自注意力层、第一dropout层、第二标准化层、mlp模块以及第二dropout层；其中，所述mlp模块包括：第一线性层、abs激活层、第三dropout层、第二线性层以及第四dropout层。
8.所述的基于自注意力的深度神经网络编码光子晶体的方法，其中，采用adam优化器进行训练，学习率为0.0001~0.01。
9.所述的基于自注意力的深度神经网络编码光子晶体的方法，其中，对所述几何结构参数图像进行维度重塑，得到若干个补丁图像，包括：根据空气孔的位置和半径，以及空气孔的初始位置和初始半径，确定空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像；当所述空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像的大小无法被补丁大小整除时，对所述空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像补充维度；当所述空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像的大小被补丁大小整除时，将所述空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像，按照预设高度和预设宽度分割成若干个补丁图像。
10.所述的基于自注意力的深度神经网络编码光子晶体的方法，其中，所述几何结构参数图像中有54个空气孔，且分成5排；所述初始半径为89.6nm，所述初始位置为相邻孔中心距为320nm的孔位置；所述补丁图像的数量为18。
11.所述的基于自注意力的深度神经网络编码光子晶体的方法，其中，在收集数据时，按照高斯分布随机改变空气孔的初始位置和初始半径，得到训练数据。
12.所述的基于自注意力的深度神经网络编码光子晶体的方法，采用基于mse损失、预测误差以及相关系数进行评估。
13.所述的基于自注意力的深度神经网络编码光子晶体的方法，其中，所述mse损失为：其中，mse表示mse损失，ti表示第i个目标输出，pi表示第i个预测输出，n表示训练样本的数量，∑表示求和符号；所述预测误差为：其中，表示预测误差；所述相关系数为：所述相关系数为：其中，表示相关系数，表示数学期望，表示目标输出的平均值，表示预测输出的平均值。
14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现如上中任一项所述方法的步骤。
15.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上任一项所述的方法的步骤。
16.有益效果：应用自注意力transformer模型到光电设计领域，引入了自注意力机制，在预测光子晶体的q因子和模式体积v的任务中大幅提高了预测q因子和模式体积v的速度和准确度。
附图说明
17.图1是dnn发展简史的示意图。
18.图2是光子晶体（pc）的示意图。
19.图3是训练数据集的样本的高斯分布图。
20.图4是povit模型的架构图。
21.图5是使用abs作为激活函数时povit的学习曲线和训练结果图。
22.图6是使用gelu作为激活函数时povit的学习曲线和训练结果图。
23.图7是v
coeff
在abs和gelu两种激活函数下的变化趋势图。
具体实施方式
24.为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用
于限定本发明。
25.请同时参阅图1-图7，本发明提供了一种基于自注意力的深度神经网络编码光子晶体的方法的一些实施例。
26.从nlp、计算机视觉（cv）到基础科学领域，transformer模型已经在各种任务中展示了它的强大功能。transformer于2017年左右首次在nlp中引入，后来于2021年在cv中取得了进一步发展，测试性能均优于cnn。许多后续工作试图修改vision transformer（vit）的架构以获得更好的性能或将vit模型应用于跨学科领域的研究。例如，有学者提出了门控轴向自注意模型来克服医学图像分割中缺乏数据样本的问题。它通过在自注意力模块中添加控制机制来扩展现有的变transformer的结构。生物信息学中基于bert（bidirectional encoder representations from transformers）的多语言模型将dna序列视为自然语句并成功利用transformer识别出了dna增强子。此外，改进的transformer网络也被应用于学习对撞机物理中对象之间的语义关系。
27.transformer（或更先进的visiontransformer），作为一种基于自注意力机制的最新dl模型，已成为深度学习领域中的颠覆性替代方案。凭借近些年transformer在各种工程应用中的出色表现，它在光电设计方面的应用也大有前景。根据我们的调研，本技术是全球范围内现存第一个应用自注意力transformer模型到光电设计领域的专利申请。在本技术中，将会展示包括原始的visiontransformer（vit）、后来的卷积visiontransformer（cvt）和我们自己提出的独特povit版本应用于光子晶体（pc）纳米腔的设计和表征。pc（图2）是下一代硅光集成光路（photonic integrated circuits，pic）和激光雷达中使用的高性能纳米级半导体激光器的核心组件。此申请中，我们将提出的基于自注意力的深度神经网络模型命名为povit模型：photonics vision transformer。
28.我们的工作为将vit应用于纳米光子器件的快速多目标表征和优化铺平道路，而且无需大量的人工干预或反复的试验。我们的方法从人工智能和电子设计自动化（electronic designautomation，eda）结合中得到启发，当然这也是一个学术界和工业界广泛研究的领域。我们的主要目标是通过我们的努力来推动全自动光子设计的兴起，因为光子设计自动化（photonic design automation，pda）的当前发展状态仍然非常初步的阶段。在本技术中，多目标意味着能够预测、编码多个光子/电磁特性，在我们的例子中即是q因子（即品质因子）和模式体积v。
29.纳米级激光器根据图2所示的pc纳米腔实现，它在多层半导体（即si和inp）结构中具有规则的空气孔阵列。这种特殊的结构非常强大和高效，因为通过操纵由光子带隙实现的电磁波传播可以显著增强自发激光发射，同时由于周期性空气孔阵列，光子将聚集形成激光束。与磷化铟（inp）基相比，这些孔具有周期性不同的有效折射率，这使得光子更容易被捕获和限制。由于外围空气孔远离中心，它们对品质因子q和模式体积v的贡献很小，即这些空气孔在调整时不会对电磁场产生明显的变化。出于简化计算复杂度和资源的高效利用目的，此问题的建模区域仅包含pc中的54个空气孔，由图2中的白色矩形所包围。总共有5排，其中，第1排有11个空气孔；第2排有12个空气孔；第3排有8个空气孔，且分成两部分，4个空气孔和另外4个空气孔之间形成间隔空位（具体有3个空气孔的间隔空位）；第4排有12个空气孔；第5排有11个空气孔。对于该矩形之外的孔，我们将其固定以降低计算成本。pc的晶格常数a=320nm，空气孔半径r=89.6nm为标准值，即在改变气孔位置和半径前，每对相邻孔
中心距为320nm，默认的孔半径等于89.6nm，inp平板的折射率为n=3.4。这些常数可能与其他半导体材料有所不同。训练vit的数据集是经过fdtd仿真所得，共有12500个样本。每个样本中来自pc结构的54个空气孔的位置和半径变化为输入，其相应的模拟结果q因子和模式体积v为目标输出。在将数据样本输入到模型之前，我们将其维度大小重塑为n
×3×5×
12，其中n表示批量大小，“3”表示孔的三个通道（dx，dy，dr），类似于图像的rgb三通道，数字“5”和“12”分别表示我们的pc（即张量）的高度和宽度，分别类似于图像的高度和宽度。这种维度转换将使样本近似于实际图像，从而形成光子晶体的几何结构参数图像，几何结构参数图像的每个像素包括：空气孔的位置和半径，空气孔的位置采用坐标表示，则每个像素可以表示为（x
′
，y
′
，r
′
）。最后，为了避免任何歧义，下面简要剖析了数据集的更多细节：在收集数据时，按照高斯分布随机改变空气孔的初始位置和初始半径，得到训练数据。将空气孔的初始位置表示为（x0，y0），将其初始半径表示为r0。然后，我们将孔洞位置依据高斯分布随机地水平和垂直移动，将半径依据高斯分布随机增大或变小，使其位置变为（x
′
，y
′
）和半径变为r
′
。现在定义空气孔的x轴偏移量dx=x
′‑
x0，y轴偏移量dy=y
′‑
y0，半径偏移量dr=r
′‑
r0。dx、dy、dr作为输入元素的高斯分布如下：dx
∼
n（μ=
−
8.7270
×
10
−
13
，σ2=5
×
10
−
10
）dy
∼
n（μ=3.3969
×
10
−
13
，σ2=5
×
10
−
10
）dr
∼
n（μ=
−
1.6978
×
10
−
12
，σ2=5
×
10
−
10
）在实践中，训练数据集大小为10000，剩余的2500个样本用作测试数据（即测试数据集的大小为2500）。此外，我们将12500个数据样本随机拆分，使数据样本的特征尽可能多样化，从而最大化vit的泛化能力。数据集的样本分布在图3中以柱状图的形式展示。
30.先将几何结构参数图像进行维度重塑，并分割成若干个补丁图像，采用54个空气孔时，可以形成5排空气孔，每排最多有12个空气孔，则可以形成5
×
12个像素（如图4中正方形格子），若正方形格子中有空气孔，则像素可以表示为（dx，dy，dr）；若正方形格子中没有空气孔，则像素可以表示为（0，0，0）。在分割时是按照预设高度和预设宽度进行分割的，如图4所示，按照2
×
2个像素进行分割，需要补充维度，才能分割成多个尺寸一致的图像，将5
×
12个像素补充为6
×
12个像素，即补充一排像素，且补充的这一排像素均为（0，0，0）。因此可以分割为18个2
×
2的补丁图像。具体可以采用卷积层来实现分割，例如，使用卷积核大小为2
×
2，步距为2，卷积核个数为12的卷积层。
31.povit模型包括：嵌入模块、位置编码模块、transformer编码模块以及全连接层模块（具体可以采用mlp层）。transformer编码模块：若干个编码block，每个编码block包括：第一标准化层、多头自注意力层、第一dropout层、第二标准化层、mlp模块以及第二dropout层；mlp模块包括：第一线性层、abs激活层、第三dropout层、第二线性层以及第四dropout层。与现有技术的vit模型相比，transformer模块中并不是采用gelu激活层，而是采用abs激活层。我们进行了多次实验来验证这种特殊的激活层（称为abs激活层）的鲁棒性。我们已经证明，相对于gelu等传统激活层，abs激活层可以显着提高povit的性能。它们的表达式如下：。
32.多头自注意力层通过一些线性投影将第一标准化层的输出分别投影到查询q、密钥k和价值v中，将搜索现存的密钥-价值对并按权重将这些对相加以给出预测。多头自注意力层的缩放点积函数如下：其中，a(q，k，v)表示多头自注意力层的输出，q表示查询，k表示密钥，v表示价值，d表示缩放系数。
33.由于输入到编码模块的是向量，因此，每个补丁图像输入嵌入模块，通过线性映射将每个补丁图像映射到一维向量，并输入位置编码模块，得到符号序列，位置编码是按照补丁图像在几何结构参数图像中对应的位置排序，例如，位置编码可以是1、2、3、
···
、17、18。然后将符号序列输入transformer编码模块，得到编码特征。然后将该编码特征输入mlp层，得到品质因子q和模式体积v。
34.在训练时，可以采用adam优化器进行训练，学习率为0.0001~0.01。为了衡量povit模型的性能，我们在训练过程中计算了mse损失、最小和收敛预测误差（）以及相关系数（ρ）。最小预测误差由程序在测试阶段测量和记录，而收敛预测误差在最后几个epochs收集并取平均。标定ti为数据集里的目标输出（即标签）和标记为pi的相应预测输出。povit模型的表现可以通过以下三个公式评估：型的表现可以通过以下三个公式评估：其中，mse表示mse损失，ti表示第i个目标输出，pi表示第i个预测输出，n表示训练样本的数量，∑表示求和符号，表示预测误差，表示相关系数，表示数学期望，表示目标输出的平均值，表示预测输出的平均值，cov(t，p)表示目标输出和预测输出的协方差，σ
t
表示目标输出的标准差，σ
p
表示预测输出的标准差。
35.上面等式中的pearson相关系数ρ(t，p)∈[
−
1，1]可用于测量预测结果与目标输出之间的线性关系。如果系数接近1，则输出将完美正相关于目标，这也意味着我们的povit模型非常适合这个编码光子晶体的回归问题。
[0036]
如图4所示，本发明实施例的基于自注意力的深度神经网络编码光子晶体的方法，包括以下步骤：步骤s100、获取光子晶体的几何结构参数图像；其中，所述光子晶体具有若干个空气孔，若干个空气孔排列形成周期性空气孔阵列，所述几何结构参数图像的每个像素包括：空气孔的位置和半径。
[0037]
具体地，提取光子晶体中央的若干个空气孔的位置和半径，形成集合结构参数图像，例如，空气孔的数量可以是54个。
[0038]
步骤s200、对所述几何结构参数图像进行维度重塑，得到若干个补丁图像。
[0039]
具体地，对几何结构参数图像进行维度重塑，得到若干个补丁图像。可以采用卷积层对几何结构参数图像进行提取，得到若干个补丁图像。
[0040]
步骤s200具体包括：步骤s210、根据空气孔的位置和半径，以及空气孔的初始位置和初始半径，确定空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像。
[0041]
步骤s220、当所述空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像的大小无法被补丁大小整除时，对所述空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像补充维度。
[0042]
步骤s230、当所述空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像的大小被补丁大小整除时，将所述空气孔的x轴偏移量图像、y轴偏移量图像以及半径偏移量图像，按照预设高度和预设宽度分割成若干个补丁图像。
[0043]
具体地，几何结构参数图像的每个像素为（x'，y'，r'），空气孔的初始位置为（x0，y0），初始半径r0，则偏移量图像的每个像素为（dx，dy，dr）。在分割时，需要看偏移量图像的高度和宽度是否能分别被补丁的高度和宽度整除，若不能整除，则需要补充维度，使其能够整除，则可以分割成若干个补丁图像。例如，偏移量图像的大小为5
×
12，补丁图像的大小为2
×
2，高度5无法被高度2整除，宽度12可以被宽度2整除，因此需要在高度上补充一个维度形成6
×
12的偏移量图像，则可以分割成18个补丁图像。
[0044]
步骤s300、将所述补丁图像输入所述嵌入模块和位置编码模块，得到符号序列；其中，所述符号序列按照补丁图像在几何结构参数图像中对应的位置排序。
[0045]
具体地，将补丁图像输入嵌入模块，进行线性投影后输入位置编码模块嵌入位置编码，得到符号序列。
[0046]
步骤s400、将所述符号序列输入所述transformer编码模块，得到编码特征。
[0047]
步骤s500、将所述编码特征输入所述全连接层模块，得到品质因子q和模式体积v。
[0048]
具体地，将符号序列输入transformer编码模块，得到编码特征。然后将编码特征输入全连接层模块，得到品质因子q和模式体积v。
[0049]
具体实施例一本专利提出的povit模型的目标是构建一种可靠且高效的方法来简化纳米光子器件的多目标编码设计。最初，从数据集中随机选择和打乱10000个数据样本并输入模型，该模型每次运行300个epoch。经过多轮实验，下面列出了产生最佳性能的超参数。初始学习率lr=0.01，优化器是adam，学习率调度器为multisteplr（里程碑=[100，160，200]和gamma=0.1）。我们使用的povit超参数的完整列表保留在表 1中。分别使用abs和gelu训练povit的结果如图5-图6所示，图5中左边的四个图（a：预测误差，b：mse，e和f：相关系数）是针对q，而右边的四个图是针对v。qnn是预测的相关系数，而qfdtd是目标相关系数。同样，vnn和vfdtd分别是预测和目标相关系数。图6中左边的四个图（a：预测误差，b：mse，e和f：相关系数）是针对q，而右边的四个图是针对v。qnn是预测的相关系数，而qfdtd是目标相关系数。同样，vnn和vfdtd分别是预测和目标相关系数。在图5和图6中，q在训练和测试中的相关系数似乎相同，因为我们只保留了小数点后三位有效数字。它还表明在训练q因子期间没有出现过度拟合的现象。由于在先前工作中没有为 cnn模型提供相关系数，我们从下述网站中：
https://github.com/arcadianlee/deep-learning-based-modeling-of-pc-nanocavities.git。
[0050]
获取了cnn开源代码，并将其扩展为包括预测相关系数的能力。我们发现此cnn得到的测试系数分别计算为q
coeff
=98.7%和v
coeff
=80.5%。从图6我们可以看到povit模型中的最佳测试系数是q
coeff
=99.4%和v
coeff
=92.0%，其中v
coeff
值比cnn模型得到的最佳结果高出11.5%之多。
[0051]
本专利所提出的povit的优势体现在模型的预测精度、收敛速度和相关系数线性度上（见图5-图6）。自注意力机制的引入以被证明可超越传统的cnn，而后者曾经是计算机视觉领域的最常用结构。此外，povit的收敛速度很快，mse损失仅在100个epoch内就下降到了一个极其低的水平，然后保持在稳定状态。povit的高相关系数，包括结合了transformer的cvt，意味着我们的模型对噪声干扰具有良好的鲁棒性。
[0052]
至于嵌入在transformer模块中的前反馈网络（ffn）中的激活层，实验发现当lr相对较小（lr《0.0005）时，绝对值函数（abs）比gelu具有明显更好的性能。在图7中，数据点取自三次单独实验之间的平均值。v
coeff
与lr作图，以展示abs和gelu激活层的性能直接对比。我们看到，当学习率变得相对较大（lr≈0.001）时，尽管差距缩小差距，abs仍然相对gelu保持着微弱优势。然而，在lr≥0.005之后，abs和gelu的曲线几乎相互重叠，尽管前者的曲线总是保持略高于后者。基于上述观察，我们得出结论是对于我们的应用，abs激活函数显著优于gelu。我们认为值得进一步研究为什么激活函数abs在lr相对较小的情况下明显优于gelu。在这里，我们提供了一种可能的解释——消逝relu现象。考虑到图3中提到的dx、dy和dr的数据分布，输入数据在归一化后聚集在一个小范围内，相当一部分数据元素将位于坐标轴的负半边。因此，类似relu的激活函数（例如gelu）可能会受到消逝relu现象的负面影响，使得povit中的一些神经元变得不活跃（权重减小到接近于零，这将不利于损失收敛）。相反，对于abs，正负输入数据元素都被保留和同等对待，可减轻上述负面影响。
[0053]
表1povit的超参数列表基于上述任意一实施例所述的基于自注意力的深度神经网络编码光子晶体的方法，本发明还提供了一种计算机设备的实施例：本发明的计算机设备，包括储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述任意一实施例所述方法的步骤。
[0054]
基于上述任意一实施例所述的基于自注意力的深度神经网络编码光子晶体的方法，本发明还提供了一种计算机可读存储介质的实施例：本发明的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一实施例所述方法的步骤。
[0055]
应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

基于自注意力的深度神经网络编码光子晶体的方法

相关文献

最热文献