一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于声光技术的全光控制光学神经网络系统的制作方法

2021-12-15 02:37:00 来源:中国专利 TAG:


1.本发明属于光通信、光学神经网络技术领域,特别是涉及一种基于声光技术的全光控制光学神经网络系统。


背景技术:

2.随着gpu,fpga等器件被用于高性能的计算,极大提高了相比于cpu的运算速度,在强大的运算力面前,海量的数据被构建在模型当中进行特征提取变换,通过增加训练的深度来达到更高的训练精度。硬件的加持和分布式深度学习,极大地降低了运算时长,因此基于深度学习的网络模型能够刻画丰富的内在信息,使得无数难题得以运用神经网络来解决。当下,深度学习已成为研究人工智能领域最热门的研究方向。
3.目前基于mnist的手写体数字的神经网络已经趋于成熟,但是语音识别的神经网络还处于不断的发展之中。chellapilla等人提出一种技术可以把所有这些小矩阵转换成一个大矩阵的乘积。一些通用框架如tensorflow,caffe等也提供cnn的并行化加速,为cnn在语音识别中的尝试提供了可能。
4.通常情况下,语音识别都是基于时频分析后的语音谱完成的,而其中语音时频谱是具有结构特点的。要想提高语音识别率,就是需要克服语音信号所面临各种各样的多样性,包括说话人的多样性(说话人自身、以及说话人间),环境的多样性等。卷积神经网络提供在时间和空间上的平移不变性卷积,将卷积神经网络的思想应用到语音识别的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性。可以将整个语音信号分析得到的时频谱当作一张图像一样来处理,采用图像中广泛应用的深层卷积网络对其进行识别。采用卷积神经网络进行计算。


技术实现要素:

5.本发明的目的在于针对目前现有技术不足,提出一种基于声光技术的全光控制光学神经网络系统,其结构紧凑,性能优越,能有效提高训练的精度,为实现复杂度更高的神经网络提供了可行性。
6.为实现上述目的,本发明提供了如下方案:基于声光技术的全光控制光学神经网络系统,包括:
7.声光调制输入模块,用于对输入的光电信号进行调制,使得光载波携带声音信号,并输出至光学神经网络;
8.光学神经网络模块,用于进行卷积神经网络的矩阵乘法计算和光学的非线性输出;
9.声光解调输出模块,用于将光载波信号解调为原始声音信号后进行输出,获得输出信号;
10.反馈控制网络模块,用于判断所述输出信号是否符合预期,对不符合预期的输出信号进行优化处理后进行输出。
11.优选地,所述声光调制输入模块包括激光光源单元、声光调制器;
12.所述激光光源单元用于获得激光;
13.所述声光调制器置于所述激光光源单元的激光谐振腔之外,包括声光介质、电声换能器、吸声装置以及驱动电源。
14.优选地,所述光学神经网络模块包括输入层单元、处理层单元、输出层单元;
15.所述输入层单元通过对调制的声光信号进行分帧加窗、短时傅里叶变换、幅值取对数、灰度映射和颜色映射后,获得二维声谱图;基于所述二维声谱图,获得频谱信息;基于所述频谱信息获得光学神经网络的输入层单元;
16.所述处理层单元用于将光学干涉模块接收到的二维输入向量进行线性矩阵乘法运算,输出第一光信号;
17.所述输出层单元用于通过光学非线性模块接收所述第一光信号,对所述第一光信号进行非线性转换,输出第二光信号。
18.优选地,所述光学干涉模块用于对输入光信号进行线性变换;实现线性变换的部分包括mzi

u阵列和mzi

v阵列;所述线性变换是将经过奇异值分解得到的酉矩阵进行光学计算;
19.所述光学干涉模块包括马赫曾德干涉仪阵列与可变光衰减器。
20.优选地,所述mzi

u阵列和所述mzi

v阵列包括内移相器和外移相器;
21.所述内移相器用于控制mzi两臂输出光信号的分光比;
22.所述外移相器用于调节mzi输出光信号的相位延迟。
23.优选地,所述可变光衰减器用于实现奇异值分解中的对角矩阵特性和对所述mzi

u阵列的输出光进行调节。
24.优选地,所述的光学非线性模块通过激光冷却的
85
rb原子在暗线二维磁光阱中实现,原子跃迁之间的光诱导量子产生干涉效应的电磁诱导透明。
25.优选地,所述声光解调输出模块,用于通过声光解调器将所述输出层单元的非线性信号进行解调,获得解调信号。
26.优选地,所述反馈控制网络模块包括逻辑控制单元、反馈优化单元;
27.所述逻辑控制单元用于将所述解调信号与原始基带信号作差分对比,判断是否符合预期输出,差分值在设定阈值范围内的语音信号在声光解调输出端直接输出,差分值不在设定阈值内的语音信号进行反馈优化;
28.所述反馈优化单元用于将差分值不在设定阈值内的语音信号送入所述处理层单元重新优化网络权重,优化训练得到符合预期的输出信号后进行输出。
29.相比于现有技术,本发明的优势包括:
30.本发明的声光调制使用外调制,因为外调制不改变激光光源的频率,可以有效克服声光信号组合的二次失真。使用外调制方式,可以使光载波携带声音信号通过传输信道。
31.在输入层,将声光调制器的输出的已调声光信号分帧加窗,然后将每个帧做短时傅里叶变换,之后再进行幅值取对数,最后通过灰度映射和颜色映射而形成的一种由频率、时间、幅度三个信息构成的可视化描述的二维声谱图,可以将整个语音信号分析得到的时频谱当作一张图像一样来处理,提高了输入的可操作性便捷性。
32.采用电磁诱导透明作为非线性部分,电磁诱导透明方法通过集群自旋态将光的量
子态存储于原子的体系之中,实现对原子团和激光的量子态操作,不会因非均匀性耦合产生的内部退相干现象。
33.采用反馈控制,以训练精度作为反馈的依据,若输出信号与原始基带信号差分运算的差值低于特定阈值,可认为训练精度不高,可再次加载信号进入神经网络,通过不断优化权重提高训练精度。以反馈方式缩短了计算时间,降低了计算的能耗。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1为本发明实施例的系统结构示意图;
36.图2为本发明实施例的声音的采样和量化图;
37.图3为本发明实施例的语音特征参数图;
38.图4为本发明实施例的mel滤波器组图。
具体实施方式
39.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
41.如图1所示,本发明提供了一种基于声光技术的全光控制光学神经网络系统,包括:声光的调制输入端,光学神经网络端,声光解调输出端以及反馈控制网络端;其中,声光调制的输入端主要对输入的光电信号进行调制,使得光载波携带声音信号通过传输信道;光学神经网络部分主要是进行卷积神经网络的矩阵乘法计算和光学的非线性输出;声光解调输出端对光载波信号进行解调,解调为原始的声音信号;反馈控制部分主要是对输出信号的进行比对,对不符合预期的输出信号进行策略控制,使之达到系统预期。
42.所述的声光输入端包括:激光光源和声光调制器。其利用激光易于调制,良好的相干性,发射频率高,信息传递容量大的这些特点,使用外调制加载调制信号,即调制器置于激光谐振腔之外;声光调制器是由声光介质,电声换能器,吸声装置及其驱动电源组成。调制信号是以电信号(调幅)形式作用于电声换能器,通过电声转换器再将其转化为以电信号形式变化的超声场、当从激光光源中的光波通过声光介质时,声光介质是声光相互作用的场所,当光束经过变化的超声场时产生相互作用,出射光因此具有随时间变化的各级衍射光。声光的这种作用,使光载波受到调制而成为携带信息的强度调制波。
43.所述的光学神经网络部分包含输入层,处理层,输出层。其中,从声光调制器的输出的已调声光信号分帧加窗,然后将每个帧做短时傅里叶变换,之后再进行幅值取对数,最后通过灰度映射和颜色映射而形成的一种由频率、时间、幅度三个信息构成的可视化描述
的二维声谱图,获得的频谱信息,作为神经网络的输入层;得到的二维输入向量中的每一维作为一个输入,利用光学干涉模块接收每一个输入,进行线性矩阵乘法运算,获得一个输出;所述光学干涉模块包括马赫曾德干涉仪阵列与可变光衰减器;
44.所述的光学干涉模块输出的光信号,对所述输出光信号进行非线性转换,输出光信号。所述的光学干涉模块对输入光信号进行线性变换,实现线性变换的部分包括mzi

u阵列和mzi

v阵列,主要是将经过奇异值分解得到的酉矩阵进行光学计算。
45.所述酉矩阵经奇异值分解获得。每个mzi包括两个部分:内移相器和外移相器,其中所述内移相器控制mz两臂输出光信号的分光比;,所述外移相器可调节mzi输出光信号的相位延迟。
46.所述可变光衰减器,能实现奇异值分解中的对角矩阵特性。
47.所述可变光衰减器对mzi

u阵列输出光进行调节,使得光功率强度可控。可变光衰减器的输出与mzi

v阵列的输入进行光学通信。
48.所述的光学非线性模块由激光冷却的
85
rb原子在暗线二维磁光阱中实现,原子跃迁之间的光诱导量子产生干涉效应的电磁诱导透明。
49.所述的声光解调器输出端,其利用一个解调器将光学神经网络输出层非线性部分的信号进行解调,声光解调器是声光调制器的逆过程,其过程就是将调制过后经过光学神经网络的信号解调出来。
50.所述反馈控制部分是解调信号和原始基带信号作差分对比,相比阈值的差入较大的信号,通过反馈系统,声光调制器加载信号进入网络处理层的重新优化网络权重。通过网络的不断学习,最终优化得到精度较高的输出信号。
51.进一步地,下面结合一个实施例对本发明技术方案作进一步非限制性的详细说明。
52.首先采用麦克风等声音传感设备采集音频信号,声音采样应当符合采样定理,即奈奎斯特定理,采样频率高于原信号最大频率的两倍时,采样后的数字信号才能完整保留原信号中的信息,这里采样率fs采用16khz。之后将全部的采样值在幅度上进一步离散化,即声音的量化。如图2所示,电压范围在0.5v~0.7v的采样点被量化成十进制数3,用两位二进制数编码为11,0.3v~0.5v被量化成十进制数2,0.1v~0.3v被量化为1,

0.1v~0.1v被量化为0。总共4个量化值,只用两位二进制数表示,取值范围在0~22

1,如果是精度是16bit,就表示幅值会被量化为0~216

1的等级。量化会引入失真,这里采用16位量化。之后将量化后的语音信号存储为pcm编码。
53.如图3所示对音频信号预加重、分帧、加窗,接着每帧信号进行离散傅里叶变换dft并拼接成二维张量,然后取模值得到stft谱图,最后通过梅尔滤波器组并取对数进行倒谱变换得到mfcc谱图。预加重部分的方法是增强信号高频部分的振幅,假如输入信号第n个采样点为x(n),则预加重公式在时域上的表现为y(n)=x(n)

ax(n

1),其中,a是预加重系数(小于等于1),默认设置a=0.97。将采样数据以每帧帧长25ms来划分,则一帧有16000*0.025=400个采样点。为确保声学特征参数的平滑采用交叉分的方法,来保证相邻帧过渡。帧长减去先后帧重叠的长度是帧移,帧移与帧长度之比一般在0.5以下(帧移一般为10ms,重叠50%~60%)。为了减少频谱泄露,实验采用汉明窗函数截取每帧信号。加窗分帧后,将每帧转为频域值来观察。做法是对每帧通过快速傅里叶变换,得到频谱上的能量分布,再对
频谱信号的值取模平方后算功率谱。接下来通过滤波器组来过滤掉不需要的频域信息得到有用的信息特征,运用常用的13维向量mfcc特征,具体方法是用傅里叶变换后的幅度谱,分别跟每个滤波器在频域上相乘累加,即得到该帧数据在对应滤波器频段的能量值向量。此处将频域能量谱经过一组mel尺度的滤波器组,如图4所示,实验中用前40个。将mel滤波器滤波后的40维特征取对数后得到fbank特征,在fbank特征基础上继续进行倒谱变换得到mfcc特征。
54.实验采用两层全连接光学神经网络,光学神经网包括输入光信号,光学干涉模块,光学非线性模块,输出光信号和光探测器,人工神经网络中的二维输入向量编码为输入光信号,所述编码方法包括光信号振幅、相位、强度、波形和偏振态等光学参量。实验中一个光干涉单元oiu包括矩阵乘法的功能和实现衰减功能。在前向传播中,对数据集执行矩阵乘法运算。光干涉单元由一系列的马赫增德干涉仪mzi构成;mzi由两个输入臂,信号臂,参考臂,两个输出臂,两个3db耦合器,内移相器,外移相器构成。内移相器位于信号臂上,外移相器位于输出臂上。输入臂接收光信号,经过3db耦合器实现50%分光。上下两个输入臂各有50%光信号输入到信号臂和参考臂,内移相器可通过改变波导折射率改变相位达到改变输出分光比的目的,β=k0nneff=2π/3nneff,δφ=(β
’‑
β)l,β表示传播常数,k0表示光信号在自由空间传播波数,nneff表示有效折射率,l表示波导长度,表示两臂相位差。内移相器调节波导上施加电压来改变相位达到改变输出分光比的目的。在与下一个mzi输入臂光学通信之前,外移相器可以调节两个输出臂之间的相对相位延迟,在经过下一个mzi的第一个3db耦合器后消除因相位延迟导致的分光误差。
55.光学单元包括mzi

u阵列,可变衰减器,mzi

v阵列。mzi

u阵列由6个mzi组成,个数计算参照n(n

1)/2,n为输入端口数。网络的训练由计算机实现。其中,每层权重矩阵m经奇异值分解(svd)后,可得到酉矩阵u、对角矩阵σ,因为任意的酉矩阵都可以表示为一系列旋转矩阵的乘积,如果继续对酉矩阵进行分解,可以得到:
[0056][0057]
其中,r
θij
矩阵是单位矩阵。假设u是4
×
4的酉矩阵,那么r
θij
也是4
×
4的矩阵,并且计算得到的6个θ角的恰好对应一个4
×
4全连接层所需要的6个马赫曾德干涉仪的相位角。
[0058]
将光学干涉模块的四维输出作为光学非线性的输入,光学非线性模块采用具有电磁诱导透明(eit)功能的器件。eit非线性光学激活函数由激光冷却的85rb原子在暗线二维磁光阱(mot)中实现,原子在基态|1〉下制备。来自线性操作输出的圆偏振(σ

)耦合激光(ωc)光束与原子传输共振并沿其横向入射到原子云。反向寻呼探测激光束(ωp,σ

)与|1〉

|3〉共振。在没有耦合光束的情况下,原子介质对共振探测光束是不透明的,共振探测光束最大程度地被原子吸收。相反,在存在耦合光束的情况下,跃迁路径之间的量子干涉导致eit光谱窗口,其中共振峰传输和带宽由耦合激光强度控制。共振探针激光束输出可以表示为:
[0059][0060]
其中,i
p,in
和i
p,out
是输入和输出探测光束强度;od是|1〉

|3〉过渡上的原子光学深度;γ
ij
是状态|i〉和|j〉之间的移相率。对于85rb原子,γ
13
=2π
×
3mhz和非零基态移相
率γ
12
可以通过杂散背景磁场进行调整。ωc是耦合场rabi频率,其平方与耦合激光强度成正比(ω
2c

i
c
)。如共振探针激光束输出公式所述,探针光束强度由耦合光束强度非线性控制。非线性激活函数φ是以耦合强度为输入,以传输探针强度为输出来实现的。在实验中,输入探针光束是准直的,其光束尺寸足够大以覆盖整个耦合光束轮廓。此外,非线性激活函数由od和γ12决定,其值在mot的不同位置发生变化。因此,实验通过将反向传播的耦合探测光束放置在mot的不同位置,定位四个输入耦合光束获得的几乎相同的非线性激活函数。
[0061]
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献