一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于语音和图像特征的算力均衡执行方法及芯片与流程

2022-11-14 01:35:39 来源:中国专利 TAG:


1.本发明涉及负载均衡技术领域,特别涉及一种基于语音和图像特征的算力均衡执行方法及芯片。


背景技术:

2.语音识别和图像识别在模式识别中分类器的设计方面有很多相似之处,例如神经网络、svm(support vector machine,支持向量机)以及deep learning(深度学习)等典型的分类器在两者的识别中都可以使用,因此主要区别在于特征提取算法的不同。
3.语音采样频率相对于采样时长而言是很高,而且考虑到声波的震动特性与持续性,语音信号在有声区域是一种稠密信号,因此一段语音信号中的局部信息,或者说相邻的某几个采样点的信息量是很少的,因此在语音特征提取通常采用窗口模式,对窗口内的信号的统计特性进行分析,基于频域变换的特征提取算法十分常见。图像的空间频率相对于图像大小而言并不高,而且图像中存在大量的平滑区域,特征分布相对稀疏,局部特征的价值也就更加重要。近几年来广泛得到应用的sift(尺度不变特征变换)、hog(梯度方向直方图)、稀疏编码等都是基于这一理念。图像特征更加强调旋转、缩放、光照等方面的不变性,相对于语音信号,图像特征的模式一般来讲更加复杂,冗余信息的分离难度也比较大。
4.对于需要同时处理语音信息和图像信息的芯片,由于语音识别和图像识别采用的特征提取算法的不同,导致其特征提取的运算量也产生不同,因此,合理分配不同识别任务至相应神经网络处理单元,可有效提升神经网络的运行效率。
5.现有技术中基于ai芯片的算力调度主要是基于多个所述算子分别对应的运算信息以及算子执行设备的算力信息来计算算力资源。或是将运算任务的运算量进行预设,若判断新运算任务满足预设的目标算力,则将任务分配至该算力目标上。但是,由于不同神经网络处理模块处理的指令以及任务不同,无法简单根据算子的算力信息来计算算力资源,上述负载均衡方案不适合不同神经网络处理模块之间的任务调度,因此需要专门设计适用于不同神经网络处理模块之间的任务调度、负载均衡执行方法。


技术实现要素:

6.本发明提供一种基于语音和图像特征的算力均衡执行方法及芯片,旨在解决现有技术中需要同时处理语音信息和图像信息的神经网络模块之间的任务调度问题。
7.为解决上述技术问题,本发明的具体方案如下:一种基于语音和图像特征的算力均衡执行方法,包括以下步骤:接收待处理的数据,所述待处理的数据包括语音数据与图像数据;对所述待处理的数据进行预处理,所述预处理包括a/d转换、快速傅里叶变换,生成第一特征图;提取第一特征图的频带宽度数据,判别其对应的输入信号类型,传送至第一任务池或者第二任务池中进行下一步处理;
第一任务池和第二任务池分别进行对应任务的处理,输出处理结果,供后续任务使用。
8.优选地,所述a/d转换包括抽样、量化和编码,将输入的模拟量信号转换为数字信号。
9.优选地,所述快速傅里叶变换为硬件电路实现,采用基于流水线的快速傅里叶变换方法。
10.优选地,所述第一任务池进行语音数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。
11.优选地,所述第二任务池进行图像数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。
12.优选地,所述第一任务池为语音神经网络模型,特征提取具体步骤包括:端点检测,通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾,得到有效语音序列;分帧和加窗,对所述加重语音序列按设定的时间间隔进行分段,然后利用带通滤波器过滤信号,以减小信号的误差,得到依赖于时间的帧序列;预加重,增加所述有效语音序列的高频能量,提高信噪比,得到加重语音序列;快速傅里叶变换,将所述帧序列输入快速傅里叶变换硬件电路,把时域图转换为各帧的频谱;特征向量提取,使用感知线性预测技术提取所述频谱的特征向量,生成语音特征参数;神经网络识别,将语音特征参数输入神经网络模型,输出语音识别结果。
13.优选地,所述第二任务池为图像神经网络模型,提取的特征包括:方向梯度直方图特征,首先将图像分成小的连通区域,然后采集联通区域中各像素点的梯度和边缘的方向,构成方向梯度直方图特征;局部二值模式特征,用来描述图片区域的纹理信息,通过将检测窗口分成16x16的cell,对每个cell中的一个像素与周围8个像素进行比较,计算每个cell的直方图,最后将得到的每个cell的统计直方图进行连接成为局部二值模式特征;harr特征,用于图像中的人脸表示,在出现人脸的图像中,提取harr特征用于人脸检测。
14.优选地,所述语音神经网络包括卷积神经网络和循环神经网络,所述卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层:第一卷积层为128个大小为1
×
9的过滤器,横向步长设置为2,通道设置为1;池化层为大小为1
×
3的最大池化层,步长设置为1;第二卷积层为256个大小为1
×
4的过滤器,横向步长设置为1,通道设置为64;优选地,所述循环神经网络采用长短期记忆结构和基于神经网络的时序类分类进行语音识别。
15.一种基于语音和图像特征的算力均衡执行芯片,所述执行芯片包括通用处理器和神经网络处理器,所述神经网络处理器用于执行上述基于语音和图像特征的算力均衡执行方法。
中读出数据,经过计算得到的中间结果仍然存入相同的数据存储 ram 去,覆盖输入的数据,直到整个这一级的蝶形因子全部运算结束,将最后结果输出到下一级。
23.第一任务池进行语音数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。第二任务池进行图像数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。
24.第一任务池为语音神经网络模型,特征提取具体步骤包括:端点检测,通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾,得到有效语音序列。对语音信号进行时域分析,可以明显辨别出原始语音信息包含有声段、无声段和浊音段,端点检测通过区分以上不同段的信号以找到语音信号的起始点和结束点。本实施例中的端点检测方法采用双门限法,通过计算语音能量的方式来判断语音的端点,预先设置双门的门限能量,然后分别计算每个时刻的语音能量,若,则生成门限序列为1;若,则生成门限序列为0;从而得到门限序列,将门限序列点乘原始语音序列,得到有效语音序列。
25.端点检测方法优选为双门限法,其中语音能量的计算公式为:其中,为检测点的语音能量,为第点的语音广义分贝值,为所有检测点的数量。
26.预加重,增加有效语音序列的高频能量,提高信噪比,得到加重语音序列。语音信息往往夹杂着环境中的各种其他声音信息,由于人类发音的特性,语音信息经过频率转换后往往大部分集中于低频带,从而使得低频能量过高,高频能量过低,难以有效提取高频语音信息。预加重预先添加高频信号,与原始语音信号叠加后,高频段和低频段的能量相当,使得后续的识别效率明显提升。
27.分帧和加窗,对加重语音序列按设定的时间间隔进行分段,然后利用带通滤波器过滤信号,以减小信号的误差,得到依赖于时间的帧序列2。一段信号整体是不稳定的,但从局部看,语音信号可假定为短时平稳的(10-30ms内可以认为语音信号近似不变为一个音素的发音,一般情况下取 25ms),所以需要对整段语音信号进行分帧处理。本实施例中加窗采用汉明窗,由于加上汉明窗,只有中间的数据体现出来,两边的数据信息丢失,所以相邻的窗之间有重叠的部分,本实施例的窗长为25ms,步长为10ms,即每个窗的后15ms与后续相邻窗的前15ms为重叠部分。
28.快速傅里叶变换,将帧序列输入快速傅里叶变换硬件电路,把时域图转换为各帧的频谱;特征向量提取,使用感知线性预测技术(plp)提取频谱的特征向量,生成语音特征参数;神经网络识别,将语音特征参数输入神经网络模型,输出语音识别结果。
29.第二任务池为图像神经网络模型,提取的特征包括:
方向梯度直方图(hog,histogramoforientedgradient)特征,将图像分成小的连通区域,采集联通区域中各像素点的梯度和边缘的方向,构成hog特征。首先将输入的图像灰度化;然后采用gamma校正法对输入的图像进行颜色空间的标准化,目的是调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时抑制噪音的干扰;计算图像每个像素的梯度,目的是为了捕获轮廓信息,同时进一步弱化光照的干扰;将图像划分成小cells,统计每个cell的梯度直方图,即为每个cell的特征,将每个cell组成一个block,一个block内所有cell的特征串联起来便得到该block的hog特征,将图像内所有的block的hog特征串联起来即得到该图像的hog特征。
30.局部二值模式(lbp,localbinarypattern)特征,用来描述图片区域的纹理信息,通过将检测窗口分成16x16的cell;对每个cell中的一个像素与周围8个像素进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0,这样,3x3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的lbp值;然后计算每个cell的直方图,即每个数字(假定是十进制数lbp值)出现的频率;然后对该直方图进行归一化处理;最后将得到的每个cell的统计直方图进行连接成为一个特征向量,也就是整幅图的lbp纹理特征向量。
31.harr特征,用于图像中的人脸表示,在出现人脸的图像中,提取harr特征用于人脸检测。本实施例中采用积分图来计算haar特征,积分图是将图像从起点开始到各个点所形成的矩形区域像素之和作为一个数组的元素保存在内存中,当要计算某个区域的像素和时可以直接索引数组的元素,不用重新计算这个区域的像素和,从而加快了计算(这有个相应的称呼,叫做动态规划算法)。积分图能够在多种尺度下,使用相同的时间(常数时间)来计算不同的特征,因此大大提高了检测速度。
32.语音神经网络模型包括卷积神经网络(cnn)和循环神经网络(rnn),其中卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层:第一卷积层为128个大小为1
×
9的过滤器,横向步长设置为2,通道设置为1;池化层为大小为1
×
3的最大池化层,步长设置为1;第二卷积层为256个大小为1
×
4的过滤器,横向步长设置为1,通道设置为64。
33.循环神经网络对输入的数据按照时间参数进行拆分,将拆分后的数据依序封装成两个矩阵,利用lstm来记录语音序列的时序特征。本实施例对单向lstm进行改进,使用bilstm(bi-directionallongshort-termmemory,双向长短期记忆)结构进行语音时序特征的学习,用lstm单元替换了双向rnn中的隐含层,使其可以同时利用过去时刻和未来时刻两个方向的信息,将当前语音的特征扩充至整个序列图片中,实现对整个语音时序特征的有效学习,使得最终的预测结果更加准确。利用bilstm节点对前一个矩阵分别进行正向传播以及对后一个矩阵进行反向传播,输出语音识别结果。bilstm的节点数量优选为2048个,其中1024个节点只连接一个矩阵,用于进行正向传播;另外1024个节点连接另外一个矩阵,用于反向传播。
34.执行芯片包括通用处理器和神经网络处理器,神经网络处理器用于执行上述基于语音和图像特征的算力均衡执行方法。
35.以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献