一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于车载多模交互的语音识别方法及装置、介质和设备与流程

2022-11-30 15:27:18 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及一种基于车载多模交互的语音识别方法及装置、介质和设备。


背景技术:

2.随着车联网和人工智能技术的兴起,越来越多的功能被搭载在车机上。层出不穷的功能与日趋复杂的界面对驾驶者在驾驶过程中的注意力进行了争夺。对于当前“人机共驾”阶段,语音交互技术帮助驾驶者降低对车内装置的人工操作依赖,增加驾驶安全性。随着智能网联、智能座舱技术的兴起,中国已成为最大的汽车消费市场,人车交互场景体验日益成众多厂商竞相关注的识别领域。目前,语音交互功能作为汽车座舱智能化的标志性代表,与车内多种应用相结合,成为座舱生态构建的核心功能,例如,通过语音控制导航、音乐、收音机、空调、车窗、天窗以及通过语音查询天气、股票、航班等。
3.早期的车载语音识别,是借助于车载芯片,通过本地识别实现的,只能识别非常固定的几个词,准确率还非常低。到了2013年左右,随着神经深度网络的普及和互联网技术的应用。语音技术扩展到云地结合,识别范围越来越广,逐步实现了唤醒、打断,涉及到驾车过程中的大量的操作,而且对方言的识别,对模糊词的识别,也越来越准确。对于几乎所有的新车,语音识别都是不可或缺的,相关的语音识别开发企业,以及涉及到芯片、软件算法等相关企业,仍然在不断的提升语音识别的应用能力。但是目前的语音识别准确率仍然有待提高。


技术实现要素:

4.为了解决上述至少一个技术问题,本发明提供了一种基于车载多模交互的语音识别方法及装置、介质和设备。
5.根据第一方面,本发明实施例提供了一种基于车载多模交互的语音识别方法,包括:获取车内语音数据,并从所述车内语音数据中提取出语音特征向量;获取车内人员的面部数据、唇部数据和手势数据,从所述面部数据中提取出面部特征向量,从所述唇部数据中提取出唇部特征向量,从所述手势数据中提取出手势特征向量;获取车辆状态数据,并从所述车辆状态数据中提取出车辆状态特征向量;确定所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量各自对应的调和系数;根据各个调和系数,将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量进行多模融合,得到第一融合特征向量;将所述第一融合特征向量和所述语音特征向量进行融合处理,得到第二融合特征向量;将所述第二融合特征向量输入至预先训练的语音识别模型中,得到对应的语音识
别结果。
6.根据第二方面,本发明实施例提供了一种基于车载多模交互的语音识别装置,包括:向量形成模块,用于获取车内语音数据,并从所述车内语音数据中提取出语音特征向量;获取车内人员的面部数据、唇部数据和手势数据,从所述面部数据中提取出面部特征向量,从所述唇部数据中提取出唇部特征向量,从所述手势数据中提取出手势特征向量;获取车辆状态数据,并从所述车辆状态数据中提取出车辆状态特征向量;系数确定模块,用于确定所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量各自对应的调和系数;第一融合模块,用于根据各个调和系数,将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量进行多模融合,得到第一融合特征向量;第二融合模块,用于将所述第一融合特征向量和所述语音特征向量进行融合处理,得到第二融合特征向量;语音识别模块,用于将所述第二融合特征向量输入至预先训练的语音识别模型中,得到对应的语音识别结果。
7.根据第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面提供的方法。
8.根据第四方面,本发明实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面提供的方法。
9.本发明实施例具有以下技术效果:获取车内语音数据,并从所述车内语音数据中提取出语音特征向量;获取车内人员的面部数据、唇部数据和手势数据,从所述面部数据中提取出面部特征向量,从所述唇部数据中提取出唇部特征向量,从所述手势数据中提取出手势特征向量;获取车辆状态数据,并从所述车辆状态数据中提取出车辆状态特征向量;确定所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量各自对应的调和系数;根据各个调和系数,将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量进行多模融合,得到第一融合特征向量;将所述第一融合特征向量和所述语音特征向量进行融合处理,得到第二融合特征向量;将所述第二融合特征向量输入至预先训练的语音识别模型中,得到对应的语音识别结果。可见,本发明实施例基于语音、视觉面部表情、唇动、手势和车机内部状态等多模交互方式,通过多模信息融合技术,完成车载语音识别,从而提高车载语音识别准确率。
附图说明
10.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1是本发明一个实施例中基于车载多模交互的语音识别方法的流程示意图;图2是本发明一个实施例中摄像头和麦克风在车辆内部的布局示意图;图3是本发明一个实施例中基于车载多模交互的语音识别方法的流程示意图;
图4是本发明一个实施例中确定语音指令执行情况的流程示意图;图5是本发明一个实施例中基于车载多模交互的语音识别装置的结构框图。
具体实施方式
12.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
13.第一方面,本发明实施例提供一种基于车载多模交互的语音识别方法。本发明实施例提供的方法可以由任一计算设备执行,参见图1~3,所述方法包括如下步骤s110~s150:s110、获取车内语音数据,并从所述车内语音数据中提取出语音特征向量;获取车内人员的面部数据、唇部数据和手势数据,从所述面部数据中提取出面部特征向量,从所述唇部数据中提取出唇部特征向量,从所述手势数据中提取出手势特征向量;获取车辆状态数据,并从所述车辆状态数据中提取出车辆状态特征向量;在具体场景中,可以在车辆内安装两个摄像头和一个麦克风。摄像头和麦克风在车辆内部的布局可以参见图2。
14.摄像头1采集车内人员的图像或视频,便于从摄像头1采集的人员图像或视频中获取到人员的面部数据、唇部数据和手势数据。通过唇部数据进行识别驾驶员的说话信息,通过面部数据包括眼睛、嘴巴等进行情绪识别,通过手势数据可以识别手势动作。
15.摄像头2的拍摄角度为360度,可以实时采集人员发声前车辆内部的图像,进而可以从该图像中获取到车辆内部的状态数据即车辆状态数据,从而有助于语音识别。摄像头2也可以在人员发生后以及车辆执行语音指令后采集车辆内部的图像,进而可以得知车内状态的变化情况,例如,如车窗、天窗变化、屏幕变化,有助于判断语音识别的准确程度,确定语音识别的车机执行情况。其中,当车内的屏幕信息不完整时,还可通过车载的usb接口读取adb(全称为android debug bridge,中文为调试桥)的main.log信息即日志信息,将日志信息和屏幕信息相结合,共同判断识别执行信息。
16.麦克风用于进行语音采集,采集人员发出的语音,包括语音、声纹,进而可以从麦克风中获取到车内语音数据。
17.可理解的是,s110中的车辆状态数据实际上是指在根据识别出的语音指令进行相应的操作之前车辆内部的状态数据,但由于人员发出语音指令以及语音识别所用的时间比较短,因此也可以认为是发声前的车辆内部的状态数据。
18.可理解的是,在获取到车内语音数据、面部数据、唇部数据、手势数据、车辆状态数据后,对数据进行一定的提取处理,例如卷积处理,便可以得到对应的特征向量。
19.例如,进行特征提取后,得到的各个特征向量分别为:唇部特征向量a={a1,a2,
•••ai
,
•••aa
},维度a为32;面部特征向量b={b1,b2,
•••bi
,
•••bb
},维度b为96;手势特征向量c={c1,c2,
•••ci
,
•••cc
},维度c为64;车辆状态特征向量d={d1,d2,
•••di
,
•••dd
},维度d为64;语音特征向量e={e1,e2,
•••ei
,
•••ee
},维度e为128。
20.s120、确定所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量各自对应的调和系数;可理解的是,多模特征性质、表示信息的方式和结构一般都不相同,直接将这些特征向量不进行处理就直接融合,往往达不到想要的效果,同时由于部分特征之间,用相同提取方法所提取出的信息还会有相互重叠。如果不假思索、没有选择、不讲策略的将这些特征向量放在一起,就达不到引入多模特征的目的,也不会有让人满意的结果。因此需要对多模特征进行降维,真正把相似种类的特征融合后投影在一个较低的维数上。
21.在一个实施例中,可以采用预设方程组计算所述调和系数,所述预设方程组包括如下方程式:方程式:方程式:方程式:方程式:方程式:方程式:方程式:式中,为所述唇部特征向量中的第i个元素,为所述面部特征向量中的第i个元素,为所述手势特征向量中的第i个元素,为所述车辆状态特征向量中的第i个元素;a为所述唇部特征向量中的元素个数,b为所述面部特征向量中的元素个数,c为所述手势特征向量中的元素个数,d为所述车辆状态特征向量中的元素个数;为所述唇部特征向量的调和系数,为所述面部特征向量的调和系数,为所述手势特征向量的调和系数,为所述车辆状态特征向量的调和系数。
22.其中,第一个方程式和第二个方程式是为了将多个特征向量进行对齐,第三~六个方程式是为了将所有的特征向量进行归一化。通过上述几个方程式可以计算出4个调和系数。例如,计算得到的α2、β2、γ2、和δ2分别为1/8、3/8、1/4和1/4。
23.s130、根据各个调和系数,将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量进行多模融合,得到第一融合特征向量;在一个实施例中,s130可以具体包括:将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量分别与各自对应的调和系数相乘,并将相乘后得到的各个向量拼接为一个向量,得到所述第一融合特征向量。
24.例如,所述第一融合特征向量w为:s140、将所述第一融合特征向量和所述语音特征向量进行融合处理,得到第二融合特征向量;在一个实施例中,所述将所述第一融合特征向量和所述语音特征向量进行特征融合处理,得到第二融合特征向量,可以包括s141~s143:s141、根据多个预设语音识别样本,计算对应的类间散布向量,并根据所述间散布向量计算类间散布矩阵,并从所述类间散布矩阵中选择出前f行前f列的各个元素形成变换矩阵;其中,f为大于1的正整数;在一个实施例中,可以采用第九计算式计算类间散布向量,所述第九计算式为:式中,为类间散布向量,m为预设语音识别样本的数量,c为预设语音识别样本的类别,为所述多个预设语音识别样本中的任意一个。
25.其中,类别是指预设语音识别样本是用来导航的、车控、打开音乐的、通信等等,可见类别是指语音识别样本对应的语音功能。一条预设语音识别样本中包括一个预设语音特征向量以及对应的语音识别结果。
26.在一个实施例中,可以采用第十计算式计算所述类间散布矩阵,所述第十计算式为:式中,t为倒置符号,r为所述类间散布矩阵,为所述类间散布向量。
27.s142、根据所述类间散布向量和所述变换矩阵,计算对角矩阵,并根据所述对角矩阵、所述类间散布向量和所述变换矩阵,计算降维转移矩阵;可理解的是,计算得到的对角矩阵是f行f列的。
28.在一个实施例中,可以采用第十一计算式计算所述对角矩阵,所述第十一计算式为:式中,为所述对角矩阵,m为所述变换矩阵,为类间散布向量,t为倒置符号。
29.在一个实施例中,可以采用第十二计算式计算所述降维转移矩阵,所述第十二计算式为:式中,p为所述降维转移矩阵,为所述类间散布向量,m为所述变换矩阵,为所述对角矩阵。
30.s143、根据所述降维转移矩阵,分别对所述第一融合特征向量和所述语音特征向量进行降维处理,并将降维处理后的两个向量拼接为一个向量,得到所述第二融合特征向量。
31.在一个实施例中,可以采用第十三计算式对第一融合特征向量进行降维处理,所述第十三计算式为:式中,w为所述第一融合特征向量,p为所述降维转移矩阵,为降维处理后的第一融合特征向量。
32.在一个实施例中,可以采用第十四计算式对所述语音特征向量进行降维处理,所述第十四计算式为:式中,p为所述降维转移矩阵,e为所述语音特征向量,为降维处理后的语音特征向量。
33.例如,通过如下拼接公式计算得到第二第二融合特征向量:式中,x为第二融合特征向量,为降维处理后的语音特征向量,为降维处理后的第一融合特征向量。
34.s150、将所述第二融合特征向量输入至预先训练的语音识别模型中,得到对应的语音识别结果;其中,语音识别模型为提前训练得到的,训练过程中采用的训练样本包括:多条第二融合特征向量以及针对每一条第二融合特征向量标记的语音识别结果。
35.其中,训练得到的语音识别模型的输入信息为第二融合特征向量,输出信息为语音识别结果,语音识别结果为文字序列。
36.本发明实施例针对目前车载语音交互的语音识别率低、误唤醒、误识别等问题,本发明实施例基于语音、视觉面部表情、唇动、手势和车机内部状态等多模交互方式,通过多模信息融合技术,完成车载语音识别,从而提高车载语音识别准确率。
37.在一个实施例中,本发明实施例提供的方法还可以包括:s160、在车辆每次执行语音指令后,获取车辆的状态变化数据,并根据所述状态变化数据确定本次语音识别结果是否正确;具体的,参见图4,可以通过摄像头2采集执行语音指令后车内状态、车机屏幕,根据执行语音指令前的车内情况,经过前后对比得到车内状态的变化情况。同时通过车载的usb接口读取adb的main.log信息,获取语音执行相关的日志信息,车内状态变化和日志信
息共同确定语音指令的执行情况,以提高统计语音执行率的准确性。
38.s170、每隔预设时间段后,计算该预设时间段内语音识别对应的句识别成功率、唤醒率、交互识别率、唤醒平均响应时间和功能识别率;可理解的是,为了验证语音识别效果性能,本发明实施例基于句识别成功率、唤醒率、交互识别率、唤醒平均响应时间和功能识别率等参数,进行性能指标评价。
39.在一个实施例中,可以采用第一计算式计算所述句识别成功率,所述第一计算式为:a=对连续语音的识别成功次数/识别总次数,a为所述句识别成功率。
40.其中,语音识别模型为车载终端智能语音交互系统中的一部分,负责语音识别。具有语音识别模型的车载终端智能语音交互系统应支持命令字识别和连续语音识别, 并以句识别成功率评价对连续语音的正确识别情况。
41.在一个实施例中,所述唤醒率包括成功唤醒率和误唤醒率,可以采用第二计算式计算所述成功唤醒率,所述第二计算式为:b1=成功唤醒次数/识别总次数,b1为所述成功唤醒率;可以采用第三计算式计算所述误唤醒率,所述第三计算式为:b2=误唤醒次数/识别总次数,b2为所述误唤醒率。
42.其中,具有语音识别模型的车载终端智能语音交互系统应支持命令字唤醒服务, 包括自定义唤醒命令字、多唤醒命令字等,用成功唤醒率评价车载智能语音交互系统对唤醒操作的响应情况, 用误唤醒率评价车载智能语音交互系统误唤醒操作在单位时间内出现的频度。
43.在一个实施例中,所述交互识别率包括交互成功率和误操作率,可以采用第四计算式计算所述交互成功率,所述第四计算式为:c1=成功交互次数/识别总次数,c1为所述交互成功率;可以采用第五计算式计算所述误操作率,所述第五计算式为:c2=交互失败次数/识别总次数,c2为所述误操作率。
44.其中,具有语音识别模型的车载终端智能语音交互系统应支持车载终端的控制指令, 全面覆盖日常生活中交互行为的语义意图理解。交互成功率用于评价车载终端智能语音交互系统对语音交互任务的正确响应情况, 交互任务包括:语音识别、语音唤醒、语音打断、语音合成。若车载终端智能语音交互系统在既定的交互轮数内完成了语音交互任务, 则此次语音交互成功, 并以交互成功率或误操作率作为评价指标。
45.在一个实施例中,可以采用第六计算式计算所述唤醒平均响应时间,所述第六计算式为:式中,g为所述唤醒平均响应时间,为第i次成功唤醒的响应时间,x为成功唤醒的总次数。
46.其中,对于语音交互任务, 唤醒平均响应时间用于评价车载终端智能语音交互系统的响应速度。第一次唤醒响应时间(t1)=第一次给出提示音的时刻与第一次命令输入的结束时刻之间的差值。
47.在一个实施例中,可以采用第七计算式计算每一功能对应的所述功能识别率,所述第七计算式为:=对第i个功能的成功识别次数/识别总次数,为第i个功能对应的功
能识别率。
48.其中,功能即语音指令功能识别,包括导航、音乐、电话、电台、空调、车控车设、信息查询、聊天互动等功能。
49.s170、根据所述句识别成功率、所述唤醒率、所述交互识别率、所述唤醒平均响应时间和所述功能识别率,计算对应的识别性能指标。
50.在一个实施例中,可以采用第八计算式计算所述识别性能指标,所述第八计算式包括:包括:包括:式中,y为所述识别性能指标,a为所述句识别成功率,b1为所述成功唤醒率,b2为所述误唤醒率,c1为所述交互成功率,c2为所述误操作率,g为所述唤醒平均响应时间,为第i个功能对应的功能识别率,为100或0,若存在第i个功能则为100,否则为0。
51.其中,s1、s2、s3、s4、s5为根据经验识别所得分别为100、90、80、70和60。
52.可理解的是,本发明实施例通过上述识别性能指标对语音识别性能进行量化评价,从而得知识别性能的优劣,进而自动生成评价报告。还可以根据识别出的性能情况对语音识别模型进行进一步的优化,从而可以进一步提高语音识别模型的识别准确率。
53.第二方面,本发明实施例提供一种基于车载多模交互的语音识别装置,参见图5,该装置100包括:向量形成模块110,用于获取车内语音数据,并从所述车内语音数据中提取出语音特征向量;获取车内人员的面部数据、唇部数据和手势数据,从所述面部数据中提取出面部特征向量,从所述唇部数据中提取出唇部特征向量,从所述手势数据中提取出手势特征向量;获取车辆状态数据,并从所述车辆状态数据中提取出车辆状态特征向量;系数确定模块120,用于确定所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量各自对应的调和系数;第一融合模块130,用于根据各个调和系数,将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量进行多模融合,得到第一融合特征向量;第二融合模块140,用于将所述第一融合特征向量和所述语音特征向量进行融合处理,得到第二融合特征向量;语音识别模块150,用于将所述第二融合特征向量输入至预先训练的语音识别模型中,得到对应的语音识别结果。
54.在一个实施例中,系数确定模块120具体用于采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:
采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:采用预设方程组计算各个调和系数,所述预设方程组包括如下方程式:式中,为所述唇部特征向量中的第i个元素,为所述面部特征向量中的第i个元素,为所述手势特征向量中的第i个元素,为所述车辆状态特征向量中的第i个元素;a为所述唇部特征向量中的元素个数,b为所述面部特征向量中的元素个数,c为所述手势特征向量中的元素个数,d为所述车辆状态特征向量中的元素个数;为所述唇部特征向量的调和系数,为所述面部特征向量的调和系数,为所述手势特征向量的调和系数,为所述车辆状态特征向量的调和系数。
55.在一个实施例中,第一融合模块130具体用于:将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量分别与各自对应的调和系数相乘,并将相乘后得到的各个向量拼接为一个向量,得到所述第一融合特征向量。
56.在一个实施例中,装置100还可以包括:结果判断模块,用于在车辆每次执行语音指令后,获取车辆的状态变化数据,并根据所述状态变化数据确定本次语音识别结果是否正确;第一计算模块,用于每隔预设时间段后,计算该预设时间段内语音识别对应的句识别成功率、唤醒率、交互识别率、唤醒平均响应时间和功能识别率;第二计算模块,用于根据所述句识别成功率、所述唤醒率、所述交互识别率、所述唤醒平均响应时间和所述功能识别率,计算对应的识别性能指标。
57.在一个实施例中,所述第一计算模块具体用于采用第一计算式计算所述句识别成功率,所述第一计算式为:a=对连续语音的识别成功次数/识别总次数,a为所述句识别成功率;和/或,所述唤醒率包括成功唤醒率和误唤醒率,所述第一计算模块具体用于采用第二计算式计算所述成功唤醒率,所述第二计算式为:b1=成功唤醒次数/识别总次数,b1为所述成功唤醒率;所述第一计算模块具体用于采用第三计算式计算所述误唤醒率,所述第三计算式为:b2=误唤醒次数/识别总次数,b2为所述误唤醒率。
58.在一个实施例中,所述交互识别率包括交互成功率和误操作率,所述第一计算模块具体用于采用第四计算式计算所述交互成功率,所述第四计算式为:c1=成功交互次数/识别总次数,c1为所述交互成功率;第一计算模块具体用于采用第五计算式计算所述误操作率,所述第五计算式为:c2=交互失败次数/识别总次数,c2为所述误操作率;和/或,所述第一计算模块具体用于采用第六计算式计算所述唤醒平均响应时间,所述第六计算式为:式中,g为所述唤醒平均响应时间,为第i次成功唤醒的响应时间,x为成功唤醒的总次数;和/或,所述第一计算模块具体用于采用第七计算式计算每一功能对应的所述功能识别率,所述第七计算式为:=对第i个功能的成功识别次数/识别总次数,为第i个功能对应的功能识别率在一个实施例中,所述第二计算模块具体用于采用第八计算式计算所述识别性能指标,所述第八计算式包括:所述识别性能指标,所述第八计算式包括:所述识别性能指标,所述第八计算式包括:式中,y为所述识别性能指标,a为所述句识别成功率,b1为所述成功唤醒率,b2为所述误唤醒率,c1为所述交互成功率,c2为所述误操作率,g为所述唤醒平均响应时间,为第i个功能对应的功能识别率,为100或0,若存在第i个功能则为100,否则为0。
59.在一个实施例中,第二融合模块具体包括:第一计算单元,用于根据多个预设语音识别样本,计算对应的类间散布向量,并根据所述间散布向量计算类间散布矩阵,并从所述类间散布矩阵中选择出前f行前f列的各个元素形成变换矩阵;其中,f为大于1的正整数;第二计算单元,用于根据所述类间散布向量和所述变换矩阵,计算对角矩阵,并根据所述对角矩阵、所述类间散布向量和所述变换矩阵,计算降维转移矩阵;第三计算单元,用于根据所述降维转移矩阵,分别对所述第一融合特征向量和所述语音特征向量进行降维处理,并将降维处理后的两个向量拼接为一个向量,得到所述第
二融合特征向量。
60.在一个实施例中,第一计算单元具体用于:采用第九计算式计算类间散布向量,所述第九计算式为:式中,为类间散布向量,m为预设语音识别样本的数量,c为预设语音识别样本的类别,为所述多个预设语音识别样本中的任意一个。
61.在一个实施例中,第一计算单元具体用于:采用第十计算式计算所述类间散布矩阵,所述第十计算式为:式中,t为倒置符号,r为所述类间散布矩阵,为所述类间散布向量。
62.在一个实施例中,第二计算单元具体用于:采用第十一计算式计算所述对角矩阵,所述第十一计算式为:式中,为所述对角矩阵,m为所述变换矩阵,为类间散布向量,t为倒置符号。
63.在一个实施例中,第二计算单元具体用于:采用第十二计算式计算所述降维转移矩阵,所述第十二计算式为:式中,p为所述降维转移矩阵,为所述类间散布向量,m为所述变换矩阵,为所述对角矩阵。
64.在一个实施例中,第三计算单元具体用于采用第十三计算式对第一融合特征向量进行降维处理,所述第十三计算式为:式中,w为所述第一融合特征向量,p为所述降维转移矩阵,为降维处理后的第一融合特征向量。
65.在一个实施例中,第三计算单元具体用于采用第十四计算式对所述语音特征向量进行降维处理,所述第十四计算式为:式中,p为所述降维转移矩阵,e为所述语音特征向量,为降维处理后的语音特征向量。
66.可理解的是,第二方面提供的装置与第一方面提供的方法相对应,第二方面中有关内容的解释、说明、举例、实施例等可以参考第一方面中的相应部分。
67.第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面提供的方法。
68.第四方面,本发明实施例提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面提供的方法。
69.需要说明的是,本发明所用术语仅为了描述特定实施例,而非限制本技术范围。如本发明说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。
70.还需说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”等应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
71.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献