一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

非指令语音的拒识方法、车载语音识别系统及汽车与流程

2022-11-13 13:01:16 来源:中国专利 TAG:


1.本发明涉及语音识别领域,具体提供一种非指令语音的拒识方法、车载语音识别系统及汽车。


背景技术:

2.人机交互往往伴随着语音识别的过程,机器在收到一段音频信息后,需要判断目标音频是否为指令语音。指令语音是指用户向机器发出的具有明确意图的语音。
3.指令语音的判断需要多维度的信息,如车辆的行驶状态、用户的语调、语速等。但是现有技术中,指令语音的判断通过只通过简单的文本识别进行判断,考虑维度低、识别准确率差,导致很多的非指令的音频会被机器误识别成指令语音。
4.相应地,本领域需要一种新的非指令语音内容拒识的方法来解决上述问题。


技术实现要素:

5.为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决语音识别中的非指令语音容易误识别成指令语音的问题。
6.在第一方面,本发明提供一种非指令语音的拒识方法,其方法包括:
7.将输入音频数据进行特征提取得到语音特征向量;
8.将所述语音特征向量输入语音增强系统,得到拒识特征向量、置信度、意图信息以及文本信息;
9.基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息,得到多模态融合特征向量;
10.将所述多模态融合特征向量进行拒识判断,得到识别结果。
11.在上述非指令语音的拒识方法的一个技术方案中,
12.所述语音增强系统包括语音增强模型、意图理解模型以及文本编码模型;
13.所述将所述语音特征向量输入语音增强系统,得到拒识特征向量、置信度、意图信息以及文本信息,包括:
14.将所述语音特征向量输入已训练的语音增强模型,得到拒识特征向量、置信度以及识别结果文本;
15.将所述识别结果文本输入已训练的意图理解模型,得到意图信息;
16.将所述识别结果文本输入已训练的文本编码模型,得到文本信息。
17.在上述非指令语音的拒识方法的一个技术方案中,所述基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息,得到多模态融合特征向量包括:
18.基于所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息,得到多模态融合特征向量。
19.在上述非指令语音的拒识方法的一个技术方案中,所述语音增强模型包括语音编码器与语音解码器;
20.所述将所述语音特征向量输入已训练的语音增强模型,得到拒识特征向量、置信度以及识别结果文本,包括:
21.将所述语音特征向量输入语音编码器,得到拒识特征向量;
22.将所述拒识特征向量输入语音解码器,得到置信度以及识别结果文本。
23.在上述非指令语音的拒识方法的一个技术方案中,所述语音编码器由m层conv1d网络构成,所述文本编码模型由n层conv1d网络以及y层lstm网络构成,其中m、n、y均为自然数。
24.在上述非指令语音的拒识方法的一个技术方案中,所述基于所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息,得到多模态融合特征向量,包括:
25.将所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息进行融合,得到模型集合特征向量;
26.将模型集合特征向量通过已训练的注意力机制模型,得到多模态融合特征向量。
27.在上述非指令语音的拒识方法的一个技术方案中,所述车内信息包括车辆状态和/或所述音频数据源的音区方位。
28.在上述非指令语音的拒识方法的一个技术方案中,所述将所述多模态融合特征向量进行拒识判断,得到识别结果,包括:
29.将多模态融合特征向量输入已训练的拒识判断模型,得到识别结果,
30.其中所述拒识判断模型为:
31.y=sigmoid(j1),j1=w1attn b1其中,sigmoid为激活函数,attn为多模态融合特征向量,w1是拒识网络中的权重,b1拒识网络中的偏置向量。
32.在上述非指令语音的拒识方法的一个技术方案中,所述融合为拼接操作;
33.所述注意力机制模型为:
[0034][0035]
其中attn为多模态融合特征向量,softmax为激活函数,d为缩放系数,a为模型集合特征向量。
[0036]
在第二方面,提供一种电子设备,该电子设备包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述非指令语音的拒识方法方法的技术方案中任一项技术方案所述的非指令语音的拒识方法方法。
[0037]
在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述非指令语音的拒识方法方法的技术方案中任一项技术方案所述的非指令语音的拒识方法方法。
[0038]
在第四方面,提供一种车载语音识别系统,该系统包括:语音采集装置,用于采集音频数据;以及运行以执行上述非指令语音的拒识方法方法的所述的电子设备。
[0039]
在第五方面,提供一种汽车,该汽车上包括第四方面所述的车载语音识别系统。
[0040]
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
[0041]
在实施本发明的技术方案中,通过多模态融合的方法将多种信息进行融合,使得在语音判断的时候从多种维度综合考虑,结合拒识特征向量、置信度、意图信息以及文本信息,提升了指令语音判断的准确性。通过在多模态融合的时候添加车内信息作为判断信息
之一,增加了考虑的维度,从而使指令预判判断的时候更加的合理,更加的准确。
附图说明
[0042]
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:
[0043]
图1是根据本发明的一个实施例的非指令语音的拒识方法的主要步骤流程示意图;
[0044]
图2是根据本发明的一个实施例的语音增强系统的示意图;
[0045]
图3是根据本发明的一个实施例的非指令语音的拒识方法的子流程示意图;
[0046]
图4是根据本发明的一个实施例的非指令语音的拒识方法的子流程示意图;
[0047]
图5是根据本发明的一个实施例的非指令语音的拒识方法的子流程示意图;
[0048]
图6是根据本发明的一个实施例的非指令语音的拒识方法的子流程示意图;
[0049]
图7是根据本发明的一个实施例的非指令语音的拒识方法的子流程示意图;
[0050]
图8是根据本发明的一个实施例的非指令语音的拒识方法的子流程示意图;
[0051]
图9是根据本发明的一个实施例的非指令语音的拒识方法的子流程示意图。
具体实施方式
[0052]
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
[0053]
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“a和/或b”表示所有可能的a与b的组合,比如只是a、只是b或者a和b。术语“至少一个a或b”或者“a和b中的至少一个”含义与“a和/或b”类似,可以包括只是a、只是b或者a和b。单数形式的术语“一个”、“这个”也可以包含复数形式。
[0054]
这里先解释本发明涉及到的一些术语。
[0055]
指令语音:在进行语音操作中,系统接收到的可执行的语音指令对应的原始音频称为指令语音。换句话说,指令语音就是系统接收到必须执行或回应的语音。需要说明的是,指令语音既可以是命令性语句,如一条指令语音为“音量提高百分之十五”,则系统控制音箱音量对应提升。也可以是需要系统判断回答的意思表示,如一条指令语音为“明天下午三点前到徐州来得及么”,则系统应该计算常见交通方式中从出发地到目的地所需要的时间并给出解释。
[0056]
注意力机制(attention模型):注意力机制就是在接收到的众多信息中选择出对当前任务目标更为关键的信息,即通过筛选信息出关键信息从而提高信息处理的效率与准确性。
[0057]
传统的语音识别中,首先通过对语音进行识别,得到对应语音的文本信息,然后通过将文本信息与数据库中的指令相对应得到对应的语音指令,最后由系统去执行语音指令。这一方式有很多弊端,例如,仅仅通过文本信息判断数据源单一,在进行语音指令的判断的时候会使最终识别不准确,在有一定干扰的情况下判断准确度下降严重。
[0058]
为便于理解本实施例,此处以现有技术为例,提出一种具体的应用场景,如以人车语音交互的场景为例。人车语音交互常常会面临于场景的复杂性和人员的复杂性。
[0059]
此处首先说明场景的复杂性,不同于家庭环境,人车可能发生交互的交互场景多种多样,可能是安静的地下停车位,也可能是喧哗的路口。系统在进行判断目标语音是否是指令语音的时候应该考虑到不同的场景下的特殊情况,从而增加判断的准确性。例如,在一个天气好的白天,在市中心的街道上,系统收到了一条语音指令,其文本内容为“打开远光”,现有技术中的系统就会通过文本内容打开车辆的远光灯。然而通过天气好、白天以及市中心这些信息的收集,以判断出此条语音指令不能执行。但是由于现有技术中不能特定场景信息进行综合判断,所以将本应无效的语音指令判断为了指令语音。
[0060]
其次说明人员的复杂性。由于车辆上的人具有很大的随机性,所以在人车交互中,系统收集到的语音可能是受到比较高的干扰的。例如,主驾在给系统发送语音指令的时候被副驾驶干扰,主驾的指令语音为“好热,开窗户”,副驾同时发出的语音为“回去开空调”,假定“开窗户”与“回去”是同时发出的,则现有技术的系统给出的文本内容就是“好热&&&,开空调”(&&&表示无法识别出此时刻对应的对应文本),于是系统打开了空调。但是很明显,和原本的意思表示不符,系统错误的将副驾发出的语音信息当做了指令语音,而真正的源自主驾的指令语音却未被识别与执行。通过此例子可说明,对于人车语音交互时,仅通过文本内容判断是不够的。
[0061]
本实施例给出一种非指令语音的拒识方法。
[0062]
参阅附图1-9,图1是根据本发明的一个实施例的非指令语音的拒识方法的主要步骤流程示意图。如图1所示,本发明实施例中的非指令语音的拒识方法主要包括:步骤s10-步骤s40,具体如下:
[0063]
步骤s10:将输入音频数据进行特征提取得到语音特征向量。
[0064]
在本实施例中,使用fbank对输入音频数据进行特征提取,得到语音特征向量。在进行fbank特征提取之前可以对输入音频数据进行预处理,预处理中会对输入音频进行分帧,分频之后得到一个将输入音频以预设帧长度切分成的最小单元音频,称为一帧,在之后的fbank特征以及其他处理均是对输入音频进行逐帧处理。需要解释的是,在预处理中的帧与时域波形中的帧是不一样的,在预处理中,分割后的一帧是分析提取fbank特征的样本,而时域波形中的帧是时域尺度上对音频的采样而取到的样本。在预处理之后进行fbank特征提取。
[0065]
一个实施方式中,使用fbank对输入音频数据进行特征提取,得到语音特征向量。在进行fbank特征提取之前可以对输入音频数据进行预处理,预处理中会对输入音频进行分帧,分频之后得到一个将输入音频以预设帧长度切分成的最小单元音频,称为一帧,在之后的fbank特征以及其他处理均是对输入音频进行逐帧处理。需要解释的是,在预处理中的帧与时域波形中的帧是不一样的,在预处理中,分割后的一帧是分析提取fbank特征的样本,而时域波形中的帧是时域尺度上对音频的采样而取到的样本。在预处理之后进行fbank
特征提取。
[0066]
在本实施例中提取fbank特征的步骤,包括:s101-s102,具体如下:
[0067]
s101:对输入音频数据从时域信号转换为频域信号。
[0068]
在本实施例中,此时的输入音频数据是经过预处理分帧后的音频数据。时域信号的自变量是时间,因变量是信号的幅度。频域信号的自变量是频率,因变量是该频率信号的幅度。在实际使用中,一般时域的表示较为形象与直观,频域分析则更为简练,剖析问题更为方便。此时分频之后的输入音频数据仍然是时域信号,为了便于识别信号之间的区别,需要将时域信号转换为频域信号。
[0069]
一个实施方式中,通过傅里叶变换将输入音频数据从时域信号转化成频域信号,由于本实施例中的输入音频数据为数字音频,故使用离散傅里叶变换(dft)。优选的,本实施例方式中使用快速傅里叶变换(fast fourier transform),从而降低傅里叶变换的计算复杂度。
[0070]
步骤s102:将为频域信号的输入音频数据通过梅尔滤波器得到语音特征向量。
[0071]
在本实施例中,梅尔滤波器(mel filterbank)为现有技术。为便于理解梅尔滤波器的作用,首先进行如下说明,人类对音频的敏感程度与音频的频率有关,相对高频信号,人类对低频信号的感知要比高频信号更强。具体而言,对1khz以下,感知程度与频率呈线性关系,对1khz以上,感知程度与频率成对数关系。梅尔滤波器的表现为一种尺度规则,能够模拟人类对不同频率的音频信号的感知规则。可以理解的是,通过梅尔滤波器的输入音频数据更能够符合现实中人类能接收到的信息。之后将通过梅尔滤波器的输入音频数据转化为语音特征向量,得到每一帧的语音特征向量x=(x1,x2……
x
t
),其中t对应着分帧后的个数,即序列长度。
[0072]
步骤s20:将所述语音特征向量输入语音增强系统,得到拒识特征向量、置信度、意图信息以及文本信息。
[0073]
在本实施例中,语音增强系统包含语音增强模型、意图理解模型以及文本编码模型。拒识特征向量是由语音特征向量转换而来的稠密向量。文本信息是由语音特征向量在特征提取之后得到的文本信息。置信度是对于文本信息的置信度,即对于文本信息概率分布的估计。本实施例中的置信度包括置信区间。意图信息是对于文本信息的意图理解。
[0074]
在一个实施方式中,如图6所示,使用步骤s201-s203得到拒识特征向量、置信度、意图信息以及文本信息,具体如下:
[0075]
步骤s201:将所述语音特征向量输入已训练的语音增强模型,得到拒识特征向量、置信度以及识别结果文本。
[0076]
在本实施例中,语音增强模型包括语音编码器(speechencoder)与语音解码器(speechdecoder)模型架构,其中识别结果文本是通过语音特征向量得到的,识别结果文本是以自然语言文本的形式呈现的,即人类可阅读的文本。置信度为识别结果文本的置信度。
[0077]
一个实施方式中,给出一种得到拒识特征向量、置信度以及识别结果文本的方法步骤,如图8所示,包括步骤s2011-s2012,具体如下,
[0078]
步骤s2011:将所述语音特征向量输入语音编码器,得到拒识特征向量。
[0079]
在本实施例中,语音编码器(speechencoder)采用m层conv1d网络(一维卷积神经网络)构成。本实施例中使用一维卷积神经网络处理频域音频,更加方便准确。拒识特征向
量是语音特征向量经过语音编码器转换而来的稠密向量,其中包含着如噪音等原始输入音频的多种信息。
[0080]
一个实施方式中,语音编码器采用18层的conv1d网络,其中拒识特征向量的表达式为:s=speechencoder(x),其中s为拒识特征向量,x为语音特征向量。
[0081]
步骤s2012:将所述拒识特征向量输入语音解码器,得到置信度以及识别结果文本。
[0082]
在本实施例中,通过举例来简单说明一下置信度的含义,如识别结果文本为“出发”的置信度为0.95就说明,此识别结果文本为真正文本的概率为0.95。可见置信度越高,识别结果文本就越准确,越可信。
[0083]
一个实施方式中,识别结果文本的表达式为:text=speechdecoder(s),其中text为识别结果文本,s为拒识特征向量。
[0084]
步骤s202:将所述识别结果文本输入已训练的意图理解模型,得到意图信息。
[0085]
在本实施例中,意图信息的表达式为int=nlu(text),其中int为意图信息,text为识别结果文本,nlu为自然语言理解(natural language understanding)是所有支持机器理解文本内容的方法模型或任务的总称。
[0086]
在一个实施方式中,此处为便于理解意图信息举例说明,例如:“我想听音乐”“随便放首歌”“音乐响起来”“music走起”,其实表达的是同一个意思,不过用户采用了不同的表达。系统通过意图信息就会了解到,上述语句均是同样的意图,即播放音乐。当然除此之外,意图信息还有其他的类别,如对用户具有模糊和歧义的语句理解,以及准确匹配用户的需求等,例如用户在凌晨0点15分说,“订明天早上五点的闹钟”,则用户需求大概率是订今天的五点钟的闹钟,如果是根据计算机的理解就没有正确的理解用户的意图。
[0087]
需要说明的是本实施方式是便于理解,形成意图信息的输入信息除识别结果文本之外还可以选用识别结果文本与拒识特征向量共同作为输入变量。
[0088]
步骤s203:将所述识别结果文本输入已训练的文本编码模型,得到文本信息。
[0089]
在本实施例中,将识别结果文本转为文本信息是由自然语言转换为计算机语言,便于后续的融合交互。在本实施例中,文本编码模型由n层conv1d网络以及y层lstm网络构成,其中n、y均为自然数。
[0090]
一个实施方式中,使用4层conv1d网络以及2层双向lstm网络组成。其中文本信息的表达式为t=texthencoder(text),其中t为文本信息,text为识别结果文本。
[0091]
步骤s30:基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息,得到多模态融合特征向量。
[0092]
在本实施例中,如图3所示,基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息,得到多模态融合特征向量。如图4、7所示,基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息,得到多模态融合特征向量,包括:步骤s300:基于所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息,得到多模态融合特征向量。进一步的,如图5所示,将所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息输入已经训练好的多模态融合模型,得到多模态融合特征向量。其中所述车内信息包括车辆状态和/或所述音频数据源的音区方位。
[0093]
在本实施方式中,给出一种得到多模态融合特征向量的方法,如图9所示,包括步
骤s3001-s3002,具体如下:
[0094]
步骤s3001:将所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息进行融合,得到模型集合特征向量。
[0095]
在本实施例中,车内信息囊括除音频信息以外,车内系统可收集到的其他所有信息。具体而言,车内信息可以是例如车辆gps定位信息、车辆行驶状态信息、车辆门窗状态信息、实时时间、天气信息以及阵列麦克风音源信息等。车内信息是以特征向量的形式呈现的,其中车内信息是通过车内信息模型得到的。
[0096]
需要说明的是,在本实施例中的语音特征向量、拒识特征向量、置信度、意图信息、文本信息以及车内信息均是以矩阵的方式表示,以拒识特征向量x=(x1,x2……
x
t
)为例,假设在分帧时,将需识别的音频按35ms的间隔均匀分为200份,则此时t为200。进一步的,假设嵌入维度为100维,最终会构成200*100维的矩阵。
[0097]
进一步的,融合时将意图信息、置信度以及车内信息融合,同时将拒识特征向量与文本信息相融合,最后得到模型集合特征向量。
[0098]
一个实施方式中,使用concat函数将拒识特征向量、置信度、意图信息、文本信息以及车内信息行拼接。在拼接的过程前需要将拒识特征向量、置信度、意图信息、文本信息以及车内信息这五个矩阵进行变换为相同维度的矩阵,此处使用matelabe reshape进行维度的调整。需要注意的是,使用concat函数拼接只是本实施方式中的其中一种拼接的方法,也可以使用其他函数如add拼接。最终得到模型集合特征向量。
[0099]
步骤s3002:将模型集合特征向量通过已训练的注意力机制模型,得到多模态融合特征向量。
[0100]
在本实施例中,注意力机制模型(attention模型)为:
[0101][0102]
其中attn为多模态融合特征向量,softmax为激活函数,d为缩放系数,a为模型集合特征向量。a
t
为模型集合特征向量a的转置矩阵,aa
t
会得到一个m*m的矩阵,即相似度,之后除以再经过softmax归一化后得到一个权重矩阵,权重矩阵中每个值均为大于0小于1的权重系数。
[0103]
在一个实施例中,为方便理解本技术内容,此处结合具体场景加以举例说明融合车内信息后的有益效果。以人员复杂性中的主驾在给系统发送语音指令的时候被副驾驶干扰的情况为例。在开启语音识别后,识别结果文本为“好热&&&,开空调”,此时对于频域的语音的置信度累乘,得到整个识别结果文本的置信度。例如最后整个识别结果文本的置信度为50%,此时置信度对应拉低整个识别结果文本的权重以及意图信息的权重。同时车内信息其中的阵列定向麦克风在收录音频数据时记录了音频数据源的音区方位,例如通过车内信息发现“好热”出自于主驾位置,“开空调”出现在副驾位置。由于语音音频同时来自于主驾和副驾,而副驾的命令通常权重较低,进一步降低语音音频的可信度,从而使整个语音判定是非指令语音。
[0104]
在上述例子中,给出另一种车内信息融合后的判断逻辑。在判断识别结果文本的置信度后,可以通过车内信息中的定向阵列麦克风的信息以及拒识特征向量,将拒识特征向量中的音频信息拆分出来。从而得到主驾的语音为“好热,开窗户”,副驾发出的语音为“回去开空调”,之后通过此信息加以判断,主驾的“好热,开窗户”为指令语音,从而执行开窗的语音。
[0105]
再以结合场景的复杂性为例,当系统收到了一条其识别结果文本为“打开远光”的语音指令时,其意图信息为“开启车辆远光灯”,假定此时的识别结果文本置信度较高,车内信息表示此时为白天且天气晴。如若此时为各个部分权重固定且均为定值时,仍会打开车辆的远光灯。但是采用多模态融合时,由于车内信息中显示为白天且天气晴,那么直接判断此语音指令是非指令语音,不加以执行。
[0106]
通过上述例子多模态融合是一个相互加权的过程,多模态融合可以在判断时使用尽可能多的多种信息综合判断,且每次判断时综合考虑,而不是各个部分赋予固定的权重。通过多模态融合增加了判断的准确度。
[0107]
步骤s40:将所述多模态融合特征向量进行拒识判断,得到识别结果。
[0108]
在本实施例中,识别结果是一个基于0-1的值。当此识别结果大于等于预设阈值时,输入音频即为指令语音,车辆执行语音指令。如若此识别结果小于预设阈值时,输入音频即为非指令语音,车辆则拒绝执行此语音指令。
[0109]
一个实施方式中,通过sigmoid函数输出,将多模态融合特征向量输入已训练的拒识判断模型,得到识别结果,
[0110]
其中所述拒识判断模型为:
[0111]
y=sigmoid(j1),j1=w1attn b1其中,sigmoid为激活函数,attn为多模态融合特征向量,w1是拒识网络中的权重,b1拒识网络中的偏置向量。
[0112]
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
[0113]
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
[0114]
进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的非指令语音的拒识方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的非指令语音的拒识方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
[0115]
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的非指令语音的拒识方法的程序,该程序可以由处理器加载并运行以实现上述非指令语音的拒识方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
[0116]
进一步,本发明还提供了一种车载语音识别系统,包括:
[0117]
上述电子设备;语音采集装置,用于采集带噪音频数据。
[0118]
例如,语音采集装置为车载麦克风。
[0119]
进一步,本发明还提供了一种汽车,包括上述车载语音识别系统。
[0120]
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
[0121]
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
[0122]
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献