一种语音识别系统及方法与流程

2021-09-22 22:04:00 来源：中国专利 TAG：语音识别系统方法分析

1.本发明属于语音分析处理技术领域，尤其涉及一种语音识别系统及方法。

背景技术：

2.语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
3.在当前的汽车设备当中，也逐渐配备了语音识别系统。利用车机内置的语音识别系统，能够完成驾驶者与车辆之间的交互，例如利用语音控制空调的开启与关闭，利用语音控制车窗的升起与降落等等。
4.但是现有的车机内置语音系统需要保持环境处于较为安静的状态，如果当前车内正在播放音乐或者开启了车窗，这就会导致语音识别准确率大大降低。

技术实现要素：

5.为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种语音识别方法及系统，对语音识别过程进行实时纠正，实时处理，保证了用户的语音消息能够被精准的识别，避免了外界环境的影响，提升了识别精确度。
6.本发明实施例是这样实现的，一种语音识别方法，所述方法包括：获取车内的实时语音信息；对实时语音信息进行在线分析，判断实时语音信息是否存在波动；若实时语音信息存在波动，则对实时语音信息进行音频提取，得到波动语音信息；将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对，得到比对结果；根据比对结果对波动语音信息进行语音识别，并根据语音识别结果执行对应指令。
7.优选的，所述对实时语音信息进行在线分析，判断实时语音信息是否存在波动的步骤，具体包括：对实时语音信息进行分段，得到实时语音段；对实时语音段进行编号，所述实时语音段的对应的录音时长相同，且编号为连续编号；根据编号顺序依次将两端相邻的实时语音段进行比较，依据比较结果判断实时语音信息是否存在波动。
8.优选的，所述对实时语音信息进行音频提取，得到波动语音信息的步骤，具体包括：定位实时语音信息中出现波动的实时语音段，得到第一语音段；
读取与出现波动的实时语音段相邻的前一段实时语音段，得到第二语音段；以第二语音段为基础对第一语音段进行滤波，得到波动语音信息。
9.优选的，所述将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对，得到比对结果的步骤，具体包括：依次读取干扰音源数据库中的干扰语音信息，所述干扰语音信息至少包括歌曲干扰信息和风声干扰信息；将干扰语音信息与波动语音信息进行逐个比对，得到多个比对结果。
10.优选的，所述根据比对结果对波动语音信息进行语音识别，并根据语音识别结果执行对应指令的步骤，具体包括：对所有比对结果进行分析，判断比对结果中是否存在干扰语音信息与波动语音信息相匹配；若存在，则对波动语音信息进行语音识别，得到语音识别结果；根据语音识别结果检索对应指令，并执行。
11.优选的，所述干扰语音信息实时录制，且定时更新。
12.优选的，所述语音识别的过程采用联网识别或者本地识别。
13.本发明实施例的另一目的在于提供一种语音识别系统，所述系统包括：信息获取模块，用于获取车内的实时语音信息；语音分析模块，用于对实时语音信息进行在线分析，判断实时语音信息是否存在波动；音频提取模块，用于若实时语音信息存在波动，则对实时语音信息进行音频提取，得到波动语音信息；音频比对模块，用于将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对，得到比对结果；语音识别模块，用于根据比对结果对波动语音信息进行语音识别，并根据语音识别结果执行对应指令。
14.优选的，所述语音分析模块包括：数据分割单元，用于对实时语音信息进行分段，得到实时语音段；数据编号单元，用于对实时语音段进行编号，所述实时语音段的对应的录音时长相同，且编号为连续编号；数据比对单元，用于根据编号顺序依次将两端相邻的实时语音段进行比较，依据比较结果判断实时语音信息是否存在波动。
15.优选的，所述音频提取模块包括：音频定位单元，用于定位实时语音信息中出现波动的实时语音段，得到第一语音段；音频读取单元，用于读取与出现波动的实时语音段相邻的前一段实时语音段，得到第二语音段；滤波单元，用于以第二语音段为基础对第一语音段进行滤波，得到波动语音信息。
16.本发明实施例提供的语音识别方法，通过获取车内的实时语音，并对其进行实时分析，根据采集的干扰音源，对其进行滤波处理，将其中的杂音去除，在判定当前语音中包
含驾驶员的声音信息之后再执行对应指令，保证了用户的语音消息能够被精准的识别，避免了外界环境的影响，提升了识别精确度。
附图说明
17.图1为本发明实施例提供的一种语音识别方法的流程图；图2为本发明实施例提供的对实时语音信息进行在线分析并判断实时语音信息是否存在波动的步骤的流程图；图3为本发明实施例提供的对实时语音信息进行音频提取得到波动语音信息的步骤的流程图；图4为本发明实施例提供的将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对得到比对结果的步骤的流程图；图5为本发明实施例提供的根据比对结果对波动语音信息进行语音识别并根据语音识别结果执行对应指令的步骤的流程图；图6为本发明实施例提供的一种语音识别系统的架构图；图7为本发明实施例提供的语音分析模块的架构图；图8为本发明实施例提供的音频提取模块的架构图。
具体实施方式
18.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
19.可以理解，本技术所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本技术的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。
20.在当前的汽车设备当中，也逐渐配备了语音识别系统。利用车机内置的语音识别系统，能够完成驾驶者与车辆之间的交互，例如利用语音控制空调的开启与关闭，利用语音控制车窗的升起与降落等等。现有的车机内置语音系统需要保持环境处于较为安静的状态，如果当前车内正在播放音乐或者开启了车窗，这就会导致语音识别准确率大大降低。
21.本发明实施例提供的语音识别方法，通过获取车内的实时语音，并对其进行实时分析，根据采集的干扰音源，对其进行滤波处理，将其中的杂音去除，在判定当前语音中包含驾驶员的声音信息之后再执行对应指令，保证了用户的语音消息能够被精准的识别，避免了外界环境的影响，提升了识别精确度。
22.图1为本发明实施例提供的一种语音识别方法的流程图，所述方法包括：s100，获取车内的实时语音信息。
23.车机指的是安装在汽车里面的车载信息娱乐产品的简称，车机在功能上能够实现人与车，车与外界（车与车）的信息通讯。随着科技的发展，车机从早期的cd、dvd导航，已经向智能化、信息化发展。目前车机的功能除了传统的收音机、音乐视频播放、导航功能以外，已经实现人与车，车与外界的信息通讯，增强了用户体验及服务、安全相关的功能。
24.在本步骤中，获取车内的实时语音信息，实时语音信息即为车辆内产生的任何声音，具体的，可以通过麦克风进行收集，为了更好的对驾驶人员的声音进行识别，将麦克风设置在靠近驾驶人员的位置。
25.s200，对实时语音信息进行在线分析，判断实时语音信息是否存在波动。
26.在本步骤中，对实时语音信息进行在线分析，实时语音信息是实时获取的，因此在汽车行驶的整个过程当中，都在对车内声音进行采集，在多数情况下，车内的声音都是处于变动不大的状态，当驾驶人员发声时，采集到的实时语音信息就会出现明显的变化，从而对实时语音信息进行在线分析，实现对实时语音信息是否存在波动的判断。
27.s300，若实时语音信息存在波动，则对实时语音信息进行音频提取，得到波动语音信息。
28.在本步骤中，对实时语音信息进行判断后，如果实时语音信息存在波动那么说明此时车内的声音存在变化，可能是驾驶人员在发声，但是也有可能是驾驶人员在播放音乐或者驾驶人员开启了车窗，因此需要对此进行进一步判断，对实时语音信息进行音频提取，将其中的出现变动的一部分提取出来，从而得到波动语音信息。
29.s400，将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对，得到比对结果。
30.在本步骤中，读取干扰音源数据库，干扰音源数据库中存储有干扰语音信息，干扰语音信息的种类最少要包括两种，一种是车辆驾驶过程中外界的风声，另一种是播放的音乐声，前者主要是利用麦克风进行信息采集，采集当前的风声，而后者则直接从车机中获取，因此在进行判断的过程中，将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对，以判断当前的波动是否是风声或者是播放音乐导致的。
31.s500，根据比对结果对波动语音信息进行语音识别，并根据语音识别结果执行对应指令。
32.在本步骤中，对比对结果进行判断，如果比对结果表明，当前波动语音信息不是由于风声或者是播放音乐导致的，那么可以认定，当前波动语音信息是由于驾驶人员发声导致的，因此对波动语音信息进行语音识别，从而识别其中的文字信息，并根据文字信息执行对应的指令即可，如果语音识别之后，未能识别到有效内容，则不执行任何指令。
33.如图2所示，作为本发明的一个优选实施例，所述对实时语音信息进行在线分析，判断实时语音信息是否存在波动的步骤，具体包括：s201，对实时语音信息进行分段，得到实时语音段。
34.在本步骤中，对实时语音信息进行分段，由于实时语音信息是连续录制的，因此其整体也为连续的，将其进行分段，以方便进行处理，在分段过程中，按照预设的时间步长进行分段，例如以一秒为一段，当然，时间步长越小，其中分出的段数也就越多，数据处理量就相应增加。
35.s202，对实时语音段进行编号，所述实时语音段的对应的录音时长相同，且编号为连续编号。
36.在本步骤中，对实时语音段进行编号，编号的顺序也需要按照时间的顺序来，先录入的先编号，后录入的后编号，以便于后续进行比对处理。
37.s203，根据编号顺序依次将两端相邻的实时语音段进行比较，依据比较结果判断
实时语音信息是否存在波动。
38.在本步骤中，逐段读取实时语音段，通过将相邻的两端实时语音段进行比对，从而判断相邻两段实时语音段之间是否存在波动，例如，在对实时语音段进行编号时，以阿拉伯数字进行编号，得到实时语音段01、实时语音段02
……
实时语音段0n，当读取实时语音段02时，则以实时语音段01作为比较项，以判断实时语音段02相较于实时语音段01是否存在较大的变化，如果变化大则说明出现了波动，如果变化小，则说明没有出现波动。
39.如图3所示，作为本发明的一个优选实施例，所述对实时语音信息进行音频提取，得到波动语音信息的步骤，具体包括：s301，定位实时语音信息中出现波动的实时语音段，得到第一语音段。
40.在本步骤中，对出现波动的实时语音段进行定位，将其定义为第一语音段，那么第一语音段则是实时语音信息中开始出现波动的部分，那么说明在这个第一语音段中，既包含了环境音，还有可能包含了驾驶人员发出的声音。
41.s302，读取与出现波动的实时语音段相邻的前一段实时语音段，得到第二语音段。
42.s303，以第二语音段为基础对第一语音段进行滤波，得到波动语音信息。
43.在本步骤中，读取与出现波动的实时语音段相邻的前一段实时语音段，为第二语音段，第二语音段中尚未出现波动，因此，其中的主要内容为环境音，此时以第二语音段为基础对第一语音段进行滤波，即将第二语音段从第一语音段中去除，从而将环境音去除。
44.如图4所示，作为本发明的一个优选实施例，所述将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对，得到比对结果的步骤，具体包括：s401，依次读取干扰音源数据库中的干扰语音信息，所述干扰语音信息至少包括歌曲干扰信息和风声干扰信息。
45.在本步骤中，依次读取干扰音源数据库中的干扰语音信息，对于干扰信息而言，主要来源就是播放的音乐，以及在驾驶过程中，高速气流产生的声音，如果当前出现的声音的波动不是其造成了，就可以认定为驾驶人员造成的，那么说明驾驶人员可能需要执行相应的操作。
46.s402，将干扰语音信息与波动语音信息进行逐个比对，得到多个比对结果。
47.在本步骤中，以波动语音信息为基础，与干扰语音信息进行比对，那么就可以直接对其进行判断，判定当前波动的来源，每比较一次就会产生一个比对结果。
48.如图5所示，作为本发明的一个优选实施例，所述根据比对结果对波动语音信息进行语音识别，并根据语音识别结果执行对应指令的步骤，具体包括：s501，对所有比对结果进行分析，判断比对结果中是否存在干扰语音信息与波动语音信息相匹配。
49.在本步骤中，对比对结果进行分析，比对结果的数量与干扰语音信息中包含的种类数量相同，例如干扰语音信息中存在四种外界音源，进行比较之后，产生四组比对结果，其中有一组结果表明干扰语音信息与波动语音信息匹配时，则说明当前波动不是驾驶人员造成的，忽略即可。
50.s502，若存在，则对波动语音信息进行语音识别，得到语音识别结果。
51.在本步骤中，若所有比对结果都表明干扰语音信息不与波动语音信息匹配，那就说明当前波动是驾驶人员造成的，因此对其进行语音识别，得到语音识别结果。
52.s503，根据语音识别结果检索对应指令，并执行。
53.在本步骤中，进行语音识别之后，一般存在两种情况，一种是识别结果中存在文字，根据文字进行检索，检索到对应的指令就执行，如果没有文字，或者文字中不包含对应指令，就放弃执行。
54.如图6所示，为本发明实施例提供的一种语音识别系统，所述系统包括：信息获取模块100，用于获取车内的实时语音信息。
55.在本系统中，信息获取模块100获取车内的实时语音信息，实时语音信息即为车辆内产生的任何声音，具体的，可以通过麦克风进行收集，为了更好的对驾驶人员的声音进行识别，将麦克风设置在靠近驾驶人员的位置。
56.语音分析模块200，用于对实时语音信息进行在线分析，判断实时语音信息是否存在波动。
57.在本系统中，语音分析模块200对实时语音信息进行在线分析，实时语音信息是实时获取的，因此在汽车行驶的整个过程当中，都在对车内声音进行采集，在多数情况下，车内的声音都是处于变动不大的状态，当驾驶人员发声时，采集到的实时语音信息就会出现明显的变化，从而对实时语音信息进行在线分析，实现对实时语音信息是否存在波动的判断。
58.音频提取模块300，用于若实时语音信息存在波动，则对实时语音信息进行音频提取，得到波动语音信息。
59.在本系统中，音频提取模块300对实时语音信息进行判断后，如果实时语音信息存在波动那么说明此时车内的声音存在变化，可能是驾驶人员在发声，但是也有可能是驾驶人员在播放音乐或者驾驶人员开启了车窗，因此需要对此进行进一步判断，对实时语音信息进行音频提取，将其中的出现变动的一部分提取出来，从而得到波动语音信息。
60.音频比对模块400，用于将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对，得到比对结果。
61.在本系统中，音频比对模块400读取干扰音源数据库，干扰音源数据库中存储有干扰语音信息，在进行判断的过程中，将波动语音信息与存储在干扰音源数据库中的干扰语音信息进行比对，以判断当前的波动是否是风声或者是播放音乐导致的。
62.语音识别模块500，用于根据比对结果对波动语音信息进行语音识别，并根据语音识别结果执行对应指令。
63.在本系统中，语音识别模块500对比对结果进行判断，如果比对结果表明，当前波动语音信息不是由于风声或者是播放音乐导致的，那么可以认定，当前波动语音信息是由于驾驶人员发声导致的。
64.如图7所示，作为本发明的一个优选实施例，所述语音分析模块包括：数据分割单元201，用于对实时语音信息进行分段，得到实时语音段。
65.在本模块中，对实时语音信息进行分段，由于实时语音信息是连续录制的，因此其整体也为连续的，将其进行分段，以方便进行处理，在分段过程中，按照预设的时间步长进行分段，例如以一秒为一段，当然，时间步长越小，其中分出的段数也就越多，数据处理量就相应增加。
66.数据编号单元202，用于对实时语音段进行编号，所述实时语音段的对应的录音时
长相同，且编号为连续编号。
67.在本模块中，数据编号单元202对实时语音段进行编号，编号的顺序也需要按照时间的顺序来，先录入的先编号，后录入的后编号，以便于后续进行比对处理。
68.数据比对单元203，用于根据编号顺序依次将两端相邻的实时语音段进行比较，依据比较结果判断实时语音信息是否存在波动。
69.在本模块中，数据比对单元203逐段读取实时语音段，通过将相邻的两端实时语音段进行比对，从而判断相邻两段实时语音段之间是否存在波动。
70.如图8所示，作为本发明的一个优选实施例，所述音频提取模块包括：音频定位单元301，用于定位实时语音信息中出现波动的实时语音段，得到第一语音段。
71.在本模块中，音频定位单元301对出现波动的实时语音段进行定位，将其定义为第一语音段，那么第一语音段则是实时语音信息中开始出现波动的部分。
72.音频读取单元302，用于读取与出现波动的实时语音段相邻的前一段实时语音段，得到第二语音段。
73.滤波单元303，用于以第二语音段为基础对第一语音段进行滤波，得到波动语音信息。
74.在本模块中，读取与出现波动的实时语音段相邻的前一段实时语音段，为第二语音段，第二语音段中尚未出现波动，因此，其中的主要内容为环境音，此时以第二语音段为基础对第一语音段进行滤波，即将第二语音段从第一语音段中去除，从而将环境音去除。
75.应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
76.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（rom）、可编程rom（prom）、电可编程rom（eprom）、电可擦除可编程rom（eeprom）或闪存。易失性存储器可包括随机存取存储器（ram）或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram（sram）、动态ram（dram）、同步dram（sdram）、双数据率sdram（ddrsdram）、增强型sdram（esdram）、同步链路（synchlink） dram（sldram）、存储器总线（rambus）直接ram（rdram）、直接存储器总线动态ram（drdram）、以及存储器总线动态ram（rdram）等。
77.以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
78.以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
79.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：主动降噪方法、主动降噪装置及半入耳式主动降噪耳机与流程

一种语音识别系统及方法与流程

相关文章

最热文献