语音识别准确率提高方法、系统、电子设备和存储介质与流程

2022-06-05 21:21:25 来源：中国专利 TAG：

1.本发明涉及提高语音输入识别准确率的方法、系统、电子设备和存储介质。

背景技术：

2.近年来，随着人工智能的发展以及计算机处理能力的增加，语音识别技术日趋成熟，并广泛地应用于智能终端。智能音箱是一种目前人们使用比较频繁的智能设备。借助于集成人工智能模块，通过语音输入方式进行人机交互，智能音箱就可以播放人们指定的音乐或故事，极大地改善了用户的使用体验。然而，目前市面上的设备在语音输入识别时存在问题，即，当环境中存在多个输入的指令声音时，尤其是当多个输入的指令声音在高度或音色特征等方面弱于其他声音时，语音识别的准确率会大大地降低。因此，如何提高语音输入识别的准确率，尤其是当环境中存在多个指令声音时的识别准确率，是一个值得探讨的问题。
3.在现有技术中，例如，cn 110211609 a，公开了一种提升语音识别准确率的方法，包括实时记录用户输入的语音数据、比较用户语音数据库、比较标准数据库、得到最终的识别结果、用户判断识别结果是否正确、输入语音和正确结果到用户数据库、刷新用户数据库、按照正确的识别结果进行操作。该方法通过在标准数据库之外额外建立当前用户的专属语音数据库，将识别错误的用户语音数据添加到用户语音数据库中，并将用户语音数据库优先进行模型匹配和检索，以达到提升高频率用户的语音识别准确率的效果，从而提升用户的交互使用体验。
4.cn 108428446 a公开了一种语音识别方法，包括：响应于语音输入信号确定目标用户的身份信息；基于身份信息在已存储的常用语数据库中提取出包括多条常用语的常用语集合；对语音输入信号进行声学特征提取并将其输入声学模型，得到声学模型得分；基于该得分和已存储的常用语集合中的常用语的声学模型得分确定语音输入信号的内容是否为目标用户的常用语；若是，利用基于常用语构建的语言模型对语音输入信号的声学特征进行解码，得到语音识别结果。
5.另外，cn 108231078 a公开了一种语音识别方法，包括：将收集的语音信息转化成数字信息；提取特征值a并分类、标记，然后建立语音识别库并存储；将需要识别的用户输入语音信息进行数字化和特征提取，将得到的特征值b与语音识别库内的特征值a进行比对、识别；若两者匹配，则用户输入音信息解锁；反之则发出提示，同时后台服务器会收到报警信息；通过特征值的提取与比对，可以区分不同的音色及命令，提高了语音识别的准确性与安全性。
6.然而，上述三种方均无法解决当环境中存在多个输入的指令声音时，尤其是当多个输入的指令声音在高度或音色特征等方面弱于其他语音时，不能准确抓取到指令声音从而导致语音识别的准确率大大降低的问题。

技术实现要素：

7.因此，本发明的目的是提供一种能够至少克服上述问题的提高语音输入识别准确率的方法以及相应系统、电子设备和存储介质。
8.根据本发明的一方面，提供一种提高语音输入识别准确率的方法，包括：
9.检测步骤，实时采集当前环境中的语音数据；
10.提取步骤，对采集到的所述语音数据分别提取语音特征值；
11.排序步骤，将所述语音特征值按照一定规则进行排序；
12.比对步骤，按照所述排序将所述语音特征值在包括有效数据库、标准数据库和无效数据库在内的数据库中进行检索比对，所述比对步骤包括：
13.按照所述排序判定所述语音特征值是否在所述有效数据库内并输出有效识别结果，
14.若所述语音特征值在所述有效数据库内，则将所述语音特征值对应的有效识别结果作为最终识别结果返回，并在用户对所述最终识别结果无修改时执行对应的指令，
15.若所述语音特征值不在所述有效数据库内，则按照所述排序判定所述语音特征值是否在所述标准数据库内并输出标准识别结果，
16.若所述语音特征值在所述标准数据库内，则按照所述排序判定所述语音特征值是否在所述无效数据库内，
17.若所述语音特征值不在所述无效数据库内，则将与所述语音特征值对应的所述标准识别结果作为所述最终识别结果返回，并在用户对所述最终识别结果无修改时执行对应的指令；
18.若所述语音特征值在所述无效数据库内，则判定所述语音特征值无效；以及
19.若按照所述排序进行检索比对完毕后，判定所有所述语音特征值均不在所述标准数据库内，则本次识别失败，提醒用户重新输入。
20.本发明通过额外建立有效数据库、无效数据库，并将当前抓取到的多个语音源按序在有效数据库及无效数据库中进行检索和匹配，大大提升了在环境中存在多个语音输入时的识别准确率。
21.可以将所述语音特征值按照输入语音源的声音高度进行排序，或按照输入语音源的语调平缓度进行排序。
22.所述有效数据库中存储的是：当所述语音特征值对应的所述有效识别结果或所述标准识别结果作为所述最终识别结果返回时，用户对所述最终识别结果无修改所对应的所述语音特征值。
23.所述无效数据库中存储的是：当所述语音特征值对应的所述有效识别结果或所述标准识别结果作为所述最终识别结果返回时，用户对所述最终识别结果在同一次输入操作内多次修改(可设定为3次以上)所对应的所述语音特征值。
24.动态更新所述有效数据库和所述无效数据库，当本次语音特征值对应的所述有效识别结果或所述标准识别结果作为所述最终识别结果返回时，用户对所述最终识别结果无修改时，将本次语音特征值加入到所述有效数据库中；当本次语音特征值对应的所述有效识别结果或所述标准识别结果作为所述最终识别结果返回时，用户对所述最终识别结果在同一次输入操作内多次修改(可设定为3次以上)时，将本次语音特征值加入所述无效数据
库中。
25.根据本发明的另一方面，提供一种提高语音输入识别准确率的系统，包括：
26.检测模块，其检测采集当前环境中的语音数据；
27.提取模块，其对采集到的所述语音数据分别提取语音特征值；
28.排序模块，其将所述语音特征值按照一定规则进行排序；
29.比对模块，在所述比对模块中按照所述排序将所述语音特征值在数据库中进行检索比对，所述数据库包括有效数据库、标准数据库和无效数据库：
30.按照所述排序判定所述语音特征值是否在所述有效数据库内并输出有效识别结果，
31.若所述语音特征值在所述有效数据库内，则将所述语音特征值对应的有效识别结果作为最终识别结果返回，并在用户对所述最终识别结果无修改时执行对应的指令，
32.若所述语音特征值不在所述有效数据库内，则按照所述排序判定所述语音特征值是否在所述标准数据库内并输出标准识别结果，
33.若所述语音特征值在所述标准数据库内，则按照所述排序判定所述语音特征值是否在所述无效数据库内，
34.若所述语音特征值不在所述无效数据库内，则将与所述语音特征值对应的所述标准识别结果作为所述最终识别结果返回，并在用户对所述最终识别结果无修改时执行对应的指令；
35.若所述语音特征值在所述无效数据库内，则判定所述语音特征值无效；以及
36.若按照所述排序进行检索比对完毕后，判定所有所述语音特征值均不在所述标准数据库内，则本次识别失败，提醒用户重新输入；以及
37.输出模块，其用于输出所述最终语音识别结果。
38.根据本发明的另一方面，提供一种电子设备，包括：
39.处理器；和
40.存储器，其存储有计算机程序，
41.其中，
42.当所述计算机程序被所述处理器执行时，所述处理器执行根据本发明所述的方法。
43.根据本发明的另一方面，提供一种存储介质，其上存储有计算机可读指令，其中，当所述计算机可读指令被处理器执行时，所述处理器执行根据本发明所述的方法。
附图说明
44.图1是根据本发明的实施例的提高语音输入识别准确率的方法的流程图；和
45.图2是根据本发明的实施例的提高语音输入识别准确率的系统的示意图。
具体实施方式
46.本发明通过建立有效数据库、无效数据库，并将当前抓取到的多个语音源按序在有效数据库及无效数据库中进行检索和匹配，以解决当环境中存在多个指令语音源、尤其是当多个指令语音源的高度或音色特征等弱于其他语音时，不能准确抓取到指令语音，从
而导致语音识别的准确率大大降低的问题。
47.下面参考附图1和图2，具体地描述根据本发明的实施例的提高语音输入识别准确率的方法和系统。请注意，本文所示的实施例仅为示例性的，而并不旨在限制本发明的范围，本发明的范围由随附权利要求书限定。
48.图1是根据本发明的实施例的提高语音输入识别准确率的方法的流程图，并且图2是根据本发明的实施例的提高语音输入识别准确率的系统的示意图。
49.如图1所示，根据本发明的实施例的提高语音输入识别准确率的方法包括：
50.s100：实时采集当前环境中的语音数据并对采集到的语音数据分别提取语音特征值；
51.s200：将语音特征值按照一定规则进行排序；
52.s300：按照排序将语音特征值在有效数据库内进行检索比对以判定语音特征值是否在有效数据库内，并输出有效识别结果：
53.s310：若语音特征值在有效数据库内，则将该语音特征值对应的有效识别结果作为最终识别结果返回，并在用户对最终识别结果无修改时执行对应的指令；
54.s320：若按照排序进行检索比对完毕后，判定所有剩余语音特征值均不在有效数据库内，则将不在有效数据库内的所有语音特征值按s200的规则进行排序；然后
55.s330：按照排序将语音特征值在标准数据库内进行检索比对以判定语音特征值是否在标准数据库内，并输出标准识别结果：
56.s331：若语音特征值在标准数据库内，则将语音特征值在无效数据库内进行检索比对以判定语音特征值是否在无效数据库内：
57.s331-1：若语音特征值不在无效数据库内，则将语音特征值对应的标准识别结果作为最终识别结果返回，并在用户对最终识别结果无修改时执行对应的指令；否则
58.s331-2：若语音特征值在无效数据库内，则语音特征值无效，继续步骤s330；以及
59.s322：若按照排序进行检索比对完毕后，判定所有语音特征值均不在标准数据库内，则本次识别失败，提醒用户重新输入。
60.在另一实施例中，也可以在没有对所有语音特征值在有效数据库内进行检索比对完毕后执行后续的步骤，即，若某一部分语音特征值被判定为不在有效数据库内，就已经开始在标准数据库和可能的无效数据库中对该部分语音特征值进行检索比对，只要在有效数据库、标准数据库和无效数据库中进行的检索比对均是按照排序对语音特征值进行的即可。举例而言，可以将排序为1的语音特征值在有效数据库内进行检索比对并输出有效识别结果，若有效识别结果为否，则将排序为1的语音特征值在标准语音数据库进行检索比对并输出标准识别结果，若标准识别结果为是，则将此语音特征值在无效数据库内进行检索比对，若此语音特征值在无效数据库内，则判定此语音特征值无效，继续对排序为2的语音特征值循环执行上述步骤。
61.上述有效数据库中存储的是：语音特征值对应的有效识别结果或标准识别结果作为最终识别结果返回时，用户对最终识别结果无修改所对应的语音特征值。
62.上述无效数据库中存储的是：语音特征值对应的有效识别结果或标准识别结果作为最终识别结果返回时，用户对最终识别结果连续(指同一次输入操作内)多次修改(可设定为3次以上)所对应的语音特征值。
63.有效数据库及无效数据库是动态更新的。当本次语音特征值对应的有效识别结果或标准识别结果作为最终识别结果返回时，用户对最终识别结果无修改时，将此语音特征值加入有效数据库中；当本次语音特征值对应的有效识别结果或标准识别结果作为最终识别结果返回时，用户对最终识别结果连续(指同一次输入操作内)多次修改(可设定为3次以上)时，将此语音特征值加入无效数据库中。
64.如图2所示，根据本发明的实施例的提高语音输入识别准确率的系统1000包括：
65.检测模块1001：负责检测采集当前环境中的语音数据
66.提取模块1002：负责对采集到的所有语音数据分别提取其语音特征值
67.排序模块1003：负责对提取到的语音特征值按一定规则排序
68.比对模块1004：负责在数据库中进行检索比对
69.输出模块1005：负责输出最终语音识别结果
70.下面通过具体实例进行说明。
71.实例：
72.一种智能音箱设备1000，其至少包括检测模块1001、提取模块1002、排序模块1003、比对模块1004、输出模块1005五个模块。各模块主要负责：
73.检测模块1001：负责检测采集当前环境中的语音数据
74.提取模块1002：负责对采集到的所有语音数据分别提取其语音特征值
75.排序模块1003：负责对提取到的语音特征值按一定规则排序
76.比对模块1004：负责在数据库中进行检索比对
77.输出模块1005：负责输出最终语音识别结果
78.具体地，各模块间的协同工作流程如下：
79.步骤1、检测模块1001：实时采集当前环境中的语音数据
80.步骤2、提取模块1002：对检测模块1000的输出结果分别提取语音特征值；
81.步骤3、排序模块1003：将提取模块1001的输出值进行排序，可按照输入语音源的声音高度进行排序，也可按照输入语音源的语调平缓度朗进行排序；
82.步骤4、比对模块1004：将排序为1的语音特征值在有效数据库内进行检索比对并输出有效识别结果：
83.输出结果代表该语音特征值是否在有效数据库内，若在，输出结果为是；若不在，输出结果为否；
84.若比对模块1004输出结果为是，则输出模块1005：将排序为1的语音特征值对应的有效识别结果作为最终识别结果返回，并在用户对最终识别结果无修改时执行对应的指令；
85.若比对模块1004输出结果为否，则比对模块1004：将排序为1的语音特征值在标准数据库进行检索比对并输出标准识别结果；
86.若此语音特征值在标准数据库内：将此语音特征值在无效数据库内进行检索比对，若此语音特征值不在无效数据库内，则输出模块1005：将此语音特征值对应的标准识别结果作为最终识别结果返回，并在用户对最终识别结果无修改时执行对应的指令；若此语音特征值在无效数据库内，则此语音特征值无效，继续将排序为2的语音特征值循环执行上述步骤4；
87.若此语音特征值不在标准数据库内，则继续对排序为2的语音特征值循环执行上述步骤4；以及
88.若按序比对结束后所有抓取语音源的语音特征值均不在有效数据库以及标准数据库内，则此次识别失败，输出模块1005提醒用户重新输入。
89.最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于音视频融合的婴儿哭泣检测方法及装置

语音识别准确率提高方法、系统、电子设备和存储介质与流程

相关文献

最热文献