语音处理的方法、装置、存储介质及电子装置与流程

2022-07-13 04:31:05 来源：中国专利 TAG：

1.本发明实施例涉及智能家居领域，具体而言，涉及一种语音处理的方法、装置、存储介质及电子装置。

背景技术：

2.随着科学技术的进步和人工智能语音的蓬勃发展，越来越多的具备语音功能的终端设备应用到日常生活中，例如，智能语音音响、智能语音空调、智能语音电视、智能语音窗帘等等，这些具备语音交互功能的设备一定程度上便利了人们的生活。
3.相关技术中，在与具备语音交互功能的设备进行语音交互的过程中还存在许多问题，例如，误唤醒、单轮语音交互识别错误、多轮语音交互识别错误等，因此，这些语音交互错误的发生会极大的降低用户的使用体验感。
4.针对相关技术中存在的对语音进行识别处理容易出错的情况，从而导致语音识别的正确率低以及用户体验度低的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种语音处理的方法、装置、存储介质及电子装置，以至少解决相关技术中存在的对语音进行识别处理容易出错的情况，从而导致语音识别的正确率低以及用户体验度低的问题。
6.根据本发明的一个实施例，提供了一种语音处理的方法，包括：在终端设备采集到的语音片段对应的语音处理结果满足结果异常条件的情况下，从服务器的目标存储区域中获取待识别语音，其中，所述待识别语音包括所述语音片段，所述语音处理结果包括对所述语音片段进行语音识别或语义分析所得到的结果；基于所述待识别语音进行语音识别校验，得到第一校验结果；根据所述第一校验结果对应的结果类型，控制所述终端设备执行设定操作，和/或基于所述第一校验结果对所述待识别语音进行第二校验处理。
7.在一个示例性实施例中，所述语音处理结果包括语音识别结果和语义分析结果，所述方法还包括：在所述语音片段对应的语音识别结果满足语音识别结果为空、发生边界检测错误和语音识别结果匹配失败中任一个的情况下，确定所述语音片段对应的语音处理结果满足结果异常条件，其中，语音识别结果匹配失败表征在第一数据库中未查询到与所述语音识别结果匹配的识别语句；和/或在所述语义分析结果对应语义分析结果匹配失败的情况下，确定所述语音片段对应的语音处理结果满足结果异常条件，其中，所述语义分析结果为语义处理模块对所述语音识别结果进行语义分析处理得到的结果，所述语义分析结果匹配失败表征在第二数据库中未查询到与所述语义分析结果匹配的操作意图。
8.在一个示例性实施例中，所述待识别语音为所述终端设备采集到的原始语音，所述语音片段为所述原始语音中的部分音频，所述根据所述第一校验结果对应的结果类型，控制终端设备执行设定操作，包括：在确定所述结果类型表征所述待识别语音为唤醒类语音的情况下，控制所述终端设备执行唤醒操作，并禁止将所述第一校验结果发送至所述语
义处理模块；或，在确定所述结果类型表征所述待识别语音为噪音类音频的情况下，控制所述终端设备执行拾音操作，并禁止将所述第一校验结果发送至所述语义处理模块。
9.在一个示例性实施例中，所述基于所述第一校验结果对所述待识别语音进行第二校验处理，包括：在所述第一校验结果的结果类型表征所述待识别语音为空和/或发生边界检测错误的情况下，将所述第一校验结果和所述待识别语音发送至错误诊断系统；利用所述错误诊断系统，基于所述第一校验结果和所述待识别语音对所述原始语音执行所述第二校验处理。
10.在一个示例性实施例中，所述基于所述第一校验结果对所述待识别语音进行第二校验处理，包括：在所述第一校验结果的结果类型表征所述待识别语音的语义识别结果正常的情况下，对所述第一校验结果进行语义分析，得到待识别语音的语义分析结果；将所述待识别语音的语义分析结果与第二数据库中的操作意图进行匹配；在匹配失败的情况下，将所述待识别语音的语义分析结果、匹配失败结果和所述待识别语音发送至错误诊断系统；利用所述错误诊断系统，基于所述待识别语音的语义分析结果、匹配失败结果和所述待识别语音对所述待识别语音执行所述第二校验处理。
11.在一个示例性实施例中，所述方法还包括：在匹配成功的情况下，获取所述操作意图对应的操作指令；控制所述终端设备基于所述服务器存储的第一语音识别模型更新所存储的第二语音识别模型，其中，所述服务器利用所述第一语音识别模型进行语音识别，所述终端设备利用所述第二语音识别模型进行语音识别。
12.在一个示例性实施例中，所述方法还包括：在预定时间段内未接收到对所述目标存储区域中待识别语音的查询操作的情况下，删除所述目标存储区域中存储的所述待识别语音。
13.在一个示例性实施例中，所述方法还包括：在预定时间段内未接收到对所述目标存储区域中待识别语音的查询操作的情况下，删除所述目标存储区域中存储的所述待识别语音。获取模块，用于在终端设备采集到的语音片段对应的语音处理结果满足结果异常条件的情况下，从服务器的目标存储区域中获取待识别语音，其中，所述待识别语音包括所述语音片段，所述语音处理结果包括对所述语音片段进行语音识别或语义分析所得到的结果；识别模块，用于基于所述待识别语音进行语音识别校验，得到第一校验结果；处理模块，用于根据所述第一校验结果对应的结果类型，控制所述终端设备执行设定操作，和/或基于所述第一校验结果对所述待识别语音进行第二校验处理。
14.根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
15.根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
16.通过本发明，可以在终端设备采集到的语音片段对应的语音处理结果满足结果异常条件的情况下，从服务器的目标存储区域中获取待识别语音，其中，所述待识别语音包括所述语音片段，所述语音处理结果包括对所述语音片段进行语音识别或语义分析所得到的结果，从而可以对所述待识别语音进行语音识别校验，以得到第一校验结果，继而，根据所
述第一校验结果对应的结果类型，控制终端设备执行设定操作，和/或基于所述第一校验结果对所述待识别语音进行第二校验处理，采用本发明方法，可以将待识别语音存储到目标存储区域，从而通过对已存储的待识别语音进行二次识别校验，降低语音交互出错的概率。由此解决了相关技术中存在的对语音进行识别处理容易出错的情况，从而导致语音识别的正确率低以及用户体验度低的问题。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
18.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
19.图1是本发明实施例的语音处理的方法的移动终端的硬件结构框图；
20.图2是根据本发明实施例的语音处理的方法的流程图；
21.图3是根据本发明实施例的语音识别校验系统总体流程图；
22.图4是根据本发明实施例的语音处理的装置的结构框图。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
24.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.根据本技术实施例的一个方面，提供了一种语音处理的方法。该语音处理的方法广泛应用于智慧家庭(smart home)、智能家居、智能家用设备生态、智慧住宅(intelligence house)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述语音处理的方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。
26.上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可
以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：wifi(wireless fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为pc、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
27.在本实施例中提供了一种语音处理的方法，图2是根据本发明实施例的语音处理的方法的流程图，如图2所示，该流程包括如下步骤：
28.步骤s202，在终端设备采集到的语音片段对应的语音处理结果满足结果异常条件的情况下，从服务器的目标存储区域中获取待识别语音，其中，所述待识别语音包括所述语音片段，所述语音处理结果包括对所述语音片段进行语音识别或语义分析所得到的结果；
29.步骤s204，基于所述待识别语音进行语音识别校验，得到第一校验结果；
30.步骤s206，根据所述第一校验结果对应的结果类型，控制所述终端设备执行设定操作，和/或基于所述第一校验结果对所述待识别语音进行第二校验处理。
31.其中，上述步骤的执行主体可以是具备语音纠错处理能力的智能处理设备，或者是具备语音纠错处理能力的智能系统，控制器，或者是智能系统中包括的控制器或者处理器，或者还可以是与智能系统中独立设置的控制设备或者处理设备，或者还可以是其他的具备类似处理能力的处理设备或处理单元等。
32.在上述实施例中，语音处理结果可以分为正常结果和异常结果，而异常结果可以有多种类型，例如，可以为空、唤醒词、环境噪音、vad(voice activity detection，语音边界检测)错误，等等，其中，唤醒词可以是小白、小爱、小米等等，环境噪音可以是婴幼儿的哭声、电视播放电影或电视剧的声音、周围施工噪声等等，vad错误可以是语句识别不完整、断句识别错误等等，例如，当待识别语音为“小白，我要看电影”，在对“我要看电影”进行识别处理时，可能会将“电”识别成语音的开始，将“影”识别成语音的结束，从而导致语句识别不完整，当待识别语音为“这个苹果不大好吃”，在对“这个苹果不大好吃”进行识别处理时，可能会识别成“这个苹果，不大好吃”，也可能识别成“这个苹果不大，好吃”，从而导致断句识别错误，需要说明的是，上述异常结果类型的举例说明仅是一种示例性实施例，上述异常结果类型不仅限于上述举例。
33.在上述实施例中，目标存储区域中待识别语音可以有多个，且在终端设备采集到的多个语音片段对应的多个语音处理结果满足结果异常条件的情况下，可以从服务器的目标存储区域中获取多个待识别的语音，进而可以依次对多个待识别语音包括的多个语音片段进行识别处理，还可以同时对多个待识别语音包括的多个语音片段进行识别处理，此外，可以根据该多个待识别语音存储到目标存储区域的时间顺序，优先识别处理时间靠前的待识别语音，也可以根据多个待识别语音中的每一个待识别语音的重要程度，优先识别处理比较重要的待识别语音，此外，终端设备可以有多个，因此，可以采用多个终端设备采集待识别语音包括的语音片段，等等。
34.在上述实施例中，可以在终端设备采集到的语音片段对应的语音处理结果满足结果异常条件的情况下，从服务器的目标存储区域中获取待识别语音，其中，所述待识别语音
包括所述语音片段，所述语音处理结果包括对所述语音片段进行语音识别或语义分析所得到的结果，从而可以对所述待识别语音进行语音识别校验，以得到第一校验结果，继而，根据所述第一校验结果对应的结果类型，控制终端设备执行设定操作，和/或基于所述第一校验结果对所述待识别语音进行第二校验处理，采用本发明方法，可以将待识别语音存储到目标存储区域，从而通过对已存储的待识别语音进行二次识别校验，降低语音交互出错的概率。由此解决了相关技术中存在的对语音进行识别处理容易出错的情况，从而导致语音识别的正确率低以及用户体验度低的问题。
35.在一个示例性实施例中，所述语音处理结果包括语音识别结果和语义分析结果，所述方法还包括：在所述语音片段对应的语音识别结果满足语音识别结果为空、发生边界检测错误和语音识别结果匹配失败中任一个的情况下，确定所述语音片段对应的语音处理结果满足结果异常条件，其中，语音识别结果匹配失败表征在第一数据库中未查询到与所述语音识别结果匹配的识别语句；和/或在所述语义分析结果对应语义分析结果匹配失败的情况下，确定所述语音片段对应的语音处理结果满足结果异常条件，其中，所述语义分析结果为语义处理模块对所述语音识别结果进行语义分析处理得到的结果，所述语义分析结果匹配失败表征在第二数据库中未查询到与所述语义分析结果匹配的操作意图。在本实施例中，可以从第一数据库中查询与语音识别结果匹配的识别语句，若在第一数据库中未查询到与该语音识别结果匹配的识别语句，则该语音处理结果满足结果异常条件，例如，当语音片段对应的语音处理结果为“灭蚊子”，可以到第一数据库中查询与该语音识别结果匹配的识别语句，若第一数据库中没有与“灭蚊子”匹配的识别语句，则可以确定该语音识别结果满足异常结果条件，即，该语音处理结果为异常结果，此外，所述第一数据库是可以预先建立的，例如，可以预先的收集各类词语、语句等资料存储到数据库中并生成第一数据库，还可以将已识别过的第一数据库中不存在的语句存储到第一数据库中，等等。
36.在上述实施例中，还可以采用语义处理模块对所述待识别语音包括的语音片段的语义进行分析，进而基于语义分析结果从第二数据库中查询与该语义分析结果匹配的操作意图，若在第二数据库中未查询到与该语义分析结果匹配的操作意图，则该语义分析结果满足结果异常条件，例如，当语音片段对应的语义分析结果为“洗衣服”，可以到第二数据库中查询与该语义分析结果匹配的操作意图，若第二数据库中没有与“洗衣服”匹配的操作意图则可以确定该语义分析结果满足异常结果条件，即，该语义分析结果为异常结果，此外，所述第二数据库是可以预先建立，例如，可以预先的收集各类语义操作意图等资料存储到数据库中并生成第二数据库，还可以将已分析过的第二数据库中不存在的语义存储到第二数据库中，等等。
37.在一个示例性实施例中，所述待识别语音为所述终端设备采集到的原始语音，所述语音片段为所述原始语音中的部分音频，所述根据所述第一校验结果对应的结果类型，控制终端设备执行设定操作，包括：在确定所述结果类型表征所述待识别语音为唤醒类语音的情况下，控制所述终端设备执行唤醒操作，并禁止将所述第一校验结果发送至所述语义处理模块；或，在确定所述结果类型表征所述待识别语音为噪音类音频的情况下，控制所述终端设备执行拾音操作，并禁止将所述第一校验结果发送至所述语义处理模块。在本实施例中，当待识别语音为“小白”(还可以是“小黑”、“小布”等等)时，且在对该待识别语音进行识别校验的结果类型为唤醒类语音的情况下，可以控制终端设备执行唤醒“小白”的操
作，并禁止将该唤醒类语音发送至语义处理模块，另外，终端设备可以有多个，因此，可以根据与多个终端设备的距离确定控制终端设备执行唤醒操作的优先级，例如，当终端设备有3个，其中，与第一终端设备的距离最近，与第二终端设备的距离次之以及与第三终端设备的距离最远时，可以优先控制距离最近的第一终端设备执行唤醒操作，此外，待识别语音可以包括多个语音片段，进而在待识别语音包括的一个语音片段的语音识别结果和/或语义分析结果为异常结果的情况下，可以采集该待识别语音包括的其他的语音片段，进一步的可以对其他的语音片段进行语音识别和/或语义分析，需要说明的是，上述待识别语音以及上述终端设备的优先级的举例说明仅是一种示例性实施例，待识别语音以及终端设备的优先级并不仅限于上述举例。
38.在上述实施例中，当待识别语音的识别校验的结果类型为噪音类音频的情况下，控制终端设备执行拾音操作，并禁止将该校验结果发送至语义处理模块，例如，当待识别语音的识别校验的结果类型为施工噪音的情况下，控制终端设备收集音频，并禁止将该施工噪音发送至语义处理模块，从而进一步提高用户的使用体验度，需要说明的是，上述噪音类音频的举例说明仅是一种示例性实施例，噪音类音频并不仅限于上述举例说明。
39.在一个示例性实施例中，所述基于所述第一校验结果对所述待识别语音进行第二校验处理，包括：在所述第一校验结果的结果类型表征所述待识别语音为空和/或发生边界检测错误的情况下，将所述第一校验结果和所述待识别语音发送至错误诊断系统；利用所述错误诊断系统，基于所述第一校验结果和所述待识别语音对所述原始语音执行所述第二校验处理。在本实施例中，当所述待识别语音的第一校验结果的结果类型为边界检测错误时，可以将该第一校验结果和所述待识别语音发送至错误诊断系统，例如，当待识别语音为“小白，我要看科幻电视剧”时，对该待识别语音进行识别校验，识别校验的结果为“我要看”，即，该结果类型为边界检测错误，进而可以将该将该结果类型和该待识别语音发送给错误诊断系统，经由错误诊断系统对目标存储区域的原始音频执行第二次校验处理，当然，还可以控制错误诊断系统将该结果类型和该待识别语音发送至后台的开发人员，经由开发人员进行问题定位和分析，并提供快捷有效的处理方式，需要说明的是，上述边界检测错误的举例说明仅是一种示例性实施例，边界检测错误并不仅限于上述举例。在一个示例性实施例中，所述基于所述第一校验结果对所述待识别语音进行第二校验处理，包括：在所述第一校验结果的结果类型表征所述待识别语音的语义识别结果正常的情况下，对所述第一校验结果进行语义分析，得到待识别语音的语义分析结果；将所述待识别语音的语义分析结果与第二数据库中的操作意图进行匹配；在匹配失败的情况下，将所述待识别语音的语义分析结果、匹配失败结果和所述待识别语音发送至错误诊断系统；利用所述错误诊断系统，基于所述待识别语音的语义分析结果、匹配失败结果和所述待识别语音对所述待识别语音执行所述第二校验处理。在本实施例中，在第二数据库中未查询到与待识别语音的语义分析结果匹配的的操作意图时，此时无需再对该识别语音进行深度分析，避免延长响应语音处理结果的操作时长，因此，可以将该待识别语音的语义分析结果、匹配失败结果和该待识别语音发送至错误诊断系统，经由错误诊断系统对目标存储区域的该待识别语音执行第二次校验处理，当然，控制错误诊断系统将该待识别语音的语义分析结果、匹配失败结果和该待识别语音发送至后台的开发人员，经由开发人员进行问题定位和分析，并提供快捷有效的处理方式。
40.在一个示例性实施例中，所述方法还包括：在匹配成功的情况下，获取所述操作意图对应的操作指令，控制所述终端设备执行所述操作指令；控制所述终端设备基于所述服务器存储的第一语音识别模型更新所存储的第二语音识别模型，其中，所述服务器利用所述第一语音识别模型进行语音识别，所述终端设备利用所述第二语音识别模型进行语音识别。在本实施例中，操作指令可以是给终端设备(例如，智能电视机，智能空调，智能窗帘，智能闹钟，等等)下发命令指令，其中，所述命令指令可以是命令智能电视机打开电视、命令智能空调打开空调、命令智能窗帘打开窗帘等等，也可以是命令智能空调调高温度、命令智能空调调低温度，还可以是命令智能闹钟定时、命令智能闹钟定一个闹钟，等等。
41.在上述实施例中，终端设备以及服务器中均可以配置有语音识别模型，其中，语音识别模型可以用于对语音进行识别，包括对完整语音进行识别，还可以对语音中包括的部分片段进行识别等等，终端设备可以利用配置的第一语音识别模型对原始语音进行语音识别，在语音识别结果为异常结果的情况下，将该原始语音发送给服务器，服务器利用第二语音识别模型对原始语音进行识别校验，并指示所述终端设备利用第二语音识别模型所识别校验的正确的语音识别结果更新第一语音识别模型所识别的语音识别结果，此外，当终端设备无法识别原始语音时，可以将该原始语音发送给服务器，经由服务器对该原始音频进行识别，并将识别的正确的语音识别结果发送给终端储存，从而进一步提高语音识别校验的准确率。
42.在一个示例性实施例中，所述方法还包括：所述方法还包括：在预定时间段内未接收到对所述目标存储区域中待识别语音的查询操作的情况下，删除所述目标存储区域中存储的所述待识别语音。在本实施例中，所述预定时间段是可以预先设定的值，可以设定为30分钟、1小时、6小时、一天，三天，一周等等，例如，当预定时间段为三天时，在三天内未接收到对所述目标存储区域中待识别语音的查询操作的情况下，删除所述目标存储区域中存储的在所述三天内所接收到的语音，例如，三天内，使用者或操作者发出的语音都被正常的识别了，没有异常结果的情况下，可以将所述目标存储区域中存储的在所述三天内所接收到的全部语音删除处理，以减少所述目标存储区域的存储压力。
43.显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。下面结合实施例对本发明进行具体说明。
44.图3是根据本发明实施例的语音识别校验系统总体流程图，如图3所述，该流程包括以下步骤：
45.s302，开始；
46.s304，录制原始音频；
47.s306，发送至asr(automatic speech recognition，自动语音识别技术)端识别；
48.将录制的原始音频发送至asr(自动语音识别)。
49.s308，原始音频备份；
50.将录制的原始音频发送至服务器(对应于上述服务器的目标存储区域)储存备份。
51.s310，asr结果发送至nlp(natural language processing，自然语言处理)端；
52.s312，进行第一判断，以判断nlp结果匹配是否正确，在所述第一判断结果为否的情况下，将错误的nlp匹配结果发送至s308步骤的原始音频备份端；
53.当nlp没有匹配的结果时，可以判定asr识别结果可能存在异常，此时需要到原始
音频备份端找到对应时刻的原始音频(对应于上述待识别语音)，进行比对校验。
54.s314，在上述第一判断结果为是的情况下，将正确的nlp匹配结果发送至终端设备；
55.正常情况下，asr端识别出结果之后，将识别结果发送至nlp(自然语音处理)端，nlp匹配出结果发送到终端设备响应用户的语音请求。
56.s316，结束；
57.s318，进行第二判断，以判断设定时间段内是否收到查询事件；
58.s320，在上述第二判断结果为否的情况下，删除该时刻之前的原始音频；
59.原始音频备份端建立有自刷新机制，当一定时间内未收到查询信号时，删除这个时间段内的原始音频，以减少后台存储压力。
60.s322，二次校验；
61.校验内容可以包括音频数据是否为空，是否为唤醒词，是否为环境噪音，是否为vad(语音边界检测)错误等，当asr识别结果为空或者vad错误(例如，语句不完整等)时，截取相应时刻附近时间更长的原始音频数据进行分析，以减少终端vad错误导致的asr解析数据为空或者语句不完整的问题，当asr识别结果为唤醒词或者环境噪音时，禁止将asr识别结果发送至nlp端，以避免nlp对非用户意图的语音进行响应。
62.s324，进行第三判断，以判断nlp二次匹配的结果是否正确，在所述第三判断结果为是的情况下，执行s320步骤的删除该时刻之前的原始音频(对应于上述目标存储区域中存储的待识别语音)；
63.s326，在上述第三判断结果为否的情况下，将所述待识别语音发送至错误诊断系统(对应上述目标系统)；
64.当二次校验的asr识别结果仍为空或者vad错误时，将对应时刻一段时间内的原始音频发送至错误诊断系统，后续由相关开发人员进行错误诊断，当二次校验的asr识别结果在nlp端仍没有匹配结果时，将对应时刻一段时间内的原始音频发送至错误诊断系统，后续由相关开发人员进行错误诊断。
65.s328，开发人员诊断，并执行s316步骤。
66.由前述实施例可知，在上传asr识别结果至服务器时，终端也会将原始音频数据发送到服务器存储，当asr识别错误时，服务器中的处理模块(例如，纠错模块)可以快速的找到对应时刻的原始音频，进行校验，对音频数据是否为空，是否为唤醒词，是否为环境噪音，是否为vad错误等进行判定和处理，当asr识别结果为空或vad错误时，可以截取相应时刻附近时间更长的原始音频数据(对应上述目标语音)进行分析，以减少asr识别结果为空或因vad错误导致asr解析数据为空或者语句不完整的问题，当asr识别结果为唤醒词或环境噪音时，禁止将asr识别结果向nlp端发送，以避免nlp对非操作者或使用者意图进行响应，极大的提高了语音识别的正确率，进一步提升操作者或使用者的使用体验感。
67.还需要说明的是，校验结束后仍然存在异常结果的情况下，可以将对于时刻一段时间内的原始音频发送至错误诊断系统，后续由相关开发人员进行错误诊断，另外，当校验结果发送至nlp仍无法匹配nlp结果时，同样可以将对应时刻一段时间内的原始音频发送至错误诊断系统，后续由相关开发人员进行错误诊断，降低了nlp无匹配结果的情况下进行兜底回复的概率，继而，在一定程度上减少了相关开发人员定位分析问题的时间，提高了语音
识别错误修正的效率。
68.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
69.在本实施例中还提供了一种语音处理的装置，图4是根据本发明实施例的语音处理的装置的结构框图，如图4所示，该装置包括：
70.获取模块42，用于在终端设备采集到的语音片段对应的语音处理结果满足结果异常条件的情况下，从服务器的目标存储区域中获取待识别语音，其中，所述待识别语音包括所述语音片段，所述语音处理结果包括对所述语音片段进行语音识别或语义分析所得到的结果；
71.识别模块44，用于基于所述待识别语音进行语音识别校验，得到第一校验结果；
72.处理模块46，用于根据所述第一校验结果对应的结果类型，控制所述终端设备执行设定操作，和/或基于所述第一校验结果对所述待识别语音进行第二校验处理。
73.在一个可选的实施例中，上述获取模块42包括：第一确定单元，用于在所述语音片段对应的语音识别结果满足语音识别结果为空、发生边界检测错误和语音识别结果匹配失败中任一个的情况下，确定所述语音片段对应的语音处理结果满足结果异常条件，其中，语音识别结果匹配失败表征在第一数据库中未查询到与所述语音识别结果匹配的识别语句；第二确定单元，用于和/或在所述语义分析结果对应语义分析结果匹配失败的情况下，确定所述语音片段对应的语音处理结果满足结果异常条件，其中，所述语义分析结果为语义处理模块对所述语音识别结果进行语义分析处理得到的结果，所述语义分析结果匹配失败表征在第二数据库中未查询到与所述语义分析结果匹配的操作意图。
74.在一个可选的实施例中，上述处理模块46包括：第一控制单元，用于在确定所述结果类型表征所述待识别语音为唤醒类语音的情况下，控制所述终端设备执行唤醒操作，并禁止将所述第一校验结果发送至所述语义处理模块；第二控制单元，用于或，在确定所述结果类型表征所述待识别语音为噪音类音频的情况下，控制所述终端设备执行拾音操作，并禁止将所述第一校验结果发送至所述语义处理模块。
75.在一个可选的实施例中，上述处理模块46还包括：第一发送单元，用于在所述第一校验结果的结果类型表征所述待识别语音为空和/或发生边界检测错误的情况下，将所述第一校验结果和所述待识别语音发送至错误诊断系统；第一执行单元，用于利用所述错误诊断系统，基于所述第一校验结果和所述待识别语音对所述原始语音执行所述第二校验处理。
76.在一个可选的实施例中，上述处理模块46还包括：分析单元，用于在所述第一校验结果的结果类型表征所述待识别语音的语义识别结果正常的情况下，对所述第一校验结果进行语义分析，得到待识别语音的语义分析结果；匹配单元，用于将所述待识别语音的语义分析结果与第二数据库中的操作意图进行匹配；第二发送单元，用于在匹配失败的情况下，将所述待识别语音的语义分析结果、匹配失败结果和所述待识别语音发送至错误诊断系
统；第二执行单元，用于利用所述错误诊断系统，基于所述待识别语音的语义分析结果、匹配失败结果和所述待识别语音对所述待识别语音执行所述第二校验处理。
77.在一个可选的实施例中，上述装置还包括：第一控制模块，用于在匹配成功的情况下，获取所述操作意图对应的操作指令，控制所述终端设备执行所述操作指令；第二控制模块，用于控制所述终端设备基于所述服务器存储的第一语音识别模型更新所存储的第二语音识别模型，其中，所述服务器利用所述第一语音识别模型进行语音识别，所述终端设备利用所述第二语音识别模型进行语音识别。
78.在一个可选的实施例中，上述装置还包括：删除模块，用于在预定时间段内未接收到对所述目标存储区域中待识别语音的查询操作的情况下，删除所述目标存储区域中存储的所述待识别语音。
79.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
80.本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
81.在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
82.本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
83.在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
84.本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。
85.通过本发明提供的一种语音处理的方法，在第一次语音识别校验为错误的情况下，可以联系原始音频的上下文再次对原始音频进行分析和识别，一方面提高了语音识别的正确率，另一方面减少了相关开发人员定位分析问题的时间，进一步提升了用户体验度。
86.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
87.以上所述仅是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音处理的方法、装置、存储介质及电子装置与流程

相关文献

最热文献