语音识别方法、装置、语音交互设备及存储介质与流程

2022-07-16 16:23:12 来源：中国专利 TAG：

1.本发明涉及智能语音技术领域，尤其涉及一种语音识别方法及智能语音系统。

背景技术：

2.随着语音交互技术的快速发展，由于其能方便地为用户提供服务，可见即可说已经成为一种不可阻挡的发展趋势。在这种趋势下，第三方应用的操作趋势由目前的手动操作，发展成基于语音指令进行操作，将成为主流。但是传统的语音交互，大多以唤醒的方式来实现可见即可说功能，唤醒方案主要是通过语音输入和匹配内置固定指令词，来响应执行对应动作，即当接收到唤醒词时，则执行与唤醒词对应的指令，这种方式只要接收到音频中出现对应的唤醒词就能够响应执行对应动作。唤醒方案是基于拼音以及阈值来检测的，唤醒方案中设置的每个响应词汇的阈值不同，需要动态计算阈值。在唤醒方案中，若想解决泛化问题，则需要针对响应词汇的每一种说法都设置对应的唤醒词，但是这种方式，会导致特别容易造成误唤醒，影响系统的正常运作。同时，唤醒方案无法解决重叠词汇的响应问题。
3.在现有技术中，也存在通过热词的识别的方案替代唤醒方案作为响应，但是其仅仅只能解决唤醒方案中存在的无法解决的重叠词汇的响应问题，无法解决泛化程度低的问题，因而需要寻求一种能够有效解决现有技术中泛化程度低的技术问题的可见即可说方案。

技术实现要素：

4.本发明实施例提供一种语音识别方法、装置、语音交互设备及存储介质，以解决现有技术中的可见即可说系统中语音交互时的泛化程度低、交互方式生硬，用户体验差的问题。
5.第一方面，本发明实施例提供一种语音识别方法，包括：
6.在满足预设条件时，根据当前展示的用户界面中的第一界面内容和预置的第一预设规则，动态生成与当前展示的用户界面关联的第一执行文件，其中，预设条件包括检测到当前展示的用户界面变化；
7.重启语音识别引擎动态加载所述第一执行文件，其中所述语音识别引擎中加载有第二执行文件，所述第二执行文件是根据预置的第二界面内容和第二预设规则预先生成并加载在所述语音识别引擎中的。
8.第二方面，本发明实施例提供了一种语音识别装置，包括：
9.语音识别引擎，配置为用于根据其中加载的执行文件识别接收到的待识别音频，其中，所述执行文件包括第一直线文件和第二执行文件，所述第二执行文件是根据第二界面内容和第二预设规则预先生成并在初始化阶段预加载的，所述第一执行文件是根据第一执行文件生成模块动态生成并通过第一执行文件加载模块动态加载的；
10.第一执行文件生成模块，配置为在满足预设条件时，根据当前展示的用户界面中
的第一界面内容和第一预设规则，动态生成与当前展示的用户界面关联的第一执行文件，其中，预设条件包括检测到当前展示的用户界面变化；
11.第一执行文件加载模块，配置为重启语音识别引擎动态加载所述第一执行文件。
12.第三方面，本发明实施例提供了一种一种语音交互设备，包括第一语音识别模块和第二语音识别模块，所述语音交互设备在接收到待识别音频时，同时将待识别音频通过第一语音识别模块和第二语音识别模块进行识别，并输出两路相互独立的识别结果，所述第一语音识别模块在执行时实现上述方法的步骤。
13.第四方面，本发明实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。
14.本发明实施例的有益效果在于：本发明实施例提供的方法通过随着当前展示的用户界面的变化，实时根据当前展示的用户界面中的第一界面内容以及预设的第一预设规则动态生成与当前展示的用户界面相应的第一执行文件，并使语音识别引擎动态加载该动态生成的第一执行文件，从而当用户根据当前展示的用户界面中的内容说出相应的触发音频时，系统能够根据用户输入的待识别音频执行与当前展示的用户界面的内容相应的执行动作，实现可见即可说的功能。其中，在动态生成第一执行文件时，通过预置的第一预设规则能够将第一界面内容进行充分泛化，使得语音识别引擎加载第一执行文件之后能够根据第一执行文件中的泛化后的相应内容对输入的待识别音频数据进行语音识别，进而使得用户能够以各种不同的泛化说法触发语音识别引擎，从而使得语音交互系统能够根据语音识别引擎的识别结果执行与该泛化说法的语义相应的执行内容，以实现泛化的可见即可说功能。同时，本发明实施例的语音识别引擎仅仅是根据当前展示的用户界面的内容来动态生成和加载第一执行文件，而将其他的识别资源根据第二界面内容和第二预设规则预先生成第二执行文件，并在初始化阶段预加载该第二执行文件，不但实现了通过第一执行文件和第二执行文件相结合，能够对当前应用的所有用户界面中的全部内容进行充分的泛化，以有效提高语音交互的泛化程度，而且还实现了仅仅在当前展示的用户界面变化时来动态生成和加载与当前的用户界面内容对应的资源，能够有效降低因编译和加载执行文件对系统的性能消耗，提高语音识别引擎的运行效率。
附图说明
15.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
16.图1为本发明一实施方式的语音识别方法的流程图；
17.图2为本发明一实施方式的语音识别方法的生成第一执行文件的流程图；
18.图3为本发明一实施方式的语音识别方法的生成第二执行文件的流程图；
19.图4为本发明一实施方式的语音识别装置的原理框图；
20.图5为本发明一实施方式的语音交互设备的原理框图；
21.图6为本发明的电子设备的一实施例的结构示意图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
23.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
24.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
25.在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
26.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
27.本发明实施例中的语音识别方法可以应用在具有语音交互功能的智能设备中，以使得用户能够在该智能设备中使用本发明中所采用的语音识别方法，实现相应的语音功能，具有语音交互功能的智能设备例如包括但不限于智能手机、智能平板、个人pc、计算机、云端服务器等。特别地，本发明实施例中的语音识别方法还可以应用在具有语音交互功能的车载设备中，从而使驾驶员在驾驶车辆的时候能够通过可见即可说的方式实现对车辆中的系统界面进行控制，提高驾驶的安全性和便利性。
28.图1示意性地显示了根据本发明一实施方式的语音识别方法，该方法适用于对诸如智能手机、个人电脑、云端服务器、汽车智能系统等的智能语音系统配置，使得这些设备的智能语音系统能够实现可见即可说的功能。参照图1，本发明实施例的方法包括：
29.步骤s101：在满足预设条件时，根据当前展示的用户界面中的第一界面内容和预置的第一预设规则，动态生成与当前展示的用户界面关联的第一执行文件，其中，预设条件包括检测到当前展示的用户界面变化；
30.步骤s102：重启语音识别引擎动态加载所述第一执行文件，其中，所述语音识别引
擎中加载有第二执行文件，所述第二执行文件是根据预置的第二界面内容和第二预设规则预先生成并加载在所述语音识别引擎中的。
31.在本发明实施例中，用户界面可以是任意的终端应用程序的显示界面，也可以是系统的显示界面。当前展示的用户界面是指当前处于显示状态且用户焦点所在的显示界面，即当前正在被用户关注或操作的处于活跃状态的显示界面。
32.在步骤s101中，当前展示的用户界面变化是指当前所展示给用户的显示界面由一个用户界面变化为另一个不同的用户界面，或者由一种用户界面状态变化为另一种用户界面状态，即其可以是指用户界面的切换(用户界面的跳转)、应用程序的切换、用户界面的滑动、界面内容的更新等情况。其中，检测当前展示的用户界面变化示例性地可以通过监听系统事件实现，如在当前用户界面变化时，系统会将当前展示的用户界面通知到相应的应用程序，因而可以通过监听这类系统通知事件来获知当前展示的用户界面的变化。在其他实施例中，还可以通过监听用户的操作事件来获知当前展示的用户界面的变化，如用户界面的变化一般是基于用户的点击或语音事件，即通过用户的操作使得界面进行更新或切换，因此还可以通过监听此类事件来获知当前正在展示的用户界面的变化。当然，在其他实施例中，还可以采用其他的现有技术来实现对当前展示的用户界面的变化事件的检测，只要能够实时检测到当前展示的用户界面变化即可。第一界面内容是指在用户界面中，所需要通过可见即可说功能进行语音触发响应的内容，如在某一音乐应用中，在其所展示的第一用户界面中所出现的音乐列表中的歌手名称、歌曲名称等，以及在其所展示的用户界面中所出现的设置选项按键、登录选项按键等。第一预设规则是指用于针对第一界面内容进行语义泛化、说法泛化的预先设置好的规则，其优选是由至少一个扩展规则组成，如针对当前所展示的界面中的某一需要进行语音触发响应的界面内容，扩展规则可以是根据该第一界面内容的语义进行泛化的规则，还可以是根据该第一界面内容补充前语气助词、动词、后语气助词等以形成更符合用户习惯的泛化说法的规则等，本发明实施例通过根据所期望的效果来预置由至少一个扩展规则组成的第一预设规则以对相应的界面内容进行泛化。其中，在实际应用中，当前展示的用户界面可以包括由至少一个界面内容选项组成的第一界面内容，第一预设规则可以是与每个界面内容选项一一对应的，也可以是与第一界面内容对应的，即被第一界面内容中的所有界面内容选项所共享的。在本发明实施例中，第一执行文件是指语音识别引擎在执行语音识别处理时所依赖的子识别资源文件，其是根据第一界面内容和第一预设规则动态生成的。具体地，第一执行文件可以为语音识别引擎加载的slot.bin格式文件，语音识别引擎通过加载第一执行文件，即能够根据第一执行文件中所存储的触发词以及相应的说法、对应的执行动作内容等资源对用户输入的待识别音频数据进行识别。由于当前所展示的用户界面是会发生变化的，因而用户界面中的第一界面内容也可能会随之发生变化，因而在本发明实施例中的第一执行文件是需要根据当前展示的用户界面的变化而动态生成的。示例性地，以某一音乐应用的用户界面为例，当前展示的用户界面中包含有歌手名称、设置选项按键、登录选项按键等第一界面内容，此时则根据该第一界面内容和预设的第一预设规则生成与当前展示的用户界面相应的第一执行文件；而在用户对当前展示的用户界面进行切换、滑动等操作，使得当前所展示的用户界面发生变化后，如变化后的当前展示的用户界面中包含有歌曲名称、设置选项按键、登录选项按键等第一界面内容，此时则再次根据变化后的当前所展示的用户界面中的第一界面内容和预设的第
一预设规则生成与当前展示的用户界面相应的第一执行文件，实现动态生成第一执行文件。由此，本发明实施例中，第一执行文件优选是与当前展示的用户界面相关联的，即是随着当前展示的用户界面的变化而相应变化的，特别地，第一执行文件对着当前展示的用户界面的变化而做出的变化可以包括随着第一界面内容的变化而带来的第一执行文件内容上的变化，还可以包括随着第一界面内容和/或关联的用户界面的变化而导致的第一执行文件对应的第一预设规则上的变化等。
33.在步骤s102中，通过重启语音识别引擎以能够加载第一执行文件，使得语音识别引擎能够根据第一执行文件中所提供的识别资源对用户输入的待识别音频数据进行识别，而当动态生成新的第一执行文件时，则会继续再重启语音识别引擎以加载新生成的第一执行文件，从而能够使得语音识别引擎能够动态加载第一执行文件，以根据当前展示的用户界面的变化来动态更新其所依赖的识别资源。由于对语音识别引擎的包含识别资源的执行文件的编译和加载是比较耗费时间和性能的，因而在本发明实施例中，优选是为语音识别引擎设计了双识别资源文件的架构，即将语音识别引擎设计成包括具有在执行语音识别处理时所依赖的动态识别资源的子识别资源文件(本发明实施例称之为第一执行文件)和具有在执行语音识别处理时所依赖的静态识别资源的主识别资源文件(本发明实施例称之为第二执行文件)，并且在本发明实施例中语音识别引擎所依赖的子识别资源文件即第一执行文件是动态加载的，而主识别资源文件即第二执行文件是在初始化阶段就预加载好的，是不会随着当前展示的用户界面的变化而变化的，即是静态的。优选地，第二执行文件是根据第二界面内容和第二预设规则生成的识别资源文件。对于第二执行文件，与第一执行文件不同的是，第二执行文件在生成的时候根据的第二界面内容是根据用户需求或用户期望预先配置好的，并且第二执行文件是在语音识别引擎的初始化阶段时就预先生成并加载在语音识别引擎中的执行文件，其并不是根据当前所展示的用户界面的变化而动态生成的，因而其可以用于与用户需求或期望相符的更宽范围的语音识别，而不仅仅局限于是作为对当前展示的界面内容的识别资源的强化和补充，即相较第一执行文件，第二执行文件具有更强的通用性和包含有更宽泛的识别资源。因此，本发明实施例的语音识别引擎通过动态更新和加载与当前展示的用户界面关联的子识别资源文件和预加载具有更强通用性的主识别资源文件，不但能够保证对当前展示的界面内容的更精确的识别，实现泛化程度更高的可见即可说语音交互，而且能够通过降低动态更新和加载的识别资源文件的数据量来保证语音识别引擎的初始化和加载的效率和性能，且不会对系统产生过大的性能消耗，因而具有更高的可行性和系统稳定性。
34.作为一种优选实施例，第二执行文件中的内容可以是不会发生改变的识别资源，因而优选地，可以将与第二执行文件相应的第二界面内容设置为是在用户界面中不会随着用户界面的变化而变化的预置的静态内容，其中，静态内容是相对动态加载的内容而言的，对于不同的应用的用户界面，其上均包括了通过界面设计来预置的固定的界面内容和根据应用程序的运行情况而动态加载的实时变化的界面内容，如对某一音乐应用程序而言，其用户界面中包括了自界面设计阶段确定下来之后，在该音乐应用程序运行阶段始终固定展示的界面内容如“播放全部”、“个人中心”等界面选项对应的内容，以及包括了在应用程序运行过程中根据实时数据动态加载而实时变化显示的界面内容如在“播放全部”这一选项下展示的具体曲目等。本发明实施例通过将在用户界面中不会随着用户界面的变化而变化
的预置的静态内容作为生成第二执行文件的依据，而将会随着用户界面的变化而变化的动态内容作为生成第一执行文件的依据，特别地，是将当前展示界面上的动态内容作为生成第一执行文件的依据，以使得生成的第一执行文件是能反映当前显示的界面内容的子识别资源文件，第二执行文件则能够作为容纳全部应用的或所期望的应用的所有界面内容的主识别资源文件。当然，在其他实施例中，也可以不局限于应用程序，而是针对系统的用户界面进行相应的资源提取，如第二界面内容还可以为仅是系统界面中的不会变化的内容等，其具体可以根据实际的用户需求进行自定义设置。对于第二预设规则，则是用于针对第二界面内容进行语义泛化、说法泛化的预先设置好的规则，其可以与第一预设规则相同，也可以与第一预设规则不相同，由于第二预设规则是针对第二界面内容进行语义泛化、说法泛化的规则，因而也可以基于第二界面内容的特殊性而针对相应的界面内容设置相应的规则。优选地，第二预设规则是由至少一个扩展规则组成，扩展规则可以是同义词、语气助词等能够实现对第二界面内容进行所需的泛化的规则。由于语音识别引擎中预加载有第二执行文件，因而第一执行文件在生成的时候，可以根据第二执行文件中的相关内容，以省略对与第二界面内容相关的内容进行的泛化步骤，从而与第二执行文件形成互补，这样设置，不仅能够有效地提高整体系统的可见即可说触发内容的泛化覆盖程度，还能够有效降低在动态生成第一执行文件的时候的系统的负载。
35.在本发明实施例中，通过上述的方法，能够根据当前展示的用户界面的变化而动态生成与当前所展示的用户界面相应的第一执行文件，而在生成第一执行文件的时候，根据相应的第一预设规则对当前展示的用户界面中的第一界面内容进行充分泛化，通过重启语音识别引擎动态加载第一执行文件，从而能够有效地根据当前展示的用户界面的内容进行可见即可说语音交互。同时，语音识别引擎在初始化阶段还预加载有第二执行文件，通过第一执行文件和第二执行文件相结合，能够有效提高对整体语音交互系统的可见即可说触发内容的泛化覆盖程度，提高语音交互的泛化性能。
36.在一些实施方式中，第一界面内容可以仅为当前展示的用户界面中随着用户界面变化而动态变化的内容。通过这样设置，能够与第二执行文件相结合，以降低系统在生成第一执行文件的时候的整体负载。其中，所述的随着用户界面变化而动态变化的内容，具体可以为在应用程序中的会动态加载的内容，如在某一音乐应用程序中的歌手名称列表中的歌手名称、歌曲列表中的歌曲的名称等，这些内容都是会随着用户对应用程序的操作而在当前展示的用户界面中变化的内容。
37.在一些实施方式中，第二界面内容可以为包括所期望的全部用户界面中的所有静态内容。其中，静态内容具体为在应用程序的界面设计时预置的不会随着当前展示界面发生变化而消失或新出现的要进行语音触发响应的界面内容，需要说明的是，此处所述的不会随着当前展示界面发生变化而消失或新出现，是指在同一应用程序中用户界面发生变化，或指在系统界面中用户界面发生变化，所期望的全部用户界面是指系统在设置的时候所配置的要用于通过可见即可说语音识别方法触发响应的应用程序的用户界面，或要用于通过可见即可说语音识别方法触发响应的系统用户界面，也就是说，第二界面内容是在整体系统中，需要配置为可通过可见即可说功能触发响应的全部或至少部分应用程序的用户界面以及系统的用户界面中的全部不会随着当前展示界面发生变化而消失或新出现的界面内容，以能够有效地避免在切换应用程序、退出应用程序并返回到系统界面等时，需要重
新生成并加载第二执行文件，提高整体系统在进行可见即可说语音交互的时候的流畅性。示例性地，如在某一音乐应用程序中的设置选项按键、登录选项按键等，以及在系统界面中的设置选项按键、下一页选项按键、上一页选项按键等。通过这样设置，结合上面的第一界面内容的设计，能够将用户界面中的内容分开为会动态变化的内容和静态的内容，通过根据静态的内容生成为第二执行文件并预加载在语音识别引擎中，并根据动态的内容生成为第一执行文件使语音识别引擎动态加载相应内容，能够有效提高对整体语音交互系统的可见即可说触发内容的泛化覆盖程度，提高语音交互的泛化性能。
38.图2示意性地展示了本发明一实施方式的语音识别方法的步骤s101 中的生成第一执行文件的方法，参照图2，具体地，生成第一执行文件的方法可以实现为以下步骤：
39.步骤s201：在预置的与当前展示的用户界面对应的包含第一预设规则的第一语法文件中加载从当前展示的用户界面中获取的第一界面内容；
40.步骤s202：根据加载有第一界面内容的第一语法文件编译生成第一执行文件。
41.在步骤s201中，第一语法文件为根据第一预设规则形成的包含有预设的格式内容的文件，其具体地可以采用xbnf语法文件作为第一语法文件，xbnf语法文件采用ebnf语法作为基础语法，开发者通过编辑该文件用以限定识别范围同时规定输出的语义项格式，具体地，根据第一预设规则中包括的扩展规则，第一语法文件可以包含有第一预设规则中的对第一界面内容补充的前语气助词、动词、后语气助词的相关内容，同时还可以包含有预设的与常见的用户界面中的动态的内容相对应的泛化说法的内容，进而当在第一语法文件中加载从当前展示的用户界面中获取的第一界面内容后，即可得到根据第一预设规则得到与该当前展示的用户界面对应的，具有泛化后的第一界面内容及其对应的执行动作的第一语法文件。示例性地，以在某一音乐应用的当前展示界面中的某要通过可见即可说功能进行语音触发响应的第一界面内容为“吻别”，相对应的要执行的动作为“播放歌曲吻别”，此时，当在第一语法文件中加载“吻别”后，将会得到相应的泛化说法包括有“播放吻别”、“请播放吻别”、“播放吻别吧”、“刘德华的吻别”等经过第一预设规则对“吻别”进行泛化后的各种说法，而上述的各种泛化后的说法所对应的执行动作均为“播放歌曲吻别”。
42.在步骤s202中，由于在步骤s201中加载有第一界面内容后的第一语法文件已包含有第一界面内容相应的泛化说法即其对应的执行动作，因而能够直接根据第一语法文件的生成与当前展示的用户界面相应的第一执行文件。
43.图3示意性地展示了本发明一实施方式的语音识别方法的中的生成第二执行文件的方法，参照图3，具体地，生成第二执行文件的方法可以实现为以下步骤：
44.步骤s301：预先配置并编译生成包含有第二预设规则和第二界面内容的第二语法文件；
45.步骤s302：根据所述第二语法文件编译生成第二执行文件。
46.在步骤s301中，由于第二界面内容和第二预设规则一样，是预先配置好的，是不会随着当前展示的用户界面的变化而改变的界面内容，同时由于第二执行文件是需要预先生成并加载在语音识别引擎中的，因此可以直接根据预置的第二界面内容和预置的第二预设规则编译生成第二语法文件。第二语法文件与第一语法文件相似，可以为xbnf语法文件，因而步骤s301中编译生成第二语法文件的具体步骤，可以操作步骤s201中的相应内容。同样的，步骤s203与步骤s202也相似，同样也可以参照步骤 s202中的相关内容，在此不再赘述。
47.在又一些实施方式中，步骤s101中所述的预设条件，除了在步骤s101 中的检测到当前展示的用户界面变化，还可以包括有以下几个条件中的任一者或两个以上的组合：检测到语音识别引擎初始化完成，当语音识别引擎初始化完成后，即为语音识别引擎已准备好工作的时候，此时即为初次生成第一执行文件并加载第一执行文件的时候；检测到音频识别完成，当用户输入的待识别音频数据识别完成的时候，即为已完成一次识别，当前展示的用户界面可能会出现变化；检测到经过预设时长无语音输入，当经过预设时长后仍无语音输入时，则需要及时对当前展示的用户界面进行重新生成第一执行文件，以避免出现第一执行文件与当前展示的用户界面不对应的情况出现，其中，预设时长可以为5秒、10秒等固定的时间长度，其具体的设置时间可以根据实际情况进行自定义设置。具体地，上述的音频识别完成，应理解为包括语音识别引擎识别出待识别音频中包含有与当前展示的用户界面中的要通过可见即可说功能进行语音触发响应的内容和语音识别引擎没有识别出待识别音频中包含有与当前展示的用户界面中的要通过可见即可说功能进行语音触发响应的内容两种情况。这样设置，当语音识别引擎识别出待识别音频中包含有与当前展示的用户界面中的可见即可说功能触发内容时，当前场景所展示的界面可能会出现切换，因而在此时重新生成第一执行文件，能够及时检测当前场景所展示的用户界面是否有切换，并及时针对切换后的当前场景所展示的用户界面生成第一执行文件；当语音识别引擎没有识别出待识别音频中包含有与当前展示的用户界面中的可见即可说功能响应内容时，也应当重新生成第一执行文件，以同样起到检测当前展示的用户界面是否有切换，并及时针对切换后的当前展示的用户界面更新第一执行文件的作用，避免当前展示的用户界面由于其他操作方式(如触控等)或系统自带的用户界面切换方式而发生切换，引起可见即可说功能失效。这样设置，通过增设预设条件，从而能够避免当前展示的用户界面由于其他操作方式(如触控等)或系统自带的用户界面切换方式而发生切换，引起可见即可说功能失效。其中，对语音识别引擎初始化完成、音频识别完成和经过预设时长无语音输入的检测可以参照相关现有技术进行实现，本发明实施例对此不再进行赘述。
48.图4示意性地显示了根据本发明一实施方式的语音识别装置，包括：
49.语音识别引擎1，配置为用于根据其中加载的执行文件识别接收到的待识别音频，其中，所述执行文件包括第一执行文件和第二执行文件，所述第二执行文件是根据第二界面内容和第二预设规则预先生成并在初始化阶段预加载的，所述第一执行文件是根据第一执行文件生成模块2动态生成并通过第一执行文件加载模块3动态加载的；
50.第一执行文件生成模块2，配置为在满足预设条件时，根据当前展示的用户界面中的第一界面内容和第一预设规则，动态生成与当前展示的用户界面关联的第一执行文件，其中，预设条件包括检测到当前展示的用户界面变化；
51.第一执行文件加载模块3，配置为重启语音识别引擎1动态加载所述第一执行文件，优选是在第一执行文件生成之后进行语音识别引擎的重启。
52.在一些实施方式中，所述第一界面内容包括当前展示的用户界面中随着用户界面变化而动态变化的内容；和/或
53.所述第二界面内容包括所期望的全部用户界面中的全部静态内容，所述静态内容在相应用户界面的界面设计时预置。
54.需要说明的是，本发明实施例的语音识别装置的实现原理具体可参见上述方法实
施例的相应描述，例如方法实施例部分具体的生成第一执行文件和第二执行文件的方法等的相应描述，故在此均不再赘述。示例性地，本发明实施例的语音识别装置可以是任何使用智能语音系统的智能设备，包括但不限于计算机、智能手机、个人电脑、机器人、云端服务器等。
55.图5示意性地显示了根据本发明一实施方式的一种语音交互设备，包括：
56.第一语音识别模块4，配置为执行时实现上述任一项实施例的语音识别方法；
57.第二语音识别模块5，配置为执行任意的语音唤醒或语音识别方法；
58.该语音交互设备在接收到待识别音频时，同时将待识别音频通过第一语音识别模块和第二语音识别模块进行识别，并输出两路相互独立的识别结果。
59.具体地，第二语音识别模块在执行任意的语音唤醒或语音识别方法的时候，可以为执行现有的与本发明的语音识别方法不同的方法，如基于唤醒引擎触发的可见即可说方法，或采用单一的固定的识别资源文件进行传统的语音识别的方法等，本发明实施例对此不进行限制。本发明实施例通过设置两路识别模式，且将其中一路识别模式设置为是本发明实施例上述的采用双路识别资源文件的架构，以实现对识别资源的动态获取和动态加载更新，保证有效地实现可见即可说的语音交互，且本发明实施例的识别资源是经过泛化的识别资源，因而语音识别覆盖范围更广，且更能体现用户的交互习惯，用户体验更好。
60.需要说明的是，本发明实施例中的语音交互设备可以是设置在任何汽车中的智能语音设备或计算机、智能手机、个人电脑、机器人、云端服务器，本发明实施例的中涉及的可见即可说功能的具体实现过程和实现原理具体可参见上述方法实施例的相应描述，在此不再赘述。
61.在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项实施例的语音识别方法。
62.在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项实施例的语音识别方法。
63.在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一实施例的语音识别方法。
64.在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任一项实施例的语音识别方法。
65.图6是本技术另一实施例提供的执行语音识别方法的电子设备的硬件结构示意图，如图6所示，该设备包括：
66.一个或多个处理器610以及存储器620，图6中以一个处理器630为例。
67.执行语音识别方法的设备还可以包括：输入装置33和输出装置640。
68.处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式
连接，图6中以通过总线连接为例。
69.存储器620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本技术实施例中的语音识别方法对应的程序指令/模块。处理器610通过运行存储在存储器 620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的语音识别方法。
70.存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别方法的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器620 可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
71.输入装置630可接收输入的数字或字符信息，以及产生与图像处理设备的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。
72.所述一个或者多个模块存储在所述存储器620中，当被所述一个或者多个处理器610执行时，执行上述任意方法实施例中的语音识别方法。
73.上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
74.本技术实施例的电子设备以多种形式存在，包括但不限于:
75.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。
76.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc 设备等，例如ipad。
77.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
78.(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
79.(5)其他具有数据交互功能的电子装置。
80.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
81.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者
实施例的某些部分所述的方法。
82.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音合成模型的训练方法、装置、设备及存储介质与流程

语音识别方法、装置、语音交互设备及存储介质与流程

相关文献

最热文献