农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

任务式语音识别方法及装置与流程

2021-06-11 21:44:00 来源：中国专利 TAG：语音装置语音识别申请方法

本申请属于语音处理技术领域，尤其涉及一种任务式语音识别方法及装置。

背景技术：

随着现代技术的飞速发展，语音识别技术已经逐渐融入人们生活中的的各个方面，例如驾驶语音导航、智能蓝牙音箱，等等。

然而，人们对语音服务的要求也逐渐在不断提升和存在多样化发展的趋势，例如同样的音素在不同的语音识别任务或情景中所对应的期望识别结果可能是不同的，使得通用型的语音模型已经无法满足用户或业务终端的个性化需求。

技术实现要素：

本申请实施例提供一种任务式语音识别方法及装置，用于至少解决上述技术问题之一。

第一方面，本申请实施例提供一种任务式语音识别方法，应用于客户端，所述方法包括：获取语音任务信息；从本地的至少一个定制语音神经网络中确定与所述语音任务信息相应的第一目标定制语音神经网络，每一所述定制语音神经网络分别具有相应的语音任务信息；采集用户任务语音；加载所述第一目标定制语音神经网络和通用语音神经网络；基于所述第一目标定制语音神经网络，确定与所述用户任务语音相应的第一语音识别结果和相应的第一置信度；基于所述通用语音神经网络，确定与所述用户任务语音相应的第二语音识别结果和相应的第二置信度；比较所述第一置信度和所述第二置信度，并根据比较的结果将所述第一语音识别结果或所述第二语音识别结果确定为目标语音识别结果；以及输出所述目标语音识别结果。

第二方面，本申请实施例提供一种任务式语音识别装置，所述装置包括：任务信息获取单元，被配置为获取语音任务信息；定制网络确定单元，被配置为从本地的至少一个定制语音神经网络中确定与所述语音任务信息相应的第一目标定制语音神经网络；任务语音采集单元，被配置为采集用户任务语音；加载单元，被配置为加载所述第一目标定制语音神经网络和通用语音神经网络；第一识别结果确定单元，被配置为基于所述第一目标定制语音神经网络，确定与所述用户任务语音相应的第一语音识别结果和相应的第一置信度；第二识别结果确定单元，被配置为基于所述通用语音神经网络，确定与所述用户任务语音相应的第二语音识别结果和相应的第二置信度；目标结果确定单元，被配置为比较所述第一置信度和所述第二置信度，并根据比较的结果将所述第一语音识别结果或所述第二语音识别结果确定为目标语音识别结果；以及目标结果输出单元，被配置为输出所述目标语音识别结果。

第三方面，本申请实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本申请实施例的有益效果在于：

在客户端本地配置一个或多个分别具有相应的语音任务信息的定制语音神经网络，在进行语音识别操作时，客户端可以依据语音任务信息来选择相适应的目标定制语音神经网络，可以满足客户端针对不同任务的个性化识别过程；此外，利用目标定制语音神经网络和通用语音神经网络分别对所采集的用户任务语音进行识别，并依据置信度来筛选最终的语音识别结果，可以在实现个性化语音识别结果的同时，保障最终输出的语音识别结果具有较高的精确度，降低语音误识别概率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请实施例的任务式语音识别方法的一示例的流程图；

图2示出了根据本申请实施例的加载目标定制语音神经网络和通用语音神经网络的一示例的流程图；

图3示出了根据本申请实施例的对客户端上的语音神经网络进行更新的一示例的流程图；

图4示出了根据本申请实施例的服务器生成针对客户端的模型更新请求的一示例的流程图；

图5示出了根据本申请实施例的任务式语音识别装置的一示例的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本申请中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了根据本申请实施例的任务式语音识别方法的一示例的流程图。关于本申请实施例方法的执行主体，其可以是各种类型的客户端设备，例如手机、平板电脑等。

如图1所示，在步骤110中，获取语音任务信息。示例性地，客户端可以检测用户操作，进而确定相应的语音任务信息。

在一些实施方式中，客户端可以显示语音任务界面。这里，在语音任务界面上设置有多个任务控件，并且每一任务控件分别可以用于指示相应的语音任务信息，并可以分别为相应的任务提供定制服务支持。进而，客户端可以检测被用户选择的目标任务控件，并根据目标任务控件来确定相应的语音任务信息。

示例性地，客户端上的每个任务控件可以分别用于表示不同类型的语音任务，例如多个任务控件包括以下中的一者或多者：驾驶导航语音任务控件、网上购物语音任务控件和景点推荐语音任务控件。结合应用场景来说，当用户希望通过语音来进行网上购物时，用户可以点击网上购物语音任务控件，实现对相应语音任务信息的触发，并还可以同时触发相应的任务应用程序，例如启动网上购物应用程序。

在步骤120中，从本地的至少一个定制语音神经网络中确定与语音任务信息相应的第一目标定制语音神经网络。这里，每一定制语音神经网络分别具有相应的语音任务信息。由此，通过针对语音任务信息的匹配操作，可以有效地在多个定制语音神经网络中找到与所获取的语音任务信息相匹配的目标定制语音神经网络。

在步骤130中，采集用户任务语音。示例性地，在确定了与所获取的语音任务信息相匹配的定制语音神经网络之后，调用客户端的麦克风模块来采集对应设定时间段的音频数据，并将此作为用户任务语音。

在步骤140中，加载第一目标定制语音神经网络和通用语音神经网络。这里，通用语音神经网络可以表示在各个语音任务中均能适用的神经网络，例如可以选用第三方的语音神经网络来确定通用语音神经网络。

在步骤150中，基于第一目标定制语音神经网络，确定与用户任务语音相应的第一语音识别结果和相应的第一置信度。这里，置信度可以表示语音识别结果的可靠度，例如预测结果是正确结果的概率。

在步骤160中，基于通用语音神经网络，确定与用户任务语音相应的第二语音识别结果和相应的第二置信度。

在步骤170中，比较第一置信度和所述第二置信度，并根据比较的结果将第一语音识别结果或第二语音识别结果确定为目标语音识别结果。

在步骤180中，输出目标语音识别结果。

通过本申请实施例，用户可以在客户端上通过交互操作，选择相应的语音任务信息，调用相应的目标定制语音神经网络来识别用户任务语音，可以实现语音的任务个性化识别过程，例如在网上购物任务中，可以将音素“xiwang”识别为“西王”而非“希望”。此外，将定制语音神经网络所对应的语音识别结果和通用语音神经网络所对应的语音识别结果的置信度进行对比，从而得到目标语音识别结果，可以保障语音识别结果的可靠度。这样，在定制语音神经网络的训练样本较少，而无法较佳地覆盖当前识别的语音消息时，可以利用通用语音神经网络来弥补定制语音神经网络的识别范围的全面性。

需说明的是，目前，在利用深度网络进行数据处理时，一个深度学习网络一般会对应一组读写操作指令序列，以负责将读写操作从源地址搬运一定量的某种类型的数据到设备内存中的某段区域，固件代码是与内存位置是相关的。在对深度学习网络读写(例如，dma(directmemoryaccess，直接存储器访问))操作的过程中动态生成读写指令固件。然而，当内存空间不够用时，处理器可能需要将旧的深度学习网络的数据部分换出去，并将新的深度学习网络数据部分加载到内存空间时，而在旧的深度学习网络的数据部分更换后导致内存空间地址发生变化，需要重新依据更新后的内存空间地址生成对应网络的固件。这样，在编译过程中动态生成固件，导致在发现空闲空间地址不足时刷新内存空间，导致针对同一物理地址会重复生成固件，浪费处理器的很多时间，使得处理器的处理效率明显下降。

鉴于此，图2示出了根据本申请实施例的加载目标定制语音神经网络和通用语音神经网络的一示例的流程图。

如图2所示，在步骤210中，调用客户端的内存空间中的各个空闲空间地址分别生成相应的第一读写指令固件。因此，在对语音模型进行读写操作之前，预先根据空闲空间的地址生成读写指令固件，而不是在对语音模型读写操作的过程中动态生成读写指令固件，可以加速深语音模型的存储器读写处理效率。

在步骤220中，确定运行目标定制语音神经网络所需求的读写指令固件的第一期望数量。

在步骤230中，确定运行通用语音神经网络所需求的读写指令固件的第二期望数量。

在步骤240中，求和第一期望数量和第二期望数量，以得到相应的期望数量和值。

在步骤250中，判断所生成的第一读写指令固件的数量是否大于或等于期望数量和值。

如果所生成的第一读写指令固件的数量小于期望数量和值，则跳转至步骤260。如果所生成的第一读写指令固件的数量大于或等于期望数量和值，则跳转至步骤270。

在步骤260中，释放内存空间中的非空闲空间，并调用所释放的地址生成相应的第二读写指令固件，以使得所生成的第一读写指令固件和第二读写指令固件的数量总和大于或等于期望数量。

在步骤270中，为目标定制语音神经网络和通用语音神经网络分别分配相应的第一目标读写指令固件集和第二目标读写指令固件集，并将第一目标读写指令固件集和第二目标读写指令固件集发送给客户端的存储器读写处理器。

通过本申请实施例，相对于待读写的通用语音模型和定制语音模型，可以在读写操作之前预先确定所需求的期望数量和值，并将其与空闲空间所能产生的固件数量进行对比，并在固件数量不足时及时扩充固件，而不会出现加载过程中固件缺失的情况，保证存储器读写处理器能够利用固件序列完成对通用语音模型和定制语音模型的一次性加载过程，提高了语音模型的加载效率，优化了用户的语音识别服务体验。

图3示出了根据本申请实施例的对客户端上的语音神经网络进行更新的一示例的流程图。

如图3所示，在步骤310中，从服务器接收定制模型更新请求。在本申请实施例的一个示例中，服务器在检测到某个定制模型的版本存在更新时，触发向相应的客户端发送定制模型更新请求。在本申请实施例的另一示例中，客户端可以定期或不定期地向服务器发送版本更新询问消息，并在服务器确定存在更新版本的定制模型时，触发服务器向该客户端发送定制模型更新请求。

在步骤320中，根据定制模型更新请求，从至少一个定制语音神经网络中确定待更新的第二目标定制语音神经网络。示例性地，定制模型更新请求中可以包含定制语音神经网络的标识信息，通过标识定位而识别出相应的第二目标定制语音神经网络。

在步骤330中，从服务器接收语音神经网络安装包。

在步骤340中，基于语音神经网络安装包配置更新版语音神经网络。

在步骤350中，在更新版语音神经网络安装成功之后，停止运行及卸载第二目标定制语音神经网络，然后启用更新版语音神经网络。

通过本申请实施例，客户端在收到定制模型更新请求时可以先确定待更新的第二目标定制语音神经网络，然后从服务器接收语音神经网络安装包来进行更新，可以实现对本地的特定的定制语音神经网络进行更新。进而，并在更新版语音神经网络安装成功之后，停止运行及卸载第二目标定制语音神经网络，然后启用更新版语音神经网络，可以实现对客户端本地的某个定制语音神经网络的版本静默更新。

图4示出了根据本申请实施例的服务器生成针对客户端的模型更新请求的一示例的流程图。

如图4所示，在步骤410中，服务器从目标开发端接收定制模型开发请求，并识别预设的授权开发端列表中是否存在目标开发端的属性信息。这里，授权开发端列表包括多个授权的开发端的属性信息。这样，通过授权开发端列表进行属性信息的匹配操作，可以有效识别流量请求中对定制模型进行升级的目标开发端是否属于授权的开发端。

在步骤420中，当存在目标开发端的属性信息时，服务器从目标开发端接收消息，并根据所接收的消息确定语音神经网络安装包和相应的定制语音神经网络的网络标识信息。示例性地，在确定目标开发端的授权身份后，服务器可以从目标开发端接收消息来确定需要进行升级的语音神经网络，并得到相应的升级安装包，例如从目标开发端接收升级包或根据所接收的消息来自主生成升级安装包。

另一方面，当服务器确定目标开发端是未经授权的开发端时，服务器可以中断与目标开发端之间的通信，或者向目标开发端反馈身份识别异常结果。

在步骤430中，服务器根据所确定的语音神经网络安装包和网络标识信息，生成针对至少一个客户端的模型更新请求。示例性地，服务器可以向各个客户端发送模型更新请求，在模型更新请求中含有语音神经网络安装包和相应的网络标识信息，以实现对各个客户端中的特定的定制模型进行升级处理。

通过本申请实施例，利用授权开发端列表，服务器可以识别目标开发端的权限，并在确定目标开发端被授权时接收消息来接收消息，以得到网络升级所需的语音神经网络安装包和相应的定制语音神经网络的网络标识信息，生成针对客户端的模型更新请求，可以实现对客户端中特定的定制语音神经网络的版本升级与优化过程。

结合应用场景来说，开发人员可以对开发端进行操作，从而生成相应的定制模型开发请求，并在服务器验证通过之后，开发人员可以继续上传消息以在服务中得到针对特定的定制模型的升级包，并触发服务器对相应的一个或多个客户端的定制模型进行升级，可以实现在开发端和客户端之间的版本升级优化过程。

在本申请实施例的一些示例中，定制语音神经网络包括多个神经网络模块，例如语音模型可以包含am(声学模型)模块和lm(语言模型)模块等。此外，在服务器中同步配置有与客户端相同的各个定制神经网络。

需说明的是，定制语音神经网络中的各个模型模块可以均为定制的模型模块，或者，定制语音神经网络中可以仅存在部分的定制模型模块，而可以包含一些通用型的模型模块，例如lm模块或am模块可以是通用的。

具体地，当存在目标开发端的属性信息时，服务器可以从目标客户端接收神经网络训练样本、网络标识信息和网络模块标识信息。此外，服务器可以根据所接收的神经网络训练样本，对网络标识信息所指示的定制语音神经网络中具有网络模块标识信息的神经网络模块进行优化训练。进而，服务器还可以根据经优化训练的定制语音神经网络生成语音神经网络安装包，并根据所生成的语音神经网络安装包和网络标识信息生成针对至少一个客户端的模型更新请求。

在本申请实施例中，开发人员无需在开发端研制出整个升级包，而可以只上传需要对定制模型进行优化的神经网络训练样本，例如训练样本可以是：音素“lidan”-词语“李诞”，使得服务器可以对相应定制模型的模型模块(例如，am模块或lm模块)进行优化。此外，可以仅针对网络中的特定网络模块进行优化训练，而不涉及其他定制或通用的网络模块，能显著降低训练时间，提高模型更新效率。

图5示出了根据本申请实施例的任务式语音识别装置的一示例的流程图。

如图5所示，任务式语音识别装置500包括：任务信息获取单元510、定制网络确定单元520、任务语音采集单元530、加载单元540、第一识别结果确定单元550、第二识别结果确定单元560、目标结果确定单元570和目标结果输出单元580。

任务信息获取单元510被配置为获取语音任务信息。

定制网络确定单元520被配置为从本地的至少一个定制语音神经网络中确定与所述语音任务信息相应的第一目标定制语音神经网络。

任务语音采集单元530被配置为采集用户任务语音。

加载单元540被配置为加载所述第一目标定制语音神经网络和通用语音神经网络。

第一识别结果确定单元550被配置为基于所述第一目标定制语音神经网络，确定与所述用户任务语音相应的第一语音识别结果和相应的第一置信度。

第二识别结果确定单元560被配置为基于所述通用语音神经网络，确定与所述用户任务语音相应的第二语音识别结果和相应的第二置信度。

目标结果确定单元570被配置为比较所述第一置信度和所述第二置信度，并根据比较的结果将所述第一语音识别结果或所述第二语音识别结果确定为目标语音识别结果。

目标结果输出单元580被配置为输出所述目标语音识别结果。

上述本申请实施例的装置可用于执行本申请中相应的方法实施例，并相应的达到上述本申请方法实施例所达到的技术效果，这里不再赘述。

本申请实施例中可以通过硬件处理器(hardwareprocessor)来实现相关功能模块。

另一方面，本申请实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的任务式语音识别方法的步骤。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种音频混音方法、装置、介质及设备与流程

任务式语音识别方法及装置与流程

相关文章

最热文献