首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法与流程

2021-06-22 17:08:00 来源：中国专利 TAG：唤醒语音方法模型申请

本申请涉及语音唤醒技术，尤其涉及一种基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法。

背景技术：

语音唤醒是指用户通过说出唤醒词来唤醒电子设备，使电子设备进入到等待语音指令的状态或使电子设备直接执行预定语音指令。

相关技术中实现语音唤醒的方式是人工针对唤醒词录制大量语音，然后基于人工录制的语音进行语音匹配以进行相应的语音唤醒，然而，这种方式需要大量人员进行语音录制工作，时间和人力成本都很高。

技术实现要素：

本申请实施例提供一种基于唤醒语音模型的唤醒语音合成方法、应用唤醒方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够高效生成具有拟人效果的唤醒语音，节省了时间和人力成本。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于唤醒语音模型的唤醒语音合成方法，所述唤醒语音模型包括声纹提取层、音素转换层及预测层，所述方法包括：

通过所述声纹提取层，对不同用户的语音进行声纹特征提取，得到相应的用户声纹；

通过所述音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列；

基于所述用户声纹和所述唤醒音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数；

基于所述预测语音参数进行语音合成，得到相应的唤醒语音；

其中，所述唤醒语音，用于在与待匹配语音匹配成功时，唤醒目标程序。

本申请实施例提供一种基于唤醒语音模型的唤醒语音合成装置，所述唤醒语音模型包括声纹提取层、音素转换层及预测层，所述装置包括：

声纹提取模块，用于通过所述声纹提取层，对用户语音进行声纹特征提取，得到相应的用户声纹；

音素转换模块，用于通过所述音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列；

预测模块，用于基于所述用户声纹和所述唤醒音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数；

语音合成模块，用于基于所述预测语音参数进行语音合成，得到相应的唤醒语音；

其中，所述唤醒语音，用于在与待匹配语音匹配成功时，唤醒目标程序。

上述方案中，所述语音合成模块，还用于基于所述预测语音参数进行频谱转换，得到相应的语音频谱；基于所述语音频谱进行语音编码，得到相应的唤醒语音。

上述方案中，所述基于唤醒语音模型的唤醒语音合成装置，还包括：语音匹配模块，用于获取与所述唤醒文本不匹配的负例音素序列；基于所述负例音素序列，进行语音合成得到所述唤醒文本对应的负例语音；响应于针对待匹配语音的语音匹配请求，将所述待匹配语音分别与所述唤醒语音、所述负例语音进行匹配，得到匹配结果；发送所述匹配结果，以在所述匹配结果表征所述待匹配语音与所述负例语音匹配成功时，不对目标程序进行唤醒。

上述方案中，所述音素转换模块，还用于获取重读参数及停顿参数中的至少之一作为读音参数；基于所述读音参数，通过所述音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列。

上述方案中，所述基于唤醒语音模型的唤醒语音合成装置，还包括：泛化模块，用于获取语速参数、音高参数及音量参数中的至少之一作为语音泛化参数；基于所述语音泛化参数，对所述唤醒语音进行语音泛化处理，得到泛化后的唤醒语音。

上述方案中，所述基于唤醒语音模型的唤醒语音合成装置，还包括：语音匹配模块，用于接收针对待匹配语音的语音匹配请求；响应于所述语音匹配请求，对所述待匹配语音的波形特征与所述唤醒语音的波形特征进行比对，以确定所述待匹配语音与所述唤醒语音的相似度；发送确定的所述相似度，以在所述相似度达到相似度阈值时，唤醒目标程序。

上述方案中，所述基于唤醒语音模型的唤醒语音合成装置，还包括：语音分类模型训练模块，用于获取携带第一分类标签的唤醒语音、以及携带第二分类标签的负例语音；其中，所述第一分类标签指示所述唤醒语音与所述唤醒文本相匹配，所述第二分类标签指示所述负例语音与所述唤醒文本不匹配；基于携带第一分类标签的唤醒语音及携带第二分类标签的负例语音，构建训练样本集合，并基于所述训练样本集合训练语音分类模型；其中，所述语音分类模型，用于对输入的待匹配语音进行分类，输出与唤醒文本是否匹配的分类结果。

上述方案中，所述唤醒语音模型还包括语音合成层，所述语音合成模块，还用于基于所述预测语音参数，通过所述语音合成层，进行语音合成，得到相应的唤醒语音。

上述方案中，唤醒语音模型训练模块，用于通过所述声纹提取层，对样本语音进行声纹特征提取，得到相应的样本声纹；其中，所述样本语音携带语音参数标签；通过所述音素转换层，对所述样本语音对应的样本文本进行音素转换，得到相应的样本音素序列；基于所述样本声纹和所述样本音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数；基于所述预测语音参数与所述语音参数标签之间的差异，更新所述唤醒语音模型的模型参数。

本申请实施例提供一种应用唤醒方法，所述方法包括：

接收到携带待匹配语音的应用唤醒指令，所述应用唤醒指令用于指示唤醒目标程序；

响应于所述应用唤醒指令，将所述待匹配语音与唤醒语音进行匹配；

其中，所述唤醒语音基于预测语音参数进行语音合成得到，所述预测语音参数，通过唤醒语音模型，基于不同用户的语音及唤醒文本进行语音参数预测得到；

当所述待匹配语音与所述唤醒语音匹配成功时，唤醒所述目标程序。

本申请实施例提供一种应用唤醒装置，所述装置包括：

接收模块，用于接收到携带待匹配语音的应用唤醒指令，所述应用唤醒指令用于指示唤醒目标程序；

匹配模块，用于响应于所述应用唤醒指令，将所述待匹配语音与唤醒语音进行匹配；

唤醒模块，用于当所述待匹配语音与所述唤醒语音匹配成功时，唤醒所述目标程序。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法或者应用唤醒方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法或者应用唤醒方法。

本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法或者应用唤醒方法。

本申请实施例具有以下有益效果：

与相关技术中采用人工录制用于实现语音唤醒的语音的方式相比，本申请实施例通过从不同用户的语音中提取用户声纹，然后将唤醒文本转换为唤醒音素序列，并基于用户声纹和唤醒音素序列，合成用于语音匹配的唤醒语音，通过结合不同用户的用户声纹进行语音合成，能够高效地定制合成具有不同用户音色的具有拟人效果的唤醒语音，替代了人工针对唤醒文本进行语音录制的工作，从而克服了相关技术中采用人工录音的方式所带来的时间和人力成本高的缺陷，节省了时间和人力成本。

附图说明

图1是本申请实施例提供的基于唤醒语音模型的唤醒语音合成系统的一个可选的结构示意图；

图2是本申请实施例提供的电子设备的一个可选的结构示意图；

图3是本申请实施例提供的唤醒语音模型的一个可选的结构示意图；

图4是本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法的一个可选的流程示意图；

图5是本申请实施例提供的唤醒语音模型的一个可选的结构示意图；

图6是本申请实施例提供的唤醒语音模型的一个可选的结构示意图；

图7是本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法的一个可选的流程示意图；

图8是本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法的一个可选的流程示意图；

图9是本申请实施例提供的语音分类模型的一个可选地结构示意图；

图10是本申请实施例提供的应用唤醒方法的一个可选的流程示意图；

图11是本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法的一个可选的流程示意图；

图12是本申请实施例提供的唤醒文本设置界面的一个可选的示意图；

图13是本申请实施例提供的唤醒文本输入界面的一个可选的示意图；

图14是本申请实施例提供的目标程序唤醒界面的一个可选的示意图；

图15是本申请实施例提供的基于唤醒语音模型的唤醒语音合成装置的一个可选的结构示意图；

图16是本申请实施例提供的基于唤醒语音模型的唤醒语音合成装置的一个可选的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)声纹(voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。声纹不仅具有特定性，而且有相对稳定性的特点。基于声纹的这两个特征，可以利用声纹来识别用户身份。声纹又可以包括：宽带声纹、窄带声纹、振幅声纹、等高线声纹、时间波谱声纹及断面声纹(又分宽带、窄带二种)。其中，宽带声纹和窄带声纹显示语声的频率与强度随时间推移的变化特征；振幅声纹、等高线声纹及时间波谱声纹显示语音强度或声压随时间变化的特征；断面声纹显示某一时间点上声波强度和频率特征的声纹图。

2)语速，即文字或人类表达意义的语言符号在单位时间内的呈现速度，可以表示为每分钟呈现的单词的数量，单位为单词/分钟(wpm，wordsperminute)，还可以表示为每分钟呈现的音节的数量，单位为音节/分钟(spm，syllablesperminute)。

3)音高，是指各种音调高低不同的声音，即音的高度，音的基本特征的一种。声的本质是机械波，所以音的高低是由机械波的频率决定的，声速一定时，和波长也有关系，频率高、波长短，则音"高"，反之，频率低、波长长，则"低"。音高的单位是赫兹(hz)。

4)音量，又称音强、响度，是指人耳对所听到的声音大小强弱的主观感受，其客观评价尺度是声音的振幅大小。音量的单位是分贝。

5)负例文本，指与唤醒文本不匹配的文本。对负例文本进行音素转换得到的音素序列则为负例音素序列，基于负例音素序列进行语音合成得到的语音则为负例语音。

示例性地，若唤醒文本为“小明小明”，则负例文本可以为“肖明小明”、“肖敏肖敏”、“小明明”或“大暗大暗”等。

6)人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(machinelearning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了节省人力和时间成本，相关技术中所采用的方式是基于语音识别进行关键词的匹配，也即首先对待匹配语音进行语音识别，识别得到待匹配语音中的语音文本，然后将语音文本与唤醒文本进行匹配。然而，发明人发现，通过语音识别进行关键词文本匹配的方式所需要的实时计算量非常大，而语音唤醒场景下设备需要实时采集语音，设备的计算压力将十分巨大，非常耗电同时也容易使设备发热。

基于此，本申请实施例提供一种基于唤醒语音模型的唤醒语音合成方法、应用唤醒方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够高效地生成具有拟人效果的唤醒语音，节省了时间和人力成本。

首先对本申请实施例提供的基于唤醒语音模型的唤醒语音合成系统进行说明，参见图1，图1是本申请实施例提供的基于唤醒语音模型的唤醒语音合成系统100的一个可选的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。在一些实施例中，终端400可以是笔记本电脑，平板电脑，台式计算机，智能手机，专用消息设备，便携式游戏设备，智能音箱，智能手表，智能家居设备，智能车载设备等，但并不局限于此。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

终端400，用于获取唤醒文本及不同用户的语音，分别基于唤醒文本及不同用户的语音生成唤醒语音合成指令，发送唤醒语音合成指令至服务器200。

服务器200，用于通过唤醒语音模型的声纹提取层，对用户的语音进行声纹特征提取，得到相应的用户声纹；通过唤醒语音模型的音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列；基于所述用户声纹和所述唤醒音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数；基于所述预测语音参数进行语音合成，得到相应的唤醒语音，并发送唤醒语音至终端400。

终端400，还用于采集到待匹配语音，将待匹配语音与唤醒语音进行匹配，当待匹配语音与唤醒语音匹配成功时，唤醒目标程序。

参见图2，图2是本申请实施例提供的电子设备500的一个可选的结构示意图，在实际应用中，电子设备500可以实施为图1中的终端400或服务器200，以电子设备为图1所示的服务器200为例，对实施本申请实施例的基于唤醒语音模型的唤醒语音合成方法的电子设备进行说明。图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可以理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(dsp，digitalsignalprocessor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom，readonlymemory)，易失性存储器可以是随机存取存储器(ram，randomaccessmemory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(wifi)、和通用串行总线(usb，universalserialbus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的基于唤醒语音模型的唤醒语音合成装置可以采用软件方式实现，图2示出了存储在存储器550中的基于唤醒语音模型的唤醒语音合成装置555，其可以是程序和插件等形式的软件，包括以下软件模块：声纹提取模块5551、音素转换模块5552、预测模块5553和语音合成模块5554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的基于唤醒语音模型的唤醒语音合成装置可以采用硬件方式实现，作为示例，本申请实施例提供的基于唤醒语音模型的唤醒语音合成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic，applicationspecificintegratedcircuit)、dsp、可编程逻辑器件(pld，programmablelogicdevice)、复杂可编程逻辑器件(cpld，complexprogrammablelogicdevice)、现场可编程门阵列(fpga，field-programmablegatearray)或其他电子元件。

下面将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法。参见图3，图3是本申请实施例提供的唤醒语音模型的一个可选的结构示意图，所述唤醒语音模型包括声纹提取层、音素转换层及预测层。这里，唤醒语音模型为文本转语音(tts，text-to-speech)模型，用于实现文本至语音的转换。参见图4，图4是本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

步骤101，服务器通过所述声纹提取层，对不同用户的语音进行声纹特征提取，得到相应的用户声纹。

这里，用户的语音可以从公开的语音数据库中进行获取，例如aishell所公开的语音数据集，它包含有上千个不同用户的语音数据。在一些实施例中，用户语音还可以是服务器基于其通信连接的麦克风进行采集，采集得到多个不同用户的用户语音。在实际实施时，服务器针对每一个用户语音，通过声纹特征提取层，进行声纹特征提取，得到相应的用户声纹。这里，声纹特征提取层所提取到的用户声纹可以是声纹图谱，具体为声纹图谱的向量表示。提取的声纹图谱包括声波的频率值及其随时间变化的特征、声波的时长、音强及波形等特征。

在实际实施时，声纹特征提取层可以是在训练唤醒语音模型的过程中更新参数，还可以是通过另外的模型进行训练得到，例如通过训练一个声纹识别模型，然后将该声纹识别模型中输出声纹特征的部分模型结构截取出来作为本申请实施例的声纹特征提取层，可以理解，这里的声纹特征提取层则为与唤醒语音模型分开独立训练得到。

步骤102，通过所述音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列。

这里，唤醒文本可以为自定义的任意内容。在实际实施时，唤醒文本与应用绑定设置，一个应用可以对应多个唤醒文本。例如，对于地图应用，可以对其设置唤醒文本为“打开地图”、“打开导航”等，对于音乐应用，可以对其设置唤醒文本为“xx音乐”、“听歌”等，或者对于人工智能语音应用，可以对其设置任意内容的唤醒文本，当用户发出该唤醒文本对应的语音时，唤醒该人工智能语音应用进行对话。

本申请实施例中，服务器通过唤醒语音模型的音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列。这里，音素转换层可以是作为唤醒语音模型的一部分在训练唤醒语音模型时得到，还可以是独立于唤醒语音模型之外的其他算法或者模型结构。

在一些实施例中，基于图4，步骤102还可以通过如下方式实现：服务器获取重读参数及停顿参数中的至少之一作为读音参数；基于所述读音参数，通过所述音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列。

这里，重读参数用于指示文本中的重读位置。示例性地，对于abab这一唤醒文本，重读参数可以为指示对唤醒文本中的第一个字和第三个字进行重读，通过对唤醒文本添加重读标记表示为这里，设置在唤醒文本中字的下方的符号“·”则为重读标记。重读标记用于在唤醒文本中指示重读对象，重读对象为唤醒文本中的字或单词。停顿参数用于指示文本中的停顿位置。示例性地，对于abab这一唤醒文本，重读参数可以为指示在唤醒文本中的第二个字和第三个字之间进行停顿，通过对唤醒文本添加停顿标记表示为ab/ab，这里，设置在唤醒文本中的符号“/”则为停顿标记。

在实际实施时，可以通过对唤醒文本设置不同的读音参数来对应转换得到不同的唤醒音素序列。例如针对abab这一唤醒文本，对其设置的停顿位置可以为abab、a/bab、ab/ab、aba/b、a/b/ab、a/ba/b、ab/a/b、a/b/a/b等，其中，符号“/”为停顿标记。对其设置的重读位置可以为abab、等。

在实际实施时，当读音参数包括重读参数时，服务器则基于重读参数，对唤醒文本进行音素转换，得到携带有重读标记的唤醒音素序列。示例性地，对于“小明小明”这一唤醒文本，基于重读参数生成的唤醒音素序列可以为当读音参数包括停顿参数时，服务器则基于停顿参数，对唤醒文本进行音素转换，得到携带有音素停顿标记的唤醒音素序列。示例性地，对于“小明小明”这一唤醒文本，基于停顿参数生成的唤醒音素序列可以为“xiao3ming2xiao3ming2”。这里，通过在唤醒音素序列中设置空格来对唤醒音素序列进行停顿标记的设置。在一些实施例中，当读音参数包括重读参数和停顿参数时，服务器则基于读音参数对唤醒文本进行音素转换后，得到同时携带有重读标记和停顿参数的唤醒音素序列。示例性地，对于“小明小明”这一唤醒文本，若停顿参数指示停顿位置设置在第二个字与第三个字之间，重读参数指示重读位置设置为第一个字及第三个字，即则服务器将该唤醒文本进行音素转换之后得到的唤醒音素序列可以表示为

需要说明的是，本申请实施例中，将停顿位置及重读位置作为一组读音参数，在实际实施时，服务器获取多组读音参数，基于每一组读音参数进行相应的音素转换，以得到相应的唤醒语音序列。

步骤103，基于所述用户声纹和所述唤醒音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数。

在实际实施时，语音参数包括但不限于时长、音高及韵律。服务器基于用户声纹及唤醒音素序列，通过唤醒语音模型的预测层，预测唤醒语音的时长、音高及韵律等语音参数。在一些实施例中，参见图5，图5是本申请实施例提供的唤醒语音模型的一个可选的结构示意图，唤醒语音模型的预测层包括时长预测层、音高预测层、韵律预测层等，唤醒语音模型分别通过时长预测层、音高预测层、韵律预测层，进行相应时长、音高及韵律的预测。

需要说明的是，本申请实施例中，用户语音的数量为多个，服务器针对每一个用户语音进行声纹特征的提取，得到相应的多个用户声纹，然后针对每一个用户声纹，分别结合每一组读音参数对应的唤醒语音序列进行语音参数预测，得到相应的一组预测语音参数。示例性地，若有m个用户语音及n组读音参数，则预测得到的预测语音参数共有m×n组。其中，m和n均为大于等于2的正整数。

步骤104，基于所述预测语音参数进行语音合成，得到相应的唤醒语音。其中，所述唤醒语音，用于在与待匹配语音匹配成功时，唤醒目标程序。

在一些实施例中，基于图4，步骤104还可以通过如下方式实现：服务器基于所述预测语音参数进行频谱转换，得到相应的语音频谱；基于所述语音频谱进行语音编码，得到相应的唤醒语音。

需要说明的是，唤醒语音模型的预测层所输出的预测语音参数为向量表示，在实际实施时，参见图5，服务器通过解码器将向量表示的预测语音参数进行解码，得到解码语音参数，然后基于解码语音参数，进行语音频谱的绘制，得到相应的语音频谱。这里，语音频谱可以是梅尔频谱，服务器根据预测的唤醒语音的时长、音高及韵律等，绘制相应的梅尔频谱，得到相应的梅尔频谱图。接着，服务器通过语音编码器对语音频谱进行语音编码，将语音频谱进行语音信号的转换，得到唤醒语音。应当理解的是，这里得到的唤醒语音即为针对唤醒文本结合了读音参数的语音。服务器在获得唤醒语音后，还对唤醒语音进行去噪滤波处理。需要说明的是，服务器针对每一组预测语音参数，均生成对应的一条唤醒语音。例如，若预测语音参数的数量为m×n组，则生成的唤醒语音为m×n条。

在一些实施例中，基于图4，还可以执行：服务器获取语速参数、音高参数及音量参数中的至少之一作为语音泛化参数；基于所述语音泛化参数，对所述唤醒语音进行语音泛化处理，得到泛化后的唤醒语音。

这里，语速参数为唤醒音素序列的语音呈现速度，可以是每分钟呈现的单词数量，还可以是每分钟呈现的音节数量等。在实际实施时，服务器获取语速参数、音高参数及音量参数中的至少之一作为语音泛化参数，将唤醒语音的语速、音高及音量中的至少之一转换为相应的语音泛化参数中的数值，得到泛化后的唤醒语音。示例性地，语速参数可以为200字/分钟，音高参数可以为100hz，音量参数可以为60分贝等。

在一些实施例中，服务器在合成唤醒语音后，还可以对唤醒语音的语速、音高及音量中的至少之一进行随机的调节。示例性地，服务器可以随机提高或者降低唤醒语音的音量，随机提高或降低唤醒语音的音高，或者随机提高或降低唤醒语音的音速，以对唤醒语音进行语音泛化处理。在一些实施例中，服务器还可以通过随机对唤醒语音进行语音格式的转换进行语音泛化处理，例如将唤醒语音的语音格式由原始格式转换为目标格式，然后从目标格式再转换为原始格式，以改变唤醒语音的存储大小，或者随机转换唤醒语音的声道，例如将双声道的唤醒语音转换为单声道等等。

在一些实施例中，参见图6，图6是本申请实施例提供的唤醒语音模型的一个可选的结构示意图，所述唤醒语音模型还包括语音合成层。示例性地，参见图5，本申请实施例的语音合成层则可以包括图5示出的解码器及语音编码器。基于图4，步骤104还可以通过如下方式实现：服务器基于所述预测语音参数，通过所述语音合成层，进行语音合成，得到相应的唤醒语音。

在一些实施例中，参见图7，图7是本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法的一个可选的流程示意图，基于图4，还可以执行：

步骤201，服务器接收针对待匹配语音的语音匹配请求。

在实际实施时，语音匹配请求可以是通过终端发送至服务器。终端的麦克风采集到待匹配语音时，则针对待匹配语音生成语音匹配请求，并发送语音匹配请求至服务器。应当理解的是，待匹配语音为终端采集到的任意语音信号，可以是用户发出的语音，还可以是环境语音等等。

步骤202，响应于所述语音匹配请求，对所述待匹配语音的波形特征与所述唤醒语音的波形特征进行比对，以确定所述待匹配语音与所述唤醒语音的相似度。

在实际实施时，服务器接收到语音匹配请求后，响应于该语音匹配请求对其进行解析，得到语音匹配请求所携带的待匹配语音。接着，服务器分别对待匹配语音及唤醒语音进行波形特征提取，得到待匹配语音的波形特征及唤醒语音的波形特征。这里，波形特征包括但不限于波形的频率、波峰间的间隔、波谷间的间隔及波峰与波谷之间的间隔等。本申请实施例中，服务器直接对待匹配语音的波形特征与唤醒语音的波形特征进行比对，将波形特征之间的相似度作为待匹配语音与唤醒语音之间的相似度。

在一些实施例中，服务器还可以将待匹配语音进行频谱转换，得到待匹配语音的频谱图，并对唤醒语音进行频谱转换，得到唤醒语音的频谱图，然后对待匹配语音的频谱图及唤醒语音的频谱图进行图像比对，得到两张频谱图之间的相似度。需要说明的是，服务器在对这两种频谱图进行比对之前，还将二者的频谱图在图像大小、长度及宽度上进行伸缩调整，以将二者的语音波形调整至相近的大小范围内，然后基于此比对频谱图中的语音波形的相似度。

步骤203，发送确定的所述相似度，以在所述相似度达到相似度阈值时，唤醒目标程序。

在实际实施时，服务器发送待匹配语音与唤醒语音之间的相似度至终端，当相似度达到相似度阈值时，终端则唤醒语该唤醒语音相匹配的目标程序。需要说明的是，本申请实施例针对至少一个应用设置有唤醒文本，若唤醒语音是基于a应用设置的唤醒文本所生成的语音，当待匹配语音与该唤醒语音的相似度达到相似度阈值时，终端则唤醒与该唤醒文本绑定的a应用。

在一些实施例中，基于图4，还可以执行：服务器获取与所述唤醒文本不匹配的负例音素序列；基于所述负例音素序列，进行语音合成得到所述唤醒文本对应的负例语音；响应于针对待匹配语音的语音匹配请求，将所述待匹配语音分别与所述唤醒语音、所述负例语音进行匹配，得到匹配结果；发送所述匹配结果，以在所述匹配结果表征所述待匹配语音与所述负例语音匹配成功时，不对目标程序进行唤醒。

在实际实施时，服务器可以通过音素转换层生成相应的负例音素序列。具体地，服务器可以针对唤醒文本，确定相应的负例文本，然后通过音素转换层，对负例文本进行音素转换，得到相应的负例语音。服务器可以通过随机去除唤醒文本中的至少一个单字来生成相应的负例文本，示例性地，若唤醒文本为abab，得到的负例文本可以为a、b、aa、bb、ab、aba、aab、abb。服务器还可以通过随机替换唤醒文本中的至少一个单字来生成相应的负例文本，示例性地，若唤醒文本为abab，得到的负例文本则可以为cbab、adab、abeb、abaf、abgh、aiaj等。服务器还可以随机获取与唤醒文本不相关的文本作为负例文本，例如xyz、cdgzu、ttvv。对于负例文本，服务器可以随机添加停顿位置及重读位置，以生成相应的负例音素序列。此外，服务器还可以在基于唤醒文本生成的唤醒音素序列的基础上，对唤醒音素序列进行音素的随机替换，得到相应的负例音素序列，例如，对于“小明小明”这一唤醒文本，服务器基于该唤醒文本得到的一个唤醒音素序列为“xiao3ming2xiao3ming2”，则可以将其第一个音素“m”替换为“j”，得到“jiao3ming2xiao3ming2”这一负例音素序列，或者将其中的第二个音素“iao”替换为“iong”，得到“xiong1ming2xiao3ming2”这一负例音素序列。

接着，服务器基于负例音素序列进行语音合成，得到相应的负例语音。应当理解的是，这里得到的负例语音的语音内容与唤醒文本的内容不相匹配。至此，服务器得到了针对唤醒文本的唤醒语音及负例语音。这里，唤醒语音和负例语音的比例可以预先设置，例如可以从1：2-1：10中选择一个比例进行唤醒语音及负例语音的生成。

然后，服务器响应于针对待匹配语音的语音匹配请求，依次将待匹配语音与所有的唤醒语音及负例语音进行匹配，得到相应的匹配结果。这里，匹配结果可以包括与所有语音的相似度，包括与所有唤醒语音的相似度及与所有负例语音的相似度。匹配结果还可以是与待匹配语音的相似度最高的语音，服务器发送该语音及该语音与待匹配语音的相似度至终端。在一些实施例中，服务器还比较相似度与相似度阈值，若该相似度大于相似度阈值，则生成相应的匹配结果发送至终端，该匹配结果指示待匹配语音与唤醒文本是否匹配，若与待匹配语音的相似度最高且达到相似度阈值的语音为唤醒语音，服务器则生成与唤醒文本匹配成功的匹配结果，若与待匹配语音的相似度最高且达到相似度阈值的语音为负例语音，服务器则生成与唤醒文本匹配不成功的匹配结果，或者所有语音均在与待匹配语音的相似度均为达到相似度阈值时，生成匹配不成功的匹配结果。终端接收到该匹配结果后部队目标程序进行唤醒。

在一些实施例中，服务器在获得负例语音后，还对负例语音进行数据增强。本申请实施例中，对负例语音进行数据增强的方式与对唤醒语音进行数据增强的方式相同，这里不再进行赘述。

本申请实施例中，通过设置负例语音，避免在仅对唤醒语音进行匹配时出现误匹配的情况，通过与负例语音的匹配来降低匹配至唤醒语音的概率，从而降低目标程序的误醒率。

在一些实施例中，服务器还可以获取环境语音，例如无意义的背景杂音。服务器在对待匹配语音进行匹配时，基于唤醒语音、负例语音及环境语音对待匹配语音进行匹配，当待匹配语音匹配到唤醒语音时，则生成与唤醒语音匹配成功的匹配结果，当待匹配语音匹配到负例语音、环境语音或者未与任何语音匹配成功时，则生成与唤醒语音匹配不成功的匹配结果。

在一些实施例中，基于图4，在步骤101之前，还可以执行：服务器通过所述声纹提取层，对样本语音进行声纹特征提取，得到相应的样本声纹；其中，所述样本语音携带语音参数标签；通过所述音素转换层，对所述样本语音对应的样本文本进行音素转换，得到相应的样本音素序列；基于所述样本声纹和所述样本音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数；基于所述预测语音参数与所述语音参数标签之间的差异，更新所述唤醒语音模型的模型参数。

本申请实施例中，样本语音所携带的语音参数标签为从样本语音中提取得到。样本文本的文本内容为样本语音对应的文本内容。在实际实施时，服务器基于样本语音对应的语音参数标签与唤醒语音模型所预测的预测语音参数之间的差异，更新唤醒语音模型的模型参数。本申请实施例中，服务器具体对声纹提取层、音素转换层及预测层的参数进行更新。在一些实施例中，若唤醒语音模型中的声纹特征提取层为基于声纹识别模型所训练得到、且音素转换层为独立的音素转换算法或者基于独立的音素转换模型训练得到，则服务器仅对唤醒语音模型的预测层的参数进行更新。

在一些实施例中，服务器可通过如下方式实现对唤醒语音模型的训练：

服务器通过计算损失函数的值确定语音参数标签与唤醒语音模型所预测的预测语音参数之间的差异，当损失函数的值达到第一阈值时，基于损失函数确定相应的误差信号，将误差信号在唤醒语音模型中反向传播，并在传播的过程中更新唤醒语音模型的各个层的模型参数。

这里对反向传播进行说明，将训练样本输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。以第一损失函数为例，服务器基于第一损失函数确定第一误差信号，第一误差信号从神经网络模型的输出层反向传播，逐层反向传播第一误差信号，在第一误差信号到达每一层时，结合传导的第一误差信号来求解梯度(也就是loss函数对该层参数的偏导数)，将该层的参数更新对应的梯度值。

在一些实施例中，当所述语音唤醒模型还包括语音合成层时，基于图4，在步骤101之前，还可以执行：服务器通过所述声纹提取层，对样本语音进行声纹特征提取，得到相应的样本声纹；通过所述音素转换层，对所述样本语音对应的样本文本进行音素转换，得到相应的样本音素序列；基于所述样本声纹和所述样本音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数；基于所述预测语音参数，通过所述语音合成层，进行语音合成，得到相应的预测语音；基于所述预测语音与所述样本语音之间的差异，更新所述唤醒语音模型的参数。

本申请实施例中，服务器直接通过比较样本语音与唤醒语音模型所生成的预测语音，基于二者的差异来更新唤醒语音模型的参数，能够更加简便高效地训练得到唤醒语音模型。

在一些实施例中，参见图8，图8是本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法的一个可选的流程示意图，基于图4，还可以执行：

步骤301，服务器获取携带第一分类标签的唤醒语音、以及携带第二分类标签的负例语音。其中，所述第一分类标签指示所述唤醒语音与所述唤醒文本相匹配，所述第二分类标签指示所述负例语音与所述唤醒文本不匹配。

步骤302，基于携带第一分类标签的唤醒语音及携带第二分类标签的负例语音，构建训练样本集合，并基于所述训练样本集合训练语音分类模型。其中，所述语音分类模型，用于对输入的待匹配语音进行分类，输出与唤醒文本是否匹配的分类结果。

参见图9，图9是本申请实施例提供的语音分类模型的一个可选地结构示意图。在实际实施时，服务器在获得唤醒语音及负例语音后，分别将唤醒语音及负例语音进行频谱转换，得到相应的唤醒语音频谱及负例语音频谱，并对唤醒语音频谱添加第一分类标签并对负例语音频谱添加第二分类标签。然后基于携带第一分类标签的唤醒语音频谱及携带第二分类标签的负例语音频谱构建训练样本集合，通过训练样本集合训练语音分类模型。这里，语音分类模型为一个二分类模型，通过卷积层分别提取唤醒语音频谱及负例语音频谱的频谱特征，并通过池化层的池化处理后通过全连接层对唤醒语音频谱及负例语音频谱进行分类，并通过输入层的softmax函数将全连接层的输出映射为最终的分类结果，得到唤醒语音对应的分类结果及负例语音对应的分类结果，然后基于唤醒语音对应的分类结果及负例语音对应的分类结果与第一分类标签及第二分类标签的差异，更新语音分类模型各个层的参数，以对语音分类模型进行训练。

在实际实施时，在语音分类模型训练完成后，服务器响应于针对待匹配语音的语音匹配请求，将待匹配语音输入至语音分类模型，通过语言分类模型对待匹配语音进行分类，得到相应的分类结果，然后将分类结果发送至终端，当分类结果指示待匹配语音与唤醒文本相匹配时，终端唤醒目标程序，当分类结果指示待匹配语音与唤醒文本不匹配时，终端不对目标程序进行唤醒。

在一些实施例中，服务器还对唤醒语音进行鲁棒性增强，通过鲁棒性增强的唤醒语音训练唤醒语音模型。这里，鲁棒性增强可以采用的方式为对唤醒语音添加噪声，或者对唤醒语音进行远场合成，以对唤醒语音增加远场语音效果，通过对唤醒语音添加噪声或者进行远场合成，来增加利用唤醒语音训练得到的唤醒语音模型的鲁棒性。

在一些实施例中，服务器还获取携带第三分类标签的环境语音，基于携带第一分类标签的唤醒语音、携带第二分类标签的负例语音以及携带第三分类标签的环境语音，构建训练样本集合，并基于该训练样本集合训练语音分类模型。这里，语音分类模型则为一个三分类模型，其预测的三种分类结果则包括：与唤醒语音相匹配、与负例语音相匹配及与环境语音相匹配。服务器在对待匹配语音进行分类得到分类结果后，将分类结果发送至终端，当分类结果为待匹配语音与唤醒语音相匹配时，终端则唤醒目标程序，否则，终端不对目标程序进行唤醒。本申请实施例中，通过引入环境语音对待匹配语音进行匹配，来进一步降低目标程序的误醒率。

在一些实施例中，服务器还获取少量的人工录制的唤醒语音及负例语音，基于人工录制的唤醒语音及负例语音、以及本申请实施例合成的唤醒语音及负例语音，构建训练样本集合，以对语音分类模型进行训练。通过加入少量的人工录制语音对唤醒语音模型进行训练，在使用少量人力人本的前提下，进一步提升唤醒语音模型所生成的语音的拟人效果。

下面继续说明本申请实施例提供的应用唤醒方法，在实际应用中，本申请实施例提供的应用唤醒方法可以实施于终端内，还可以实施于服务器内，或者由终端和服务器协同实施，下面将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的应用唤醒方法。参见图10，图10是本申请实施例提供的应用唤醒方法的一个可选的流程示意图，将结合图10示出的步骤进行说明。

步骤401，服务器接收到携带待匹配语音的应用唤醒指令，所述应用唤醒指令用于指示唤醒目标程序。

在实际实施时，终端可以通过设置于其内部的麦克风采集待匹配语音，并在采集到待匹配语音时，生成携带待匹配语音的应用唤醒指令，将应用唤醒指令发送至服务器。在一些实施例中，终端还可以通过与终端通信连接的外部麦克风采集待匹配语音。

步骤402，响应于所述应用唤醒指令，将所述待匹配语音与唤醒语音进行匹配。其中，所述唤醒语音基于预测语音参数进行语音合成得到，所述预测语音参数，通过唤醒语音模型，基于不同用户的语音及唤醒文本进行语音参数预测得到。

需要说明的是，服务器在接收到应用唤醒指令后，响应于该应用唤醒指令，将待匹配语音与存储于服务器本地的唤醒语音进行匹配。这里，服务器可以通过硬匹配的方式直接将待匹配语音与唤醒语音进行匹配，还可以采用本申请实施例提供的语音分类模型，预测待匹配语音与唤醒语音的匹配度。

在一些实施例中，服务器本地还存储有负例语音及环境语音，服务器依次将待匹配语音与本地存储的所有语音进行匹配，以得到待匹配语音与各语音的匹配结果。

步骤403，当所述待匹配语音与所述唤醒语音匹配成功时，唤醒所述目标程序。

当待匹配语音与唤醒语音匹配成功时，则唤醒目标程序，若待匹配语音与唤醒语音匹配不成功，则不对目标程序进行唤醒，或者当待匹配语音与负例语音或者环境语音匹配成功，不对目标程序进行唤醒。

本申请实施例中，通过将待匹配语音与基于预测语音参数进行语音合成得到的唤醒语音进行匹配，当匹配成功时唤醒目标程序，在对目标程序的唤醒过程中，仅需进行语音匹配而无需进行语音识别，设备的计算量低，且唤醒语音为基于预测语音参数进行语音合成得到，而该预测语音参数通过唤醒语音模型基于用于语音及唤醒文本进行语音参数预测得到，无需人工进行录制，节省了时间人力成本。

接下来继续对本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法进行介绍，本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法由终端和服务器协同实施。参见图11，图11是本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法的一个可选的流程示意图，本申请实施例提供的基于唤醒语音模型的唤醒语音合成方法包括：

步骤501，终端呈现唤醒文本设置界面，并在唤醒文本设置界面呈现用于设置唤醒文本的设置功能项。

在实际实施时，用户可以通过终端的人机交互界面，发出启动唤醒文本设置界面的启动操作，终端则响应于用户触发的启动操作，呈现唤醒文本设置界面。示例性地，参见图12，图12是本申请实施例提供的唤醒文本设置界面的一个可选的示意图。其中，该唤醒文本设置界面内呈现有针对至少一种应用的唤醒文本的设置功能项，例如图示的应用1～应用5等五个应用。

步骤502，终端响应于基于设置功能项触发的设置操作，获得唤醒文本。

需要说明的是，唤醒文本设置界面内呈现有针对唤醒文本的设置功能项，终端响应于针对设置功能项触发的设置操作，呈现唤醒文本输入界面，并在唤醒文本输入界面内呈现唤醒文本输入功能项，终端响应于针对唤醒文本输入功能项的触发操作，获取输入的唤醒文本。示例性地，参见图13，图13是本申请实施例提供的唤醒文本输入界面的一个可选的示意图。用户通过点击唤醒文本设置界面中针对“应用1”的设置功能项，触发针对“应用1”的设置操作，终端则响应于该设置操作，呈现针对“应用1”的唤醒文本输入界面，并在唤醒文本输入界面呈现唤醒文本输入功能项130。用户即可基于唤醒文本输入功能项输入相应的唤醒文本，如图13示出的“你好，小七”等。终端则响应于针对唤醒文本输入功能项的输入操作，获取输入的唤醒文本。

在一些实施例中，终端还可以在唤醒文本输入界面内呈现多个唤醒文本的选择功能项，终端响应于针对选择功能项的触发操作，获得所选择的唤醒文本。这里，一个选择功能项对应一个唤醒文本。在实际实施时，唤醒文本可以针对不同应用进行对应设置，对于同一应用可以对应设置一个或多个唤醒文本。示例性地，参见图13，终端在唤醒文本输入界面内还呈现有针对唤醒文本新的增功能项131，用户可以通过点击该唤醒文本的新增功能项触发对唤醒文本输入功能项的新增操作，终端响应于该新增操作，在唤醒文本输入界面内添加新的唤醒文本输入功能项132。

这里的应用包括终端内的所有程序，比如终端的屏幕唤醒程序，即可以通过匹配唤醒语音，将终端从待机的黑屏状态唤醒为屏幕点亮状态。示例性地，参见图14，图14是本申请实施例提供的目标程序唤醒界面的一个可选的示意图，该目标程序为智能机器人程序，当待匹配语音与唤醒文本相匹配时，终端则呈现该智能机器人呈现的人机交互界面，作为该目标程序的唤醒界面。

步骤503，终端发送唤醒文本至服务器。

步骤504，服务器获取不同用户的语音，并基于不同用户的语音及唤醒文本进行语音，通过唤醒语音模型进行语音合成，得到相应的唤醒语音及负例语音。

在实际实施时，服务器在接收到终端发送的唤醒文本后，触发对唤醒语音的语音合成指令，并响应于该语音合成指令，从网页中爬取用户语音库，获得大量用户语音。接着，服务器基于用户语音及唤醒文本，分别进行唤醒语音及负例语音的合成。这里，服务器对唤醒语音及负例语音的合成过程参见本申请上述实施例提供的基于唤醒语音模型的唤醒语音合成方法，在此不再赘述。

步骤505，服务器基于唤醒语音及负例语音构建训练样本集，并基于训练样本集训练语音分类模型。

在一些实施例中，服务器还获取环境语音，基于环境语音、唤醒语音及负例语音构建训练样本集训练语音分类模型。这里，对语音基于唤醒语音模型的唤醒语音合成过程参见本申请上述实施例提供的基于唤醒语音模型的唤醒语音合成方法，在此不再赘述。

步骤506，服务器发送语音分类模型至终端。

步骤507，终端采集到待匹配语音，通过语音分类模型，对待匹配语音进行语音分类，以将待匹配语音与唤醒语音进行匹配。

在实际实施时，终端基于其内部的麦克风实时进行语音采集，在采集到待匹配语音后，通过语音分类模型，对待匹配语音进行语音分类，以将待匹配语音与唤醒语音进行匹配。

步骤508，当所述待匹配语音与所述唤醒语音匹配成功时，唤醒目标程序。

在实际实施时，当语音分类模型的分类结果表征待匹配语音与目标唤醒文本相匹配时，表示待匹配语音与唤醒语音匹配成功，终端则唤醒与该目标唤醒文本对应的目标程序。示例性地，若目标程序为终端的屏幕唤醒程序，终端则将屏幕从黑屏状态唤醒为点亮状态。若目标程序为智能机器人应用，终端则唤醒该智能机器人应用，使终端从当前的使用界面切换至该智能机器人应用的人机交互界面。本申请实施例不对目标程序的类型及唤醒目标程序的形式作具体限定。

下面继续说明本申请实施例提供的基于唤醒语音模型的唤醒语音合成装置555的实施为软件模块的示例性结构，在一些实施例中，如图15所示，图15是本申请实施例提供的应用唤醒装置的一个可选的结构示意图，所述唤醒语音模型包括声纹提取层、音素转换层及预测层，存储在存储器540的基于唤醒语音模型的唤醒语音合成装置555中的软件模块可以包括：

声纹提取模块5551，用于通过所述声纹提取层，对不同用户的语音进行声纹特征提取，得到相应的用户声纹；

音素转换模块5552，用于通过所述音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列；

预测模块5553，用于基于所述用户声纹和所述唤醒音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数；

语音合成模块5554，用于基于所述预测语音参数进行语音合成，得到相应的唤醒语音；

其中，所述唤醒语音，用于在与待匹配语音匹配成功时，唤醒目标程序。

在一些实施例中，所述语音合成模块5554，还用于基于所述预测语音参数进行频谱转换，得到相应的语音频谱；基于所述语音频谱进行语音编码，得到相应的唤醒语音。

在一些实施例中，所述基于唤醒语音模型的唤醒语音合成装置，还包括：语音匹配模块，用于获取与所述唤醒文本不匹配的负例音素序列；基于所述负例音素序列，进行语音合成得到所述唤醒文本对应的负例语音；响应于针对待匹配语音的语音匹配请求，将所述待匹配语音分别与所述唤醒语音、所述负例语音进行匹配，得到匹配结果；发送所述匹配结果，以在所述匹配结果表征所述待匹配语音与所述负例语音匹配成功时，不对目标程序进行唤醒。

在一些实施例中，所述音素转换模块，还用于获取重读参数及停顿参数中的至少之一作为读音参数；基于所述读音参数，通过所述音素转换层，对唤醒文本进行音素转换，得到相应的唤醒音素序列。

在一些实施例中，所述基于唤醒语音模型的唤醒语音合成装置，还包括：泛化模块，用于获取语速参数、音高参数及音量参数中的至少之一作为语音泛化参数；基于所述语音泛化参数，对所述唤醒语音进行语音泛化处理，得到泛化后的唤醒语音。

在一些实施例中，所述基于唤醒语音模型的唤醒语音合成装置，还包括：语音匹配模块，用于接收针对待匹配语音的语音匹配请求；响应于所述语音匹配请求，对所述待匹配语音的波形特征与所述唤醒语音的波形特征进行比对，以确定所述待匹配语音与所述唤醒语音的相似度；发送确定的所述相似度，以在所述相似度达到相似度阈值时，唤醒目标程序。

在一些实施例中，所述基于唤醒语音模型的唤醒语音合成装置，还包括：语音分类模型训练模块，用于获取携带第一分类标签的唤醒语音、以及携带第二分类标签的负例语音；其中，所述第一分类标签指示所述唤醒语音与所述唤醒文本相匹配，所述第二分类标签指示所述负例语音与所述唤醒文本不匹配；基于携带第一分类标签的唤醒语音及携带第二分类标签的负例语音，构建训练样本集合，并基于所述训练样本集合训练语音分类模型；其中，所述语音分类模型，用于对输入的待匹配语音进行分类，输出与唤醒文本是否匹配的分类结果。

在一些实施例中，所述唤醒语音模型还包括语音合成层，所述语音合成模块5554，还用于基于所述预测语音参数，通过所述语音合成层，进行语音合成，得到相应的唤醒语音。

在一些实施例中，唤醒语音模型训练模块，用于通过所述声纹提取层，对样本语音进行声纹特征提取，得到相应的样本声纹；其中，所述样本语音携带语音参数标签；通过所述音素转换层，对所述样本语音对应的样本文本进行音素转换，得到相应的样本音素序列；基于所述样本声纹和所述样本音素序列，通过所述预测层，进行语音参数预测，得到相应的预测语音参数；基于所述预测语音参数与所述语音参数标签之间的差异，更新所述唤醒语音模型的模型参数。

下面继续说明本申请实施例提供的应用唤醒装置实施为软件模块的示例性结构，参见图16，图16是本申请实施例提供的应用唤醒装置的一个可选的结构示意图，本申请实施例提供的应用唤醒装置16包括：

接收模块161，用于接收到携带待匹配语音的应用唤醒指令，所述应用唤醒指令用于指示唤醒目标程序；

匹配模块162，用于响应于所述应用唤醒指令，将所述待匹配语音与唤醒语音进行匹配；

唤醒模块163，用于当所述待匹配语音与所述唤醒语音匹配成功时，唤醒所述目标程序。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。

本申请实施例提供了一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现本申请实施例提供的基于唤醒语音模型的唤醒语音合成或者应用唤醒方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的基于唤醒语音模型的唤醒语音合成或者应用唤醒方法。

在一些实施例中，计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(html，hypertextmarkuplanguage)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例能够高效地生成具有拟人效果的唤醒语音，节省了时间和人力成本。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法与流程

相关文章

最热文献