语音合成方法及装置与流程

2021-12-14 20:51:00 来源：中国专利 TAG：

1.本技术属于终端人工智能技术领域及从文本到语音技术领域，尤其涉及一种语音合成方法及装置。

背景技术：

2.随着人工智能技术的不断发展，终端设备不但可以接收用户发出的语音信息，还可以向用户播放语音信息，用户无需查阅终端设备展示的文字，仅通过听觉就可以获知终端设备展示的信息。
3.相关技术中，终端设备可以获取待转换文本，并对待转换文本进行特征提取，得到语言特征，再通过语言特征确定待转换文本对应的每个音素的音素时长，最后根据各个音素时长和语言特征生成语音数据。
4.但是，终端设备在合成语音数据的过程中，针对同一待转换文本，多次生成的语音数据均是相同的，导致语音合成过于机械化。

技术实现要素：

5.本技术实施例提供了一种语音合成方法及装置，可以解决语音合成过于机械化的问题。
6.第一方面，本技术实施例提供了一种语音合成方法，包括：
7.确定待转换文本对应的每个音素的时长范围；
8.将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长；
9.根据所述待转换文本和每个所述音素的音素时长，生成语音数据。
10.在第一方面的第一种可能的实现方式中，所述确定待转换文本对应的每个音素的时长范围，包括：
11.确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度；
12.根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个所述音素的时长范围。
13.基于第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，包括：
14.将所述待转换文本输入预先设置的文本分析模型，得到所述文本分析模型输出的每个所述音素的发音时长分布密度；
15.将所述待转换文本输入预先设置的时长模型，得到所述时长模型输出的每个所述音素的平均发音时长和发音时长方差。
16.基于第一方面的第一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个
所述音素的时长范围，包括：
17.根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，通过正态分布算法确定每个所述音素的时长范围。
18.在第一方面的第四种可能的实现方式中，所述将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长，包括：
19.对于每个所述音素，根据所述音素对应的文字在所述待转换文本中的位置，获取所述音素的文本语义信息；
20.基于所述音素的时长范围和所述音素的文本语义信息，确定所述音素的音素时长。
21.在第一方面的第五种可能的实现方式中，所述将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长，包括：
22.获取用户数据，所述用户数据包括用户的年龄信息和性格信息；
23.基于所述音素的时长范围和所述用户数据，确定每个所述音素的音素时长。
24.基于第一方面的任意一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述根据所述待转换文本和每个所述音素的音素时长，生成语音数据，包括：
25.根据所述待转换文本和每个所述音素的音素时长，通过预先设置的声学模型和声码器生成所述语音数据。
26.第二方面，本技术实施例提供了一种语音合成装置，包括：
27.范围确定模块，用于确定待转换文本对应的每个音素的时长范围；
28.时长确定模块，用于将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长；
29.生成模块，用于根据所述待转换文本和每个所述音素的音素时长，生成语音数据。
30.在第二方面的第一种可能的实现方式中，所述范围确定模块，具体用于确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度；根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个所述音素的时长范围。
31.基于第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述范围确定模块，还具体用于将所述待转换文本输入预先设置的文本分析模型，得到所述文本分析模型输出的每个所述音素的发音时长分布密度；将所述待转换文本输入预先设置的时长模型，得到所述时长模型输出的每个所述音素的平均发音时长和发音时长方差。
32.基于第二方面的第一种可能的实现方式，在第二方面的第三种可能的实现方式中，所述范围确定模块，还具体用于根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，通过正态分布算法确定每个所述音素的时长范围。
33.在第二方面的第四种可能的实现方式中，所述时长确定模块，具体用于对于每个所述音素，根据所述音素对应的文字在所述待转换文本中的位置，获取所述音素的文本语义信息；基于所述音素的时长范围和所述音素的文本语义信息，确定所述音素的音素时长。
34.在第二方面的第五种可能的实现方式中，所述时长确定模块，具体用于获取用户数据，所述用户数据包括用户的年龄信息和性格信息；基于所述音素的时长范围和所述用
户数据，确定每个所述音素的音素时长。
35.基于第二方面的任意一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述生成模块，具体用于根据所述待转换文本和每个所述音素的音素时长，通过预先设置的声学模型和声码器生成所述语音数据。
36.第三方面，本技术实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的语音合成方法。
37.第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的语音合成方法。
38.第五方面，本技术实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的语音合成方法。
39.第六方面，本技术实施例提供了一种芯片系统，所述芯片系统包括处理器，所述处理器与存储器耦合，所述处理器执行存储器中存储的计算机程序，以实现如上述第一方面中任一项所述的语音合成方法。
40.其中，所述芯片系统可以为单个芯片，或者多个芯片组成的芯片模组。
41.本技术实施例与现有技术相比存在的有益效果是：
42.本技术实施例通过确定待转换文本对应的每个音素的时长范围，再将每个音素的时长范围中的任一时长，确定为相对应的音素的音素时长，最后根据待转换文本和每个音素的音素时长，生成语音数据。针对相同待转换文本的多个语音数据，多个语音数据中同一音素的音素时长可能基于相同的时长范围取值不同，则可以合成得到多种不同的语音数据，避免了针对同一待转换文本每次合成得到相同的语音数据，降低了语音合成的机械性，提高了语音合成的自然度和多样性。
附图说明
43.图1是本技术实施例提供的语音合成方法所涉及的一种语音合成场景的场景示意图；
44.图2是本技术实施例提供的语音合成方法所涉及的另一种语音合成场景的场景示意图；
45.图3是本技术实施例提供的一种终端设备的结构框图；
46.图4是本技术实施例提供的一种语音合成方法的示意性流程图；
47.图5是本技术实施例提供的一种确定音素的时长范围的示意性流程图；
48.图6是本技术实施例提供的一种时长范围的示意图；
49.图7是本技术实施例提供的一种语音合成装置的结构框图。
具体实施方式
50.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电
路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
51.以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本技术的限制。如在本技术的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本技术实施例中，“一个或多个”是指一个、两个或两个以上；“和/或”，描述关联对象的关联关系，表示可以存在三种关系；例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b的情况，其中a、b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
52.本技术实施例提供的语音合成方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本、个人数字助理(personal digital assistant，pda)等终端设备上，本技术实施例对终端设备的具体类型不作任何限制。
53.例如，所述终端设备可以是wlan中的站点(staion，st)，可以是蜂窝电话、无绳电话、会话启动协议(session initiationprotocol，sip)电话、无线本地环路(wireless local loop，wll)站、个人数字处理(personal digital assistant，pda)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box，stb)、用户驻地设备(customer premise equipment，cpe)和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5g网络中的移动终端或者未来演进的公共陆地移动网络(public land mobile network，plmn)网络中的移动终端等。
54.作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。
55.图1是本技术实施例提供的语音合成方法所涉及的一种语音合成场景的场景示意图，参见图1，该语音合成场景中可以包括终端设备110，终端设备110可以获取待转换文本，并对待转换文本对应的每个音素的音素时长进行调整，从而可以基于同一待转换文本生成不同的语音数据。
56.在一种可能的实现方式中，终端设备110可以获取待转换文本，并将待转换文本分别输入预先训练的文本分析模型和时长模型，得到待转换文本对应的每个音素的平均发音时长、发音时长方差和发音时长分布密度，从而可以基于正态分布规则，根据每个音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个音素的时长范围。
57.之后，终端设备110可以再基于每个音素的时长范围，结合每个音素在待转换文本中对应的文本语义信息，和/或，预先存储的包括用户年龄信息和性格信息的用户数据，将
时长范围中的任一时长确定为各个音素的音素时长，从而根据各个音素时长和待转换文本，生成语音数据。
58.其中，平均发音时长用于表示针对同一音素的各个音素时长的平均值，该发音时长方差用于表示同一音素的各个音素时长与平均发音时长的差异程度，发音时长分布密度用于表示同一音素对应不同音素时长的概率。
59.另外，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，以拼音的发音规则为例，可以将每个文字的拼音所对应的声母作为一个音素，拼音的韵母作为另一个音素，如“天气”中，文字“天”对应的音素可以包括“t”和“ian”，文字“气”对应的音素可以包括“q”和“i”。
60.需要说明的是，在实际应用中，参见图2，语音合成场景中还可以包括服务器120，终端设备110可以与服务器120连接，使得服务器120可以对待转换文本进行转换，得到基于同一待转换文本的不同语音数据。
61.在生成语音数据的过程中，终端设备110可以先向服务器120发送待转换文本，服务器120可以根据待转换文本确定各个音素的时长范围，再结合待转换文本的语义信息以及预先存储的用户数据，可以从各个时长范围确定各个音素的音素时长，从而可以根据各个音素时长以及待转换文本生成语音数据，并向终端设备110发送生成的语音数据，则终端设备110可以接收并播放服务器120生成的语音数据。
62.为了简便说明，下述实施例仅是以语音合成场景中包括终端设备110，不包括服务器120为例进行说明，而在实际应用中，不但可以通过终端设备110转换得到语音数据，还可以通过服务器120转换得到语音数据，本技术实施例对此不做限定。
63.图3是本技术实施例提供的一种终端设备的结构框图。参考图3，终端设备可以包括处理器310，外部存储器接口320，内部存储器321，通用串行总线(universal serial bus，usb)接口330，充电管理模块340，电源管理模块341，电池342，天线1，天线2，移动通信模块350，无线通信模块360，音频模块370，扬声器370a，受话器370b，麦克风370c，耳机接口370d，传感器模块380，按键390，马达391，指示器392，摄像头393，显示屏394，以及用户标识模块(subscriber identification module，sim)卡接口395等。其中传感器模块380可以包括压力传感器380a，陀螺仪传感器380b，气压传感器380c，磁传感器380d，加速度传感器380e，距离传感器380f，接近光传感器380g，指纹传感器380h，温度传感器380j，触摸传感器380k，环境光传感器380l，骨传导传感器380m等。
64.可以理解的是，本发明实施例示意的结构并不构成对终端设备的具体限定。在本技术另一些实施例中，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。
65.处理器310可以包括一个或多个处理单元，例如：处理器310可以包括应用处理器(application processor，ap)，调制解调处理器，图形处理器(graphics processing unit，gpu)，图像信号处理器(image signal processor，isp)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，dsp)，基带处理器，和/或神经网络处理器(neural-network processing unit，npu)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。
66.其中，控制器可以是终端设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。
67.处理器310中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器310中的存储器为高速缓冲存储器。该存储器可以保存处理器310刚用过或循环使用的指令或数据。如果处理器310需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器310的等待时间，因而提高了系统的效率。
68.在一些实施例中，处理器310可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，i2c)接口，集成电路内置音频(inter-integrated circuit sound，i2s)接口，脉冲编码调制(pulse code modulation，pcm)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，uart)接口，移动产业处理器接口(mobile industry processor interface，mipi)，通用输入输出(general-purpose input/output，gpio)接口，用户标识模块(subscriber identity module，sim)接口，和/或通用串行总线(universal serial bus，usb)接口等。
69.i2c接口是一种双向同步串行总线，包括一根串行数据线(serial data line，sda)和一根串行时钟线(derail clock line，scl)。在一些实施例中，处理器310可以包含多组i2c总线。处理器310可以通过不同的i2c总线接口分别耦合触摸传感器380k，充电器，闪光灯，摄像头393等。例如：处理器310可以通过i2c接口耦合触摸传感器380k，使处理器310与触摸传感器380k通过i2c总线接口通信，实现终端设备的触摸功能。
70.i2s接口可以用于音频通信。在一些实施例中，处理器310可以包含多组i2s总线。处理器310可以通过i2s总线与音频模块370耦合，实现处理器310与音频模块370之间的通信。在一些实施例中，音频模块370可以通过i2s接口向无线通信模块360传递音频信号，实现通过蓝牙耳机接听电话的功能。
71.pcm接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块370与无线通信模块360可以通过pcm总线接口耦合。在一些实施例中，音频模块370也可以通过pcm接口向无线通信模块360传递音频信号，实现通过蓝牙耳机接听电话的功能。所述i2s接口和所述pcm接口都可以用于音频通信。
72.uart接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，uart接口通常被用于连接处理器310与无线通信模块360。例如：处理器310通过uart接口与无线通信模块360中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块370可以通过uart接口向无线通信模块360传递音频信号，实现通过蓝牙耳机播放音乐的功能。
73.mipi接口可以被用于连接处理器310与显示屏394，摄像头393等外围器件。mipi接口包括摄像头串行接口(camera serial interface，csi)，显示屏串行接口(display serial interface，dsi)等。在一些实施例中，处理器310和摄像头393通过csi接口通信，实现终端设备的拍摄功能。处理器310和显示屏394通过dsi接口通信，实现终端设备的显示功能。
74.gpio接口可以通过软件配置。gpio接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，gpio接口可以用于连接处理器310与摄像头393，显示屏394，无线通信模块360，音频模块370，传感器模块380等。gpio接口还可以被配置为i2c接口，i2s接
local area networks，wlan)(如无线保真(wireless fidelity，wi-fi)网络)，蓝牙(bluetooth，bt)，全球导航卫星系统(global navigation satellite system，gnss)，调频(frequency modulation，fm)，近距离无线通信技术(near field communication，nfc)，红外技术(infrared，ir)等无线通信的解决方案。无线通信模块360可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块360经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器310。无线通信模块360还可以从处理器310接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。
84.在一些实施例中，终端设备的天线1和移动通信模块350耦合，天线2和无线通信模块360耦合，使得终端设备可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，gsm)，通用分组无线服务(general packet radio service，gprs)，码分多址接入(code division multiple access，cdma)，宽带码分多址(wideband code division multiple access，wcdma)，时分码分多址(time-division code division multiple access，td-scdma)，长期演进(long term evolution，lte)，bt，gnss，wlan，nfc，fm，和/或ir技术等。所述gnss可以包括全球卫星定位系统(global positioning system，gps)，全球导航卫星系统(global navigation satellite system，glonass)，北斗卫星导航系统(beidou navigation satellite system，bds)，准天顶卫星系统(quasi-zenith satellite system，qzss)和/或星基增强系统(satellite based augmentation systems，sbas)。
85.终端设备通过gpu，显示屏394，以及应用处理器等实现显示功能。gpu为图像处理的微处理器，连接显示屏394和应用处理器。gpu用于执行数学和几何计算，用于图形渲染。处理器310可包括一个或多个gpu，其执行程序指令以生成或改变显示信息。
86.显示屏394用于显示图像，视频等。显示屏394包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，lcd)，有机发光二极管(organic light-emitting diode，oled)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，amoled)，柔性发光二极管(flex light-emitting diode，fled)，miniled，microled，micro-oled，量子点发光二极管(quantum dot light emitting diodes，qled)等。在一些实施例中，终端设备可以包括1个或n个显示屏394，n为大于1的正整数。
87.终端设备可以通过isp，摄像头393，视频编解码器，gpu，显示屏394以及应用处理器等实现拍摄功能。
88.isp用于处理摄像头393反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给isp处理，转化为肉眼可见的图像。isp还可以对图像的噪点，亮度，肤色进行算法优化。isp还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，isp可以设置在摄像头393中。
89.摄像头393用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，cmos)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb，yuv等格式的图像信号。在一些实施例中，
终端设备可以包括1个或n个摄像头393，n为大于1的正整数。
90.数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。
91.视频编解码器用于对数字视频压缩或解压缩。终端设备可以支持一种或多种视频编解码器。这样，终端设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(movingpicture experts group，mpeg)1，mpeg2，mpeg3，mpeg4等。
92.npu为神经网络(neural-network，nn)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过npu可以实现终端设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。
93.外部存储器接口320可以用于连接外部存储卡，例如micro sd卡，实现扩展终端设备的存储能力。外部存储卡通过外部存储器接口320与处理器310通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。
94.内部存储器321可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器310通过运行存储在内部存储器321的指令，从而执行终端设备的各种功能应用以及数据处理。内部存储器321可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器321可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，ufs)等。
95.终端设备可以通过音频模块370，扬声器370a，受话器370b，麦克风370c，耳机接口370d，以及应用处理器等实现音频功能。例如音乐播放，录音等。
96.音频模块370用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块370还可以用于对音频信号编码和解码。在一些实施例中，音频模块370可以设置于处理器310中，或将音频模块370的部分功能模块设置于处理器310中。
97.扬声器370a，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备可以通过扬声器370a收听音乐，或收听免提通话。
98.受话器370b，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备接听电话或语音信息时，可以通过将受话器370b靠近人耳接听语音。
99.麦克风370c，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风370c发声，将声音信号输入到麦克风370c。终端设备可以设置至少一个麦克风370c。在另一些实施例中，终端设备可以设置两个麦克风370c，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备还可以设置三个，四个或更多麦克风370c，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。
100.耳机接口370d用于连接有线耳机。耳机接口370d可以是usb接口330，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，omtp)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the usa，
ctia)标准接口。
101.压力传感器380a用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器380a可以设置于显示屏394。压力传感器380a的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器380a，电极之间的电容改变。终端设备根据电容的变化确定压力的强度。当有触摸操作作用于显示屏394，终端设备根据压力传感器380a检测所述触摸操作强度。终端设备也可以根据压力传感器380a的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。
102.陀螺仪传感器380b可以用于确定终端设备的运动姿态。在一些实施例中，可以通过陀螺仪传感器380b确定终端设备围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器380b可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器380b检测终端设备抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端设备的抖动，实现防抖。陀螺仪传感器380b还可以用于导航，体感游戏场景。
103.气压传感器380c用于测量气压。在一些实施例中，终端设备通过气压传感器380c测得的气压值计算海拔高度，辅助定位和导航。
104.磁传感器380d包括霍尔传感器。终端设备可以利用磁传感器380d检测翻盖皮套的开合。在一些实施例中，当终端设备是翻盖机时，终端设备可以根据磁传感器380d检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。
105.加速度传感器380e可检测终端设备在各个方向上(一般为三轴)加速度的大小。当终端设备静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。
106.距离传感器380f，用于测量距离。终端设备可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端设备可以利用距离传感器380f测距以实现快速对焦。
107.接近光传感器380g可以包括例如发光二极管(led)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端设备通过发光二极管向外发射红外光。终端设备使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端设备附近有物体。当检测到不充分的反射光时，终端设备可以确定终端设备附近没有物体。终端设备可以利用接近光传感器380g检测用户手持终端设备贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器380g也可用于皮套模式，口袋模式自动解锁与锁屏。
108.环境光传感器380l用于感知环境光亮度。终端设备可以根据感知的环境光亮度自适应调节显示屏394亮度。环境光传感器380l也可用于拍照时自动调节白平衡。环境光传感器380l还可以与接近光传感器380g配合，检测终端设备是否在口袋里，以防误触。
109.指纹传感器380h用于采集指纹。终端设备可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。
110.温度传感器380j用于检测温度。在一些实施例中，终端设备利用温度传感器380j
检测的温度，执行温度处理策略。例如，当温度传感器380j上报的温度超过阈值，终端设备执行降低位于温度传感器380j附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端设备对电池342加热，以避免低温导致终端设备异常关机。在其他一些实施例中，当温度低于又一阈值时，终端设备对电池342的输出电压执行升压，以避免低温导致的异常关机。
111.触摸传感器380k，也称“触控面板”。触摸传感器380k可以设置于显示屏394，由触摸传感器380k与显示屏394组成触摸屏，也称“触控屏”。触摸传感器380k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏394提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器380k也可以设置于终端设备的表面，与显示屏394所处的位置不同。
112.骨传导传感器380m可以获取振动信号。在一些实施例中，骨传导传感器380m可以获取人体声部振动骨块的振动信号。骨传导传感器380m也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器380m也可以设置于耳机中，结合成骨传导耳机。音频模块370可以基于所述骨传导传感器380m获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器380m获取的血压跳动信号解析心率信息，实现心率检测功能。
113.按键390包括开机键，音量键等。按键390可以是机械按键。也可以是触摸式按键。终端设备可以接收按键输入，产生与终端设备的用户设置以及功能控制有关的键信号输入。
114.马达391可以产生振动提示。马达391可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏394不同区域的触摸操作，马达391也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
115.指示器392可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。
116.sim卡接口395用于连接sim卡。sim卡可以通过插入sim卡接口395，或从sim卡接口395拔出，实现和终端设备的接触和分离。终端设备可以支持1个或n个sim卡接口，n为大于1的正整数。sim卡接口395可以支持nano sim卡，micro sim卡，sim卡等。同一个sim卡接口395可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。sim卡接口395也可以兼容不同类型的sim卡。sim卡接口395也可以兼容外部存储卡。终端设备通过sim卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备采用esim，即：嵌入式sim卡。esim卡可以嵌在终端设备中，不能和终端设备分离。
117.图4是本技术实施例提供的一种语音合成方法的示意性流程图，作为示例而非限定，该方法可以应用于上述终端设备中，参见图4，该方法包括：
118.步骤401、确定待转换文本对应的每个音素的时长范围。
119.终端设备在生成语音数据的过程中，可以确定待转换文本对应的每个音素的音素时长，并结合待转换文本的语言特征，通过预先设置的声学模型和声码器生成语音数据。而且，在确定音素时长的过程中，可以先确定每个音素的时长范围，以便在后续步骤中，可以
基于时长范围选取不同的音素时长，以提高生成的语音数据的自然度和多样性。
120.在具体实现时，终端设备可以先对待转换文本中的各个音素进行提取，再基于预先训练的模型获取每个音素的发音信息，之后可以根据每个音素的发音信息确定每个音素的时长范围，则参见图5，本步骤401可以包括：步骤401a和步骤401b。
121.401a、确定待转换文本对应的每个音素的平均发音时长、发音时长方差和发音时长分布密度。
122.终端设备可以将待转换文本输入预先训练的模型，通过模型对待转换文本的各个音素进行提取，还可以对待转换文本进行分析，确定每个音素的发音信息，如发音时长、发音时长方差和发音时长分布密度，以便在后续步骤中，可以根据发音信息确定每个音素的发音范围。
123.在通过模型提取音素的过程中，终端设备可以先对待转换文本进行拆分，得到按顺序排列的多个文字，再基于每个文字的发音规则，提取得到每个文字的至少一个音素，在对每个文字的音素提取完毕后，即可得到待转换文本的多个音素。
124.例如，基于拼音的发音规则，终端设备可以将每个文字对应的声母和韵母分别作为该文字的音素，若待转换文本为“今天天气好晴朗”，则该待转换文本的多个音素可以分别为“j”、“in”、“t”、“ian”、“t”、“ian”、“q”、“i”、“h”、“ao”、“q”、“ing”、“l”和“ang”。
125.另外，由于每个音素的发音信息中可以包括不同类型的信息，因而终端设备可以将待转换文本输入不同的模型，以得到不同的发音信息。例如，终端设备可以将待转换文本输入预先设置的文本分析模型，得到文本分析模型输出的每个音素的发音时长分布密度，其中，该文本分析模型可以为深度神经网络(deep neural networks，dnn)模型。和/或，终端设备可以将待转换文本输入预先设置的时长模型，得到时长模型输出的每个音素的平均发音时长和发音时长方差。
126.401b、根据每个音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个音素的时长范围。
127.终端设备在得到每个音素的发音信息后，可以根据预先设置的计算公式，将发音信息所包括的不同参数代入计算公式，从而可以得到每个音素的时长范围。例如，可以假设每个音素的音素时长服从正态分布，则可以根据每个音素的平均发音时长、发音时长方差和发音时长分布密度，通过正态分布算法，采用正态分布的公式进行计算，确定每个音素的时长范围。
128.例如，参见图6，确定第x个音素的平均发音时长为t(x)，发音时长方差为std2(x)，发音时长分布密度为p(x)，则符合公式p(x)＝n(t(x)，std2(x))，通过对x进行求解得到x1和x2，若x1小于x2，则可以将区间[x1，x2]作为第x个音素的时长范围。
[0129]
步骤402、将每个音素的时长范围中的任一时长，确定为相对应的音素的音素时长。
[0130]
终端设备在得到每个音素的时长范围后，可以基于待转换文本中每个音素的文本语义信息、用户性格年龄、或者随机确定每个音素的音素时长，使得终端设备可以基于相同的待转换文本生成不同的语音数据。
[0131]
可选的，对于每个音素，终端设备可以根据音素对应的文字在待转换文本中的位置，获取音素的文本语义信息，再基于音素的时长范围和音素的文本语义信息，确定音素的
音素时长。
[0132]
在一种可能的实现方式中，对于每个音素，终端设备可以先确定该音素所对应的文字，再在待转换文本中，确定该文字所在的语句，分析确定该语句的语义，并结合待转换文字中全部语句所表达的语义，确定该音素的文本语义信息。之后，终端设备可以根据该文本语义信息，从时长范围对应的多个时长中，选取该音素的音素时长。
[0133]
例如，音素的文本语义信息表示开心的情绪，则可以从时长范围中选取短促的时长作为该音素的音素时长。
[0134]
或者，终端设备可以获取用户数据，该用户数据可以包括用户的年龄信息和性格信息，则终端设备可以根据用户的年龄和性格，从各个音素的时长范围中确定每个音素的音素时长，从而生成与用户相匹配的语音信息。
[0135]
在一种可能的实现方式中，终端设备可以获取预先存储的用户数据，或者向服务器请求用户数据，并根据用户数据确定与用户相匹配的语音类型，然后根据用户的语音类型，从时长范围对应的多个时长中，选取该音素的音素时长。
[0136]
例如，用户数据指示用户为中年人、性格沉稳，则与该用户相匹配的语音类型可以为慢条斯理的类型，相应的可以选取悠长的时长作为该音素的音素时长。
[0137]
需要说明的是，在实际应用中，用户数据还可以包括其他表示用户说话类型的信息，例如用户数据可以包括表示用户情绪的搜索数据，还可以包括表示用户最近是否购买商品的购物数据等，本技术实施例对此不做限定。
[0138]
另外，若终端设备可以同时获取文本语义信息和用户数据，则可以进一步按照文本语义信息和用户数据分别对应的权重，确定每个音素的音素时长。但是，若终端设备既无法获取文本语义信息，也无法获取用户数据，则可以按照待转换文本中的各个音素均服从正态分布的情况，按照正态分布的规则确定各个音素的音素时长，本技术实施例对确定音素时长的方式不做限定。
[0139]
步骤403、根据待转换文本和每个音素的音素时长，生成语音数据。
[0140]
终端设备在合成语音数据的过程中，可以采用不同的方式，基于每个音素的音素时长生成语音数据。例如，终端设备可以采用参数法、拼接法或端到端的方式，生成语音数据，而无论采用哪种方式生成语音数据，均可以按照上述方式确定待转换文本对应的每个音素的音素时长。
[0141]
以参数法为例，终端设备可以先按照上述方式确定各个音素的音素时长，再将音素时长和提取的待转换文本的语言特征输入声学模型，得到用于生成语音数据的基频等参数，再通过声码器根据基频等参数生成语音数据。
[0142]
采用拼接法或端到端的方式生成语音数据的过程，与上述参数法生成语音数据的过程类似，在此不再赘述。
[0143]
综上所述，本技术实施例提供的语音合成方法，通过确定待转换文本对应的每个音素的时长范围，再将每个音素的时长范围中的任一时长，确定为相对应的音素的音素时长，最后根据待转换文本和每个音素的音素时长，生成语音数据。针对相同待转换文本的多个语音数据，多个语音数据中同一音素的音素时长可能基于相同的时长范围取值不同，则可以合成得到多种不同的语音数据，避免了针对同一待转换文本每次合成得到相同的语音数据，降低了语音合成的机械性，提高了语音合成的自然度和多样性。
[0144]
而且，通过确定每个音素的时长范围，并在时长范围内选取音素的时长，使得音素时长的取值不会产生巨大偏差，进而可以避免音素时长的取值过大或过小造成语音数据异常的情况，提高了语音合成的稳定性。
[0145]
应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0146]
对应于上文实施例所述的语音合成方法，图7是本技术实施例提供的一种语音合成装置的结构框图，为了便于说明，仅示出了与本技术实施例相关的部分。
[0147]
参照图7，该装置包括：
[0148]
范围确定模块701，用于确定待转换文本对应的每个音素的时长范围；
[0149]
时长确定模块702，用于将该时长范围中的任一时长确定为每个该音素的音素时长；
[0150]
生成模块703，用于根据该待转换文本和每个音素的音素时长，生成语音数据。
[0151]
可选的，该范围确定模块701，具体用于确定该待转换文本对应的每个该音素的平均发音时长、发音时长方差和发音时长分布密度；根据每个该音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个该音素的时长范围。
[0152]
可选的，该范围确定模块701，还具体用于将该待转换文本输入预先设置的文本分析模型，得到该文本分析模型输出的每个该音素的发音时长分布密度；将该待转换文本输入预先设置的时长模型，得到该时长模型输出的每个该音素的平均发音时长和发音时长方差。
[0153]
可选的，该范围确定模块701，还具体用于根据每个音素的平均发音时长、发音时长方差和发音时长分布密度，通过正态分布算法确定每个该音素的时长范围。
[0154]
可选的，该时长确定模块702，具体用于对于每个该音素，根据该音素对应的文字在该待转换文本中的位置，获取该音素的文本语义信息；基于该音素的时长范围和该音素的文本语义信息，确定该音素的音素时长。
[0155]
可选的，该时长确定模块702，具体用于获取用户数据，该用户数据包括用户的年龄信息和性格信息；基于该音素的时长范围和该用户数据，确定每个该音素的音素时长。
[0156]
可选的，该生成模块703，具体用于根据该待转换文本和每个该音素的音素时长，通过预先设置的声学模型和声码器生成该语音数据。
[0157]
综上所述，本技术实施例提供的语音合成装置，通过确定待转换文本对应的每个音素的时长范围，再将每个音素的时长范围中的任一时长，确定为相对应的音素的音素时长，最后根据待转换文本和每个音素的音素时长，生成语音数据。针对相同待转换文本的多个语音数据，多个语音数据中同一音素的音素时长可能基于相同的时长范围取值不同，则可以合成得到多种不同的语音数据，避免了针对同一待转换文本每次合成得到相同的语音数据，降低了语音合成的机械性，提高了语音合成的自然度和多样性。
[0158]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可
以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0159]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0160]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0161]
在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0162]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0163]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0164]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
[0165]
以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于多模态语音识别结果纠错方法及相关设备与流程

语音合成方法及装置与流程

相关文献

最热文献