首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种语音播报方法、装置、设备及介质与流程

2021-07-02 21:13:00 来源：中国专利 TAG：人工智能播报介质语音装置

本发明涉及人工智能技术领域，尤其涉及一种语音播报方法、装置、设备及介质。

背景技术：

随着机器人等智能设备以及人机交互的快速发展，与阅读文字相比，越来越多的机器人采用从文本到语音(texttospeech，tts)的方式，实现将文本输出转换为语音输出，将文字转换为更便利的语音播放方式，从而提高了用户体验。

但是机器人每次使用tts播报前，都需要向服务端获取在线tts，但在获取在线tts的过程中，可能会存在网络较差的场景，例如可能是机器人运动到网络比较差的区域，此时智能设备与服务器的网络中断而导致不能播报在线tts的情况，影响用户体验。

技术实现要素：

本发明提供了一种语音播报方法、装置、设备及介质，用以解决现有技术中智能设备与服务器的网络中断而导致不能播报在线tts，影响用户体验的问题。

本发明提供了一种语音播报方法，所述方法包括：

若所述智能设备与从文本到语音tts服务器的网络连通，将已配置的第一文本信息及表征所述智能设备语音播报的属性信息的至少一个属性值组发送给所述tts服务器；

接收并保存所述tts服务器返回的音频文件，其中，所述音频文件是所述tts服务器根据所述第一文本信息和所述属性值组进行语音合成得到的；

若确定需要进行语音播报，则在已保存的音频文件中查找对应的目标音频文件，并控制所述智能设备播放所述目标音频文件。

在一种可能的实施方式中，所述方法还包括：

若在将所述第一文本信息及所述至少一个属性值组发送给所述tts服务器之后，网络中断，则监测网络状态；

若监测到网络连通，根据已保存的音频文件，确定未合成的数据信息，所述数据信息包括第一文本信息中未合成音频文件的第二文本信息、和/或第一文本信息中未合成音频文件的第一目标属性值组；

将所述数据信息的相关信息发送给所述tts服务器，以使所述tts服务器根据所述数据信息合成音频文件。

在一种可能的实施方式中，所述方法还包括：

接收到针对所述第一文本信息的更新请求，确定更新后的第一文本信息；

若已保存的音频文件中未包含更新后的第一文本信息对应的音频文件，则将所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组发送给所述tts服务器；

接收所述tts服务器根据所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组合成的音频文件并保存。

在一种可能的实施方式中，所述方法还包括：

接收到针对属性信息的属性值的切换请求，确定切换后的第二目标属性值组；

若已保存的音频文件未包含所述第二目标属性值组对应的音频文件，则将所述第一文本信息以及所述第二目标属性值组发送给所述tts服务器；

接收所述tts服务器根据所述第二目标属性值组以及所述第一文本信息合成的音频文件并保存。

在一种可能的实施方式中，所述方法还包括：

若满足第一更新条件，获取已保存的各音频文件被使用的频次，将被使用频次低于设定阈值的音频文件删除；和/或，

若满足第二更新条件，确定所述智能设备当前使用的第三目标属性值组，将除所述第三目标属性值组之外的属性值组对应的音频文件删除。

在一种可能的实施方式中，所述属性信息包括以下至少一种：

发音人角色、语言、tts合成音量、语速以及音频采样率。

在一种可能的实施方式中，所述将已配置的第一文本信息及表征所述智能设备语音播报的属性信息的至少一个属性值组发送给所述tts服务器，包括：

确定所述智能设备当前使用的第三目标属性值组，将已配置的第一文本信息及所述第三目标属性值组发送给所述tts服务器；或者

根据每个所述属性信息的各属性值，确定所述智能设备能够配置的多个属性值组，将已配置的第一文本信息及所述多个属性值组发送给所述tts服务器。

本发明提供了一种语音播报装置，该装置包括：

发送模块，用于若所述智能设备与从文本到语音tts服务器的网络连通，将已配置的第一文本信息及表征所述智能设备语音播报的属性信息的至少一个属性值组发送给所述tts服务器；

接收模块，用于接收并保存所述tts服务器返回的音频文件，其中，所述音频文件是所述tts服务器根据所述第一文本信息和所述属性值组进行语音合成得到的；

处理模块，用于若确定需要进行语音播报，则在已保存的音频文件中查找对应的目标音频文件，并控制所述智能设备播放所述目标音频文件。

在一种可能的实施方式中，所述处理模块，还用于若在将所述第一文本信息及所述至少一个属性值组发送给所述tts服务器之后，网络中断，则监测网络状态；若监测到网络连通，根据已保存的音频文件，确定未合成的数据信息，所述数据信息包括第一文本信息中未合成音频文件的第二文本信息、和/或第一文本信息中未合成音频文件的第一目标属性值组；将所述数据信息的相关信息发送给所述tts服务器，以使所述tts服务器根据所述数据信息合成音频文件。

在一种可能的实施方式中，所述接收模块，还用于接收到针对所述第一文本信息的更新请求，确定更新后的第一文本信息；

所述发送模块，还用于若已保存的音频文件中未包含更新后的第一文本信息对应的音频文件，则将所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组发送给所述tts服务器；

所述接收模块，还用于接收所述tts服务器根据所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组合成的音频文件并保存。

在一种可能的实施方式中，所述接收模块，还用于接收到针对属性信息的属性值的切换请求，确定切换后的第二目标属性值组；

所述发送模块，还用于若已保存的音频文件未包含所述第二目标属性值组对应的音频文件，则将所述第一文本信息以及所述第二目标属性值组发送给所述tts服务器；

所述接收模块，还用于接收所述tts服务器根据所述第二目标属性值组以及所述第一文本信息合成的音频文件并保存。

在一种可能的实施方式中，所述处理模块，还用于若满足第一更新条件，获取已保存的各音频文件被使用的频次，将被使用频次低于设定阈值的音频文件删除；和/或，

若满足第二更新条件，确定所述智能设备当前使用的第三目标属性值组，将除所述第三目标属性值组之外的属性值组对应的音频文件删除。

在一种可能的实施方式中，所述发送模块，具体用于确定所述智能设备当前使用的第三目标属性值组，将已配置的第一文本信息及所述第三目标属性值组发送给所述tts服务器；或者根据每个所述属性信息的各属性值，确定所述智能设备能够配置的多个属性值组，将已配置的第一文本信息及所述多个属性值组发送给所述tts服务器。

本发明提供了一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音播报方法的步骤。

本发明提供了一种计算机可读存储介质，其存储有可由终端执行的计算机程序，当所述程序在所述终端上运行时，使得所述终端执行上述任一项所述语音播报方法的步骤。

在本发明实施例中，若智能设备与tts服务器的网络连通，将已配置的第一文本信息及表征该智能设备语音播报的属性信息的至少一个属性值组发送给tts服务器，接收并保存该tts服务器返回的音频文件，其中，该音频文件是该tts服务器根据该第一文本信息和该属性值组进行语音合成得到的，若确定需要进行语音播报，则在已保存的音频文件中查找对应的目标音频文件，并控制该智能设备播放该目标音频文件。由于本发明实施例中，在网络连通时，将所配置的第一文本信息及表征智能设备语音播报的属性信息的至少一个属性值组发送给tts服务器，并接收并保存该tts服务器根据第一文本信息和属性值组合成的音频文件，因此在确定存在语音播报需求时，即使出现网络中断的情况，也可以在本地保存的音频文件中查找所需要的音频文件进行播放，从而提高用户体验。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一些实施例提供的一种语音播报的过程示意图；

图2为本发明一些实施例提供的一种语音播报的详细过程示意图；

图3为本发明一些实施例提供的一种语音播报装置结构示意图；

图4为本发明一些实施例提供的一种电子设备。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员所获取的所有其他实施例，都属于本发明保护的范围。

为了在智能设备与服务器的网络中断时仍能够进行高质量的播报，提高用户体验，本发明实施例提供了一种语音播报方法、装置、设备及介质。

实施例1：

图1为本发明一些实施例提供的一种语音播报的过程示意图，现针对图1进行说明：

s101：若智能设备与tts服务器的网络连通，将已配置的第一文本信息及表征所述智能设备语音播报的属性信息的至少一个属性值组发送给所述tts服务器。

本发明实施例提供的语音播报方法应用于智能设备，其中该智能设备可以是终端、机器人等设备。

在本发明实施例中，智能设备中部署有tts应用，用户可以基于智能设备中的该tts应用对第一文本信息预先进行配置，在对第一文本信息进行配置时，可以向智能设备发送第一文本信息配置指令，智能设备接收到第一文本信息配置指令后，根据该第一文本信息配置指令中包含的第一文本信息，确定预先进行配置的第一文本信息。其中，该第一文本信息根据智能设备所在应用场景的不同而不同，其中，该应用场景可以为送餐场景、办公场景、博物馆场景以及酒店场景等，例如当前应用场景为送餐场景，则第一文本信息中可以为“祝您用餐愉快”，其中，各个应用场景对应的第一文本信息是根据应用场景需求预先设置完成的。

此外，针对使用频率很高且更换不那么频繁的文本信息，每次设置完成文本信息以及该文本信息的属性信息后，都需要将该文本信息以及文本信息的属性信息发送给tts服务器，加大了tts服务器的工作压力，增大了成本，因此，该第一文本信息为该智能设备的应用场景中使用频率满足第一设定条件的文本信息。

具体实施中，针对该应用场景，选择使用频率最高的文本信息确定为第一文本信息，或者选择使用频率超过设定阈值的文本信息确定为第一文本信息，或者按使用频率排序并选择排在前的n个文本信息确定为第一文本信息，n为设定数目，等等。本发明实施例中不对具体实现方式进行限定。

进一步的，第一文本信息还需要满足更换频率满足第二设定条件，即选择更换不频繁的文本信息。

具体实施中，针对该应用场景，选择设定时间长度内每个子时间段均被使用过的文本信息，或者被使用次数超过设定阈值的文本信息，其中，该时间长度可以连续的，也可以是不连续的，该设定时间长度包括至少两个子时间段。例如，可以是连续n天，则子时间段为每一天，即选择连续n天内每天均被使用过的文本信息，等等。本发明实施例中不对具体实现方式进行限定。

其中，应用场景可以为送餐场景，则用户为餐厅的服务人员或者管理人员，也可以为餐厅内的顾客，若应用场景为博物馆场景，则用户为博物馆的志愿者或者管理人员，也就是说，用户是根据使用的场景不同而灵活变化。

开发人员预先设置该tts应用中可供用户选择的第一文本信息对应的属性信息以及每个属性信息中可以选择的属性值，因此用户在首次使用该tts应用时，可以对该第一文本信息的属性信息的属性值进行配置，也就是说，可以对表征该智能设备语音播报的属性信息的属性值进行配置，如果不对某一或某几个属性信息的属性值进行设置，则将预先保存的该未被配置属性值的属性信息的默认属性值以及已被配置属性值的属性信息的属性值确认为该第一文本信息对应的属性值组，并将该属性值组以及该第一文本信息发送给tts服务器，如果不对所有属性信息的属性值进行设置，则将预先保存的所有未被配置属性值的属性信息的默认属性值确认为该第一文本信息对应的属性值组，并将该属性值组以及该第一文本信息发送给tts服务器。

用户若基于智能设备中的该tts应用对表征该智能设备语音播报的属性信息的属性值组预先进行配置，在对该表征该智能设备语音播报的属性信息的属性值进行配置时，可以向智能设备发送属性值配置指令，智能设备接收属性值配置指令后，根据该属性值指令，确定预先进行配置的属性值组，该属性值组可以为一个，也可以为多个。

其中，该智能设备语音播报的属性信息可能为发音人角色、语言、合成音量、语速以及音频采样率中的至少一个，其中，该发音人角色为进行语音播报的播报人员的角色，该发音人角色的属性值可以为男人、女人、老人、小孩、明星等。该语言为进行语音播报的播报语种，该语言的属性值可以为中文、英语、法语等语种。该tts合成音量为语音播报的播报音量的大小，该tts合成音量的属性值可以为大、中、小，或者具体的播报音量的值。其中，该音频采样率为每秒采样的音频点数，用于改变播放的音频文件的音质。具体的，音频采样率越大，合成的音频文件的音质越高，音频采样率越小，合成的音频文件的音质越低。其中，该音频采样率的属性值为任意数值。在使用的过程中，用户可以根据自身的需求从已配置的属性信息中选择对应的属性值。

此外，用户基于智能设备中的tts应用设置该第一文本信息，以及第一文本信息对应的该表征该智能设备语音播报的属性信息的属性值后，智能设备在确定该第一文本信息以及该至少一个属性值组后，将该第一文本信息与至少一个属性值组存入到智能设备的本地数据库中。

由于该智能设备与tts服务器的网络可能连通，也可能不连通，为了实现智能设备与tts服务器的信息交互，若智能设备与tts服务器的网络连通，则智能设备将该已配置的第一文本信息及表征该智能设备语音播报的属性信息的至少一个属性值组发送给tts服务器。

此外，将已配置的第一文本信息及表征该智能设备语音播报的属性信息的至少一个属性值组发送给tts服务器时，可以将该第一文本信息以及该第一文本信息的一个属性值组发送给tts服务器，也可以将该第一文本信息以及该第一文本信息的多个属性值组发送给tts服务器。tts服务器接收到该合成请求后，根据该第一文本信息以及该第一文本属性对应的属性值组合成音频文件。

s102：接收并保存所述tts服务器返回的音频文件，其中，所述音频文件是所述tts服务器根据所述第一文本信息和所述属性值组进行语音合成得到的。

在本发明中，tts服务器接收到该智能设备发送的第一文本信息及表征该智能设备语音播报的属性信息的至少一个属性值组后，根据该第一文本信息以及每个属性值组进行语音合成，进而合成音频文件。由于该tts服务器合成音频文件的速度特别快，合成音频文件的时间可以忽略不计，因此，基于智能设备中的该tts应发送合成请求，该tts服务器接收到该合成请求可以立即合成音频文件，并将音频文件发送给智能设备，智能设备从tts服务器下载音频文件，并将音频文件保存在本地。具体的，智能设备可以将该音频文件存储在本地的sd卡中，并更新音频文件的存储路径。

此外，在下载的过程中为了减少cpu的工作负担，智能设备每次下载音频文件时，可以下载特定数量的音频文件，且以队列的方式进行下载。

此外，tts服务器可能会收到不止一个tts应用，即多个tts应用发送的合成请求，其中，该多个tts应用部署在同一个智能设备上。tts服务器接收到的第一文本信息以及第一文本信息对应的属性值组有可能会存在重复的情况，为了避免重复合成，智能设备可以查找本地是否保存有基于该第一文本信息以及第一文本信息对应的属性值组合成的音频文件，若存在，也就是在确定根据该第一文本信息以及该第一文本信息对应的属性值组合成过该音频文件后，则确定不需要将该第一文本信息以及该第一文本信息对应的属性值组发送给tts服务器，因此，tts服务器也不需要进行合成音频文件的过程。

或者在本申请中，tts服务器接收到每个tts应用发送的合成请求后，将合成的音频文件可以保存在本地，或者保存到设定设备上，若tts服务器接收到的第一文本信息以及第一文本信息对应的属性值组，与之前接收到的第一文本信息以及第一文本信息对应的属性值组相同，也就是说tts服务器已经根据第一文本信息以及第一文本信息对应的属性值组合成了音频文件，为了避免tts服务器浪费合成音频文件的资源，tts服务器可以将该对应的音频文件的下载地址发送给智能设备，智能设备接收到该下载地址，下载预先存在保存在该tts服务器或其他设定设备上的音频文件。

s103：若确定需要进行语音播报，则在已保存的音频文件中查找对应的目标音频文件，并控制所述智能设备播放所述目标音频文件。

在本发明中，在存在语音播报的需求时，也就是确定进行语音播报，由于该智能设备在本地保存有多个音频文件，则智能设备在本地查找是否存在满足需求的音频文件，其中，该满足需求的音频文件也就是目标音频文件，若在已保存的音频文件中查找到对应的目标音频文件，即可直接控制该智能设备播放该目标音频文件。

在确定需要进行语音播报时，都先基于本地保存的音频查找是否存在该目标音频文件，且若网络中断，由于智能设备基于本地保存的音频文件查找目标音频文件的过程不需要与tts服务器进行信息的交互，因此，在网络中断的情况下也能够查找到目标音频文件，并播放该目标音频文件。

由于本发明实施例中，预先获取并保存tts服务器根据第一文本信息和属性值组合成的音频文件，因此在确定存在语音播报需求时，即使出现网络中断的情况，也可以根据保存的音频文件中查找所需要的音频文件并播放，从而提升用户体验。

实施例2：

为了解决网络中断导致音频文件未全部下载到智能设备中的问题，在上述实施例的基础上，在本发明实施例中，所述方法还包括：

若在将所述第一文本信息及所述至少一个属性值组发送给所述tts服务器之后，网络中断，则监测网络状态；

若监测到网络连通，根据已保存的音频文件，确定未合成的数据信息，所述数据信息包括第一文本信息中未合成音频文件的第二文本信息、和/或第一文本信息中未合成音频文件的第一目标属性值组；以及

将所述数据信息的相关信息发送给所述tts服务器，以使所述tts服务器根据所述数据信息合成音频文件。

在本发明中，由于智能设备在将第一文本信息及该至少一个属性值组发送给所述tts服务器之后，tts服务器将进行音频文件的合成，在tts服务器进行音频文件合成的过程中，或者智能设备将tts服务器合成的音频文件下载到本地的过程中，网路可能出现中断，此时将导致部分或全部音频文件没有下载并保存到本地。

为了保证智能设备本地保存的音频文件的完整，也就是为了获得第一文本信息及该至少一个属性值组合成的全部音频文件，在本发明实施例中，若存在网络中断，则在网络中断后，实时或周期性监测网络状态。当监测到网络连通后，可以基于本地保存的音频文件，确定未合成的数据信息，其中，该数据信息包括有第一文本信息中未合成音频文件的第二文本信息、和/或第一文本信息中未合成音频文件的第一目标属性值组。为了获得所有音频文件，智能设备将该未合成的数据信息的相关信息发送给tts服务器，以使tts服务器根据该数据信息合成音频文件，从而保证智能设备将合成的音频文件下载到本地。

实施例3：

为了方便更改音频文件，在上述各实施例的基础上，在本发明实施例中，所述方法还包括：

接收到针对所述第一文本信息的更新请求，确定更新后的第一文本信息；

若已保存的音频文件中未包含更新后的第一文本信息对应的音频文件，则将所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组发送给所述tts服务器；以及

接收所述tts服务器根据所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组合成的音频文件并保存。

在本发明实施例中，可能会存在对第一文本信息进行更新的需求，若存在对第一文本信息进行更新的需求，则用户可以基于智能设备中的tts应用对第一文本信息进行更新，也就是说，智能设备可以接收针对该第一文本信息的更新请求。在接收到该针对第一文本信息的更新请求后，智能设备确定更新后的第一文本信息。

由于智能设备中保存的音频文件是基于第一文本信息合成的，而已保存的音频文件中可能存在该更新后的第一文本信息对应的音频文件，也可能不存在该更新后的第一文本信息对应的音频文件，若已保存的音频文件中不存在该更新后的第一文本信息对应的音频文件，则说明不能基于该本地保存的音频文件获得所需的音频文件。为了获得所需的音频文件，智能设备将更新后的第一文本信息以及该更新后的第一文本信息的属性信息的属性值组发送给tts服务器。如果对第一文本信息进行更新，则可以认为针对该第一文本的属性信息的属性值不需要进行更新，因此该更新后的第一文本信息的属性值组与更新前的第一文本的属性值组相同。

此外，也可以对第一文本信息更新的同时，对该更新后的第一文本信息的属性信息的属性值进行更新，具体的，可以将该第一文本信息中的发音人角色、语言、tts合成音量、语速以及音频采样率的任一属性信息的属性值进行更新，也可以对该第一文本信息中的发音人角色、语言、tts合成音量、语速以及音频采样率的至少两个属性信息的属性值进行更新。

例如，第一文本信息为“祝您用餐愉快”，该第一文本信息的属性值为发音人角色a、语言a、tts合成音量a、语速a以及音频采样率a，若将该第一文本信息更新“欢迎入住本酒店”，将属性信息中的发音人的属性值由发音人a切换为发音人b，则该更新后的第一文本信息为“欢迎入住本酒店”，该更新后的第一文本信息的属性信息的属性值组为发音人角色b、语言a、tts合成音量a、语速a以及音频采样率a，将该更新后的第一文本信息以及更新后的第一文本信息的属性信息的属性值组发送给tts服务器。

又如，若将该第一文本信息更新为“欢迎入住本酒店”，将属性信息中的发音人的属性值由发音人a切换为发音人b，将属性信息中的tts合成音量的属性值由tts合成音量a切换为tts合成音量b，则该更新后的第一文本信息为“欢迎入住本酒店”，该更新后的第一文本信息的属性信息的属性值组为发音人角色b、语言a、tts合成音量b、语速a以及音频采样率a，将该更新后的第一文本信息以及更新后的第一文本信息的属性信息的属性值组发送给tts服务器。

tts服务器接收到该更新后的第一文本信息以及该更新后的第一文本信息的属性值组后，根据该更新后的第一文本信息以及该更新后的第一文本信息的属性值组合成音频文件，并将合成的音频文件发生给智能设备，智能设备接收该音频文件并保存在本地。

为了方便对属性值的更改，在上述各实施例的基础上，在本发明实施例中，所述方法还包括：

接收到针对属性信息的属性值的切换请求，确定切换后的第二目标属性值组；

若已保存的音频文件未包含所述第二目标属性值组对应的音频文件，则将所述第一文本信息以及所述第二目标属性值组发送给所述tts服务器；以及

接收所述tts服务器根据所述第二目标属性值组以及所述第一文本信息合成的音频文件并保存。

在本发明实施例中，若存在对属性信息的属性值进行切换的需求，则用户可以基于智能设备中的tts应用对属性信息的属性值进行重置，也就是说，智能设备可以接收针对属性信息的属性值的切换请求。在接收到针对属性信息的属性值的切换请求后，确定该切换后的第二目标属性值组。具体的，可以针对一个属性信息的属性值进行切换，也可以针对多个(即两个或两个以上)的属性信息的属性值进行切换。

在对属性信息的属性值进行切换的过程中，在确认第二目标属性值组时，将需要进行切换的属性信息的属性值进行切换，其余的属性信息的属性值保持不变。

由于智能设备中保存的音频文件中是基于属性值组合成的，而已保存的音频文件中可能存在该切换后的第二目标属性值组对应的音频文件，也可能不存在该切换后的第二目标属性值组对应的音频文件，若已保存的音频文件中不存在该切换后的第二目标属性值组对应的音频文件，则说明不能基于该本地保存的音频文件获得所需的音频文件。为了获得所需的音频文件，智能设备将第一文本信息以及该第二目标属性值组发送给tts服务器。

tts服务器接收到该第一文本信息以及该第二目标属性值组后，根据该更第一文本信息以及该第二目标属性值组合成音频文件，并将合成得音频文件发生给智能设备，智能设备接收该音频文件并保存在本地。

为了准确的确定属性信息，在上述各实施例的基础上，在本发明实施例中，所述属性信息包括以下至少一种：

发音人角色、语言、tts合成音量、语速以及音频采样率。

在本发明中，该属性信息可以为发音人角色、语言、tts合成音量、语速以及音频采样率中的至少一种，其中，该发音人角色为进行语音播报的播报人员的角色，该发音人角色的属性值可以为男人、女人、老人、小孩、明星等。该语言为进行语音播报的播报语种，该语言的属性值可以为中文、英语、法语等语种。该tts合成音量为语音播报的播报音量的大小，该tts合成音量的属性值可以为大、中、小，或者具体的播报音量的值。该音频采样率为每秒采样的音频点数，用于改变播放的音频文件的音质，具体的，音频采样率越大，合成的音频文件的音质越高，音频采样率越小，合成的音频文件的音质越低，其中，该音频采样率的属性值为任意数值。

在本发明中，开发人员预先设置了各个属性信息的属性值的所有可能匹配的属性值组，其中，针对任一属性信息的属性值，该属性值可能与除该属性信息外的其他属性信息中的部分属性值能够进行匹配，该属性值也可能与除该属性信息外的其他属性信息中的全部属性值能够进行匹配，具体的，各个属性信息的属性值之间能否进行匹配可以根据需求预先设置。

在确定第二目标属性值组的过程中，将若接收到对属性信息的属性值的切换请求时，则确定属性值变化前的除该属性信息以外的其他属性信息的属性值中是否存在与该切换后的属性值不能匹配的情况，若不存在，则将该切换后的属性值以及未切换属性值的其他属性信息的属性值确定为第二目标属性值组，若存在，则将该切换后的属性值、未切换但是能够匹配的其他属性信息的属性值确定为第二目标属性值组。

在本发明中，除了语言的切换以外，在对除语言以外的其他属性信息的属性值进行切换时，除了切换的属性信息的其他属性信息下的所有属性值都可以与该切换后的属性信息的属性值进行匹配，因此在确定第二目标属性值组的过程中，若接收针对属性信息中发音人的属性值的切换请求，则确定发音人角色切换后的目标属性值，为了便于区分，将属性信息的属性值变化前除发音人角色的属性值以外的其他属性信息的属性值称为第二属性值，将该第二属性值以及该发音人角色的目标属性值确定为第二目标属性值组。若接收到属性信息中tts合成音量的属性值的切换请求，则确定tts合成音量的目标属性值，为了便于区分，将属性信息的属性值变化前的除tts合成音量的属性值以外的其他属性信息的属性值称为第三属性值，将该第三属性值以及该tts合成音量的目标属性值确定为第二目标属性值组。

若接收到针对属性信息中语速的属性值的切换请求，则确定语速的目标属性值，为了便于区分，将属性信息的属性值变化前的除语速以外的其他属性信息的属性值确定为第四属性值，将该第四属性值以及该语速的目标属性值确定为第二目标属性值组。若接收到属性信息中音频采样率的属性值的切换请求，则确定音频采样率的目标属性值，为了便于区分，将属性信息的属性值变化前的除音频采样率以外的其他属性信息的属性值确定为第五属性值，将该第五属性值以及该音频采样率的目标属性值确定为第二目标属性值组。

比如，针对属性信息中的发音人角色的属性值进行切换，且属性信息包括：发音人角色、语言、合成音量、语速以及采样率时，未改变发音人角色前的属性值为：发音人角色a、语言a、合成音量a、语速a以及音频采样率a，若将发音人角色a转换为发音人角色b，则接收到“将音频文件的属性信息中发音人角色的属性值由发音人a转换为发音人角色b”的切换指令，此时，确定的变化后的第二目标属性值组为：发音人角色b、语言a、合成音量a、语速以及音频采样率a。

此外，若对属性信息中的语言的属性值进行切换，由于一些小语种语言对应的发音人角色的属性值的数量有限，也就是说，若直接将属性信息变化前的除需要进行切换的语言以外的其他属性信息的属性值以及该进行切换的语言的属性值确定为第二目标属性值组，则可能导致在语言的属性值切换前的属性值组中的发音人角色的属性值，不能与该切换后的语言的属性值对应，也就是说，假设属性值组中有语言和发音人角色两种属性，且在语言切换前的属性值组中的发音人角色的属性值为小孩、语言的属性值中文，预先设置阿拉伯语言对应的发音人角色只有男人和女人，若直接将阿拉伯语以及小孩确定为第二目标属性值组，由于阿拉伯语言对应的发音人角色只有男人和女人，没有小孩，导致语音无法正常播放，因此，为了保证语音的正常播报，在对语言进行切换时，根据该切换后的语言的属性值以及预先保存的默认属性值，确定该第二目标属性值，具体的，针对每种语言，预先设置了每种语言对应的除了该语言以外的其他属性信息的默认属性值，也就是可以将切换后的语言的属性值以及除了切换后的该语言以外的其他属性信息的默认属性值确认为第二目标属性值组。

图2为本发明一些实施例提供的一种语音播报的详细过程示意图，现针对图2进行说明。

智能设备中部署有上层应用，智能设备基于上层应用，也就是基于tts应用，智能设备接收预加载的tts文本内容，并接收该tts文本内容中携带的合成参数，或者在未接收到该tts文本内容中携带的合成参数时，采用默认的合成参数，其中，该tts文本内容也就是第一文本信息，该合成参数也就是各属性信息的属性值，该各个属性信息的不同属性值构成属性值组，也就是智能设备接收第一文本信息配置指令，确定第一文本信息，智能设备接收设置该第一文本信息对应的属性信息的至少一个属性值，相应的，确定出该表征该智能设备语音播报的属性信息的至少一个属性值组，且智能设备将合成参数与文本内容存入数据库中，也就是将第一文本信息以及该属性值组存入到数据库中，并将该第一文本信息以及该属性值组发送给tts服务器，tts服务器接收到该第一文本信息以及该属性值组后，根据该第一文本信息以及该属性值组合成mp3文件，也就是合成音频文件，并将该mp3文件返回到智能设备，也就是智能设备下载该音频文件，并将该音频文件存储在sd卡中,并更新音频文件的存储路径。

若存在切换发音人、语速等属性信息的属性值的需求时，先确定切换后的第二目标属性值组，再根据该第二目标属性值组确定目标音频文件，具体的，在基于第二目标属性值组确定目标音频文件的过程中，由于智能设备的本地数据库中预先保存多个合成并下载完成的音频文件，其中，该数据库中保存的音频文件中可能存在该第二目标属性值组对应的音频文件，也可能不存在该第二目标属性值组对应的音频文件，因此为了获取第二目标属性值组对应的音频文件，若查询到本地数据库中存在该第二目标属性值组对应的音频文件，则直接播放该第二目标属性值组对应的音频文件。

若查询到本地数据库中未存在该第二目标属性值组对应的音频文件，也就是说不能从智能设备的本地数据库中获得所需的音频文件，且在网络连通时，智能设备向tts服务器发送合成请求，并将该第一文本信息以及第二目标属性值组发送给tts服务器，使得tts服务器接收到该合成请求后，根据第一文本信息以及第二目标属性值组合成音频文件，并在tts服务器合成音频文件后，将该音频文件发送给智能设备，也就是智能设备从tts服务器下载音频文件，并将该音频文件存储在智能设备的sd卡中，并更新音频文件的存储路径。

在语音播报的过程中，智能设备的本地数据库中查找是否存在基于该已配置的第一文本信息以及已配置的第一文本信息对应的属性值组对应的音频文件，若存在，则直接播放该本地音频文件，若不存在，则获取tts服务器基于第一文本信息以及已配置的第一文本信息对应的属性值组合成的音频文件，存储在智能设备的sd卡并进行播放。

实施例4：

为了减少智能设备本地的内存占用，在上述各实施例的基础上，在本发明实施例中，还对已保存的音频文件进行删除操作，具体包括以下两种方式：

若满足第一更新条件，获取已保存的各音频文件被使用的频次，将被使用频次低于设定阈值的音频文件删除；和/或，

若满足第二更新条件，确定所述智能设备当前使用的第三目标属性值组，将除所述第三目标属性值组之外的属性值组对应的音频文件删除。

在本发明实施例中，为了减少智能设备本地内存占用，可以对部分音频文件进行删除，从而释放内存。在删除音频文件之前，确定是否满足第一更新条件，该第一更新条件可以为判断智能设备本地保存的音频文件的占用空间是否大于设定的阈值，若是，则可以将不经常使用的音频文件进行删除，即获取已保存的各音频文件被使用的频次，确定使用频次低于设定阈值的音频文件并删除；该第一更新条件还可以是周期性的对部分音频文件进行删除，也就是说，可以为与上次进行音频文件删除之间的时间间隔达到预先设定的第一时间长度，该预先设定的第一时间长度根据需求进行设置，若满足第一更新条件，则将不经常使用的音频文件进行删除。

由于属性信息中的发音人角色或者tts合成音量的属性值的切换频率不高，为了保证不过多占用智能设备的本地数据库的内存，预先设定一个第二时间长度，在改变切换发音人角色或者tts合成音量的属性值后，若达到该预先设定的第二时间长度，确定智能设备当前使用的第三目标属性值组，将除该第三目标属性值组之外的属性值组对应的音频文件删除。其中，若对发音人角色的属性值进行切换，则确定发音人角色的目标属性值，确定属性信息的属性值变化前的除发音人角色的属性值以外的其他属性信息的属性值，并将该其他属性信息的属性值以及该发音人角色的目标属性值，确定为第三目标属性值组。在确定第三目标属性值组后，将第三目标属性值组之外的属性值组对应的音频文件删除。

实施例5：

为了合成音频文件并将该音频文件保存在本地数据库，在上述各实施例的基础上，在本发明实施例中，所述将已配置的第一文本信息及表征所述智能设备语音播报的属性信息的至少一个属性值组发送给所述tts服务器，包括：

确定所述智能设备当前使用的第三目标属性值组，将已配置的第一文本信息及所述第三目标属性值组发送给所述tts服务器；或者

根据每个所述属性信息的各属性值，确定所述智能设备能够配置的多个属性值组，将已配置的第一文本信息及所述多个属性值组发送给所述tts服务器。

在本发明中，在将已配置的第一文本信息及表征该智能设备语音播报的属性信息的至少一个属性值组发送给tts服务器时，可以将该已配置的第一文本信息以及该第三目标属性值组发送给tts服务器，使得tts服务器根据该已配置的第一文本信息以及该第三目标属性值组合成音频文件。

由于一个属性值存在多个可供选择的属性值，可以根据每个属性信息的各属性值，确定智能设备能够配置的所有可能匹配的属性值组，因此智能设备可以将已配置的第一文本信息及该所有可能匹配的属性值组发送给tts服务器，也就是将第一文本信息以及该第一文本信息能够配置的所有可能匹配的属性值组发送给tts服务器，也可以将已配置的第一文本信息及所有可能匹配的属性值组中的部分属性值组发送给tts服务器，也就是将第一文本信息以及该第一文本信息能够配置的所有可能匹配的属性值组中的部分属性值组发送给tts服务器。

其中，在选择部分属性值组的过程中，可以选择该所有可能匹配的属性值组中使用频率高的属性值组，比如，按使用频率排序并选择排在前m个的属性值组，m为设定数目。或者也可以根据当前使用的第三目标属性值组，选择包含该第三目标属性值组中的部分属性值的属性值组。

具体的，可以根据该第一文本信息对应的每个属性信息对应的每个属性值，确定所有能够组合的属性值组，假如，第一文本信息的属性信息为发音人和语言，该发音人的属性值可以为男人与女人，该语言可以为中文和英文，则可以确定多个属性值组，该所有可能组合的属性值组包括：男人、中文；女人，中文；男人、英文；女人、英文。

实施例6：

图3为本发明一些实施例提供的一种语音播报装置结构示意图，该装置包括：

发送模块301，用于若所述智能设备与从文本到语音tts服务器的网络连通，将已配置的第一文本信息及表征所述智能设备语音播报的属性信息的至少一个属性值组发送给所述tts服务器；

接收模块302，用于接收并保存所述tts服务器返回的音频文件，其中，所述音频文件是所述tts服务器根据所述第一文本信息和所述属性值组进行语音合成得到的；

处理模块303，用于若确定需要进行语音播报，则在已保存的音频文件中查找对应的目标音频文件，并控制所述智能设备播放所述目标音频文件。

在一种可能的实施方式中，所述处理模块303，还用于若在将所述第一文本信息及所述至少一个属性值组发送给所述tts服务器之后，网络中断，则监测网络状态；若监测到网络连通，根据已保存的音频文件，确定未合成的数据信息，所述数据信息包括第一文本信息中未合成音频文件的第二文本信息、和/或第一文本信息中未合成音频文件的第一目标属性值组；将所述数据信息的相关信息发送给所述tts服务器，以使所述tts服务器根据所述数据信息合成音频文件。

在一种可能的实施方式中，所述接收模块302，还用于接收到针对所述第一文本信息的更新请求，确定更新后的第一文本信息；

所述发送模块301，还用于若已保存的音频文件中未包含更新后的第一文本信息对应的音频文件，则将所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组发送给所述tts服务器；

所述接收模块302，还用于接收所述tts服务器根据所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组合成的音频文件并保存。

在一种可能的实施方式中，所述接收模块302，还用于接收到针对属性信息的属性值的切换请求，确定切换后的第二目标属性值组；

所述发送模块301，还用于若已保存的音频文件未包含所述第二目标属性值组对应的音频文件，则将所述第一文本信息以及所述第二目标属性值组发送给所述tts服务器；

所述接收模块302，还用于接收所述tts服务器根据所述第二目标属性值组以及所述第一文本信息合成的音频文件并保存。

在一种可能的实施方式中，所述处理模块303，还用于若满足第一更新条件，获取已保存的各音频文件被使用的频次，将被使用频次低于设定阈值的音频文件删除；和/或，

若满足第二更新条件，确定所述智能设备当前使用的第三目标属性值组，将除所述第三目标属性值组之外的属性值组对应的音频文件删除。

在一种可能的实施方式中，所述发送模块301，具体用于确定所述智能设备当前使用的第三目标属性值组，将已配置的第一文本信息及所述第三目标属性值组发送给所述tts服务器；或者根据每个所述属性信息的各属性值，确定所述智能设备能够配置的多个属性值组，将已配置的第一文本信息及所述多个属性值组发送给所述tts服务器。

实施例7：

在上述各实施例的基础上，本发明一些实施例还提供了一种电子设备，如图4所示，包括：处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。

所述存储器403中存储有计算机程序，当所述程序被所述处理器401执行时，使得所述处理器401执行如下步骤：

接收并保存所述tts服务器返回的音频文件，其中，所述音频文件是所述tts服务器根据所述第一文本信息和所述属性值组进行语音合成得到的；

若确定需要进行语音播报，则在已保存的音频文件中查找对应的目标音频文件，并控制所述智能设备播放所述目标音频文件。

在一种可能的实施方式中，所述处理器401，还用于若在将所述第一文本信息及所述至少一个属性值组发送给所述tts服务器之后，网络中断，则监测网络状态；若监测到网络连通，根据已保存的音频文件，确定未合成的数据信息，所述数据信息包括第一文本信息中未合成音频文件的第二文本信息、和/或第一文本信息中未合成音频文件的第一目标属性值组；将所述数据信息的相关信息发送给所述tts服务器，以使所述tts服务器根据所述数据信息合成音频文件。

在一种可能的实施方式中，所述处理器401，还用于接收到针对所述第一文本信息的更新请求，确定更新后的第一文本信息；若已保存的音频文件中未包含更新后的第一文本信息对应的音频文件，则将所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组发送给所述tts服务器；接收所述tts服务器根据所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组合成的音频文件并保存。

在一种可能的实施方式中，所述处理器401，还用于接收到针对属性信息的属性值的切换请求，确定切换后的第二目标属性值组；若已保存的音频文件未包含所述第二目标属性值组对应的音频文件，则将所述第一文本信息以及所述第二目标属性值组发送给所述tts服务器；接收所述tts服务器根据所述第二目标属性值组以及所述第一文本信息合成的音频文件并保存。

在一种可能的实施方式中，所述处理器401，还用于若满足第一更新条件，获取已保存的各音频文件被使用的频次，将被使用频次低于设定阈值的音频文件删除；和/或，若满足第二更新条件，确定所述智能设备当前使用的第三目标属性值组，将除所述第三目标属性值组之外的属性值组对应的音频文件删除。

在一种可能的实施方式中，所述处理器401，还用于确定所述智能设备当前使用的第三目标属性值组，将已配置的第一文本信息及所述第三目标属性值组发送给所述tts服务器；或者根据每个所述属性信息的各属性值，确定所述智能设备能够配置的多个属性值组，将已配置的第一文本信息及所述多个属性值组发送给所述tts服务器。

上述服务器提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect，pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口402用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory，ram)，也可以包括非易失性存储器(non-volatilememory，nvm)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(networkprocessor，np)等；还可以是数字指令处理器(digitalsignalprocessing，dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例8：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行如下步骤：

接收并保存所述tts服务器返回的音频文件，其中，所述音频文件是所述tts服务器根据所述第一文本信息和所述属性值组进行语音合成得到的；

若确定需要进行语音播报，则在已保存的音频文件中查找对应的目标音频文件，并控制所述智能设备播放所述目标音频文件。

在一种可能的实施方式中，所述方法还包括：

若在将所述第一文本信息及所述至少一个属性值组发送给所述tts服务器之后，网络中断，则监测网络状态；

将所述数据信息的相关信息发送给所述tts服务器，以使所述tts服务器根据所述数据信息合成音频文件。

在一种可能的实施方式中，所述方法还包括：

接收到针对所述第一文本信息的更新请求，确定更新后的第一文本信息；

接收所述tts服务器根据所述更新后的第一文本信息以及所述更新后的第一文本信息的属性值组合成的音频文件并保存。

在一种可能的实施方式中，所述方法还包括：

接收到针对属性信息的属性值的切换请求，确定切换后的第二目标属性值组；

若已保存的音频文件未包含所述第二目标属性值组对应的音频文件，则将所述第一文本信息以及所述第二目标属性值组发送给所述tts服务器；

接收所述tts服务器根据所述第二目标属性值组以及所述第一文本信息合成的音频文件并保存。

在一种可能的实施方式中，所述方法还包括：

若满足第一更新条件，获取已保存的各音频文件被使用的频次，将被使用频次低于设定阈值的音频文件删除；和/或，

若满足第二更新条件，确定所述智能设备当前使用的第三目标属性值组，将除所述第三目标属性值组之外的属性值组对应的音频文件删除。

在一种可能的实施方式中，所述属性信息包括以下至少一种：

发音人角色、语言、tts合成音量、语速以及音频采样率。

在一种可能的实施方式中，所述将已配置的第一文本信息及表征所述智能设备语音播报的属性信息的至少一个属性值组发送给所述tts服务器，包括：

确定所述智能设备当前使用的第三目标属性值组，将已配置的第一文本信息及所述第三目标属性值组发送给所述tts服务器；或者

根据每个所述属性信息的各属性值，确定所述智能设备能够配置的多个属性值组，将已配置的第一文本信息及所述多个属性值组发送给所述tts服务器。

由于本发明实施例中，预先获取并保存tts服务器根据第一文本信息和属性值组合成的音频文件，因此在确定存在语音播报需求时，即使出现网络中断的情况，也可以在本地保存的音频文件中查找所需要的音频文件进行播放，从而提高用户体验。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种具有减震效果的钢琴脚轮的制作方法

一种语音播报方法、装置、设备及介质与流程

相关文章

最热文献