音频播放方法及装置与流程

2022-09-02 20:39:05 来源：中国专利 TAG：

1.本技术涉及终端设备领域，尤其涉及一种音频播放方法及装置。

背景技术：

2.目前，智能音箱、导航和智能客服等许多应用中都包含了语音合成系统，为了满足用户的个性化需求，一些应用额外提供了多音色语音合成的功能。在相关技术中，当某种语音合成模型被选定后，用户可以在任何时间调用该语音合成模型，在用户感觉该模型合成的音频不够自然、语速较快、音色较粗的情况下，可以通过个性化设置对经模型合成的音频进行调整。
3.但是，用户一旦选定某种语音合成模型，仅能对合成后的音频进行细微调整，如想更换语音合成模型，则需用户手动设置更换，智能化低，用户体验不佳。

技术实现要素：

4.本技术公开一种音频播放方法及装置，以解决用户仅能对合成后的音频进行细微调整的问题。
5.为了解决上述问题，本技术采用下述技术方案：
6.第一方面，本技术实施例公开一种音频播放方法，包括：获取目标用户的用户信息，其中，所述用户信息包括：自定义词库，所述自定义词库中记录有所述目标用户定义的词汇的音频；获取待合成的文本；利用目标语音合成模块对所述待合成的文本进行语音合成，得到所述待合成的文本对应的合成音频；在所述待合成的文本中包括所述目标用户的自定义词库中的第一词汇的情况下，使用第一音频替换所述合成音频中与所述第一词汇对应的音频部分，得到目标音频，其中，所述第一音频为所述自定义词库中的所述第一词汇的音频；播放所述目标音频。
7.第二方面，本技术实施例公开一种音频播放装置，包括：第一获取模块，用于获取目标用户的用户信息，其中，所述用户信息包括：自定义词库，所述自定义词库中记录有所述目标用户定义的词汇的音频；第二获取模块，用于获取待合成的文本；合成模块，用于利用目标语音合成模块对所述待合成的文本进行语音合成，得到所述待合成的文本对应的合成音频；替换模块，用于在所述待合成的文本中包括所述目标用户的自定义词库中的第一词汇的情况下，使用第一音频替换所述合成音频中与所述第一词汇对应的音频部分，得到目标音频，其中，所述第一音频为所述自定义词库中的所述第一词汇的音频；播放模块，用于播放所述目标音频。
8.本技术采用的技术方案能够达到以下有益效果：
9.本技术实施例提供的一种音频播放方法，包括：获取目标用户的用户信息，其中，所述用户信息包括：自定义词库，所述自定义词库中记录有所述目标用户定义的词汇的音频；获取待合成的文本；利用目标语音合成模块对所述待合成的文本进行语音合成，得到所述待合成的文本对应的合成音频；在所述待合成的文本中包括所述目标用户的自定义词库
中的第一词汇的情况下，使用第一音频替换所述合成音频中与所述第一词汇对应的音频部分，得到目标音频，其中，所述第一音频为所述自定义词库中的所述第一词汇的音频；播放所述目标音频。本技术通过增加用户自定义词库，在待合成文本中包括自定义词库中的词汇的情况下，使用自定义词库中该词汇的音频替换目标语音合成模块合成音频中该词汇对应的音频部分，得到目标音频，有效解决了用户仅能对合成后的音频进行细微调整问题。
附图说明
10.图1示出本技术实施例公开的一种音频播放方法的流程图示意图；
11.图2示出本技术实施例公开的一种音频播放装置的结构示意图。
具体实施方式
12.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
13.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
14.图1示出本技术实施例公开的一种音频播放方法的流程图示意图，该方法可以由终端设备执行，换言之，该方法可以由安装在终端设备的软件或硬件来执行，如图1所示，该方法包括如下步骤。
15.s110、获取目标用户的用户信息。
16.在本技术中，获取的目标用户的用户信息包括自定义词库，自定义词库中记录有目标用户定义的词汇的音频。具体的，在用户对某次合成的语音中的个别字词感到发音不自然或不符合个人习惯的情况下，用户可以自己朗读录音输入该词的读音或者按照指定格式输入该词拼音，然后由后台对用户输入的该词的声学、韵律特征进行提取，再基于当前目标语音合成模块的音色，合成该词新的音频，并存入自定义词库中，等待下次查找。
17.s120、获取待合成的文本。
18.该待合成的文本为需要合成音频的文本。
19.s130、利用目标语音合成模块对所述待合成的文本进行语音合成，得到所述待合成的文本对应的合成音频。
20.具体的，基于预先置入的目标语音合成模块，通过预处理、韵律预测和音素转换等功能组合，将待合成的文本转换成目标语音合成模块需要的格式，最后再通过目标语音合成模块将转换后得到的结构化数据合成音频。
21.s140、在所述待合成的文本中包括所述目标用户的自定义词库中的第一词汇的情况下，使用第一音频替换所述合成音频中与所述第一词汇对应的音频部分，得到目标音频，其中，所述第一音频为所述自定义词库中的所述第一词汇的音频。
22.也就是说，在待合成的文本中包括目标用户的自定义词库中的第一词汇的情况下，用第一词汇在自定义词库中的音频替换合成音频中的与第一词汇对应的音频部分，得到目标音频。例如，待合成的文本为“今天的天气真好”，而其中的“天气”一词为自定义词库中的第一词汇，则自定义词库中的“天气”一词的音频会替换通过目标语音合成模块得到的合成音频中的“天气”部分的音频，形成目标音频。
23.s150、播放所述目标音频。
24.具体的，终端设备播放经过调整后的目标音频。
25.此外，还可以通过词库排序模块找出大多数用户认为发音不自然或不符合个人习惯的字词，由后台进行统一的模块更新，从而减少用户的重复修改。
26.本技术实施例提供一种音频播放方法，包括：获取目标用户的用户信息，其中，所述用户信息包括：自定义词库，所述自定义词库中记录有所述目标用户定义的词汇的音频；获取待合成的文本；利用目标语音合成模块对所述待合成的文本进行语音合成，得到所述待合成的文本对应的合成音频；在所述待合成的文本中包括所述目标用户的自定义词库中的第一词汇的情况下，使用第一音频替换所述合成音频中与所述第一词汇对应的音频部分，得到目标音频，其中，所述第一音频为所述自定义词库中的所述第一词汇的音频；播放所述目标音频。本技术通过增加用户自定义词库，在待合成文本中包括自定义词库中的词汇的情况下，使用自定义词库中该词汇的音频替换目标语音合成模块合成音频中该词汇对应的音频部分，得到目标音频，有效解决了用户仅能对合成后的音频进行细微调整问题。
27.在本技术实施例的一个可能的实现方式中，所述用户信息还可以包括：个性化设置参数，其中，所述个性化设置参数包括：语音的速度、音量和音调的粗细。具体的，获取的用户信息还可以包括个性化设置参数，也就是说，用户可以对合成音频的语音的速度、语音的音量和音调的粗细进行设置。
28.在进一步的技术方案中，在所述播放所述目标音频之前，所述方法还可以包括：根据所述目标用户的个性化设置参数，对所述目标音频的语音速度、音量大小以及音调的粗细进行调节。也就是说，在播放目标音频之前，还可以根据目标用户设置的个性化设置参数，对目标音频的语音的速度、音量和音调的粗细进行调整。因此，对于同一个待合成的文本，即使两个用户的自定义词库相同，在通过不同的个性化设置参数的调整之后，也能够得到不同的目标音频。
29.本技术实施例中，在获取目标用户的用户信息之前，所述方法还可以包括：响应所述目标用户对用户信息进行定义的操作；获取并保存所述目标用户定义的所述用户信息。也就是说，在获取目标用户的用户信息之前，终端设备响应目标用户对自定义词库和/或个性化设置参数的操作，并且终端设备将目标用户定义的词汇的音频存入自定义词库中，将目标用户对个性化设置参数的信息也保存在相应位置。在下一次得到待合成的文本后，根据用户的自定义词库和个性化设置参数，对目标语音合成模块合成的音频进行处理和调整，得到目标音频。
30.在进一步的技术方案中，所述方法还可以包括：根据所述目标用户对用户信息进行定义的操作频率及所述自定义词库内音频的数量，确定所述目标用户的活跃度；在所述目标用户的活跃度大于第一阈值的情况下，根据所述目标用户的用户信息，确定所述目标用户的推荐语音合成模块。具体的，在相应目标用户对用户信息进行定义的操作；获取并保
存目标用户定义的用户信息之后，还可以以一周作为时间周期，根据目标用户对用户信息进行定义的操作频率和自定义词库内音频的数量的乘积，确定目标用户的活跃度，在目标用户在一个时间周期的活跃度超过同属性用户的平均活跃度的情况下，根据目标用户的用户信息，确定更符合目标用户的用户需求的推荐语音合成模块。
31.在本技术中，通过协同过滤算法，可以计算出任意两个用户的喜好的相似度，该相似度包括两个用户的自定义词库的相似度和个性化设置参数的相似度，选择与目标用户相似度最高的用户的语音合成模块，并将其确定为目标用户的推荐语音合成模块。一种可选的方案中，确定所述目标用户的推荐语音合成模块，可以包括：计算所述目标用户的用户信息与所述目标用户所在的用户群体中其他用户的用户信息的相似度，其中，所述用户群体中用户的以下至少之一的属性相同：地域、性别和年龄段；选择与所述目标用户的用户信息的相似度最高的第二用户，其中，所述第二用户为所述其他用户中的一个，且所述第二用户的活跃度在所述用户群体中排序前一定比例；将所述目标用户的所述目标语音合成模块替换为所述第二用户使用的语音合成模块。
32.具体的，为了更精准的为目标用户推荐符合其需求的语音合成模块，可以依据用户的年龄、性别、地域等属性，将用户划分为多个用户群体，每个用户群体中的用户的年龄、性别、地域等属性至少有一个是相同的，例如，年龄相同的用户可以为一个用户群体，年龄、性别均相同的用户可以为一个用户群体等。然后计算目标用户与目标用户所在用户群体中其他用户的用户信息的相似度，选择用户群体中与目标用户的用户信息相似度最高且活跃度在该用户群体中排序前一定比例的第二用户，将目标用户的目标语音合成模块替换为第二用户使用的语音合成模块，最终实现为目标用户更换更符合其需求的语音合成模块的目的。其中，第二用户在该用户群体中的活跃度可以排在前十位，且活跃度在该用户群体中可以排在前十位的用户的用户信息可以作为备选更新语音合成模块。
33.在本技术中，可以通过余弦公式计算两个用户之间的相似度，其中，n(u)表示用户u的自定义词库和个性化设置参数，n(v)表示用户v的自定义词库和个性化设置参数。余弦公式中，分子表示两个用户的自定义词库和个性化设置参数的交集，分母则是两个用户的自定义词库和个性化设置参数的并集，通过余弦公式，容易看出，两个用户自定义词库中相同的词越多，个性化设置参数中相同的设定值越多，则根据余弦公式计算出的相似度越高。
34.一种可选的方案中，获取目标用户的用户信息，可以包括：获取所述目标用户输入的语音；基于所述目标用户输入的语音以及声纹识别模块，识别出所述目标用户的标识信息；获取保存与所述标识信息对应的用户信息。也就是说，根据目标用户输入的语音，通过声纹识别模块，可以识别出目标用户的身份信息，获取保存与该身份信息对应的用户信息。
35.图2示出本技术实施例公开的一种音频播放装置的结构示意图。如图2所示，音频播放装置200包括第一获取模块210、第二获取模块220、合成模块230、替换模块240和播放模块250。
36.在本技术中，第一获取模块210，用于获取目标用户的用户信息，其中，所述用户信息包括：自定义词库，所述自定义词库中记录有所述目标用户定义的词汇的音频；第二获取模块220，用于获取待合成的文本；合成模块230，用于利用目标语音合成模块对所述待合成的文本进行语音合成，得到所述待合成的文本对应的合成音频；替换模块240，用于在所述
待合成的文本中包括所述目标用户的自定义词库中的第一词汇的情况下，使用第一音频替换所述合成音频中与所述第一词汇对应的音频部分，得到目标音频，其中，所述第一音频为所述自定义词库中的所述第一词汇的音频；播放模块250，用于播放所述目标音频。
37.在一种实现方式中，所述用户信息还包括：个性化设置参数，其中，所述个性化设置参数包括：语音的速度、音量、和音调的粗细。
38.在一种实现方式中，播放模块250还用于在所述播放所述目标音频之前，根据所述目标用户的个性化设置参数，对所述目标音频的语音速度、音量大小以及音调的粗细进行调节。
39.在一种实现方式中，第一获取模块210还用于在获取目标用户的用户信息之前，响应所述目标用户对用户信息进行定义的操作；获取并保存所述目标用户定义的所述用户信息。
40.在一种实现方式中，播放模块250还用于：根据所述目标用户对用户信息进行定义的操作频率及所述自定义词库内音频的数量，确定所述目标用户的活跃度；在所述目标用户的活跃度大于第一阈值的情况下，根据所述目标用户的用户信息，确定所述目标用户的推荐语音合成模块。
41.在一种实现方式中，播放模块250确定所述目标用户的推荐语音合成模块，包括：计算所述目标用户的用户信息与所述目标用户所在的用户群体中其他用户的用户信息的相似度，其中，所述用户群体中用户的以下至少之一的属性相同：地域、性别和年龄段；选择与所述目标用户的用户信息的相似度最高的第二用户，其中，所述第二用户为所述其他用户中的一个，且所述第二用户的活跃度在所述用户群体中排序前一定比例；将所述目标用户的所述目标语音合成模块替换为所述第二用户使用的语音合成模块。
42.在一种实现方式中，第一获取模块210获取目标用户的用户信息，包括：获取所述目标用户输入的语音；基于所述目标用户输入的语音以及声纹识别模块，识别出所述目标用户的标识信息；获取保存与所述标识信息对应的用户信息。
43.本技术实施例提供的该装置200，可执行前文方法实施例中所述的各方法，并实现前文方法实施例中所述的各方法的功能和有益效果，在此不再赘述。
44.本技术上文实施例中重点描述的是各个实施例之间的不同，各个实施例之间不同的优化特征只要不矛盾，均可以组合形成更优的实施例，考虑到行文简洁，在此则不再赘述。
45.以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音交互设备的性能测试方法、装置、设备及可读介质与流程

音频播放方法及装置与流程

相关文献

最热文献