一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

带情感的音频生成方法、装置、设备及存储介质与流程

2022-08-24 00:39:35 来源:中国专利 TAG:


1.本发明涉及音频生成领域,尤其涉及一种带情感的音频生成方法、装置、设备及存储介质。


背景技术:

2.前在我国发达城市,患近视的未成年数量居高不下,用眼过度是造成近视的不可忽视的原因之一。有声读物的出现,在一定程度上缓解了未成年患近视的概率。
3.然而,在读取文字时,有声读物的声音过于平淡,声音只能对文字的进行发声并没有对文字含义产生的情感变化,使得人听相关有声文字时较为疲劳,不能传递文字中蕴含的情感。因此,需要一种技术解决当前有声读物阅读过程中缺乏情感变化的问题。


技术实现要素:

4.本发明的主要目的在于解决解决当前有声读物阅读过程中缺乏情感变化的技术问题。
5.本发明第一方面提供了一种带情感的音频生成方法,包括步骤:接收多个带情感标签的语音数据,生成情感语音集;接收待转换的文字字符串,对所述文字字符串进行分句处理,得到n个短句字符和短句排序,其中,n为正整数;根据预置识别算法,对所述短句字符进行情感分析处理,得到所述短句字符对应的情感标签;基于所述短句字符对应的情感标签,对所述情感语音集进行标签匹配处理,得到情感标签匹配的情感语音;基于所述情感标签匹配的情感语音,对所述短句字符进行音频生成处理,得到短句音频;根据所述短句排序,对n个所述短句音频进行拼接处理,得到所述文字字符串对应的文字情感音频;其中,所述根据预置识别算法,对所述短句字符进行情感分析处理,得到所述短句字符对应的情感标签包括:对所述短句字符进行顺序拆分处理,得到m个语言字符和字符排序,其中,m为正整数;根据预置字符向量表,对所述语言字符进行向量转换处理,得到字符向量;基于所述字符排序,将m个所述字符向量进行拼接处理,得到短语拼接矩阵;根据预置整体赋值算法,对所述短语拼接矩阵进行维度赋值处理,得到短语赋值矩阵;根据预置分类算法,对所述短语赋值矩阵进行分类处理,得到所述短句字符对应的情感标签。
6.可选的,在本发明第一方面的第一种实现方式中,所述根据预置整体赋值算法,对
所述短语拼接矩阵进行维度赋值处理,得到短语赋值矩阵包括:读取所述短语拼接矩阵的短语拼接元素,计算所述短语拼接元素与相邻元素之间的欧式距离,得到前元素距离和后元素距离;分析所述前元素距离与预置距离阈值的大小关系,分析所述后元素距离与预置距离阈值的大小关系;将超过所述距离阈值的距离对应元素划分为非关联元素,将未超过所述距离阈值的距离对应元素划分为关联元素;基于预置关联区分算法,对所述短语拼接矩阵中关联元素进行区分赋值处理,得到短语赋值矩阵。
7.可选的,在本发明第一方面的第二种实现方式中,所述根据所述短句排序,对n个所述短句音频进行拼接处理,得到所述文字字符串对应的文字情感音频包括:创建音频框架;基于所述短句排序,按序读取n个所述短句音频的每一帧数据,得到帧序列数据集;将所述帧序列数据集写入至所述音频框架中,生成所述文字字符串对应的文字情感音频。
8.可选的,在本发明第一方面的第三种实现方式中,所述基于所述情感标签匹配的情感语音,对所述短句字符进行音频生成处理,得到短句音频包括:根据预置采样框,对所述情感标签匹配的情感语音进行切分采样处理,得到音频特征集;基于所述音频特征集,对所述短句字符进行声纹模拟处理,得到短句音频。
9.可选的,在本发明第一方面的第四种实现方式中,所述情感标签包括:开心标签、悲伤标签、生气标签、惊讶标签、平和标签。
10.可选的,在本发明第一方面的第五种实现方式中,在所述根据所述短句排序,对n个所述短句音频进行拼接处理,得到所述文字字符串对应的文字情感音频之后,还包括:基于所述情感标签,对所述文字情感音频进行片段标记处理,得到带有多个情感标记的文字情感音频。
11.本发明第二方面提供了一种带情感的音频生成装置,所述带情感的音频生成装置包括:接收模块,用于接收多个带情感标签的语音数据,生成情感语音集;分句模块,用于接收待转换的文字字符串,对所述文字字符串进行分句处理,得到n个短句字符和短句排序,其中,n为正整数;情感分析模块,用于根据预置识别算法,对所述短句字符进行情感分析处理,得到所述短句字符对应的情感标签;标签匹配模块,用于基于所述短句字符对应的情感标签,对所述情感语音集进行标签匹配处理,得到情感标签匹配的情感语音;音频生成模块,用于基于所述情感标签匹配的情感语音,对所述短句字符进行音频生成处理,得到短句音频;拼接模块,用于根据所述短句排序,对n个所述短句音频进行拼接处理,得到所述
文字字符串对应的文字情感音频。
12.本发明第三方面提供了一种带情感的音频生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述带情感的音频生成设备执行上述的带情感的音频生成方法。
13.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的带情感的音频生成方法。
14.在本发明实施例中,提供了一种通过录制并模拟有情感的声音,将任何文章用带有情感得朗读出来的方案。用户只需短短录制几句情感不同的音频,便能生成一篇完整的有声读物,这大大缩减了用户消耗的时间与精力,解决了当前有声读物阅读过程中缺乏情感变化的技术问题。
附图说明
15.图1为本发明实施例中带情感的音频生成方法的一个实施例示意图;图2为本发明实施例中带情感的音频生成装置的一个实施例示意图;图3为本发明实施例中带情感的音频生成装置的另一个实施例示意图;图4为本发明实施例中带情感的音频生成设备的一个实施例示意图。
具体实施方式
16.本发明实施例提供了一种带情感的音频生成方法、装置、设备及存储介质。
17.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
18.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中带情感的音频生成方法的一个实施例包括:101、接收多个带情感标签的语音数据,生成情感语音集;在本实施例中,带情感标签的语音数据是可以由用户自己选择“开心标签”、“悲伤标签”、“生气标签”、“惊讶标签”、“平和标签”,然后选择了标签后,对该情感标签录音的语音作为情感语音集中的数据,这里需要将5个种类标签都要录入语音数据。
19.102、接收待转换的文字字符串,对文字字符串进行分句处理,得到n个短句字符和短句排序,其中,n为正整数;在本实施例中,接收到“站在花枝前,闭上眼睛。屏息静听花瓣丝丝绽开的声音。花开,是一种语言,诠释着大自然的旋律。”,分句后结果为{站在花枝前,闭上眼睛,屏息静听花瓣丝丝绽开的声音,花开,是一种语言,诠释着大自然的旋律},相关分句中附带有短句排序。
20.103、根据预置识别算法,对短句字符进行情感分析处理,得到短句字符对应的情感标签;在本实施例中,识别短语字符中带有的不同的中文字符表达不同含义,例如“诠释着大自然的旋律”和“屏息静听花瓣丝丝绽开的声音”的含义不同,在识别短句字符带有的情感后,将“开心标签”、“悲伤标签”、“生气标签”、“惊讶标签”、“平和标签”的一个情感标签设置为短句字符的标签。
21.进一步的,在103中可以执行以下步骤:1031、对短句字符进行顺序拆分处理,得到m个语言字符和字符排序,其中,m为正整数;1032、根据预置字符向量表,对语言字符进行向量转换处理,得到字符向量;1033、基于字符排序,将m个字符向量进行拼接处理,得到短语拼接矩阵;1034、根据预置整体赋值算法,对短语拼接矩阵进行维度赋值处理,得到短语赋值矩阵;1035、根据预置分类算法,对短语赋值矩阵进行分类处理,得到短句字符对应的情感标签。
22.在1031-1035步骤中,先将“诠释着大自然的旋律”进行拆解,得到“诠、释、着、大、自、然、的、旋、律”9个语言字符和相应的字符排序。
23.通过训练好的字符映射向量表,分别查询“诠、释、着、大、自、然、的、旋、律”9个语言字符对应的向量值,得到9个字符向量;基于字符排序,将字符向量拼接,变为(3.7526,4.56145669955,3.662562356,7.523645654,9.5622222,9.545544545,22110.054500,1.562222,1.555369745)这样的短语拼接矩阵,实质上也是一种数组。但是,这样处理只能对映射字符本身简单拼接,没有反映出字符之间的关系。因此,还要对相关字符层级划分,例如“诠释着”、“大自然”、“旋律”等词组为同一类,这样可以对短语拼接矩阵整体进行修改,变为(3.7526 50,4.56145669955 50,3.662562356 50,7.523645654 30,9.5622222 30,9.545544545 30,22110.054500 20,1.562222 10,1.555369745 10)这样调整后,得到短语赋值矩阵。最后才是将对修改后的短语赋值矩阵(53.7526,54.56145669955,53.662562356,37.523645654,39.5622222,39.545544545,22130.054500,11.562222,11.555369745)进行识别感情标签,得到在短句字符有的情感标签,这种处理既将整体的相互关联关系体现,也将整个短语中的每个字符细节表现出来,验证得出的短句标签更加准确有效。
24.进一步的,在1034中可以执行以下步骤:10341、读取短语拼接矩阵的短语拼接元素,计算短语拼接元素与相邻元素之间的欧式距离,得到前元素距离和后元素距离;10342、分析前元素距离与预置距离阈值的大小关系,分析后元素距离与预置距离阈值的大小关系;10343、将超过距离阈值的距离对应元素划分为非关联元素,将未超过距离阈值的距离对应元素划分为关联元素;10344、基于预置关联区分算法,对短语拼接矩阵中关联元素进行区分赋值处理,得到短语赋值矩阵。
25.在10341-10344步骤中,(3.7526,4.56145669955,3.662562356,7.523645654,9.5622222,9.545544545,22110.054500,1.562222,1.555369745)读取4.56145669955,计算4.56145669955与3.7526的欧式距离为前元素距离,计算4.56145669955与3.662562356的欧式距离为后元素距离,判断两者的后元素距离和前元素距离是否超过距离阈值,没有超过距离阈值可认为相互之间是具有关联,4.56145669955、3.7526、3.662562356划为关联元素。然而,3.662562356与7.523645654之间的欧式距离为超过阈值,则把3.662562356与7.523645654划分为非关联元素,然后基于关联和非关联之间元素的差别再分别进行赋值,将不同的关联元素给予不同的赋值,生成短语赋值矩阵。例如,有5个类别3.7526、4.56145669955、3.662562356都增加50,7.523645654,9.5622222,9.545544545都增加30,22110.054500增加20,1.562222,1.555369745都增加10,实现不同划分类别的区分。
26.104、基于短句字符对应的情感标签,对情感语音集进行标签匹配处理,得到情感标签匹配的情感语音;在本实施例中,“诠释着大自然的旋律”的情感标签为“开心标签”,则在情感语音集中找到“开心标签”的模板语音,然后对该模板语音的声纹进行仿制,也可以使用vioce clone技术将该语音复刻出来。
27.105、基于情感标签匹配的情感语音,对短句字符进行音频生成处理,得到短句音频;在本实施例中,基于“开心标签”的情感语音,将“诠释着大自然的旋律”转换为短句音频,基于vioce clone技术,逐步将“诠释着大自然的旋律”短句音频生成。
28.进一步的,在105可以执行以下步骤:1051、根据预置采样框,对情感标签匹配的情感语音进行切分采样处理,得到音频特征集;1052、基于音频特征集,对短句字符进行声纹模拟处理,得到短句音频。
29.在本实施例中,可以基于采样率和采样框的大小,对情感语音切分,然后每个切分片得到都是音频特征,根据切分片的声纹,对短句字符进行模拟,声纹信息中带有情感状态信息,由此得到的短句音频和情感语音的情感信息是一致的,主要是由声纹信息复制模拟得到。
30.106、根据短句排序,对n个短句音频进行拼接处理,得到文字字符串对应的文字情感音频。
31.在本实施例中,{站在花枝前,闭上眼睛,屏息静听花瓣丝丝绽开的声音,花开,是一种语言,诠释着大自然的旋律}共有6段短句音频,基于短句的排序,将一个完整“站在花枝前,闭上眼睛。屏息静听花瓣丝丝绽开的声音。花开,是一种语言,诠释着大自然的旋律。”以“开心标签”的语气文字情感音频生成。
32.进一步的,在106可以执行以下步骤:1061、创建音频框架;1062、基于所述短句排序,按序读取n个所述短句音频的每一帧数据,得到帧序列数据集;1063、将所述帧序列数据集写入至所述音频框架中,生成所述文字字符串对应的文字情感音频。
33.在1061-1063步骤中,先创建一个空的文件夹,将{站在花枝前,闭上眼睛,屏息静听花瓣丝丝绽开的声音,花开,是一种语言,诠释着大自然的旋律}按顺序读取每帧音频,然后复制进入空的文件夹中,也即是复制进入音频框架中,在文件夹中音频片段按顺序依次组合,得到文字情感音频。
34.进一步的,情感标签包括:开心标签、悲伤标签、生气标签、惊讶标签、平和标签,在106之后,还可以执行以下步骤:1064、基于所述情感标签,对所述文字情感音频进行片段标记处理,得到带有多个情感标记的文字情感音频。
35.在本实施例中,因为不同文字段阅读时的情感不同,为了方便用户查找,将每段文字音频的情感标记,方便用户可以检索出相关的段落直接进行播放。
36.在本发明实施例中,提供了一种通过录制并模拟有情感的声音,将任何文章用带有情感得朗读出来的方案。用户只需短短录制几句情感不同的音频,便能生成一篇完整的有声读物,这大大缩减了用户消耗的时间与精力,解决了当前有声读物阅读过程中缺乏情感变化的技术问题。
37.上面对本发明实施例中带情感的音频生成方法进行了描述,下面对本发明实施例中带情感的音频生成装置进行描述,请参阅图2,本发明实施例中带情感的音频生成装置一个实施例包括:接收模块201,用于接收多个带情感标签的语音数据,生成情感语音集;分句模块202,用于接收待转换的文字字符串,对所述文字字符串进行分句处理,得到n个短句字符和短句排序,其中,n为正整数;情感分析模块203,用于根据预置识别算法,对所述短句字符进行情感分析处理,得到所述短句字符对应的情感标签;标签匹配模块204,用于基于所述短句字符对应的情感标签,对所述情感语音集进行标签匹配处理,得到情感标签匹配的情感语音;音频生成模块205,用于基于所述情感标签匹配的情感语音,对所述短句字符进行音频生成处理,得到短句音频;拼接模块206,用于根据所述短句排序,对n个所述短句音频进行拼接处理,得到所述文字字符串对应的文字情感音频。本发明实施例中,有益效果;其中,所述情感分析模块203具体用于:对所述短句字符进行顺序拆分处理,得到m个语言字符和字符排序,其中,m为正整数;根据预置字符向量表,对所述语言字符进行向量转换处理,得到字符向量;基于所述字符排序,将m个所述字符向量进行拼接处理,得到短语拼接矩阵;根据预置整体赋值算法,对所述短语拼接矩阵进行维度赋值处理,得到短语赋值矩阵;根据预置分类算法,对所述短语赋值矩阵进行分类处理,得到所述短句字符对应的情感标签。
38.在本发明实施例中,提供了一种通过录制并模拟有情感的声音,将任何文章用带有情感得朗读出来的方案。用户只需短短录制几句情感不同的音频,便能生成一篇完整的
有声读物,这大大缩减了用户消耗的时间与精力,解决了当前有声读物阅读过程中缺乏情感变化的技术问题。
39.请参阅图3,本发明实施例中带情感的音频生成装置的另一个实施例包括:接收模块201,用于接收多个带情感标签的语音数据,生成情感语音集;分句模块202,用于接收待转换的文字字符串,对所述文字字符串进行分句处理,得到n个短句字符和短句排序,其中,n为正整数;情感分析模块203,用于根据预置识别算法,对所述短句字符进行情感分析处理,得到所述短句字符对应的情感标签;标签匹配模块204,用于基于所述短句字符对应的情感标签,对所述情感语音集进行标签匹配处理,得到情感标签匹配的情感语音;音频生成模块205,用于基于所述情感标签匹配的情感语音,对所述短句字符进行音频生成处理,得到短句音频;拼接模块206,用于根据所述短句排序,对n个所述短句音频进行拼接处理,得到所述文字字符串对应的文字情感音频。本发明实施例中,有益效果。
40.其中,所述情感分析模块203具体用于:对所述短句字符进行顺序拆分处理,得到m个语言字符和字符排序,其中,m为正整数;根据预置字符向量表,对所述语言字符进行向量转换处理,得到字符向量;基于所述字符排序,将m个所述字符向量进行拼接处理,得到短语拼接矩阵;根据预置整体赋值算法,对所述短语拼接矩阵进行维度赋值处理,得到短语赋值矩阵;根据预置分类算法,对所述短语赋值矩阵进行分类处理,得到所述短句字符对应的情感标签。
41.其中,所述情感分析模块203还可以具体用于:读取所述短语拼接矩阵的短语拼接元素,计算所述短语拼接元素与相邻元素之间的欧式距离,得到前元素距离和后元素距离;分析所述前元素距离与预置距离阈值的大小关系,分析所述后元素距离与预置距离阈值的大小关系;将超过所述距离阈值的距离对应元素划分为非关联元素,将未超过所述距离阈值的距离对应元素划分为关联元素;基于预置关联区分算法,对所述短语拼接矩阵中关联元素进行区分赋值处理,得到短语赋值矩阵。
42.其中,所述拼接模块206具体用于:创建音频框架;基于所述短句排序,按序读取n个所述短句音频的每一帧数据,得到帧序列数据集;将所述帧序列数据集写入至所述音频框架中,生成所述文字字符串对应的文字情感音频。
43.其中,所述音频生成模块205具体用于:
rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
52.以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献