语音贴图产生方法与装置与流程

2021-07-09 08:47:00 来源：中国专利 TAG：贴图语音装置方法技术

1.本发明涉及一种贴图产生技术，尤其涉及一种语音贴图产生方法与装置。

背景技术：

2.现有通信软件(如line、wechat等)上为了让沟通过程中能增加趣味，进而提供使用者使用语音贴图。目前语音贴图均需要使用者从通信软件的商城中选购上架的语音贴图商品，且此些语音贴图商品的图片和对应的语音均是固定的，并没有使用上的弹性。

技术实现要素：

3.有鉴于此，本发明实施例提出一种语音贴图产生方法与装置。
4.在一实施例中，语音贴图产生方法包括：取得一段文字；经由文字转语音模型将该段文字转换成语音；取得贴图；以及整合该语音及该贴图。
5.在一实施例中，语音贴图产生装置包括文字输入模块、文字转语音模块及贴图整合模块。文字输入模块供取得一段文字。文字转语音模块载有文字转语音模型，以将该段文字转换成语音。贴图整合模块将贴图与该语音整合为语音贴图。
6.综上所述，根据本发明的实施例，可以机器合成由使用者指定的人员发出的语音，并与使用者指定的贴图相结合而形成语音贴图，且语音内容也可由使用者编写。
附图说明
7.图1为本发明一实施例的语音贴图产生装置的硬件架构示意图。
8.图2为本发明一实施例的语音贴图产生装置的软件架构示意图。
9.图3为本发明一实施例的语音贴图产生方法的流程图。
10.图4为本发明一实施例的文字转语音模型的架构示意图。
11.图5为本发明一实施例的文字编码器的架构示意图。
12.图6为本发明一实施例的音频编码器的架构示意图。
13.图7为本发明一实施例的译码器的架构示意图。
14.其中，附图标记：
15.语音贴图产生装置100
16.处理装置120
17.处理器121
18.中央处理单元1213
19.神经网络处理器1215
20.内存122
21.挥发性内存1224
22.非挥发性内存1226
23.非瞬时计算机可读取记录媒体123
24.周边界面124
25.总线125
26.收音装置110
27.输入设备130
28.录音模块210
29.语料库220
30.模型训练模块230
31.权重数据库240
32.文字输入模块250
33.贴图库260
34.文字转语音模块270
35.贴图整合模块280
36.步骤s301、s302、s303、s304
37.编码器410
38.文字编码器411
39.字符嵌入层4111
40.非因果卷积层4112
41.高速公路卷积层4113
42.音频编码器412
43.因果卷积层4121
44.高速公路卷积层4122
45.注意力机制420
46.译码器430
47.第一因果卷积层431
48.高速公路卷积层432
49.第二因果卷积层433
50.逻辑斯谛函数层434
51.后网络440
52.声码器450
具体实施方式
53.参照图1，为本发明一实施例的语音贴图产生装置100的硬件架构示意图。语音贴图产生装置100为一个或多个具有运算能力的计算机系统(在此以一处理装置120为例)，例如个人计算机、笔记本电脑、智能型手机、平板电脑、服务器群集等。语音贴图产生装置100能够产生语音贴图，使得使用者可以使用该语音贴图，例如：在通信软件中发送给对话者。
54.语音贴图产生装置100的处理装置120的硬件具有处理器121、内存122、非瞬时计算机可读取记录媒体123、周边接口124、及供上述元件彼此通信的总线125。总线125包括但不限于系统总线、内存总线、周边总线等一种或多种的组合。处理器121包括但不限于中央处理单元(cpu)1213和神经网络处理器(npu)1215。内存122包括但不限于挥发性内存1224
(如随机存取内存(ram))和非挥发性内存1226(如只读存储器(rom))。非瞬时计算机可读取记录媒体123可例如为硬盘、固态硬盘等，供储存包括多个指令的计算机程序产品(后称“软件”)，致使计算机系统的处理器121执行该些指令时，使得计算机系统执行语音贴图产生方法。
55.周边接口124供连接收音装置110和输入设备130。收音装置110用以撷取使用者的语音，其包括单一麦克风或多个麦克风(如麦克风数组)。麦克风可以采用如动圈式麦克风、电容式麦克风、微机电麦克风等类型。输入设备130供使用者输入文字，例如键盘、触摸板(配合手写识别软件)、手写板、鼠标(配合虚拟键盘)等。
56.在一些实施例中，收音装置110、处理装置120及输入设备130中的任两者可以是以单一个体形式实现。例如，收音装置110和处理装置120为平板电脑的单一装置实现，而连接一外接形式的输入设备130(如键盘)。或如，收音装置110、处理装置120及输入设备130为笔记本电脑的单一装置实现。
57.在一些实施例中，收音装置110、处理装置120及输入设备130可以是分别独立的个体。例如，处理装置120为一个人计算机，分别连接外接形式的收音装置110及输入设备130。
58.在一些实施例中，处理装置120包括两个以上的计算机系统，例如：一个人计算机及一服务器。服务器执行语音贴图产生处理。个人计算机内建或外接收音装置110及输入设备130，以将使用者语音与输入文字经由网络传送给服务器，并经由网络接收服务器回传的语音贴图。
59.参照图2，为本发明一实施例的语音贴图产生装置100的软件架构示意图。如图2所示，语音贴图产生装置100的软件包括：录音模块210、语料库220、模型训练模块230、权重数据库240、文字输入模块250、贴图库260、文字转语音模块270及贴图整合模块280。其中，录音模块210、语料库220、模型训练模块230及权重数据库240是关于文字转语音神经网络模型(后称“文字转语音模型”)的训练；文字输入模块250、贴图库260、文字转语音模块270及贴图整合模块280是使用经训练的权重数据库240来产生语音贴图。
60.首先，说明训练的部分。录音模块210与语料库220是用来提供一个人员或多个人员的语料，所述语料是指语音数据，即该人员讲话的语音文件。例如，使用者可使用录音模块210将收音装置110收取的自己的语音录制成语料。语料库220储存预先录制好的一个人员或多个人员的语料。在一些实施例中，语料库220还储存对应于各该语料的内容的文字。所述人员可以是使用者本身、或其亲朋好友、公众人物等。
61.模型训练模块230将属于一人员的多个语料及相应的文字输入至文字转语音模型中，以取得对应此人员的模型权重。此模型权重将被储存在权重数据库240中，供文字转语音模块270调用。在此，文字转语音模型是序列对序列(sequence to sequence)模型。
62.在一些实施例中，模型训练模块230可对于待输入的语料进行预处理，例如滤波、调整音量、时域频域转换、动态压缩、去噪音、去噪声、使音频格式一致等。相应于语料的文字可储存在语料库220中，或是经由输入设备130输入。
63.在一些实施例中，可以仅使用录音模块210配合收音装置110来取得使用者的语料，因此可不具有语料库220。在另一些实施例中，可仅使用语料库220中储存的语料，而可不具有录音模块210和收音装置110。
64.接下来，说明如何产生语音贴图。合并参照图2及图3，图3为本发明一实施例的语
音贴图产生方法的流程图。在步骤s301中，使用者经由操作输入设备130进行文字输入，于此文字输入模块250会显示输入画面(例如提供一输入字段)，接着文字输入模块250会取得使用者在输入画面中输入的一段文字。在步骤s302中，于文字转语音模块270加载文字转语音模型后，并将该段文字自文字转语音模块270的输入端输入至文字转语音模型中。接着，文字转语音模块270从文字转语音模型的输出取得经转换而成的语音。在步骤s303中，贴图整合模块280从贴图库260中取得一贴图。此贴图可以是静态图片，也可以是动态图片(如apng档案)。在步骤s304中，贴图整合模块280将语音和贴图整合为语音贴图。
65.在一些实施例中，所述整合是将语音和贴图整合成为单一档案的语音贴图，例如为影片格式。在另一些实施例中，语音跟贴图各别是单独的档案，例如语音是音频文件，贴图是图档，所述整合是将语音跟贴图相关联，使得在播放语音贴图的时候能够将相对应的语音和贴图同步播放。
66.在一些实施例中，取得贴图的方式可以是由贴图整合模块280提供一选择画面(例如提供贴图选单)，使用者通过操作输入设备130来选择贴图库中的贴图。从而，贴图整合模块280接收使用者的贴图选择，并依据此贴图选择从贴图库中取出相应的贴图。
67.在一些实施例中，文字转语音模块270提供另一选择画面(例如提供人员选单)，供使用者操作输入设备130来选择欲以哪一人员的声音合成语音。从而，文字转语音模块270接收对应于一人员的声音选择，并依据此声音选择从权重数据库240中取出对应的该人员的模型权重。据此，文字转语音模块270将取出的模型权重套用至文字转语音模型中，于是可形成如同该人员说出该段文字的语音。
68.接下来说明文字转语音模型。参照图4，为本发明一实施例的文字转语音模型的架构示意图。文字转语音模型包括编码器410、注意力机制(attention)420、译码器430、后网络(postnet)440和声码器(vocoder)450。
69.编码器410包括文字编码器(textencoder)411和音频编码器(audioencoder)412。分别参照图5及图6，图5为本发明一实施例的文字编码器411的架构示意图，图6为本发明一实施例的音频编码器412的架构示意图。于一实施例中，文字编码器411包括一字符嵌入(character embedding)层4111、一非因果卷积(non-causal convolution)层4112及四个高速公路卷积(highway convolution)层4113。于一实施例中，音频编码器412包括三个因果卷积(causal convolution)层4121和四个高速公路卷积层4122。然而，本发明实施例的文字编码器411和音频编码器412并非以上述实施例的组成为限。
70.参照图7，为本发明一实施例的译码器430(或称音频译码器(audiodecoder))的架构示意图。于一实施例中，译码器430包括一第一因果卷积层431、四个高速公路卷积层432、两个第二因果卷积层433及一逻辑斯谛函数(sigmoid)层434。本发明实施例的译码器430并非以上述组成为限。
71.于一实施例中，注意力机制420给定一查找(query)和一键值(key-value)表，将查找映设到正确输入的过程，输出则为加权求和的形式，权重由查找、键、值共同决定。参照式1，文字编码器411的输出为键值。其中，l为输入的文字，k为键，v为值。参照式2，音频编码器412的输出为查找(q)。其中m
1:f,1:t
为输入的训练语料音频的梅尔倒频，其为f*t的二维的信息。f为梅尔滤波器组的数量，t为音频时间帧(frame)数。文字与语音的匹配程度为q,k
t
./√d，经过softmax函数归一化处理之后即是注意力权重(attention)，如式3所示。其中，d为
维度，k
t
为k的转移矩阵，a为注意力权重值。将值与注意力权重内积(如式4所示)后输入到音频译码器430即获得语音特征向量，如式5所示。其中，y
1:f,2:t 1
为语音特征向量，f为梅尔滤波器组的数量，t为音频时间帧数，r'为注意力机制的输出。
72.(k,v)＝textencoder(l)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式1)
73.q＝audioencoder(m
1:f,1:t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式2)
74.a＝softmax(qk
t
/√d)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式3)
75.r＝v*a
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式4)
76.y
1:f,2:t 1
＝audiodec(r')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式5)
77.上述注意力机制420并非以前述实施例为限，于另外一实施例中，注意力机制420给定一查找(query)和一键值(key-value)表，将查找映设到正确输入的过程，输出则为加权求和的形式，权重由查找、键、值共同决定。参照式6，文字编码器(textencoder)411的输出为多个键值。其中，l为输入的文字，k＝[k1,...,k
n
]为n个键，v＝[v1,...,v
n
]为相对应的n个值。参照式7，音频编码器412的输出为n个查找(q＝[q1,...,q
n
])。其中m
1:f,1:t
为输入的训练语料音频的梅尔倒频，其为f*t的二维的信息。f为梅尔滤波器组的数量，t为音频时间帧(frame)数。对于第i组键值与查找配对，文字与语音的匹配程度为q
i
k
it
/√d。经过softmax函数归一化处理之后即是第i组的注意力权重(attention)，如式8所示。其中，d为维度，k
it
为k
i
的转移矩阵，a
i
为第i组注意力权重值。将每一组的值与注意力权重值内积(如式9所示)后并相加(concatenate)，输入到音频译码器430即获得语音特征向量，如式10所示。其中，y
1:f,2:t 1
为语音特征向量，f为梅尔滤波器组的数量，t为音频时间帧数，r为注意力机制的输出。
[0078]
(k,v)＝textencoder(l)
ꢀꢀꢀ
(式6)
[0079]
其中k与v为各n个键与值，n的数目可以为10、20，但不以此为限。
[0080]
q＝audioencoder(m
1:f,1:t
)
ꢀꢀꢀ
(式7)
[0081]
其中q为n个查找，n的数目可以为10、20，但不以此为限。
[0082]
a
i
＝softmax(q
i
k
it
/√d)
ꢀꢀꢀ
(式8)
[0083]
其中a
i
为利用式6的n个键中的第i个键，与式7的n个查找中的第i个查找计算而来的。a
i
的数目跟k、v、q一样共有n个。
[0084]
r＝concatenate(v
i
*a
i
)
ꢀꢀꢀ
(式9)
[0085]
其中a
i
为式8中的n个a
i
中的第i个，v
i
为式6中的n个值中的第i个。把每一对的a
i
及v
i
做矩阵乘法后相加(concatenate)起来，即得到最后的r。
[0086]
y
1:f,2:t 1
＝audiodec(r)
ꢀꢀꢀ
(式10)
[0087]
后网络(postnet)440是对语音特征向量进行优化处理，换句话说，后网络440是将经过译码器430输出的语音特征向量进行优化，能借此减少输出音频的杂音、爆音，以提高输出音频的质量。
[0088]
声码器(vocoder)450将语音特征向量转换为语音输出。声码器450可利用开源软件“world”或“straight”来实现，但本发明实施例非以此为限。
[0089]
在一些实施例中，文字在输入至文字转语音模型之前，可先经过预处理，例如：对于中文字转换成相应于注音符号的编码字符串，对于一段文字进行分词处理(如通过jieba软件或中研院ckip中文断词系统)，对于多音字可通过查表方式找出正确的声调，或者因应
三声变调规则进行调整。
[0090]
综上所述，根据本发明的实施例，可以机器合成由使用者指定的人员发出的语音，并与使用者指定的贴图相结合而形成语音贴图，且语音内容也可由使用者编写。
[0091]
虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中具有公知常识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视所附的权利要求书所界定的范围为准。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别方法和装置、计算机可读存储介质、电子设备与流程

语音贴图产生方法与装置与流程

相关文章

最热文献