模型训练素材挑选方法、装置、电子设备及存储介质与流程

2022-04-13 20:42:35 来源：中国专利 TAG：

1.本技术涉及语音转换领域，尤其涉及一种模型训练素材挑选方法、装置、电子设备及存储介质。

背景技术：

2.目前语音合成(text-to-speech，tts)及语音转换(voice converison，vc)已广泛使用在人工智能系统中。例如，tts使用在有声书、导航、语音助手等产品中，vc使用在影视剧配音、直播娱乐等产品中。tts和vc在目前以及未来都有广泛的使用场景以及巨大的商用价值。
3.在语音合成及语音转换系统中，深度学习成为了目前的主流方案。深度学习虽然有效的提升了系统的效果，但是对训练数据的数量也提出了更高的要求。目前通过深度学习方法训练模型时，对训练素材的数据量以及要求都有非常严格的标准，例如，针对一个发音人的总数据，往往需要几十小时数据，数据量大，因此导致模型训练素材的制作周期长，模型训练素材制作效率低下。

技术实现要素：

4.本技术提供了一种模型训练素材挑选方法、装置、电子设备及存储介质，以解决相关技术中，模型训练素材制作周期长，制作费用高的问题。
5.第一方面，本技术提供了一种模型训练素材挑选方法，所述模型训练素材挑选方法包括：对干音素材进行分割，得到多个音频语句，所述干音素材中包含多个用于模型训练的音频；提取每个所述音频语句的信噪比，并将信噪比大于目标信噪比的所述音频语句作为候选音频；从所述候选音频中确定参考音频语句，并根据所述参考音频语句确定所述候选音频中的目标音频语句，所述目标音频语句为所述模型的训练素材，所述目标音频语句与所述参考音频语句之间的相似度大于相似度阈值，且所述参考音频语句与所述目标音频语句不为同一音频。
6.第二方面，本技术提供了一种模型训练素材挑选装置，所述模型训练素材挑选装置，包括：分割模块，所述分割模块用于对干音素材进行分割，得到多个音频语句，所述干音素材中包含多个用于模型训练的音频；提取模块，所述提取模块用于提取每个所述音频语句的信噪比，并将信噪比大于目标信噪比的所述音频语句作为候选音频；确定模块，所述确定模块用于从所述候选音频中确定参考音频语句，并根据所述参考音频语句确定所述候选音频中的目标音频语句，所述目标音频语句为所述模型训练的训练素材，所述目标音频语句与所述参考音频语句之间的相似度大于相似度阈值，且所述参考音频语句与所述目标音频语句不为同一音频。
7.第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
8.存储器，用于存放计算机程序；
9.处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的模型训练素材挑选方法的步骤。
10.第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的模型训练素材挑选方法的步骤。
11.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：
12.本技术实施例提供的该方法，包括：对干音素材进行分割，得到多个音频语句，所述干音素材中包含多个用于模型训练的音频；提取每个所述音频语句的信噪比，并将信噪比大于目标信噪比的所述音频语句作为候选音频；从所述候选音频中确定参考音频语句，并根据所述参考音频语句确定所述候选音频中的目标音频语句，所述目标音频语句为所述模型的训练素材，所述目标音频语句与所述参考音频语句之间的相似度大于相似度阈值，且所述参考音频语句与所述目标音频语句不为同一音频，通过上述方法，通过计算声纹相似度的方式，自动从干音素材中挑选出能够用于模型训练的音频，作为模型训练素材，提高了模型训练素材的制作效率，避免了人工根据模型训练需求对发音人进行分类，收集发音人的音频，导致工作周期长，模型训练素材制作效率低下的问题。
附图说明
13.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
14.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
15.图1为本技术实施例提供的一种模型训练素材挑选方法的流程示意图；
16.图2为本技术实施例提供的一种模型训练系统的基本结构示意图；
17.图3为本技术实施例提供的一种模型训练装置的基本结构示意图；
18.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
19.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
20.图1为本技术实施例提供的一种模型训练素材挑选方法的流程示意图，如图1所示，其包括但不限于：
21.s101、对干音素材进行分割，得到多个音频语句；
22.应当理解的是，干音素材为没有经过任何后期处理的原始人声录音素材，可以理解为麦克风收录到的声音。这种声音没有经过任何的处理，可以很明显的突出录音时的特征。其中，所述干音素材为多句音频的合集，包含有多句音频，其中多句音频中至少部分音频可以用于模型训练，也即所述干音素材包含了多个用于模型训练的音频，而在对模型进行训练时，训练数据需要的是单句，因此，需要通过对干音素材进行分割，以对干音素材中
的多个音频进行分割，得到多个音频语句，每个音频语句为一个单句，其中，干音素材为一整段音频，单句则为满足模型训练需求的，单独的一个句子。
23.可以理解的是，在对干音素材进行分割之前，所述模型训练素材挑选方法还包括：获取干音素材；其中，可以从干音素材数据库中获取干音素材，也可以是从网络中获取干音素材；在一些示例中，上述干音素材可以是电视剧的干音素材，也可以是电影的干音素材，由于电视剧的干音素材的音频总时长大于电影的干音素材的音频总时长，因此，优选的，干音素材为电视剧的干音素材，此外，电视剧的干音素材中往往存在多个角色发声，也即存在多个角色对应的音频，由于电视剧的干音素材总时长较长，因此单个角色也能够提取足够的音频时长，进而可以获取到多个发音人对应的音频。
24.s102、提取每个所述音频语句的信噪比，并将信噪比大于目标信噪比的所述音频语句作为候选音频；
25.应当理解的是，信噪比(signal-to-noise ratio)是音频语句中的语音段与静音段噪声信号(功率)的差值。用db表示。例如，某音频的信噪比为80db，即语音段的功率是静音段功率的10^8倍，语音段输出信号标准差则是静音段输出信号标准差的10^4倍，信噪比数值越高，相对噪音越小。在一些示例中，所述目标信噪比为根据所述模型训练需求确定的，应当理解的是，当模型不同时，模型的训练需求也可能不同，因此，目标信噪比根据模型的训练需求来确定，可以理解的是，模型的训练需求由相关人员灵活设置，例如：当相关人员设置模型训练需求为需要信噪比超过30db的音频，此时则将目标信噪比设为30db；再例如，当相关人员设置模型训练需求为需要信噪比超过50db的音频，此时则将目标信噪比设为50db。
26.应当理解的是，在一些示例中，模型的训练需求可能是小于某一信噪比的音频语句，则此时将该某一信噪比作为目标信噪比时，将信噪比小于目标信噪比的音频语句作为候选音频。
27.s103、从所述候选音频中确定参考音频语句，并根据所述参考音频语句确定所述候选音频中的目标音频语句；
28.应当理解的是，所述目标音频语句为所述模型的训练素材，所述目标音频语句与所述参考音频语句之间的相似度大于相似度阈值，且所述参考音频语句与所述目标音频语句不为同一音频。
29.在本实施例的一些示例中，对干音素材进行分割，得到多个音频语句，包括：获取所述干音素材的音轨，以及预设音频切分范围，所述预设音频切分范围为根据所述模型训练需求确定的，且所述预设音频切分范围用于限定最长切分长度和最短切分长度；以所述预设音频切分范围为限制，根据所述干音素材的静音段对所述音轨进行切分，以将所述干音素材切分为多个所述音频语句，各音频语句时长的长度在预设音频切分长度内。应当理解的是，其中预设音频切分范围为一个范围值，该范围值中的最大值为各个音频语句的最长切分长度，该范围值中的最小值为各个音频语句的最短切分长度，具体的，不同模型训练时，需要的音频语句的时长也不相同，可以理解的是，模型的训练需求由相关人员灵活设置，例如，相关人员设置模型需要5s至10s的音频语句进行训练，则将5s-10s作为预设音频切分范围，以使得切分得到的音频语句在5s-10s这个范围内；相关人员设置模型的训练需求为3s-5s时，则将3s-5s作为预设音频切分范围，以使得切分得到的音频语句在3s-5s这个
范围内。
30.应当理解的是，音轨是在音序器软件中看到的一条一条的平行“轨道”。每条音轨分别定义了该条音轨的属性，如音轨的音色，音色库，通道数，输入/输出端口，音量等，且每个音轨具有时间长度的概念；其中，干音素材对应一个完整的音轨，通过对该音轨进行分割，得到多个子音轨，每个子音轨对应一个音频语句，进而实现了对干音素材进行分割，使得多个音频语句，且各个子音轨的时长之和等于干音素材的音轨时长，应当理解的是，对干音素材的音轨进行分割时，为以所述预设音频切分长度范围为限制，根据所述干音素材的静音段对所述音轨进行分割切分，以将所述干音素材切分为多个音频语句；例如，干音素材的音轨时长为150s，预设音频切分范围为5s-10s，通过获取干音素材中所有静音段的起始点，然后将起始点作为切分点，根据该切分点对干音素材进行切分，以将干音素材的音轨且分为多个子音轨，当子音轨的长度在5s-10s范围内时，则将感应素材切分完成，若某一子音轨的长度不在5s-10s范围内，则直接以范围值中的最大值10s，对该子音轨进行切分，以使得切分完成的子音轨在预设音频切分范围内。
31.在一些示例中，除了满足子音轨的时长在预设音频切分范围内之外，对干音素材进行切分时，还需要满足切分得到的各个音频语句中，每个音频语句中仅包含一个发音人，以使得后续更好的获取音频语句对应的声纹特征。应当理解的是，可以通过分句模块来根据所述预设音频切分长度对所述音轨进行分割，以将所述干音素材切分为多个单句，得到多个所述音频语句；其中分句模块可以为pyannote-audio结构模型。
32.在本实施例的一些实施例中，提取每个所述音频语句的信噪比，并将信噪比大于目标信噪比的所述音频语句作为候选音频，包括：确定每个所述音频语句中的静音段与语音段，并提取所述静音段的信号能量和所述语音段的信号能量；根据所述音频语句的信号能量与所述静音段的信号能量求出所述音频语句的信噪比；将所述音频语句的信噪比与所述目标信噪比进行比较，当所述音频语句的信噪比大于所述目标信噪比时，将所述音频语句作为候选音频。也即，获取所有的音频语句的信噪比，然后将每个音频语句的信噪比与目标信噪比进行比较，当某一个音频语句的信噪比大于目标信噪比时，则将该音频语句作为候选音频。
33.应当理解的是，音频语句可以分为静音段与语音段，其中，可以通过获取音频语句的短时能量ste和过零率zcc，来确定音频语句的静音段和语音段，当音频语句中某一时刻的能量ste或过零率超越了预设门限时，判定其为语音段的开始，静音段的结束，当音频语句中某一时刻的能量或过零率低于了预设门限时，判定其为静音段的开始，语音段的结束；确定音频语句的能量和过零率的方法包括但不限于：对音频语句分帧时取一帧20ms(因为一般会进行短时傅里叶变换，时域和频域的分辨率需要一个平衡，20ms为平衡点)。此处输入信号采样率为8000hz。因此每一帧长度为160samples.ste的计算方法是,即帧内信号的平方和。zcc的计算方法是，将帧内所有sample平移1，再对应点做乘积，符号为负的则说明此处过零，只需将帧内所有负数乘积数目求出则得到该帧的过零率。
34.承接上例，在确定音频语句中的静音段和语音段之后，提取出静音段的信号能量和语音段的信号能量，并根据提取处的信号能量求出音频语句的信噪比，其中静音段的信号能量用于表征静音段的噪声信号，语音段的信号能量用于表征语音段的噪声信号，在获得语音段的信号能量和静音段的信号能量之后，将语音段的信号能量和静音段的信号能量
作差得到能量差值，将该差值作为音频语音的信噪比。需要理解的是，本实施例并不限制获取信号能量的方式，例如，可以通过将区分出的静音段和语音段的音频语句，输入信号能量获取模型，进而获得静音段和语音段的信号能量，其中，信号能量获取模型可以是开源的、已训练好的模型，本实施例并不做限制。
35.在本实施例的一些示例中，从所述候选音频中确定参考音频语句，包括：确定候选发音人，所述候选发音人为所述干音素材中任一音频语句对应的发音人；获取所述候选发音人对应的n条候选音频，并将获取的所述候选发音人对应的候选音频作为所述参考音频语句。应当理解的是，在对模型进行训练时，需要使用同一人的不同音频来进行训练，因此，在干音素材中挑选模型训练素材时，需要先从干音素材的发音人中，确定一个候选发音人，然后从所有的候选音频中选取出该候选发音人对应的n条候选音频，来作为参考音频语句，其中n为相关人员灵活设置的，具体的，在确定候选发音人后，首先获取该候选发音人的音色，然后将该音色与各个候选音频的音色进行比较，选出与该候选发音人音色相同的候选音频，并将其作为参考音频。优选的，可以从所有的候选音频中选取出10条左右该候选发音人对应的候选音频，来作为参考音频语句。例如，有10000条候选音频，每个候选音频对应一个发音人，且多个候选音频可以对应一个发音人，也即一个发音人可以由多条候选音频，在确定候选发音人后，从10000条候选音频中选出该候选发音人对应的10条候选音频，来作为参考音频语句。
36.承接上例，应当理解的是，可以同时从干音素材的发音人中，确定多个候选发音人，然后分别选取出各个候选发音人对一个的音频语句作为参考音频语句，同时在一些示例中，当将某一候选音频作为参考音频语句后，则将该作为参考音频语句的音频语句从候选音频中移除，避免后续重复比对，例如，当存在a、b、c、d
…
n候选音频，选择其中c作为参考音频语句时，则从候选音频中移除c，仅将剩下的a、b、d
…
n作为候选音频。
37.在本实施例的一些示例中，根据所述参考音频语句确定所述候选音频中的目标音频语句，包括：提取所述参考音频语句的声纹特征，并提取每个所述候选音频声纹特征；分别获取所述参考音频语句的声纹特征与每个所述候选音频声纹特征的声纹相似度；当所述声纹相似度大于声纹特征相似度阈值时，将所述候选音频作为所述目标音频语句。应当理解的是，音频语句中的声音是模拟信号，声音的时域波形只代表声压随时间变化的关系，不能很好的代表声音的特征，因此，必须将声音波形转换为声学特征向量，才能准确获得音频语句的声纹特征；其中，提取各个音频语句的声纹特征的方法包括但不限于：梅尔频率倒谱系数mfcc、线性预测倒谱系数lpcc、多媒体内容描述接口mpeg7等；由于mfcc是基于倒谱的，更符合人的听觉原理，因而优选mfcc作为提取音频的声纹特征的算法。在提取mfcc前，需要对声音做前期处理，包括模数转换、预加重和加窗。
38.承接上例，在通过上述任一方法提取出参考音频语句的声纹特征、以及每一个候选音频声纹特征后，分别计算参考音频语句的声纹特征和每一个候选音频声纹特征的声纹相似度，应当理解的是，由于参考音频语句的声纹特征和每一个候选音频声纹特征都是声学特征向量，因此，可以采用余弦相似度算法来计算参考音频语句的声纹特征和每一个候选音频声纹特征的声纹相似度，余弦相似度算法计算得到的余弦值大于声纹特征相似度阈值时，则认为两个声音属于同一发音人，因此将该候选音频作为目标音频语句；应当理解的是，声纹特征相似度阈值是使用大量发音人的音频，计算各自发音人内部数据的相似度值，
然后求取的阈值。
39.在本实施例的一些示例中，将所述候选音频作为所述目标音频语句之前，所述方法还包括：获取所述干音素材对应的视频文件，从所述视频文件中获取所述参考音频语句对应的人脸图像，以及从所述视频文件中获取所述候选音频的对应的人脸图像；计算所述参考音频语句对应的人脸图像与所述候选音频的对应的人脸图像的人脸识别相似度；当所述声纹相似度大于声纹特征相似度阈值时，将所述候选音频作为所述目标音频语句，包括：当所述声纹相似度大于声纹特征相似度阈值，且所述人脸识别相似度大于人脸相似阈值时，将所述候选音频作为所述目标音频语句。在本实施例的一些示例中，还可以通过人脸识别来辅助识别多个音频是否为同一人发出的声音，具体的，首先获取干音素材对应的视频文件，且视频文件和干音素材的时长一致，确定该参考音频语句在干音素材内的起始时间和终止时间，从视频文件中获取该起始时间和终止时间对应的视频图像，在获取到视频图像后，将该视频图像内的人脸作为参考音频语句对应的人脸图像，进而通过获取参考音频语句对应的视频图像，获得该参考音频语句发音人对应的人脸图像，然后将其转换为人脸向量特征；同理，通过获取候选音频对应的视频图像，进而获得候选音频发音人对应的人脸图像，然后将其转换为人脸向量特征，再计算参考音频语句对应人脸向量特征与候选音频对应的人脸向量特征，得到人脸识别相似度；在一些示例中，从视频文件中获取该起始时间和终止时间对应的视频图像，在获取到视频图像后，将该视频图像内的人脸作为参考音频语句对应的人脸图像时，若获取到多张人脸图像，则将多张人脸图像分别通过交互界面进行展示，并接收使用对象输出的确定指令，确定出参考音频语句对应的人脸图像；同理，获取候选音频对应的视频图像时，也可以采用上述方法，在此不在赘述。
40.承接上例，获取人脸识别相似度后，仅在声纹相似度大于声纹特征相似度阈值，且所述人脸识别相似度大于人脸相似阈值时，将所述候选音频作为所述目标音频语句；在一些示例中，也仅在声纹相似度大于声纹特征相似度阈值时，才去获取人脸识别相似度。
41.在本实施例的一些示例中，根据所述参考音频语句确定所述候选音频中的目标音频语句之后，所述方法还包括：通过不同发音人对应的所述目标音频语句对所述模型进行训练；具体的，通过本实施例提供的模型训练素材挑选方法，能够从干音素材中挑选出符合训练需求的目标音频，为了更好的对模型进行训练，则获取多个不同发音人对应的目标音频语句，并通过多个不同发音人对应的目标音频语句对模型进行训练。
42.本实施例提供的模型训练素材挑选方法，包括：对干音素材进行分割，得到多个音频语句，所述干音素材中包含多个用于模型训练的音频；提取每个所述音频语句的信噪比，并将信噪比大于目标信噪比的所述音频语句作为候选音频；从所述候选音频中确定参考音频语句，并根据所述参考音频语句确定所述候选音频中的目标音频语句，所述目标音频语句为所述模型的训练素材，所述目标音频语句与所述参考音频语句之间的相似度大于相似度阈值，且所述参考音频语句与所述目标音频语句不为同一音频，通过上述方法，通过计算声纹相似度的方式，自动从干音素材中挑选出能够用于模型训练的音频，作为模型训练素材，避免了人工根据模型训练需求对发音人进行分类，并收集发音人的音频导致工作周期长、人工费用高的问题。
43.基于相同的构思，本实施例提供一种模型训练素材挑选系统，如图2所示，所述模型训练素材挑选系统包括但不限于：
44.分句模块
45.可以理解的是，影视剧的干音素材往往是一个整轨，例如一集电视剧的干音为一个音轨。在tts和vc模型训练时，训练数据需要是单句数据，单句时长一般是1s-10s左右。因此需要使用分句模块对音轨进行单句切分，得到多个音频语句，目前采用的分句模块为开源的pyannote-audio，根据用户的需求进行切分范围的设置。
46.信噪比计算模块
47.可以理解的是，根据分句模块切分时记录的时间戳信息，计算音频语句的语音段和静音段的信号能量差，即为信噪比。在tts和vc模型训练中，音频文件一般要求信噪比大于30db，因此根据此阈值，将满足信噪比要求的音频筛选出来，作为候选音频。
48.声纹相似度计算模块
49.首先根据使用者的需求，从干音素材得到的候选音频中选出候选发音人的10句左右参考音频语句，作为发音人的声纹计算参考。然后使用声纹提取工具，分别提取参考音频语句和候选音频的声纹特征，然后计算余弦相似度(cosine)相似度的平均值，当相似度平均值大于某一阈值时，则认为两个声音属于同一发音人。其中相似度阈值是使用大量发音人，计算各自发音人内部数据的相似度值，然后求取的阈值。
50.基于相同的构思，本实施例还提供一种模型训练素材挑选装置，如图3所示，其包括但不限于：
51.分割模块1，所述分割模块用于对干音素材进行分割，得到多个音频语句，所述干音素材中包含多个用于模型训练的音频；
52.提取模块2，所述提取模块用于提取每个所述音频语句的信噪比，并将信噪比大于目标信噪比的所述音频语句作为候选音频；
53.确定模块3，所述确定模块用于从所述候选音频中确定参考音频语句，并根据所述参考音频语句确定所述候选音频中的目标音频语句，所述目标音频语句为所述模型训练的训练素材，所述目标音频语句与所述参考音频语句之间的相似度大于相似度阈值，且所述参考音频语句与所述候选音频语句不为同一音频。
54.应当理解的是，本实施例提供的语音转换装置的各个模块之间的组合能够实现上述语音转换方法的各个步骤，达到与上述语音转换方法的各个步骤相同的技术效果，在此不再赘述。
55.如图4所示，本技术实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，
56.存储器113，用于存放计算机程序；
57.在本技术一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的模型训练素材挑选方法，包括：
58.本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的模型训练素材挑选方法的步骤。
59.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之
间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
60.以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

模型训练素材挑选方法、装置、电子设备及存储介质与流程

相关文献

最热文献