音频处理方法、装置、计算设备及介质与流程

2022-03-22 22:14:45 来源：中国专利 TAG：

1.本公开的实施方式涉及音频处理技术领域，更具体地，本公开的实施方式涉及一种音频处理方法、装置、计算设备及介质。

背景技术：

2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.在一个相关的场景中，随着移动终端的不断发展，手机k歌逐渐成为一种十分受欢迎的休闲娱乐方式。人们可以在终端选择自己要演唱的歌曲，进而基于被选中的歌曲对应的伴奏和逐字歌词来进行演唱，并录制自己所演唱的音频，以便将录制得到的音频分享到各种社交平台，或者，分享给指定用户，等等。
4.相关技术中，主要是由音频平台向相关技术人员提供包括伴奏和人声的歌曲音频，以便相关技术人员基于歌曲音频来制作伴奏和逐字歌词，进而将制作好的伴奏和逐字歌词返回给音频平台，由音频平台发布伴奏和逐字歌词，以便用户可以获取到已发布的伴奏和逐字歌词。
5.在上述实现过程中，人工制作伴奏和逐字歌词的方式操作复杂，而且耗时较长，从而导致音频处理效率较低。

技术实现要素：

6.鉴于相关技术中音频处理效率较低的情况，本公开的实施例至少提供一种音频处理方法、装置、计算设备及介质，以实现待处理音频的自动化处理，从而提高对待处理音频的处理效率。
7.在本公开实施方式的第一方面中，提供了一种音频处理方法，该方法包括：
8.响应于获取到待处理音频，为该待处理音频创建目标数据记录；
9.基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据，该第一歌词文件为逐句划分的歌词文件，该目标数据至少包括伴奏音频和第二歌词文件，该第二歌词文件为逐字划分的歌词文件；
10.在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据。
11.在本公开的一个实施例中，基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据，包括：
12.从该待处理音频中，获取人声音频和该伴奏音频；
13.基于该人声音频和该第一歌词文件，生成该第二歌词文件。
14.在本公开的一个实施例中，从该待处理音频中，获取人声音频和该伴奏音频，包括：
15.将该待处理音频分别输入提取人声神经网络和伴奏提取神经网络，分别通过人声提取神经网络，对该待处理音频进行降采样处理和第一卷积处理，得到该人声音频，通过伴
奏提取神经网络，对该待处理音频进行降采样处理和第二卷积处理，得到该伴奏音频；
16.其中，该人声提取神经网络进行第一卷积处理所使用的网络参数，与该伴奏提取神经网络进行第二卷积处理所使用的网络参数不同。
17.在本公开的一个实施例中，基于该人声音频和该第一歌词文件，生成该第二歌词文件，包括：
18.将该人声音频输入语音识别神经网络，通过该语音识别神经网络，输出该人声音频对应的第一音素以及该第一音素对应的时间戳；
19.获取该第一歌词文件中各个字对应的第二音素；
20.基于该第一音素和该第一音素对应的时间戳，以及该第二音素，确定该第一歌词文件中各个字对应的时间戳，得到该第二歌词文件。
21.在本公开的一个实施例中，该目标数据还包括乐器数字接口midi文件；
22.基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据，还包括：
23.基于该待处理音频和该第二歌词文件，生成该midi文件。
24.在本公开的一个实施例中，基于该待处理音频和该第二歌词文件，生成该midi文件，包括：
25.将该待处理音频输入旋律提取神经网络，通过该旋律提取神经网络，输出该待处理音频的基音；
26.基于该待处理音频的基音和该第二歌词文件，生成该midi文件。
27.在本公开的一个实施例中，在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据，包括：
28.在该目标数据记录中添加该数据信息，并基于该数据信息生成音频描述信息，以基于该音频描述信息获取该目标数据。
29.在本公开的一个实施例中，该数据信息包括与该待处理音频关联的音频数据信息，该音频数据信息至少包括该待处理音频的音频标识和该待处理音频的存储位置。
30.在本公开的一个实施例中，该数据信息还包括该目标数据的数据标识和该目标数据的存储位置。
31.在本公开的一个实施例中，该目标数据记录还包括状态信息，该状态信息用于记录该待处理音频的处理进度。
32.在本公开的一个实施例中，该状态信息包括下述任一项：
33.第一状态信息，该第一状态信息用于指示开始对该待处理音频进行处理；
34.第二状态信息，该第二状态信息用于指示正在生成该伴奏音频；
35.第三状态信息，该第三状态信息用于指示正在生成该第二歌词文件；
36.第四状态信息，该第四状态信息用于指示正在生成该midi文件；
37.第五状态信息，该第五状态信息用于指示正在生成该音频描述信息；
38.第六状态信息，该第六状态信息用于指示已生成该伴奏音频、该第二歌词文件、该midi文件和该音频描述信息。
39.在本公开实施方式的第二方面中，提供了一种音频处理装置，该装置包括：
40.创建模块，用于响应于获取到待处理音频，为该待处理音频创建目标数据记录；
41.生成模块，用于基于该待处理音频和该待处理音频对应的第一歌词文件，生成目
标数据，该第一歌词文件为逐句划分的歌词文件，该目标数据至少包括伴奏音频和第二歌词文件，该第二歌词文件为逐字划分的歌词文件；
42.添加模块，用于在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据。
43.在本公开的一个实施例中，该生成模块，在用于基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据时，包括获取单元和生成单元；
44.该获取单元，用于从该待处理音频中，获取人声音频和该伴奏音频；
45.该生成单元，用于基于该人声音频和该第一歌词文件，生成该第二歌词文件。
46.在本公开的一个实施例中，该获取单元，在用于从该待处理音频中，获取人声音频和该伴奏音频时，具体用于：
47.将该待处理音频分别输入提取人声神经网络和伴奏提取神经网络，分别通过人声提取神经网络，对该待处理音频进行降采样处理和第一卷积处理，得到该人声音频，通过伴奏提取神经网络，对该待处理音频进行降采样处理和第二卷积处理，得到该伴奏音频；
48.其中，该人声提取神经网络进行第一卷积处理所使用的网络参数，与该伴奏提取神经网络进行第二卷积处理所使用的网络参数不同。
49.在本公开的一个实施例中，该生成单元，在用于基于该人声音频和该第一歌词文件，生成该第二歌词文件时，具体用于：
50.将该人声音频输入语音识别神经网络，通过该语音识别神经网络，输出该人声音频对应的第一音素以及该第一音素对应的时间戳；
51.获取该第一歌词文件中各个字对应的第二音素；
52.基于该第一音素和该第一音素对应的时间戳，以及该第二音素，确定该第一歌词文件中各个字对应的时间戳，得到该第二歌词文件。
53.在本公开的一个实施例中，该目标数据还包括乐器数字接口midi文件；
54.该生成模块，在用于基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据时，还用于：
55.基于该待处理音频和该第二歌词文件，生成该midi文件。
56.在本公开的一个实施例中，该生成模块，在用于基于该待处理音频和该第二歌词文件，生成该midi文件时，具体用于：
57.将该待处理音频输入旋律提取神经网络，通过该旋律提取神经网络，输出该待处理音频的基音；
58.基于该待处理音频的基音和该第二歌词文件，生成该midi文件。
59.在本公开的一个实施例中，该添加模块，在用于在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据时，具体用于：
60.在该目标数据记录中添加该数据信息，并基于该数据信息生成音频描述信息，以基于该音频描述信息获取该目标数据。
61.在本公开的一个实施例中，该数据信息包括与该待处理音频关联的音频数据信息，该音频数据信息至少包括该待处理音频的音频标识和该待处理音频的存储位置。
62.在本公开的一个实施例中，该数据信息还包括该目标数据的数据标识和该目标数据的存储位置。
63.在本公开的一个实施例中，该目标数据记录还包括状态信息，该状态信息用于记录该待处理音频的处理进度。
64.在本公开的一个实施例中，该状态信息包括下述任一项：
65.第一状态信息，该第一状态信息用于指示开始对该待处理音频进行处理；
66.第二状态信息，该第二状态信息用于指示正在生成该伴奏音频；
67.第三状态信息，该第三状态信息用于指示正在生成该第二歌词文件；
68.第四状态信息，该第四状态信息用于指示正在生成该midi文件；
69.第五状态信息，该第五状态信息用于指示正在生成该音频描述信息；
70.第六状态信息，该第六状态信息用于指示已生成该伴奏音频、该第二歌词文件、该midi文件和该音频描述信息。
71.在本公开实施方式的第三方面中，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述音频处理方法所执行的操作。
72.在本公开实施方式的第四方面中，提供了一种计算机可读存储介质，计算机可读存储介质上存储有程序，程序被处理器执行上述音频处理方法所执行的操作。
73.根据本说明书实施例的第五方面，提供一种计算机程序产品，包括计算机程序，程序被处理器执行时实现上述音频处理方法所执行的操作。
74.根据本公开实施方式所提供的音频处理方法、装置、计算设备等，可以在获取到待处理音频后，自动为待处理音频创建一条目标数据记录，并自动触发伴奏音频、第二歌词文件等目标数据的生成过程，进而在生成目标数据后，自动在目标数据记录中添加数据信息，而数据信息可以体现基于对待处理音频的操作而生成的数据的信息，以便后续可以通过目标数据记录中所记录的数据信息获取到作为伴奏物料的目标数据，实现待处理音频的自动化处理，从而提高对待处理音频的处理效率。
附图说明
75.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
76.图1是本公开根据一示例性实施例示出的一种音频处理方法的实施环境示意图；
77.图2是本公开根据一示例性实施例示出的一种音频处理方法的流程图；
78.图3是本公开根据一示例性实施例示出的一种音频处理过程的流程图；
79.图4是本公开根据一示例性实施例示出的一种音频处理过程的数据转换过程示意图；
80.图5是本公开根据一示例性实施例示出的一种状态信息的显示示意图；
81.图6是本公开根据一示例性实施例示出的一种伴奏音频的生成情况的统计图；
82.图7是本公开根据一示例性实施例示出的一种音频处理情况的统计图；
83.图8是本公开根据一示例性实施例示出的一种第二歌词文件的生成情况的统计图；
84.图9是本公开根据一示例性实施例示出的一种伴奏音频上下线情况的统计图；
85.图10是本公开根据一示例性实施例示出的一种音频处理装置的框图；
86.图11是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图；
87.图12是本公开根据一示例性实施例示出的一种计算设备的结构示意图。
88.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
89.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
90.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
91.根据本公开的实施方式，提出了一种音频处理方法、装置、计算设备及介质。在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
92.本公开所提供的音频处理方法，可以由计算设备执行，用于在接收到用户上传的待处理音频时，实现对待处理音频的自动化处理。其中，该计算设备可以为服务器。下面结合一种具体的实施环境，来对本公开的应用场景进行说明。
93.参见图1，图1是本公开根据一示例性实施例示出的一种音频处理方法的实施环境示意图，该实施环境包括：终端101和服务器102。
94.其中，终端101可以为台式计算机、便携式计算机、智能手机、智能手表、平板电脑、动态影像专家压缩标准音频层面3(moving picture experts group audio layer iii，mp3)播放器、动态影像专家压缩标准音频层面4(moving picture experts group audio layer iv，mp4)等，本公开对终端101的设备类型和设备数量均不加以限定。服务器102可以为一台服务器、多台服务器、服务器集群、云计算平台等，本公开对服务器102的设备类型和设备数量也不加以限定。
95.可选地，终端101和服务器102之间通过有线或无线的连接方式进行连接，以便终端101和服务器102之间可以进行通信。
96.用户可以通过终端101录制自己演唱的原唱音频，或者，用户可以通过终端101来自己制作原唱音频，从而将自己演唱或制作的原唱音频发送给服务器102，服务器102响应于接收到终端101发送的原唱音频，可以将接收到的原唱音频作为待处理音频，从而通过本公开所提供的音频数据方法，来对待处理音频进行处理，得到作为伴奏物料的伴奏音频、第二歌词文件等，并对原唱音频、伴奏音频、第二歌词文件等进行发布，以便终端101和其他终端可以获取到已发布的原唱音频、伴奏音频、第二歌词文件等，使得用户可以实现听歌、基于伴奏进行歌曲演唱、基于伴奏进行k歌，等等。
97.需要说明的是，上述仅为对本公开的应用场景的示例性说明，仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制，相反，本公开的实施方式可以应用于适用的任何场景，本公开对具体的应用场景不加以限定。
98.下面结合图1所示的实施环境和应用场景，来描述本公开所提供的音频处理方法。
99.参见图2，图2是本公开根据一示例性实施例示出的一种音频处理方法的流程图，该方法包括：
100.步骤201、响应于获取到待处理音频，为待处理音频创建目标数据记录。
101.其中，待处理音频为包括伴奏和人声的音频。目标数据记录用于记录基于待处理音频待进行的操作，以及基于相应操作待生成的数据的数据信息。
102.通过为目标音频创建目标数据记录，以便可以通过目标数据记录，来对待处理音频的处理过程，以及处理过程所产生的结果进行记录。
103.步骤202、基于待处理音频和待处理音频对应的第一歌词文件，生成目标数据，第一歌词文件为逐句划分的歌词文件，目标数据至少包括伴奏音频和第二歌词文件，第二歌词文件为逐字划分的歌词文件。
104.其中，第一歌词文件包括待处理音频对应的歌词文本，以及每行歌词(也即是每句歌词)的时间戳。示例性地，对于任一句歌词，这句歌词的时间戳可以为开始演唱这句歌词的时间，或者，这句歌词的时间戳可以为演唱这句歌词的第一个字时的时间等。
105.而对于目标数据可以包括的伴奏音频和第二歌词文件，伴奏音频为仅包含背景音乐的音频，第二歌词文件可以包括待处理音频对应的歌词文本，以及歌词文本中每个字的时间戳。示例性地，对于任一个字，这个字的时间戳可以为开始演唱这个字的时间。
106.步骤203、在目标数据记录中添加数据信息，以基于数据信息获取目标数据。
107.该数据信息可以指示基于对待处理音频的处理操作所生成的数据的信息。可选地，该数据信息可以包括基于对待处理音频的处理操作所生成的数据的数据标识、存储位置，等等，该数据信息还可以包括其他内容，本公开对此不加以限定。
108.通过在目标数据记录中添加数据信息，从而使得通过该目标数据记录，即可以获知基于待处理音频生成了哪些数据、这些数据存储在了什么位置，等等，从而使得相关技术人员可以有效监控音频处理流程。
109.本公开所提供的音频处理方法，通过在获取到待处理音频后，自动为待处理音频创建一条目标数据记录，并自动触发伴奏音频、第二歌词文件等目标数据的生成过程，进而在生成目标数据后，自动在目标数据记录中添加数据信息，而数据信息可以体现基于对待处理音频的操作而生成的数据的信息，以便后续可以通过目标数据记录中所记录的数据信息获取到作为伴奏物料的目标数据，实现待处理音频的自动化处理，从而提高对待处理音频的处理效率。此外，通过本公开所提供的音频处理方法，可以在短时间内完成对较多的待处理音频的处理，也就可以在短时间内获得较多的目标数据，从而达到一种扩充目标数据的效果。
110.在介绍了本公开的基本原理之后，下面参考本公开的若干代表性实施方式，来详细阐释本公开的各种非限制性实施方式。
111.在一些实施例中，用于执行上述音频处理方法的计算设备可以关联有一个数据库，该数据库可以用于对多种类型的数据进行存储。基于此，对于上述步骤201，在响应于获取到待处理音频，为待处理音频创建目标数据记录时，可以通过如下方式实现：
112.在获取到待处理音频，但并未对待处理音频进行处理的情况下，将待处理音频存储到计算设备所关联的数据库中，并在数据库中创建一条目标数据记录，将与待处理音频
关联的音频数据信息添加至目标数据记录中。
113.因此，目标数据记录中所记录的数据信息，可以包括与待处理音频关联的音频数据信息。其中，音频数据信息可以包括待处理音频的音频标识和待处理音频的存储位置，可选地，音频数据信息还可以包括其他内容，本公开对此不加以限定。
114.其中，待处理音频的音频标识，可以为待处理音频的音频名称，该待处理音频的存储位置，可以为待处理音频在计算设备所关联的数据库中的存储位置。
115.在一些实施例中，对于上述步骤202，在基于待处理音频和待处理音频的第一歌词文件，生成包括伴奏音频和第二歌词文件的目标数据时，可以包括以下步骤：
116.步骤2021、从待处理音频中，获取人声音频和伴奏音频。
117.在一种可能的实现方式中，将待处理音频分别输入提取人声神经网络和伴奏提取神经网络，分别通过人声提取神经网络，对待处理音频进行降采样处理和第一卷积处理，得到人声音频，通过伴奏提取神经网络，对待处理音频进行降采样处理和第二卷积处理，得到伴奏音频。
118.下面分别对通过人声提取神经网络获取人声音频，以及通过伴奏提取神经网络获取伴奏音频的过程进行介绍。首先，对通过人声提取神经网络获取人声音频的过程进行介绍。
119.其中，该人声提取网络可以为u-net结构的神经网络，可选地，该人声提取神经网络还可以为其他类型的神经网络，本公开对此不加以限定。
120.以该人声提取神经网络为u-net结构的神经网络为例，该人声提取神经网络包括编码器(encoder)部分和解码器(decoder)部分。其中，编码器部分用于对待处理音频进行降采样处理，解码器部分用于对降采样处理得到的结果进行第一卷积处理。可选地，编码器部分可以包括至少一个降采样层，降采样层可以由步长(stride)大于2的卷积层和池化层组成；解码器部分可以包括至少一个转置卷积层。
121.在一种可能的实现方式中，将待处理音频输入人声提取神经网络，通过该人声提取网络的编码器部分所包括的至少一个降采样层，来对待处理音频进行降采样处理，得到待处理音频的音频特征，进而通过该人声提取网络的解码器部分所包括的至少一个转置卷积层，来对音频特征进行第一卷积处理(属于转置卷积处理)，从而得到人声音频。
122.下面对通过伴奏提取神经网络获取伴奏音频的过程进行介绍。
123.该伴奏提取网络也可以为u-net结构的神经网络，可选地，该伴奏提取神经网络还可以为其他类型的神经网络，本公开对此不加以限定。
124.以该伴奏提取神经网络为u-net结构的神经网络为例，关于该伴奏提取神经网络的网络结构的介绍，可以参见上述内容对人声提取神经网络的网络结构的介绍，此处不再赘述。需要说明的是，伴奏提取神经网络的编码器部分与人声提取神经网络的编码器部分的网络结构可以相同，但对于解码器部分，一般而言，伴奏提取神经网络的解码器部分与人声提取神经网络的解码器部分的网络参数是不同的，从而使得人声提取神经网络进行第一卷积处理所使用的网络参数，与伴奏提取神经网络进行第二卷积处理所使用的网络参数不同。
125.其中，该网络参数可以为各个转置卷积层的权重，还可以为所包括的转置卷积层的个数，本公开对此不加以限定。
126.在一种可能的实现方式中，将待处理音频输入伴奏提取神经网络，通过该伴奏提取网络的编码器部分所包括的至少一个降采样层，来对待处理音频进行降采样处理，得到待处理音频的音频特征，进而通过该伴奏提取网络的解码器部分所包括的至少一个转置卷积层，来对音频特征进行第二卷积处理(属于转置卷积处理)，从而得到伴奏音频。
127.需要说明的是，由于人声提取神经网络的编码器部分和伴奏提取神经网络的编码器部分的结构可以相同，因此，人声提取神经网络和伴奏提取神经网络可以共用编码器部分。
128.上述仅为分离人声音频和伴奏音频的一种示例性方式，在更多可能的实现方式中，还可以采用其他方式来进行人声音频和伴奏音频的分离，本公开对具体采用哪种方式不加以限定。
129.需要说明的是，在生成伴奏音频后，可以将伴奏音频存储至计算设备所关联的数据库中。可选地，伴奏音频的存储位置与待处理音频的存储位置可以相同，也可以不同。
130.步骤2022、基于人声音频和第一歌词文件，生成第二歌词文件。
131.在一种可能的实现方式中，该步骤2022可以通过如下步骤实现：
132.步骤一、将人声音频输入语音识别神经网络，通过语音识别神经网络，输出人声音频对应的第一音素以及第一音素对应的时间戳。
133.需要说明的是，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔wa〕包含〔w〕和〔a〕两个发音动作，是两个音素。
134.其中，该语音识别神经网络可以包括深度神经网络(deep neural networks，dnn)和声学模型。其中，dnn包括输入层、至少一个隐层和输出层，声学模型可以为隐马尔科夫模型。
135.在一种可能的实现方式中，将该人声音频输入语音识别神经网络，通过语音识别神经网络所包括的dnn，来对人声音频进行处理，得到人声音频的声学特征，进而将声学特征输入声学模型，通过声学模型，输出人声音频所包括的多个音素以及各个音素对应的时间戳，作为人声音频对应的第一音素以及第一音素对应的时间戳。
136.其中，在通过dnn对人声音频进行处理时，可以将人声音频输入dnn的输入层，由dnn的输入层将接收到的人声音频传输给隐层，通过至少一个隐层，来对人声音频进行处理，从而得到人声音频的声学特征。
137.可选地，该声学特征可以为多种类型，例如，该声学特征可以为梅尔倒谱系数(mel-frequency cepstral coefficient，mfcc)或者线性感知预测(perceptual linear prediction，plp)，本公开对采用哪种类型的声学特征不加以限定。
138.需要说明的是，上述仅为获取音素及音素对应的时间戳的一种示例性方式，在更多可能的实现方式中，还可以采用其他方式，来获取第一音素以及第一音素对应的时间戳，本公开对具体采用哪种方式不加以限定。
139.步骤二、获取第一歌词文件中各个字对应的第二音素。
140.在一种可能的实现方式中，可以基于发音词典，确定第一歌词文件中各个字对应的第二音素。
141.其中，发音词典包括各个字与音素之间的映射关系，也即是，发音词典可以指示各
个字所对应的音素是什么。
142.例如，对于“哇”这个字，发音词典即可以指示出“哇”对应有“w”和“a”两个音素，从而可以将“w”和“a”这两个音素，作为“哇”这个字对应的第二音素。
143.需要说明的是，上述步骤一和步骤二所指示的顺序，并不构成对步骤一和步骤二的执行顺序的限定，可选地，可以先执行步骤一再执行步骤二，或者，可以先执行步骤二再执行步骤一，或者，可以同时执行步骤一和步骤二，本公开对步骤一和步骤二的执行顺序不加以限定。
144.步骤三、基于第一音素和第一音素对应的时间戳，以及第二音素，确定第一歌词文件中各个字对应的时间戳，得到第二歌词文件。
145.在一种可能的实现方式中，以任一个字的时间戳的确定过程为例，基于该任一个字对应的目标第二音素，从所确定出的第一音素中，确定与目标第二音素匹配的第一音素，进而将与目标第二音素匹配的第一音素对应的时间戳，确定为该任一个字对应的时间戳。通过与上述过程同理的方式，确定出第一歌词文件所包括的各个字的时间戳，并将包括第一歌词文件的歌词文本，以及各个字的时间戳的文件作为第二歌词文件。
146.需要说明的是，上述仅为生成第二歌词文件的一种示例性方式，在更多可能的实现方式中，还可以采用其他方式来生成第二歌词文件，本公开对具体采用哪种方式不加以限定。
147.需要说明的是，在生成第二歌词文件后，可以将第二歌词文件存储至计算设备所关联的数据库中。可选地，第二歌词文件的存储位置与待处理音频的存储位置可以相同，也可以不同。此外，第二歌词文件的存储位置和伴奏音频的存储位置可以相同，也可以不同。
148.在一些实施例中，目标数据可以由伴奏音频和第二歌词文件组成，基于此，在通过上述过程生成伴奏音频和第二歌词文件后，即实现了目标数据的生成过程。
149.在一种可能的实现方式中，在生成目标数据后，可以在目标数据记录中添加相应的数据信息，所添加的数据信息可以包括目标数据的数据标识和该目标数据的存储位置。
150.需要说明的是，若目标数据仅由伴奏音频和第二歌词文件组成，则上述所添加的数据信息，也即可以包括伴奏音频的数据标识、伴奏音频的存储位置、第二歌词文件的数据标识以及第二歌词文件的存储位置。
151.上述过程是以伴奏音频和第二歌词文件中均已生成，再一次性在目标数据记录中添加二者对应的数据信息为例来进行说明的，在更多可能的实现方式中，在生成伴奏音频后，即可在目标数据记录中添加伴奏音频对应的数据信息(包括伴奏音频的数据标识和伴奏音频的存储位置)，并自动触发生成第二歌词文件的过程；在生成第二歌词文件后，再在目标数据记录中添加第二歌词文件对应的数据信息(包括第二歌词文件的数据标识和第二歌词文件的存储位置)。
152.需要说明的是，若伴奏音频的存储位置与待处理音频的存储位置相同，则数据信息可以不包括伴奏音频的存储位置，而仅包括伴奏音频的数据标识即可。此外，若第二歌词文件的存储位置与待处理音频的存储位置相同，则数据信息可以不包括第二歌词文件的存储位置，而仅包括第二歌词文件的数据标识即可。也即是，在目标数据记录中添加数据信息时，可以不添加与待处理数据的存储位置相同的目标数据的存储位置，从而减少计算设备的处理任务，进而减少计算设备的处理压力，从而提高计算设备的处理速度。
153.上述是以目标数据包括伴奏音频和第二歌词文件为例来进行说明的，在更多可能的实现方式中，目标数据除可以包括伴奏音频和第二歌词文件外，还可以包括乐器数字接口(music instrument digital interface，midi)文件。因此，在一些实施例中，对于上述步骤202，在基于待处理音频和待处理音频对应的第一歌词文件，生成目标数据时，还可以包括基于待处理音频和第二歌词文件，生成midi文件的过程。
154.其中，midi文件可以指示歌词中各个字的音高，计算设备在获取到midi文件后，即可基于midi文件，确定出歌词中各个字的音高，从而基于所确定出的音高，通过可视化界面，对音高线进行显示，以便用户可以通过可视化的方式，实时获知自己的音准，从而可以提高用户体验。
155.在一种可能的实现方式中，在基于待处理音频和第二歌词文件，生成midi文件时，可以包括如下步骤：
156.步骤一、将待处理音频输入旋律提取神经网络，通过旋律提取神经网络，输出待处理音频的基音。
157.其中，发音体整体振动产生的音即为基音，基音可以决定音高。待处理音频的基音，也即是待处理音频中各个字的基音。
158.该旋律提取神经网络可以为卷积循环神经网络(convolutional recurrent neural network，crnn)，可选地，该旋律提取神经网络还可以为其他类型的神经网络，本公开对此不加以限定。
159.以该旋律提取神经网络为crnn为例，该旋律提取神经网络可以包括卷积模块、双向循环神经网络(bidirectional recurrent neural network，bi-rnn)和输出层。
160.在一种可能的实现方式中，将该待处理音频输入旋律提取神经网络，通过旋律提取神经网络的卷积模块，来对该待处理音频进行卷积处理，从而得到待处理音频的卷积特征，将该卷积特征输入双向循环神经网络，以通过双向循环神经网络，提取卷积特征的时间信息，进而将提取到的卷积特征和时间信息输入输出层，通过输出层对卷积特征和时间信息进行处理，得到待处理音频的基音，
161.其中，该卷积模块可以包括至少一个卷积层，在通过卷积模块对待处理音频进行卷积处理，可以通过这至少一个卷积层，来依次对待处理音频进行卷积处理。
162.该旋律提取神经网络所包括的双向循环神经网络可以有两层，在通过双向循环神经网络对卷积特征进行处理时，可以先将卷积特征输入第一层双向循环神经网络，通过第一层双向循环神经网络对卷积特征进行处理，得到处理后的卷积特征，再将处理后的卷积特征输入第二层双向循环神经网络，通过第二层双向循环神经网络，继续对处理后的卷积特征进行处理，得到卷积特征的时间信息。
163.输出层可以包括全连接层和归一化(softmax)层，从而通过全连接层和归一化层，实现基音的输出。
164.需要说明的是，上述仅为确定基音的一种示例性方式，在更多可能的实现方式中，还可以采用其他方式来确定基音，本公开对具体采用哪种方式不加以限定。
165.步骤二、基于待处理音频的基音和第二歌词文件，生成midi文件。
166.需要说明的是，基音与音高是具有对应关系的，不同的基音对应于不同的音高。
167.在一种可能的实现方式中，可以基于基音和音高的对应关系，确定出第二歌词文
件中各个字的基音所对应的音高，从而基于各个字与对应的音高，得到该midi文件。
168.需要说明的是，在生成midi文件后，可以将midi文件存储至计算设备所关联的数据库中。可选地，midi文件的存储位置与待处理音频的存储位置可以相同，也可以不同。此外，midi文件的存储位置和伴奏音频的存储位置可以相同，也可以不同；midi文件的存储位置和第二歌词文件的存储位置可以相同，也可以不同。
169.可选地，在目标数据包括midi文件的情况下，目标数据记录中所添加的数据信息还可以包括midi文件的数据标识以及midi文件的存储位置。
170.需要说明的是，若midi文件的存储位置与待处理音频的存储位置相同，则数据信息可以不包括midi文件的存储位置，而仅包括midi文件的数据标识即可。也即是，在目标数据记录中添加数据信息时，可以不添加与待处理数据的存储位置相同的midi文件的存储位置，从而减少计算设备的处理任务，进而减少计算设备的处理压力，从而提高计算设备的处理速度。
171.在一些实施例中，在通过上述各个实施例实现目标数据的生成的情况下，对于上述步骤103，在可以目标数据记录中添加数据信息，以基于数据信息获取目标数据时，可以有如下实现方式：
172.在一种可能的实现方式中，在目标数据记录中添加数据信息，并基于数据信息生成音频描述信息，以基于音频描述信息获取目标数据。
173.其中，该音频描述信息可以为用于指示待处理音频的数据标识、待处理音频的存储位置、目标数据的数据标识和存储位置的元数据(也即是数据索引)。
174.在一种可能的实现方式中，可以基于待处理音频的数据标识、待处理音频的存储位置、目标数据的数据标识和存储位置，生成元数据，进而将所生成的元数据作为该音频描述信息。
175.通过该音频描述信息，计算设备即可获知待处理音频和目标数据的数据标识、存储位置等信息，以便从相应存储位置处获取到需要的数据。
176.可选地，在生成伴奏音频、第二歌词文件、midi文件和音频描述信息后，可以将所生成的伴奏音频、第二歌词文件、midi文件和音频描述信息推送到审核池，由审核人员对其进行审核，以保证所生成的伴奏音频、第二歌词文件、midi文件和音频描述信息的规范性。
177.对于上述各个实施例所描述的音频处理过程，完整流程可以参见图3，图3是本公开根据一示例性实施例示出的一种音频处理过程的流程图，计算设备在监听到获取到待处理音频后，即发起音频处理过程，为待处理音频创建目标数据记录，进而依次进行消音(也即是生成伴奏音频)、生成逐字歌词(也即是第二歌词文件)、生成midi文件、生成描述信息的过程，从而可以在上述过程完成后，将所生成的伴奏音频、第二歌词文件、midi文件和音频描述信息推送审核池进行审核。
178.此外，对于上述图3中各个过程所涉及的数据转换，可以参见图，图4是本公开根据一示例性实施例示出的一种音频处理过程的数据转换过程示意图，计算设备在获取到待处理音频后，从待处理音频中分离出人声音频和伴奏音频，从而基于人声音频和第一歌词文件生成第二歌词文件，进而生成midi文件，在生成midi文件后，创建音频描述信息，以完成对待处理音频的处理。
179.上述图3和图4所示仅为简要的示例性说明，各个过程的具体实现方式可以参见上
述各个实施例，此处不再赘述。
180.需要说明的是，目标数据记录还可以用于记录基于待处理音频待进行的操作的执行顺序，因而，计算设备在对待处理音频进行存储后，即可基于目标数据记录中所记录的操作的执行顺序，自动触发后续的音频处理过程。
181.可选地，目标数据记录中所记录的操作的执行顺序可以为存储待处理音频、生成伴奏音频、生成第二歌词文件、生成midi文件、生成音频描述信息。
182.基于此，计算设备在获取到待处理音频后，即可按照目标数据记录中所指示的操作顺序，自动对获取到的待处理音频进行存储，并在存储完待处理音频后，自动触发生成伴奏音频的过程，在生成伴奏音频后，自动触发生成第二歌词文件的过程，在生成第二歌词文件后，自动触发生成midi文件的过程，在生成midi文件后，自动触发生成音频描述信息的过程，从而在生成音频描述信息后，完成整个音频处理过程。
183.需要说明的是，对于上述音频处理过程中所涉及到的各个过程，其中，生成midi文件和生成音频描述信息的过程为可选过程，也即是，目标记录中所记录的操作的执行顺序还可以为存储待处理音频、生成伴奏音频、生成第二歌词文件。
184.在对待处理音频进行处理时，通过按照目标数据记录所记录的执行顺序，自动触发相应的处理过程，实现了音频处理过程的自动化，无需人工干预，降低了音频处理过程中所需的人力成本，提高了音频处理效率。而且，通过上述自动化过程生成的目标数据的准确性更高，从而可以减少后续审核时的工作量。
185.由于上述各个处理过程都是自动触发的，为便于相关技术人员监控音频处理过程，该目标数据记录还可以包括状态信息，该状态信息用于记录待处理音频的处理进度。
186.在一些实施例中，该状态信息可以包括下述任一项：
187.第一状态信息，该第一状态信息用于指示开始对待处理音频进行处理；
188.第二状态信息，该第二状态信息用于指示正在生成伴奏音频；
189.第三状态信息，该第三状态信息用于指示正在生成第二歌词文件；
190.第四状态信息，该第四状态信息用于指示正在生成midi文件；
191.第五状态信息，该第五状态信息用于指示正在生成音频描述信息；
192.第六状态信息，该第六状态信息用于指示已生成伴奏音频、第二歌词文件、midi文件和音频描述信息。
193.通过在目标数据记录中添加状态信息，若计算设备接收到待处理音频后，即可将目标数据记录中的状态信息设为第一状态信息，以便相关技术人员可以知道，当前正处于开始对待处理音频进行处理。
194.在待处理音频存储完成后，即自动触发生成伴奏音频的过程，此时，可以将目标数据记录中的状态信息更新为第二状态信息，以便相关技术人员可以知道，当前正处于正在生成伴奏音频的状态。
195.在生成伴奏音频后，即自动触发生成第二歌词文件的过程，此时，可以将目标数据记录中的状态信息更新为第三状态信息，以便相关技术人员可以知道，当前正处于正在生成第二歌词文件的状态。
196.在生成第二歌词文件后，即自动触发生成midi文件的过程，此时，可以将目标数据记录中的状态信息更新为第四状态信息，以便相关技术人员可以知道，当前正处于正在生
成midi文件的状态。
197.在生成midi文件后，即自动触发生成音频描述信息的过程，此时，可以将目标数据记录中的状态信息更新为第五状态信息，以便相关技术人员可以知道，当前正处于正在生成音频描述信息的状态。
198.在生成音频描述信息后，即完成了整个音频处理过程，此时，可以将目标数据记录中的状态信息更新为第六状态信息，便相关技术人员可以知道，当前已完成伴奏音频、第二歌词文件、midi文件和音频描述信息的生成，待处理音频的处理过程已完成。
199.需要说明的是，由于生成midi文件和生成音频描述信息的过程为可选过程，因此，上述第四状态信息和第五状态信息也是可选包括在状态信息中的，也即是，状态信息可以仅包括第一状态信息、第二状态信息、第三状态信息和第六状态信息中的任一项。
200.通过在目标数据记录中设置状态信息，以便相关技术人员可以追踪待处理音频的整个处理过程，从而可以实现对待处理音频的处理过程的有效监控。
201.在更多可能的实现方式中，为便于相关技术人员查看处理进度，还可以对状态信息进行可视化显示。其中，在对各个状态信息进行可视化显示时，可以将第一状态信息显示为处理成功，将第二状态信息显示为正在生成伴奏，将第三状态信息显示为正在生成逐字歌词，将第四状态信息显示为正在生成midi，将第五状态信息显示为正在创建数据索引，将第六状态信息显示为处理成功，以便相关技术人员进行查看。
202.参见图5，图5是本公开根据一示例性实施例示出的一种状态信息的显示示意图，图5中展示出了6个待处理音频的处理进度对应的状态信息，均为处理成功。
203.此外，还可以对多个待处理音频对应的目标数据记录进行整合，以便相关技术人员对音频处理的总体情况进行查看。
204.在一种可能的实现方式中，可以获取各个待处理音频的目标数据记录中所记录的状态信息，以便基于获取到的状态信息，确定各个待处理音频对应的目标数据是否已经成功生成，并获取各个目标数据处理完成的时间，从而根据获取到的时间和状态信息，确定各个时间成功生成的目标数据的数量，以及未成功生成的目标数据的数量。
205.由于目标数据可以包括伴奏音频和第二歌词文件，因此，下面以伴奏音频和第二歌词文件的总体处理情况为例来进行说明。
206.以目标数据为伴奏音频为例，可以基于各个待处理音频对应的目标数据记录中所记录的状态信息，确定各个待处理音频对应的伴奏音频是否已经生成，以及各个伴奏音频处理完成的时间，从而确定各个时间成功生成的伴奏音频的数量，以及未成功生成的伴奏音频的数量，从而得到伴奏音频的生成情况。参见图6，图6是本公开根据一示例性实施例示出的一种伴奏音频的生成情况的统计图，图6中展示出了各个时间成功生成的伴奏音频的数量，以及未成功生成的伴奏音频的数量，以便相关技术人员可以获知伴奏音频的生成情况。
207.上述图6是以数量为计量单位，来统计伴奏生成情况的，从而实现对待处理音频的处理情况的统计，在更多可能的实现方式中，还可以以数据量为计量单位，来统计待处理音频的处理情况。参见图7，图7是本公开根据一示例性实施例示出的一种音频处理情况的统计图，图7中展示出了各个时间成功生成伴奏音频的待处理音频的数据量，以及未成功生成伴奏音频的待处理音频的数据量，以便相关技术人员可以获知伴奏音频的生成情况。
208.以目标数据为第二歌词文件为例，可以基于各个待处理音频对应的目标数据记录中所记录的状态信息，确定各个待处理音频对应的第二歌词文件是否已经生成，以及各个第二歌词文件处理完成的时间，从而确定各个时间成功生成的第二歌词文件的数量，以及未成功生成的第二歌词文件的数量，从而得到第二歌词文件的生成情况。参见图8，图8是本公开根据一示例性实施例示出的一种第二歌词文件的生成情况的统计图，图8中展示出了各个时间成功生成的第二歌词文件的数量，以及未成功生成的第二歌词文件的数量，以便相关技术人员可以获知第二歌词文件的生成情况。
209.可选地，在目标数据审核通过后，即可对目标数据进行发布，实现目标数据的上线，以便其他用户可以获取到已发布的目标数据。此外，还可以删除已发布的目标数据，实现目标数据的下线。
210.在一种可能的实现方式中，还可以对目标数据的上下线情况进行监控。参见图9，图9是本公开根据一示例性实施例示出的一种伴奏音频上下线情况的统计图，图9中展示出了上线的伴奏音频的数量，以及下线的伴奏音频的数量，以便相关技术人员可以获知伴奏音频的上下线情况。
211.为了实现本公开任一实施例的音频处理方法，本公开实施例还提供了一种音频处理装置。图10是本公开根据一示例性实施例示出的一种音频处理装置的框图。如下的描述中，将简单描述该装置的各个模块的功能，其详细的处理可以结合参见前述的本公开任一实施例的音频处理方法的描述。
212.创建模块1001，用于响应于获取到待处理音频，为该待处理音频创建目标数据记录；
213.生成模块1002，用于基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据，该第一歌词文件为逐句划分的歌词文件，该目标数据至少包括伴奏音频和第二歌词文件，该第二歌词文件为逐字划分的歌词文件；
214.添加模块1003，用于在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据。
215.在一些实施例中，该生成模块1002，在用于基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据时，包括获取单元和生成单元；
216.该获取单元，用于从该待处理音频中，获取人声音频和该伴奏音频；
217.该生成单元，用于基于该人声音频和该第一歌词文件，生成该第二歌词文件。
218.在一些实施例中，该获取单元，在用于从该待处理音频中，获取人声音频和该伴奏音频时，具体用于：
219.将该待处理音频分别输入提取人声神经网络和伴奏提取神经网络，分别通过人声提取神经网络，对该待处理音频进行降采样处理和第一卷积处理，得到该人声音频，通过伴奏提取神经网络，对该待处理音频进行降采样处理和第二卷积处理，得到该伴奏音频；
220.其中，该人声提取神经网络进行第一卷积处理所使用的网络参数，与该伴奏提取神经网络进行第二卷积处理所使用的网络参数不同。
221.在一些实施例中，该生成单元，在用于基于该人声音频和该第一歌词文件，生成该第二歌词文件时，具体用于：
222.将该人声音频输入语音识别神经网络，通过该语音识别神经网络，输出该人声音
频对应的第一音素以及该第一音素对应的时间戳；
223.获取该第一歌词文件中各个字对应的第二音素；
224.基于该第一音素和该第一音素对应的时间戳，以及该第二音素，确定该第一歌词文件中各个字对应的时间戳，得到该第二歌词文件。
225.在一些实施例中，该目标数据还包括乐器数字接口midi文件；
226.该生成模块1002，在用于基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据时，还用于：
227.基于该待处理音频和该第二歌词文件，生成该midi文件。
228.在一些实施例中，该生成模块1002，在用于基于该待处理音频和该第二歌词文件，生成该midi文件时，具体用于：
229.将该待处理音频输入旋律提取神经网络，通过该旋律提取神经网络，输出该待处理音频的基音；
230.基于该待处理音频的基音和该第二歌词文件，生成该midi文件。
231.在一些实施例中，该添加模块1003，在用于在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据时，具体用于：
232.在该目标数据记录中添加该数据信息，并基于该数据信息生成音频描述信息，以基于该音频描述信息获取该目标数据。
233.在一些实施例中，该数据信息包括与该待处理音频关联的音频数据信息，该音频数据信息至少包括该待处理音频的音频标识和该待处理音频的存储位置。
234.在一些实施例中，该数据信息还包括该目标数据的数据标识和该目标数据的存储位置。
235.在一些实施例中，该目标数据记录还包括状态信息，该状态信息用于记录该待处理音频的处理进度。
236.在一些实施例中，该状态信息包括下述任一项：
237.第一状态信息，该第一状态信息用于指示开始对该待处理音频进行处理；
238.第二状态信息，该第二状态信息用于指示正在生成该伴奏音频；
239.第三状态信息，该第三状态信息用于指示正在生成该第二歌词文件；
240.第四状态信息，该第四状态信息用于指示正在生成该midi文件；
241.第五状态信息，该第五状态信息用于指示正在生成该音频描述信息；
242.第六状态信息，该第六状态信息用于指示已生成该伴奏音频、该第二歌词文件、该midi文件和该音频描述信息。
243.应当注意，尽管在上文详细描述中提及了音频处理装置的若干模块或单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中具体化。反之，上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来具体化。
244.本公开实施例还提供了一种计算机可读存储介质。图11是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图，如图11所示，该存储介质上存储有计算机程序1101，该计算机程序1101被处理器执行时可以执行本公开任一实施例的音频处理方法。
245.本公开实施例还提供了一种计算设备，该计算设备可以包括存储器、处理器，该存储器用于存储可在处理器上运行的计算机指令，该处理器用于在执行该计算机指令时实现本公开任一实施例的音频处理方法。
246.参见图12，图12是本公开根据一示例性实施例示出的一种计算设备的结构示意图，该计算设备1200可以包括但不限于：处理器1210、存储器1220、连接不同系统组件(包括存储器1220和处理器1210)的总线1230。
247.其中，存储器1220存储有计算机指令，该计算机指令可以被处理器1210执行，使得处理器1210能够执行本公开任一实施例的音频处理方法。存储器1220可以包括随机存取存储单元ram1221、高速缓存存储单元1222和/或只读存储单元rom1223。该存储器1220还可以包括：具有一组程序模块1224的程序工具1225，该程序模块1224包括但不限于：操作系统、一个或多个应用程序、其他程序模块和程序数据，这些程序模块一种或多种组合可以包含网络环境的实现。
248.总线1230例如可以包括数据总线、地址总线和控制总线等。该计算设备1200还可以通过i/o接口1240与外部设备1250通信，该外部设备1250例如可以是键盘、蓝牙设备等。该计算设备1200还可以通过网络适配器1260与一个或多个网络通信，例如，该网络可以是局域网、广域网、公共网络等。如图12所示，该网络适配器1260还可以通过总线1230与计算设备1200的其他模块进行通信。
249.此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
250.虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

音频处理方法、装置、计算设备及介质与流程

相关文献

最热文献