一种基于音频处理的云端服务器的制作方法

2022-11-09 22:47:41 来源：中国专利 TAG：

1.本发明涉及电通信技术领域，具体而言，涉及一种基于音频处理的云端服务器。

背景技术：

2.随着科技的发展，智能耳机智能终端的使用越来越广泛，其所提供的服务也越来越丰富。当前音频应用程序，例如喜马拉雅等，作为一种新的音频收听平台，视频及作者较多，因此，如何从海量的音频中向用户推荐用户感兴趣的音频信息成为现有技术中亟待解决的技术问题之一。

技术实现要素：

3.有鉴于此，本发明实施例的目的在于提供通过基于神经网络的类别概率计算从而确定每个音频成分的所属类别，并基于所述不同的成分类别以及概率精准计算音频的推荐类别，从而实现了音频的精准智能推荐。
4.本发明的第一方面提供了一种基于音频处理的云端服务器，所述云端服务器包括存储器以及处理器；所述处理器用于执行：获取待处理音频数据流，对所述音频数据流执行特征提取，得到全频谱信息；将所述全频谱信息分离，获取第一频谱信息以及第二频谱信息；将所述第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入；根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理，生成第一特征图像以及第二特征图像；根据所述第一特征图像以及第二特征图像，确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数，并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量；根据所述音频类别向量，确定所述音频数据的最终类别；根据所述音频数据的最终类别，获取云端同类别的音频数据，并执行推荐下发至用户端。
5.进一步，根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理，生成第一特征图像以及第二特征图像，包括：基于第一卷积神经网络以及第二卷积神经网络的卷积层分别对第一频谱信息以及第二频谱信息进行卷积处理之后，分别执行预定的池化操作，以生成第一特征图像以及第二特征图像；其中，所述预定的池化操作包括沿所述音频数据流的频率特征执行的均值池化处理，以由所述第一卷积神经网络以及第二卷积神经网络的输出层分别输出第一特征图像以及第二特征图像。
6.进一步，根据所述第一特征图像以及第二特征图像，确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数，并基于所述每个子特征对应的
子音频类别确定所述音频数据流对应的音频类别向量，包括：将所述每个子特征执行分类处理，获取得到每个子特征对应的所有音频类别的概率系数，以生成第一概率矩阵以及第二概率矩阵；根据所述第一特征图像以及第二特征图像，确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵；根据所述第一概率矩阵、第一权重矩阵，确定第一频谱信息的第一子音频类别向量；根据所述第二概率矩阵、第二权重矩阵，确定第二频谱信息的第二子音频类别向量。
7.进一步，所述第一特征图像以及第二特征图像包括通道数、时间轴维度、频谱的频率维度；将所述每个子特征执行分类处理，获取得到每个子特征对应的所有音频类别的概率系数，以生成第一概率矩阵以及第二概率矩阵，包括：基于如下计算方式获取第一概率矩阵c1以及第二概率矩阵c2:其中，l表示音频类别总数；表示第一特征图像以及第二特征图像的通道序号；i表示第一特征图像以及第二特征图像在时间维度上的序号；表示第一概率矩阵c1中的第行第i列的概率系数；表示第二概率矩阵c2中的第行第i列的概率系数；表示第一特征图像t1中的第行第i列的特征系数；表示第二特征图像t2中的第行第i列的特征系数。
8.进一步，根据所述第一特征图像以及第二特征图像，确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵，包括：基于如下计算方式获取第一权重矩阵a1、第二权重矩阵a2:其中，表示第一特征图像以及第二特征图像的通道序号；i表示第一特征图像以
及第二特征图像在时间维度上的序号；表示第一特征图像以及第二特征图像在时间轴方向上的维度；表示第一权重矩阵a1中的第行第i列的权重系数；表示第二权重矩阵a2中的第行第i列的权重系数；表示第一特征图像t1中的第行第i列的特征系数；表示第二特征图像t2中的第行第i列的特征系数。
9.进一步，根据所述第一概率矩阵、第一权重矩阵，确定第一频谱信息的第一子音频类别向量；根据所述第二概率矩阵、第二权重矩阵，确定第二频谱信息的第二子音频类别向量，包括：根据第一概率矩阵c1与第一权重矩阵a1的每一行向量进行相乘，得到第一子音频类别向量；根据第一概率矩阵c2与第一权重矩阵a2的每一行向量进行相乘，得到第二子音频类别向量；所述根据所述音频类别向量，确定所述音频数据的最终类别，包括：根据预定的第一频谱信息以及第二频谱信息的权重影响因子，以及第一子音频类别向量、第二子音频类别向量，进行加权计算获取得到所述音频数据流对于不同音频类别的概率大小，将最大的概率对应的类别确定为所述音频数据的最终类别。
10.进一步，所述s5，根据所述音频数据的最终类别，获取云端同类别的音频数据，并执行推荐下发至用户端，包括：根据所述音频数据的最终类别以及用户身份信息，确定适合用户身份信息的同类别的音频数据，并生成音频播放列表，发送至用户端；用户端监测到当前音频数据流播放结束，基于所述音频播放列表,选择音频播放文件，并执行播放。
11.本发明的第二方面提供一种基于云端服务器的音频智能处理系统，所述系统包括：获取模块，获取待处理音频数据流，对所述音频数据流执行特征提取，得到全频谱信息；分离模块，将所述全频谱信息分离，获取第一频谱信息以及第二频谱信息；将所述第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入；生成模块，根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理，生成第一特征图像以及第二特征图像；确定模块，根据所述第一特征图像以及第二特征图像，确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数，并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量；根据所述音频类别向量，确定所述音频数据的最终类别；推荐模块，根据所述音频数据的最终类别，获取云端同类别的音频数据，并执行推荐下发至用户端。
12.进一步，所述生成模块，还用于：基于第一卷积神经网络以及第二卷积神经网络的卷积层分别对第一频谱信息以
及第二频谱信息进行卷积处理之后，分别执行预定的池化操作，以生成第一特征图像以及第二特征图像；其中，所述预定的池化操作包括沿所述音频数据流的频率特征执行的均值池化处理，以由所述第一卷积神经网络以及第二卷积神经网络的输出层分别输出第一特征图像以及第二特征图像。
13.进一步，所述确定模块，还用于：生成子模块，将所述每个子特征执行分类处理，获取得到每个子特征对应的所有音频类别的概率系数，以生成第一概率矩阵以及第二概率矩阵；第一确定子模块，根据所述第一特征图像以及第二特征图像，确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵；第二确定子模块，根据所述第一概率矩阵、第一权重矩阵，确定第一频谱信息的第一子音频类别向量；根据所述第二概率矩阵、第二权重矩阵，确定第二频谱信息的第二子音频类别向量。
14.本发明的方案中，通过获取待处理音频数据流，对所述音频数据流执行特征提取，得到全频谱信息；将所述全频谱信息分离，获取第一频谱信息以及第二频谱信息；将所述第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入；根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理，生成第一特征图像以及第二特征图像；根据所述第一特征图像以及第二特征图像，确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数，并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量；根据所述音频类别向量，确定所述音频数据的最终类别；根据所述音频数据的最终类别，获取云端同类别的音频数据，并执行推荐下发至用户端。通过对于音频执行的各个子频谱的分析以及类别处理执行基于神经网络的类别概率计算从而确定每个音频成分的所属类别，并基于所述不同的成分类别以及概率精准计算音频的推荐类别，从而实现了音频的精准智能推荐。
附图说明
15.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
16.图1是本发明实施例公开的云端服务器执行云端音频处理的流程示意图；图2是本发明实施例公开的基于云端服务器的音频智能处理系统结构示意图。
具体实施方式
17.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本技术将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。
18.此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施
例中。在下面的描述中，提供许多具体细节从而给出对本技术的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本技术的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
19.附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
20.附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。
21.以下对本技术实施例的技术方案的实现细节进行详细阐述：本实施例提出一种基于音频处理的云端服务器，所述云端服务器包括存储器以及处理器；存储器存储有计算机程序；如图所示为本实施例所述处理器用于执行相应的计算机程序时实现如下的方法步骤：s1，获取待处理音频数据流，对所述音频数据流执行特征提取，得到全频谱信息。
22.具体的，本实施例，通过事先云端服务器与用户端，比如用户智能耳机或者用户的智能终端等等，建立连接。而后，通过云端服务器获取当前用户端收听的音频流，作为待处理音频数据流。对所述音频数据流执行频谱分析，其中，频谱分析可以采用倒谱分析，mel频率分析，梅尔顿谱等执行得到音频数据流对应的全频谱信息。
23.s2，将所述全频谱信息分离，获取第一频谱信息以及第二频谱信息；将所述第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入。
24.具体的，本实施例，可以对全频谱执行分离，比如等分，或者三等分等，获取相应的子频谱信息，这里，本实施例执行等分，获取第一频谱信息以及第二频谱信息。
25.s3，根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理，生成第一特征图像以及第二特征图像。
26.具体的，本实施例，第一卷积神经网络以及第二卷积神经网络的网络结构相同，都是由两个卷积层组成。进一步，所述s3中，根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理，生成第一特征图像以及第二特征图像，包括：基于第一卷积神经网络以及第二卷积神经网络的卷积层分别对第一频谱信息以及第二频谱信息进行卷积处理之后，分别执行预定的池化操作，以生成第一特征图像以及第二特征图像；其中，所述预定的池化操作包括沿所述音频数据流的频率特征执行的均值池化处理，以由所述第一卷积神经网络以及第二卷积神经网络的输出层分别输出第一特征图像以及第二特征图像。
27.可以理解的是，预定的池化操作包括沿所述音频数据流的频率特征执行的均值池化处理，可以设置为频率方向的维度池化为1，因此，经过卷积之后的特征图像执行池化操作，得到的特征图尺寸可以是通道数*1*时间轴方向的特征图像维度；在此之后，执行经过全连接层，其中全连接层有l个神经元，其中，神经元个数与对应所述音频类别个数一致。
28.s4，根据所述第一特征图像以及第二特征图像，确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数，并基于所述每个子特征对应的子音
频类别确定所述音频数据流对应的音频类别向量；根据所述音频类别向量，确定所述音频数据的最终类别。
29.进一步，所述s4中，根据所述第一特征图像以及第二特征图像，确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数，并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量，包括：s41，将所述每个子特征执行分类处理，获取得到每个子特征对应的所有音频类别的概率系数，以生成第一概率矩阵以及第二概率矩阵；s42，根据所述第一特征图像以及第二特征图像，确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵；s43，根据所述第一概率矩阵、第一权重矩阵，确定第一频谱信息的第一子音频类别向量；根据所述第二概率矩阵、第二权重矩阵，确定第二频谱信息的第二子音频类别向量。
30.进一步，所述第一特征图像以及第二特征图像包括通道数、时间轴维度、频谱的频率维度。所述s41中，将所述每个子特征执行分类处理，获取得到每个子特征对应的所有音频类别的概率系数，以生成第一概率矩阵以及第二概率矩阵，包括：基于如下计算方式获取第一概率矩阵c1以及第二概率矩阵c2:其中，l表示音频类别总数；表示第一特征图像以及第二特征图像的通道序号；i表示第一特征图像以及第二特征图像在时间维度上的序号；表示第一概率矩阵c1中的第行第i列的概率系数；表示第二概率矩阵c2中的第行第i列的概率系数；表示第一特征图像t1中的第行第i列的特征系数；表示第二特征图像t2中的第行第i列的特征系数。
31.进一步，所述s42，根据所述第一特征图像以及第二特征图像，确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵，包括：基于如下计算方式获取第一权重矩阵a1、第二权重矩阵a2:
其中，表示第一特征图像以及第二特征图像的通道序号；i表示第一特征图像以及第二特征图像在时间维度上的序号；表示第一特征图像以及第二特征图像在时间轴方向上的维度；表示第一权重矩阵a1中的第行第i列的权重系数；表示第二权重矩阵a2中的第行第i列的权重系数；表示第一特征图像t1中的第行第i列的特征系数；表示第二特征图像t2中的第行第i列的特征系数。
32.进一步，所述s43，根据所述第一概率矩阵、第一权重矩阵，确定第一频谱信息的第一子音频类别向量；根据所述第二概率矩阵、第二权重矩阵，确定第二频谱信息的第二子音频类别向量，包括：根据第一概率矩阵c1与第一权重矩阵a1的每一行向量进行相乘，得到第一子音频类别向量；根据第一概率矩阵c2与第一权重矩阵a2的每一行向量进行相乘，得到第二子音频类别向量。
33.进一步，所述根据所述音频类别向量，确定所述音频数据的最终类别，包括：根据预定的第一频谱信息以及第二频谱信息的权重影响因子，以及第一子音频类别向量、第二子音频类别向量，进行加权计算获取得到所述音频数据流对于不同音频类别的概率大小，将最大的概率对应的类别确定为所述音频数据的最终类别。
34.s5，根据所述音频数据的最终类别，获取云端同类别的音频数据，并执行推荐下发至用户端。
35.进一步，所述s5，根据所述音频数据的最终类别，获取云端同类别的音频数据，并执行推荐下发至用户端，包括：s51,根据所述音频数据的最终类别以及用户身份信息，确定适合用户身份信息的同类别的音频数据，并生成音频播放列表，发送至用户端；s52,用户端监测到当前音频数据流播放结束，基于所述音频播放列表,选择音频播放文件，并执行播放。
36.如图2所示，本实施例的第二方面提供一种基于云端服务器的音频智能处理系统，所述系统包括：获取模块10，获取待处理音频数据流，对所述音频数据流执行特征提取，得到全频谱信息；分离模块20，将所述全频谱信息分离，获取第一频谱信息以及第二频谱信息；将所述第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入；
生成模块30，根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理，生成第一特征图像以及第二特征图像；确定模块40，根据所述第一特征图像以及第二特征图像，确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数，并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量；根据所述音频类别向量，确定所述音频数据的最终类别；推荐模块50，根据所述音频数据的最终类别，获取云端同类别的音频数据，并执行推荐下发至用户端。
37.进一步，所述生成模块，还用于：基于第一卷积神经网络以及第二卷积神经网络的卷积层分别对第一频谱信息以及第二频谱信息进行卷积处理之后，分别执行预定的池化操作，以生成第一特征图像以及第二特征图像；其中，所述预定的池化操作包括沿所述音频数据流的频率特征执行的均值池化处理，以由所述第一卷积神经网络以及第二卷积神经网络的输出层分别输出第一特征图像以及第二特征图像。
38.进一步，所述确定模块40，还包括：生成子模块，将所述每个子特征执行分类处理，获取得到每个子特征对应的所有音频类别的概率系数，以生成第一概率矩阵以及第二概率矩阵；第一确定子模块，根据所述第一特征图像以及第二特征图像，确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵；第二确定子模块，根据所述第一概率矩阵、第一权重矩阵，确定第一频谱信息的第一子音频类别向量；根据所述第二概率矩阵、第二权重矩阵，确定第二频谱信息的第二子音频类别向量。
39.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
40.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。
41.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究
竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
42.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
43.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
44.以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于音频处理的云端服务器的制作方法

相关文献

最热文献