一种音乐转场时间点检测方法、设备及介质与流程

2021-09-25 05:10:00 来源：中国专利 TAG：转场音乐介质检测方法特别

1.本技术涉及音乐处理技术领域，特别涉及一种音乐转场时间点检测方法、设备及介质。

背景技术：

2.在实际生活中，通常会为没有配图或视频展示的音乐匹配合适的图片或者视频片段，这时一般需要比较好的转场时间标记配合图片或视频切换，从而可以为现有音乐搭配有效的视频或图片展示，这样配和音乐波动的有效图片或视频切换可以很好的从视听两个维度加强用户的沉浸感。
3.在现有技术中的音乐转场时间标记直接通过歌词的单句信息做简单的音乐转场时间标记，也即，每句结束时进行转场，但由于在一首音乐中，有的歌词较长，有的歌词较短，而该方法在单句歌词时间过长(如大于5s)时，图片或视频没有有效的动态切换，不容易抓住用户的视觉动态。而在单句歌词时间过短(如小于2.5s)时，过快的时间间隔导致图片或视频切换过于频繁，会造成图片闪烁，容易带来视觉疲劳。

技术实现要素：

4.有鉴于此，本技术的目的在于提供一种音乐转场时间点检测方法、设备及介质，能够抓住用户的视觉动态，且不容易造成图片闪烁及造成视觉疲劳。其具体方案如下：
5.第一方面，本技术公开了一种音乐转场时间点检测方法，包括：
6.获取待处理音乐的原始音频、节拍信息及对所述待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集；
7.从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值；
8.将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段；
9.利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点；
10.将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。
11.可选地，所述获取对所述待处理音乐的时间进行片段划分得到的时间片段集，包括：
12.获取所述待处理音乐对应的每句歌词的起始时间；
13.根据每句所述歌词的起始时间对所述待处理音乐的时间进行片段划分，得到歌词时间片段集，其中，一个歌词时间片段为一句歌词的时间片段；
14.和/或，获取所述待处理音乐对应的每个和弦的起始时间；
15.根据每个所述和弦的起始时间对所述待处理音乐的时间进行片段划分，得到和弦时间片段集，其中，一个和弦时间片段为一个和弦的时间片段。
16.可选地，所述从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，包括：
17.当所述时间片段集包括歌词时间片段集时，判断各个歌词时间片段的时长是否不小于第一时长阈值且不大于第二时长阈值；
18.如果当前歌词时间片段的时长不小于第一时长阈值且不大于第二时长阈值，则将当前歌词时间片段作为一个目标歌词时间片段；
19.如果当前歌词时间片段的时长小于所述第一时长阈值，则将当前歌词时间片段的时长与相邻后续歌词时间片段的时长相加，直到相加后时长不小于所述第一时长阈值，且不大于所述第二时长阈值，则将所述相加后时长对应的相邻各个歌词时间片段作为一个目标歌词时间片段，直到遍历完所述歌词时间片段集中的每个所述歌词时间片段；
20.将每个所述目标歌词时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点。
21.可选地，所述从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，包括：
22.当所述时间片段集包括和弦时间片段集和歌词时间片段集时，从所述歌词时间片段集中识别出目标歌词时间片段；
23.将每个所述目标歌词时间片段的结束时刻作为转场时间点，得到第三转场时间点；
24.将所述和弦时间片段集中位于时间间隔大于所述第二时长阈值的相邻两个第三转场时间点之间的，且时长不小于第一时长阈值且不大于第二时长阈值的和弦时间片段作为目标和弦时间片段；
25.将每个所述目标和弦时间片段的结束时刻作为转场时间点，得到第四转场时间点；
26.将所述第三转场时间点和所述第四转场时间点作为所述第一转场时间点。
27.可选地，所述利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点，包括：
28.确定所述目标音频片段对应的onset序列；
29.利用所述节拍信息和所述onset序列构造节拍onset曲线，其中，所述节拍onset曲线为所述onset序列中与所述节拍信息中的各个节点的起始时间对应的点连接成的曲线；
30.将所述节拍onset曲线中峰值对应的时间点作为预选转场时间点；
31.判断相邻两个所述预选转场时间点之间的时间间隔是否不小于第三时长阈值，其中，所述第三时长阈值为基于所述待处理音乐对应的目标节拍时间确定的，所述目标节拍时间为基于所述节拍信息确定的；
32.如果是，则将所述预选转场时间点作为所述目标音频片段对应的第二转场时间点。
33.可选地，所述确定所述目标音频片段对应的onset序列，包括：
34.对所述目标音频片段进行重采样，得到重采样后目标音频片段；
35.确定所述重采样后目标音频片段中各个音频帧的音频特征值；
36.将任意一个音频帧的音频特征值和与该音频帧相邻的前一个音频帧的音频特征值之间的差值作为该音频帧对应的onset强度值，直到确定出各个所述音频帧的onset强度值，得到所述目标音频片段对应的onset序列。
37.可选地，所述对所述目标音频片段进行重采样，得到重采样后目标音频片段之前，还包括：
38.如果所述目标音频片段包括左声道音频和右声道音频，则将所述左声道音频和所述右声道音频的均值作为处理后目标音频片段；
39.相应地，所述对所述目标音频片段进行重采样，得到重采样后目标音频片段，包括：
40.对所述处理后目标音频片段进行重采样，得到重采样后目标音频片段。
41.可选地，所述确定所述重采样后目标音频片段中各个音频帧的音频特征值，包括：
42.确定所述重采样后目标音频片段中各个音频帧的功率值；
43.或，确定所述重采样后目标音频片段中各个音频帧的梅尔频谱值；
44.或，确定所述重采样后目标音频片段中各个音频帧的bark谱值；
45.或，确定所述重采样后目标音频片段中各个音频帧的chroma特征值。
46.可选地，所述将任意一个音频帧的音频特征值和与该音频帧相邻的前一个音频帧的音频特征值之间的差值作为该音频帧对应的onset强度值，直到确定出各个所述音频帧的onset强度值，得到所述目标音频片段对应的onset序列之后，还包括：
47.基于所述目标节拍时间确定窗函数；
48.利用所述窗函数对所述onset序列做平滑处理，得到平滑后onset序列。
49.可选地，所述利用所述节拍信息和所述onset序列构造节拍onset曲线，包括：
50.根据所述目标音频片段对应的帧移对所述节拍信息中的每个节拍的起始时间进行校准，得到每个节拍的处理后起始时间；
51.将所述onset序列中位于每个所述节拍的处理后起始时间上的onset强度值作为目标值，并对所述目标值进行依次连接，得到所述节拍onset曲线。
52.可选地，所述确定所述目标音频片段对应的onset序列之前，还包括：
53.判断所述节拍信息中是否包括bpm值；
54.如果是，则利用所述bpm值确定所述目标节拍时间；
55.如果否，则利用每个所述节拍的起始时间确定每个所述节拍的时长，并利用每个所述节拍的时长和预设运算公式确定所述目标节拍时间，其中，所述预设运算公式如下：
56.t
b
＝mo
b
＝mu
b
‑
3(mu
b
‑
md
b
)
57.其中，t
b
表示所述目标节拍时间，mo
b
表示每个所述节拍估算的众数，mu
b
＝mean(db
t
(m))表示每个所述节拍的时长的均值，md
b
＝median(db
t
(m))表示每个所述节拍的时长的中值，db
t
(m)表示第m个节拍的时长。
58.第二方面，本技术公开了一种音乐转场时间点检测装置，包括：
59.信息获取模块，用于获取待处理音乐的原始音频、节拍信息及对所述待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或
歌词时间片段集；
60.第一转场时间点检测模块，用于从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且，每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值；
61.原始音频片段划分模块，用于将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段；
62.第二转场时间点检测模块，用于利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点；
63.转场时间点合并模块，用于将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。
64.第三方面，本技术公开了一种电子设备，包括：
65.存储器和处理器；
66.其中，所述存储器，用于存储计算机程序；
67.所述处理器，用于执行所述计算机程序，以实现前述公开的音乐转场时间点检测方法。
68.第方面，本技术公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的音乐转场时间点检测方法。
69.可见，本技术先获取待处理音乐的原始音频、节拍信息及对所述待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集。然后从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且，每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值。然后还需要将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段。并利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点。接着便可以将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。由此可见，这样本技术中先以歌词时间片段集和/或和弦时间片段集作为参考，确定出待处理音乐对应的第一转场时间点，由于从歌词时间片段集或和弦时间片段集识别出的一个目标时间片段为一个时间片段或连续多个时间片段的组合，且每个目标时间片段的时长在第一时长阈值左右到第二时长阈值之间，使得第一转场时间点中相邻两个第一转场时间点之间的时间间隔不小于第一时长阈值。然后再将原始音频位于时间间隔大于第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段，并利用节拍信息和目标音频片段确定对应的转场时间点，得到第二转场时间点，也即，对于时间间隔大于第二时长阈值的相邻两个第一转场时间点之间的部分，再利用节拍信息和对应的目标音频片段确定这段时间内的转场时间点，从而使得最后检测出的待处理音乐对应的转场时间点中相邻两个转场时间点之间的时间间隔在第一时长阈值左右到第二时长阈值之间，从而既能够抓住用户的视觉动态，且不容易造成图片闪烁及造成视觉疲劳。且最后检测出的待处理音乐的转场时间点是结合歌词、和弦以及节拍确定出来的，符合歌曲本身的动
态特征，且符合乐理特性，可以提高用户体验。
附图说明
70.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
71.图1为本技术提供的音乐转场时间点检测方案所适用的系统框架示意图；
72.图2为本技术公开的一种音乐转场时间点检测方法流程图；
73.图3为本技术公开的一种音乐转场时间点检测方法流程图；
74.图4为本技术公开的一种具体的音乐转场时间点检测方法部分流程图；
75.图5为本技术公开的一种具体的onset序列图；
76.图6为本技术公开的一种具体的高斯窗函数图；
77.图7为本技术公开的一种平滑后onset序列图；
78.图8为本技术公开的一种原始节拍图；
79.图9为本技术公开的一种修正节拍图；
80.图10为本技术公开的一种节拍onset曲线图；
81.图11为本技术公开的一种转场时间点检测结果图；
82.图12为本技术公开的一种转场时间点检测结果图；
83.图13为本技术公开的一种具体的音乐转场时间点检测方法部分流程图；
84.图14为本技术公开的一种音乐转场时间点检测装置结构示意图；
85.图15为本技术公开的一种电子设备结构示意图。
具体实施方式
86.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
87.目前，音乐转场时间标记直接通过歌词的单句信息做简单的音乐转场时间标记，也即，每句结束时进行转场，但由于在一首音乐中，有的歌词较长，有的歌词较短，而该方法在单句歌词时间过长(如大于5s)时，图片或视频没有有效的动态切换，不容易抓住用户的视觉动态。而在单句歌词时间过短(如小于2.5s)时，过快的时间间隔导致图片或视频切换过于频繁，会造成图片闪烁，容易带来视觉疲劳。有鉴于此，本技术提出了一种音乐转场时间点检测方法，能够抓住用户的视觉动态，且不容易造成图片闪烁及造成视觉疲劳。
88.为了便于理解，先对本技术的音乐转场时间点检测方法所适用的系统框架进行介绍。可以理解的是，本技术实施例中并不对计算机设备的数量进行限定，其可以是多个计算机设备共同协作完成音乐转场时间点检测功能。在一种可能的情况中，请参考图1。由图1可知，该硬件组成框架可以包括：第一计算机设备101、第二计算机设备102。第一计算机设备101与第二计算机设备102之间通过网络103实现通信连接。
89.在本技术实施例中，在此不具体限定第一计算机设备101与第二计算机设备102的硬件结构，第一计算机设备101与第二计算机设备102两者进行数据交互，实现音乐转场时间点检测功能。进一步，本技术实施例中并不对网络103的形式进行限定，如，网络103可以是无线网络(如wifi、蓝牙等)，也可以是有线网络。
90.其中，第一计算机设备101和第二计算机设备102可以是同一种计算机设备，如第一计算机设备101和第二计算机设备102均为服务器；也可以是不同类型的计算机设备，如，第一计算机设备101可以是终端或智能电子设备，第二计算机设备102可以服务器。在又一种可能的情况中，可以利用计算能力强的服务器作为第二计算机设备102来提高数据处理效率及可靠性，进而提高音乐转场时间点检测效率。同时利用成本低、应用范围广的终端或智能电子设备作为第一计算机设备101，用于实现第二计算机设备102与用户之间的交互。
91.举例说明，请参考图2，终端在获取到音乐转场时间点检测请求时，将待处理音乐的相关信息发送到对应的服务端，服务端根据接收到的待处理音乐的相关信息加载待处理音乐的原始音频、节拍信息以及对所述待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集。然后从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值。接着再将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段。并利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点。接着便可以将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。然后将所述待处理音乐的原始音频和转场时间点返回给所述终端，所以终端在接收到待处理音乐的原始音频和转场时间点之后，根据所述转场时间点为所述原始音频配置图片或视频，制作成mv(music video，音乐短片)。
92.参见图3所示，本技术实施例公开了一种音乐转场时间点检测方法，该方法包括：
93.步骤s11：获取待处理音乐的原始音频、节拍信息及对所述待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集。
94.在具体的实施过程中，需要先获取待处理音乐的原始音频、节拍信息及对待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集。
95.其中，所述节拍信息可以为利用音频处理工具对所述原始音频进行处理得到的，所述音频处理工具包括但不限于librosa、madmom等，所述节拍信息包括每个节拍的起始时间，当然也还可以包括bpm值(beat per minute，每分钟节拍数)。所述节拍信息可以是当前计算机节点利用所述音频处理工具对获取到的所述原始音频进行处理得到的，然后所述节拍信息也可以是除了当前计算机节点的其他计算机节点利用所述音频处理工具对所述原始音频进行处理后得到的，然后再通过网络等传输给当前计算机节点的。
96.其中，获取对所述待处理音乐的时间进行片段划分得到的时间片段集，包括：获取所述待处理音乐对应的每句歌词的起始时间；根据每句所述歌词的起始时间对所述待处理
音乐的时间进行片段划分，得到歌词时间片段集，其中，一个歌词时间片段为一句歌词的时间片段；和/或，获取所述待处理音乐对应的每个和弦的起始时间；根据每个所述和弦的起始时间对所述待处理音乐的时间进行片段划分，得到和弦时间片段集，其中，一个和弦时间片段为一个和弦的时间片段。
97.也即，可以先获取待处理音乐对应的每个歌词的起始时间，然后根据每句所述歌词的起始时间对所述待处理音乐的时间进行片段划分，得到歌词时间片段集，具体的，就是将任意句歌词的起始时间到与该句歌词相邻的下一句歌词的起始时间之间的部分作为一个歌词时间片段，直到将待处理音乐对应的各句歌词的时间划分完毕，得到所述待处理音乐对应的歌词时间片段集。其中，所述待处理音乐对应的每句歌词的起始时间可以从所述待处理音乐对应的歌词文件中获取到，所述歌词文件可以为lrc格式的歌词，也可以为qrc格式的歌词，在此不做具体限定。
98.也可以获取所述待处理音乐对应的每个和弦的起始时间，然后根据每个所述和弦的起始时间对所述待处理音乐的时间进行片段划分，得到和弦时间片段集，具体的，就是将任意一个和弦的起始时间到与该和弦相邻的下一个和弦的起始时间之间的部分作为一个和弦时间片段，直到遍历完各个和弦，得到和弦时间片段集。
99.在实际应用过程中，当前计算机节点可以在获取到所述原始音频之后，利用和弦检测工具对所述原始音频进行检测，确定出所述待处理音乐对应的每个和弦的起始时间，从而获取到所述待处理音乐对应的每个和弦的起始时间。当然也可以由除了当前计算机节点之外的其他计算机节点利用和弦检测工具对所述原始音频进行处理，得到每个和弦的起始时间之后，再发送给当前计算机节点的。
100.在具体的实施过程中，可以只获取待处理音乐对应的每句歌词的起始时间，相应地，便只得到待处理音乐对应的歌词时间片段集，也可以只获取待处理音乐对应的每个和弦的起始时间，相应地，便只得到待处理音乐对应的和弦时间片段集。当然，也可以既获取待处理音乐对应的每句歌词的起始时间，又获取每个和弦的起始时间，得到待处理音乐对应的歌词时间片段集和和弦时间片段集。
101.步骤s12：从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值。
102.相应地，还需要从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值。所述第一时长阈值和所述第二时长阈值为基于实际应用过程中得到的值，通过所述第一时长阈值可以为2.5秒，所述第二时长阈值可以为5秒。
103.其中，将当前目标时间片段的结束时刻作为转场时间点，为将当前目标时间片段的结束时刻作为当前目标时间片段正在显示的图片或视频的转出点，以及下一个时间片段内接下来要显示的图片或视频的转入点。例如，第一个目标时间片段为第5s到第9秒，第二个目标时间片段为第9秒到13秒，则将第一个目标时间片段的结束时刻(也即第9秒)作为转
场时间点，也即，将第9秒作为第5s到第9秒这段时间内显示的图片或视频的转出点，且作为第9秒到13秒这段时间内要显示的图片或视频的转入点。
104.在第一种具体的实施过程中，当所述时间片段集只包括歌词时间片段集时，从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，包括：当所述时间片段集包括歌词时间片段集时，判断各个歌词时间片段的时长是否不小于第一时长阈值且不大于第二时长阈值；如果当前歌词时间片段的时长不小于第一时长阈值且不大于第二时长阈值，则将当前歌词时间片段作为一个目标歌词时间片段；如果当前歌词时间片段的时长小于所述第一时长阈值，则将当前歌词时间片段的时长与相邻后续歌词时间片段的时长相加，直到相加后时长不小于所述第一时长阈值，且不大于所述第二时长阈值，则将所述相加后时长对应的相邻各个歌词时间片段作为一个目标歌词时间片段，直到遍历完所述歌词时间片段集中的每个所述歌词时间片段；将每个所述目标歌词时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点。
105.也即，判断每个歌词时间片段的时长是否不小于2.5秒，且不大于5秒，如果当前歌词时间片段的时长不小于2.5秒，且不大于5秒，则将当前歌词时间片段作为一个目标歌词时间片段，如果当前歌词时间片段小于2.5秒，则将当前歌词时间片段的时长与相邻后续歌词时间片段的时长相加，直到相加后时长不小于2.5秒，且相加后时长不大于5秒，则将相加后时长对应的相邻各个歌词时间片段作为一个目标歌词时间片段，如果相加后时长不小于2.5秒时，此时相加后时长大于了5秒，则直接开始遍历相加后时长对应的相邻多个歌词时间片段中最后一个歌词时间片段的下一个歌词时间片段，直到遍历完所有歌词时间片段。然后将每个目标歌词时间片段的结束时刻均作为转场时间点，得到所述待处理音乐对应的第一转场时间点。
106.在第二种具体的实施方式中，当所述时间片段集只包括和弦时间片段集时，从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，包括：当所述时间片段集包括和弦时间片段集时，判断各个和弦时间片段的时长是否不小于第一时长阈值且不大于第二时长阈值；如果当前和弦时间片段的时长不小于第一时长阈值且不大于第二时长阈值，则将当前和弦时间片段作为一个目标和弦时间片段；如果当前和弦时间片段的时长小于所述第一时长阈值，则将当前和弦时间片段的时长与相邻后续和弦时间片段的时长相加，直到相加后时长不小于所述第一时长阈值，且不大于所述第二时长阈值，则将所述相加后时长对应的相邻各个和弦时间片段作为一个目标和弦时间片段，直到遍历完所述和弦时间片段集中的每个所述和弦时间片段；将每个所述目标和弦时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点。
107.也即，判断每个和弦时间片段的时长是否不小于2.5秒，且不大于5秒，如果当前和弦时间片段的时长不小于2.5秒，且不大于5秒，则将当前和弦时间片段作为一个目标和弦时间片段，如果当前和弦时间片段小于2.5秒，则将当前和弦时间片段的时长与相邻后续和弦时间片段的时长相加，直到相加后时长不小于2.5秒，且相加后时长不大于5秒，则将相加后时长对应的相邻各个和弦时间片段作为一个目标和弦时间片段，如果相加后时长不小于2.5秒时，此时相加后时长大于了5秒，则直接开始遍历相加后时长对应的相邻多个和弦时
间片段中最后一个和弦时间片段的下一个和弦时间片段，直到遍历完所有和弦时间片段。然后将每个目标和弦时间片段的结束时刻均作为转场时间点，得到所述待处理音乐对应的第一转场时间点。
108.在第三种具体的实时过程中，所述时间片段集包括和弦时间片段集和歌词时间片段集时，从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，包括：当所述时间片段集包括和弦时间片段集和歌词时间片段集时，从所述歌词时间片段集中识别出目标歌词时间片段；将每个所述目标歌词时间片段的结束时刻作为转场时间点，得到第三转场时间点；将所述和弦时间片段集中位于时间间隔大于所述第二时长阈值的相邻两个第三转场时间点之间的，且时长不小于第一时长阈值且不大于第二时长阈值的和弦时间片段作为目标和弦时间片段；将每个所述目标和弦时间片段的结束时刻作为转场时间点，得到第四转场时间点；将所述第三转场时间点和所述第四转场时间点作为所述第一转场时间点。
109.也即，先从所述歌词时间片段集中识别出目标歌词时间片段集，其中，所述目标歌词时间片段集的识别方法可以参考前述的第一种具体的实施方式，然后将每个所述目标歌词时间片段的结束时刻作为转场时间点，得到第三转场时间点。然后将所述和弦时间片段集中位于时间间隔大于5秒的相邻两个第三转场时间点之间的，且时长不小于2.5秒，且不大于5秒的和弦时间片段作为目标和弦时间片段，然后将每个和弦时间片段的结束时刻作为转场时间点，得到第四转场时间点，然后便可以将所述第三转场时间点和所述第四转场时间点作为所述第一转场时间点，其中，在将所述第三转场时间点和所述第四转场时间点作为所述第一转场时间点的过程中，如果包括既存在所述第三转场时间点中，且也存在所述第四转场时间点中的转场时间点，可以只保留一个。
110.步骤s13：将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段。
111.可以理解的是，在得到所述第一转场时间点之后，所述第一转场时间点中会存在相邻两个转场时间点之间的时间间隔大于所述第二时长阈值，也即，大于5秒的情况，所以此时需要将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段，其中，所述目标音频片段可以包括多个。例如，所述第一转场时间点中，第一个转场时间点和第二个转场时间点之间的时间间隔为8秒，大于了5秒，则将原始音频位于第一个转场时间点和第二个转场时间点之间的部分作为一个目标音频片段，第四个转场时间点和第五个转场时间点之间的时间间隔为7秒，大于了5秒，则将所述原始音频位于第四个转场时间点和第五个转场时间点之间的部分作为一个目标音频片段。
112.步骤s14：利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点。
113.在确定出所述目标音频片段之后，还需要利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点。具体的，当所述目标音频片段的数量大于1时，可以对各个目标音频片段进行并行处理，以提高检测速度，提高检测效率。
114.步骤s15：将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。
115.在得到所述第二转场时间点之后，便可以将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。在将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点的过程中，如果包括既存在所述第一转场时间中，又存在所述第二转场时间点中的转场时间点，则将重复的转场时间点去除一个。
116.可见，本技术先获取待处理音乐的原始音频、节拍信息及对所述待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集。然后从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值。然后还需要将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段。并利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点。接着便可以将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。由此可见，这样本技术中先以歌词时间片段集和/或和弦时间片段集作为参考，确定出待处理音乐对应的第一转场时间点，由于从歌词时间片段集或和弦时间片段集识别出的一个目标时间片段为一个时间片段或连续多个时间片段的组合，且每个目标时间片段的时长在第一时长阈值左右到第二时长阈值之间，使得第一转场时间点中相邻两个第一转场时间点之间的时间间隔不小于第一时长阈值。然后再将原始音频位于时间间隔大于第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段，并利用节拍信息和目标音频片段确定对应的转场时间点，得到第二转场时间点，也即，对于时间间隔大于第二时长阈值的相邻两个第一转场时间点之间的部分，再利用节拍信息和对应的目标音频片段确定这段时间内的转场时间点，从而使得最后检测出的待处理音乐对应的转场时间点中相邻两个转场时间点之间的时间间隔在第一时长阈值左右到第二时长阈值之间，从而既能够抓住用户的视觉动态，且不容易造成图片闪烁及造成视觉疲劳。且最后检测出的待处理音乐的转场时间点是结合歌词、和弦以及节拍确定出来的，符合歌曲本身的动态特征，且符合乐理特性，可以提高用户体验。
117.参见图4所示，前述的利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点，包括：
118.步骤s21：确定所述目标音频片段对应的onset序列。
119.首先需要确定所述目标音频片段对应的onset序列，其中，onset为音符起始点，描述音乐动态中，能量增大时的时间位置。
120.具体的，包括：对所述目标音频片段进行重采样，得到重采样后目标音频片段；确定所述重采样后目标音频片段中各个音频帧的音频特征值；将任意一个音频帧的音频特征值和与该音频帧相邻的前一个音频帧的音频特征值之间的差值作为该音频帧对应的onset强度值，直到确定出各个所述音频帧的onset强度值，得到所述目标音频片段对应的onset序列。
121.由于检测过程中主要关注人声能量主要集中的频段，且由于人耳对低频重拍的感知更加敏感。同时为了降低计算量，提供运算效率，可以对输入的目标音频片段进行重采样，重采样的频率一般为8khz，在重采样的过程中，可以使用开源工具libresample进行重
采样或者直接进行目标音频片段的序列抽取等操作将目标音频片段的采样率降为8khz，得到重采样后目标音频片段x(n)。
122.然后确定所述重采样后目标音频片段中各个音频帧的音频特征值。具体可以确定所述重采样后目标音频片段中各个音频帧的功率值；或，确定所述重采样后目标音频片段中各个音频帧的梅尔频谱值；或，确定所述重采样后目标音频片段中各个音频帧的bark谱值；或，确定所述重采样后目标音频片段中各个音频帧的chroma特征值。为了节约计算资源，可以采用确定所述重采样后目标音频片段中各个音频帧的功率值的方法，也即，先按照一定的帧移、帧长对所述目标音频片段进行分帧，然后确定各个音频帧的功率值，帧移可以为4ms，帧长可以为20ms，其中，
[0123][0124]
其中，p(n)表示第n个音频帧的功率值，l表示一个音频帧中包括的样点数，x(lt i)表示第n个音频帧的第i个采样点的值，10
·
log
10
的处理是为了进一步计算功率分贝值(db)。
[0125]
然后再将任意一个音频帧的音频特征值和与该音频帧相邻的前一个音频帧的音频特征值之间的差值作为该音频帧对应的onset强度值，直到确定出各个所述音频帧的onset强度值，得到所述目标音频片段对应的onset序列，其中，o(n)＝p(n)
‑
p(n
‑
1)，o(n)表示第n个音频帧的onset强度值。n＝1，2，3
······
n，n表示所述目标音频片段中的总音频帧数。参见图5所示，为onset序列图，图中横坐标表示时间，纵坐标表示onset强度值。
[0126]
在实际应用过程中，对所述目标音频片段进行重采样，得到重采样后目标音频片段之前，还包括：如果所述目标音频片段包括左声道音频和右声道音频，则将所述左声道音频和所述右声道音频的均值作为处理后目标音频片段；相应地，所述对所述目标音频片段进行重采样，得到重采样后目标音频片段，包括：对所述处理后目标音频片段进行重采样，得到重采样后目标音频片段。上述过程可以表示为：
[0127][0128]
x
mono
(n)表示处理后目标音频片段中的第n个点，x
l
(n)，x
r
(n)分别表示左右声道信号，n表示样点索引。
[0129]
相应地，所述重采样后目标音频片段x(n)＝resample(x
mono
(n))，resample()表示重采样。
[0130]
在将任意一个音频帧的音频特征值和与该音频帧相邻的前一个音频帧的音频特征值之间的差值作为该音频帧对应的onset强度值，直到确定出各个所述音频帧的onset强度值，得到所述目标音频片段对应的onset序列之后，还包括：基于所述目标节拍时间确定窗函数；利用所述窗函数对所述onset序列做平滑处理，得到平滑后onset序列。
[0131]
也即，由于onset序列中包括较多毛躁的点，所以可以对所述onset序列进行平滑处理，从而提高转场时间点检测的准确率。具体的，就是先基于所述目标节拍时间确定窗函数，其中，所述窗函数可以为高斯窗函数，则利用所述目标节拍时间确定高斯窗函数如下：
[0132][0133]
g(t)表示高斯窗函数，t
b
表示所述目标节拍时间，当t
b
＝0.82s时，得到的高斯窗函数如图6所示。
[0134]
得到所述窗函数之后，将所述窗函数与所述onset序列进行卷积，便可以得到平滑后onset序列。参见图7所示，为利用高斯窗函数对图5中的onset序列进行平滑处理后得到的平滑后onset序列。
[0135]
相应地，在实际实施过程中，在确定所述目标音频片段对应的onset序列之前，还包括：判断所述节拍信息中是否包括bpm值；如果是，则利用所述bpm值确定所述目标节拍时间；如果否，则利用每个所述节拍的起始时间确定每个所述节拍的时长，并利用每个所述节拍的时长和预设运算公式确定所述目标节拍时间，其中，所述预设运算公式如下：
[0136]
t
b
＝mo
b
＝mu
b
‑
3(mu
b
‑
md
b
)
[0137]
其中，t
b
表示所述目标节拍时间，mo
b
表示每个所述节拍估算的众数，mu
b
＝mean(db
t
(m))表示每个所述节拍的时长的均值，md
b
＝median(db
t
(m))表示每个所述节拍的时长的中值，db
t
(m)表示第m个节拍的时长。
[0138]
也即，如果所述节拍信息中包括bpm值，则所述目标节拍时间单位为秒(s)，当所述节拍信息中不包括bpm值，则利用每个所述节拍的起始时间确定每个所述节拍的时长，并利用每个所述节拍的时长和预设运算公式确定所述目标节拍时间。
[0139]
将上述过程用公式表示为：
[0140]
db
t
(m)＝b
t
(m 1)
‑
b
t
(m)，t
b
＝mo
b
＝mu
b
‑
3(mu
b
‑
md
b
)
[0141]
其中，t
b
表示所述目标节拍时间，mo
b
表示每个所述节拍估算的众数，mu
b
＝mean(db
t
(m))表示每个所述节拍的时长的均值，md
b
＝median(db
t
(m))表示每个所述节拍的时长的中值，db
t
(m)表示第m个节拍的时长，b
t
(m)表示第m个节拍的起始时间，以秒(s)为单位。
[0142]
步骤s22：利用所述节拍信息和所述onset序列构造节拍onset曲线，其中，所述节拍onset曲线为所述onset序列中与所述节拍信息中的各个节点的起始时间对应的点连接成的曲线。
[0143]
在得到所述onset序列之后，还需要利用所述节拍信息和所述onset序列构造节拍onset曲线，其中，所述节拍onset曲线为所述onset序列中与所述节拍信息中的各个节点的起始时间对应的点连接成的曲线。
[0144]
具体的，就是根据所述目标音频片段对应的帧移对所述节拍信息中的每个节拍的起始时间进行校准，得到每个节拍的处理后起始时间；将所述onset序列中位于每个所述节拍的处理后起始时间上的onset强度值作为目标值，并对所述目标值进行依次连接，得到所述节拍onset曲线。
[0145]
将上述过程用公式表示为：
[0146][0147]
其中，t
hop
表示帧移，b(m)表示第m个节拍的处理后起始时间，b
t
(m)表示所述节拍
信息中的第m个节拍的起始时间。参见图8所示，为原始节拍，也即校准前的节拍的起始时间，参见图9所示，为利用帧移对图8所示的原始节拍进行校准后得到的修正节拍，也即，每个节拍的处理后起始时间。
[0148]
然后再将所述onset序列中位于每个所述节拍的处理后起始时间上的onset强度值作为目标值，并对所述目标值进行依次连接，得到所述节拍onset曲线。参见图10所示，为将图9中位于各个节拍的处理后起始时间上的onset强度值作为目标值，并对所述目标值进行依次连接的节拍onset曲线。
[0149]
步骤s23：将所述节拍onset曲线中峰值对应的时间点作为预选转场时间点。
[0150]
得到所述节拍onset曲线之后，将所述节拍onset曲线中峰值对应的时间点作为预选转场时间点。此处，只是将节拍onset曲线中峰值对应的时间点作为预选转场时间点，是因为会存在峰值对应的时间点之间的时间间隔过小的问题，所以不是直接将节拍onset曲线中峰值对应的时间点作为第二转场时间点。
[0151]
步骤s24：判断相邻两个所述预选转场时间点之间的时间间隔是否不小于第三时长阈值，其中，所述第三时长阈值为基于所述待处理音乐对应的目标节拍时间确定的，所述目标节拍时间为基于所述节拍信息确定的。
[0152]
具体的，就是判断所述相邻两个所述预选转场时间点之间的时间间隔是否不小于第三时长阈值，其中，所述第三时长阈值为基于所述待处理音乐对应的目标节拍时间确定的，所述目标节拍时间为基于所述节拍信息确定的。
[0153]
为用户最舒适的转场时间一般为5s左右，为此，结合当前音乐的目标节拍时间给到期望转场时间间隔t
c
：[]表示四舍五入取整。则所述第三时长阈值为：
[0154]
步骤s25：如果是，则将所述预选转场时间点作为所述目标音频片段对应的第二转场时间点。
[0155]
如果相邻两个所述预选转场时间点之间的时间间隔不小于第三时长阈值将所述预选转场时间点作为所述目标音频片段对应的第二转场时间点。
[0156]
参见图11所示，为图9对应的转场时间点检测结果图，参见图12所示，为图5对应的转场时间点检测结果图。
[0157]
参见图13所示，为音乐转场时间点检测方法部分流程图。输入目标音频片段之后，对目标音频片段进行重采样，得到重采样后目标音频片段，然后确定所述重采样后目标音频片段中各个音频帧的功率值，利用音频帧的功率差分确定初步的onset序列，对初步的onset序列进行高斯平滑后，得到平滑后onset序列，然后再基于节拍信息构造节拍onset曲线，从节拍onset曲线中进行有效峰值(时间间隔大于第三时长阈值)查找，确定出最终的转场时间点，也即，所述第二转场时间点。
[0158]
可以将前述的音乐转场时间点检测方法集成app，例如，制作mv的app中，该app可以获取音乐转场时间点检测请求，其中，包括待处理音乐的名称，例如，歌曲《去大理》，然后app会获取《去大理》的原始音频、节拍信息及对其时间进行片段划分得到的时间片段集，其
中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集。然后从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值。再将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段。并利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点。将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。将所述转场时间点标记到《去大理》的原始音频中，然后用户可以在标记了转场时间点的《去大理》的原始音频中不同转场时间点插入不同图片或视频，生成《去大理》的mv。
[0159]
参见图14所示，本技术实施例公开了一种音乐转场时间点检测装置，包括：
[0160]
信息获取模块21，用于获取待处理音乐的原始音频、节拍信息及对所述待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集；
[0161]
第一转场时间点检测模块22，用于从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值；
[0162]
原始音频片段划分模块23，用于将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段；
[0163]
第二转场时间点检测模块24，用于利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点；
[0164]
转场时间点合并模块25，用于将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。
[0165]
可见，本技术先获取待处理音乐的原始音频、节拍信息及对所述待处理音乐的时间进行片段划分得到的时间片段集，其中，所述时间片段集包括和弦时间片段集和/或歌词时间片段集。然后从所述时间片段集中识别出目标时间片段，并将每个所述目标时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点，其中，一个所述目标时间片段为一个时间片段或连续多个所述时间片段的组合，且每个所述目标时间片段的时长不小于第一时长阈值且不大于第二时长阈值。然后还需要将所述原始音频位于时间间隔大于所述第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段。并利用所述节拍信息和所述目标音频片段确定所述目标音频片段对应的转场时间点，得到第二转场时间点。接着便可以将所述第一转场时间点和所述第二转场时间点作为所述待处理音乐对应的转场时间点。由此可见，这样本技术中先以歌词时间片段集和/或和弦时间片段集作为参考，确定出待处理音乐对应的第一转场时间点，由于从歌词时间片段集或和弦时间片段集识别出的一个目标时间片段为一个时间片段或连续多个时间片段的组合，且每个目标时间片段的时长在第一时长阈值左右到第二时长阈值之间，使得第一转场时间点中相邻两个第一转场时间点之间的时间间隔不小于第一时长阈值。然后再将原始音频位于时间间隔大于第二时长阈值的相邻两个第一转场时间点之间的片段作为目标音频片段，并利用
节拍信息和目标音频片段确定对应的转场时间点，得到第二转场时间点，也即，对于时间间隔大于第二时长阈值的相邻两个第一转场时间点之间的部分，再利用节拍信息和对应的目标音频片段确定这段时间内的转场时间点，从而使得最后检测出的待处理音乐对应的转场时间点中相邻两个转场时间点之间的时间间隔在第一时长阈值左右到第二时长阈值之间，从而既能够抓住用户的视觉动态，且不容易造成图片闪烁及造成视觉疲劳。且最后检测出的待处理音乐的转场时间点是结合歌词、和弦以及节拍确定出来的，符合歌曲本身的动态特征，且符合乐理特性，可以提高用户体验。
[0166]
在一些具体的实施例中，所述信息获取模块21，用于：
[0167]
获取所述待处理音乐对应的每句歌词的起始时间；
[0168]
根据每句所述歌词的起始时间对所述待处理音乐的时间进行片段划分，得到歌词时间片段集，其中，一个歌词时间片段为一句歌词的时间片段；
[0169]
和/或，获取所述待处理音乐对应的每个和弦的起始时间；
[0170]
根据每个所述和弦的起始时间对所述待处理音乐的时间进行片段划分，得到和弦时间片段集，其中，一个和弦时间片段为一个和弦的时间片段。
[0171]
在一些具体的实施例中，所述第一转场时间点检测模块22，用于：
[0172]
当所述时间片段集包括歌词时间片段集时，判断各个歌词时间片段的时长是否不小于第一时长阈值且不大于第二时长阈值；
[0173]
如果当前歌词时间片段的时长不小于第一时长阈值且不大于第二时长阈值，则将当前歌词时间片段作为一个目标歌词时间片段；
[0174]
如果当前歌词时间片段的时长小于所述第一时长阈值，则将当前歌词时间片段的时长与相邻后续歌词时间片段的时长相加，直到相加后时长不小于所述第一时长阈值，且不大于所述第二时长阈值，则将所述相加后时长对应的相邻各个歌词时间片段作为一个目标歌词时间片段，直到遍历完所述歌词时间片段集中的每个所述歌词时间片段；
[0175]
将每个所述目标歌词时间片段的结束时刻作为转场时间点，得到所述待处理音乐对应的第一转场时间点。
[0176]
在一些具体的实施例中，所述第一转场时间点检测模块22，用于：
[0177]
当所述时间片段集包括和弦时间片段集和歌词时间片段集时，从所述歌词时间片段集中识别出目标歌词时间片段；
[0178]
将每个所述目标歌词时间片段的结束时刻作为转场时间点，得到第三转场时间点；
[0179]
将所述和弦时间片段集中位于时间间隔大于所述第二时长阈值的相邻两个第三转场时间点之间的，且时长不小于第一时长阈值且不大于第二时长阈值的和弦时间片段作为目标和弦时间片段；
[0180]
将每个所述目标和弦时间片段的结束时刻作为转场时间点，得到第四转场时间点；
[0181]
将所述第三转场时间点和所述第四转场时间点作为所述第一转场时间点。
[0182]
在一些具体的实施例中，所述第二转场时间点检测模块24，用于：
[0183]
确定所述目标音频片段对应的onset序列；
[0184]
利用所述节拍信息和所述onset序列构造节拍onset曲线，其中，所述节拍onset曲
线为所述onset序列中与所述节拍信息中的各个节点的起始时间对应的点连接成的曲线；
[0185]
将所述节拍onset曲线中峰值对应的时间点作为预选转场时间点；
[0186]
判断相邻两个所述预选转场时间点之间的时间间隔是否不小于第三时长阈值，其中，所述第三时长阈值为基于所述待处理音乐对应的目标节拍时间确定的，所述目标节拍时间为基于所述节拍信息确定的；
[0187]
如果是，则将所述预选转场时间点作为所述目标音频片段对应的第二转场时间点。
[0188]
在一些具体的实施例中，所述第二转场时间点检测模块24，用于：
[0189]
对所述目标音频片段进行重采样，得到重采样后目标音频片段；
[0190]
确定所述重采样后目标音频片段中各个音频帧的音频特征值；
[0191]
将任意一个音频帧的音频特征值和与该音频帧相邻的前一个音频帧的音频特征值之间的差值作为该音频帧对应的onset强度值，直到确定出各个所述音频帧的onset强度值，得到所述目标音频片段对应的onset序列。
[0192]
在一些具体的实施例中，所述第二转场时间点检测模块24，用于：
[0193]
如果所述目标音频片段包括左声道音频和右声道音频，则将所述左声道音频和所述右声道音频的均值作为处理后目标音频片段；
[0194]
相应地，所述对所述目标音频片段进行重采样，得到重采样后目标音频片段，包括：
[0195]
对所述处理后目标音频片段进行重采样，得到重采样后目标音频片段。
[0196]
在一些具体的实施例中，所述第二转场时间点检测模块24，用于：
[0197]
确定所述重采样后目标音频片段中各个音频帧的功率值；
[0198]
或，确定所述重采样后目标音频片段中各个音频帧的梅尔频谱值；
[0199]
或，确定所述重采样后目标音频片段中各个音频帧的bark谱值；
[0200]
或，确定所述重采样后目标音频片段中各个音频帧的chroma特征值。
[0201]
在一些具体的实施例中，所述第二转场时间点检测模块24，用于：
[0202]
基于所述目标节拍时间确定窗函数；
[0203]
利用所述窗函数对所述onset序列做平滑处理，得到平滑后onset序列。
[0204]
在一些具体的实施例中，所述第二转场时间点检测模块24，用于：
[0205]
根据所述目标音频片段对应的帧移对所述节拍信息中的每个节拍的起始时间进行校准，得到每个节拍的处理后起始时间；
[0206]
将所述onset序列中位于每个所述节拍的处理后起始时间上的onset强度值作为目标值，并对所述目标值进行依次连接，得到所述节拍onset曲线。
[0207]
在一些具体的实施例中，所述第二转场时间点检测模块24，用于：
[0208]
判断所述节拍信息中是否包括bpm值；
[0209]
如果是，则利用所述bpm值确定所述目标节拍时间；
[0210]
如果否，则利用每个所述节拍的起始时间确定每个所述节拍的时长，并利用每个所述节拍的时长和预设运算公式确定所述目标节拍时间，其中，所述预设运算公式如下：
[0211]
t
b
＝mo
b
＝mu
b
‑
3(mu
b
‑
md
b
)
[0212]
其中，t
b
表示所述目标节拍时间，mo
b
表示每个所述节拍估算的众数，mu
b
＝mean
(db
t
(m))表示每个所述节拍的时长的均值，md
b
＝median(db
t
(m))表示每个所述节拍的时长的中值，db
t
(m)表示第m个节拍的时长。
[0213]
参见图15为本技术实施例提供的一种电子设备30的结构示意图，该电子设备30具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
[0214]
通常，本实施例中的电子设备30包括：处理器31和存储器32。
[0215]
其中，处理器31可以包括一个或多个处理核心，比如四核心处理器、八核心处理器等。处理器31可以采用dsp(digital signal processing,数字信号处理)、fpga(field
‑
programmable gate array,现场可编程们阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件来实现。处理器31也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit,中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器31可以集成有gpu(graphics processing unit,图像处理器)，gpu用于负责显示屏所需要显示的图像的渲染和绘制。一些实施例中，处理器31可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0216]
存储器32可以包括一个或多个计算机可读存储介质，计算机可读存储介质可以是非暂态的。存储器32还可以包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器32至少用于存储以下计算机程序321，其中，该计算机程序被处理器31加载并执行之后，能够实现前述任一实施例中公开的音乐转场时间点检测方法步骤。
[0217]
在一些实施例中，电子设备30还可包括有显示屏33、输入输出接口34、通信接口35、传感器36、电源37以及通信总线38。
[0218]
本技术领域人员可以理解，图15中示出的结构并不构成对电子设备30的限定，可以包括比图示更多或更少的组件。
[0219]
进一步的，本技术实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述任一实施例中公开的音乐转场时间点检测方法。
[0220]
其中，关于上述音乐转场时间点检测方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。
[0221]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0222]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd
‑
rom、或技术领域内所公知的任意其它形式的存储介质中。
[0223]
最后，还需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含，从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0224]
以上对本技术所提供的一种音乐转场时间点检测方法、设备及介质进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音信号的特征获取方法及装置与流程

一种音乐转场时间点检测方法、设备及介质与流程

相关文章

最热文献