音视频优化方法、音频终端及存储介质

2022-06-16 03:39:05 来源：中国专利 TAG：

1.本发明涉及音视频处理技术领域。

背景技术：

2.疫情出现以来，线上视频会议软件的应用越来越广泛，也带来了和面对面沟通所不同的用户体验。但是，线上沟通，不论是音频还是视频，都会使用户感到相比于面对面沟通更快的疲劳。有研究表明，其中一个原因就是可变的网络延迟干扰了用户对发言者的预测，而这种预测能力与发言者语音的音节节奏有关，从而造成用户的“变焦疲劳”。
[0003]“变焦疲劳”出自2021年最新有关线上会议更容易引起用户疲劳的研究，其原因为，在两人/多人沟通时，听者会根据发言者模糊的音节节奏预测自己应该何时发言，但是波动的网络延迟破坏了发言者音节节奏，听者会付出更多努力去预测自己的发言时间，导致线上会议要比面对面沟通更加疲劳。
[0004]
提高带宽针可解决网络延迟的问题。但单纯的提高带宽以减少延迟的成本较高，向下适配性更差，并不能解决“可变的(波动的)”网络延迟导致的“变焦疲劳问题”。

技术实现要素：

[0005]
本发明所要解决的技术问题是提出一种减少用户疲劳的音视频优化方法、音频终端及存储介质。
[0006]
为解决上述技术问题，本发明采用的技术方案是：
[0007]
本发明首先提供一种音视频优化方法，包括：
[0008]
获取当前发言者的音视频数据；
[0009]
根据获取的当前发言者的音视频数据，提取音视频数据中音频数据的语音音节；
[0010]
基于提取的音视频数据中音频数据的语音音节，计算得到当前发言者的夹带振荡周期；
[0011]
基于计算得到的当前发言者的夹带振荡周期，对当前发言者的音视频数据进行时间流重定向，获得目标播放的音视频数据。
[0012]
根据获取的当前发言者的音视频数据，提取音视频数据中音频数据的语音音节，包括：
[0013]
通过当前发言者客户端的音频传感器，获取当前发言者的音频信号，记录发言者id；
[0014]
对获取的当前发言者的音频信号进行预处理，获取待识别的语音信号；
[0015]
对获取的待识别语音信号进行分帧处理，进行短时傅里叶变换，获得语音信号的语谱图；
[0016]
基于获得语音信号的语谱图，计算每帧信号的频能比，得到语音信号频能比曲线；
[0017]
对得到的语音信号频能比曲线进行平滑处理，得到语音信号的频能比包络；
[0018]
对得到的语音信号的频能比包络进行曲线平滑处理；
[0019]
基于上述曲线平滑处理后的频能比包络，提取语音音节节点。
[0020]
所提取的语音音节节点为频能比包络的峰值。
[0021]
对得到的语音信号的频能比包络进行曲线平滑处理所采用的方法为 smoothcurve算法。
[0022]
对获取的当前发言者的音频信号进行预处理，获取待识别的语音信号，包括：
[0023]
采用噪声消除算法抑制获取的当前发言者的音频信号中的环境自噪声；
[0024]
采用小波降噪算法对经上述抑制环境自噪声处理后的音频信号进一步去噪，获取待识别的语音信号。
[0025]
基于提取的音视频数据中音频数据的语音音节，计算得到当前发言者的夹带振荡周期，包括：
[0026]
基于提取的音视频数据中音频数据的语音音节，获得每一个语音音节节点的时间点集；
[0027]
根据获得的每一个语音音节节点的时间点集，获得音节间隔时长集合；
[0028]
根据获得的音节间隔时长集合，计算得到当前发言者的夹带振荡周期。
[0029]
为了保证上述夹带振荡周期计算的准确性，每个发言者至少采集2分钟时长的语音数据，约包含400～500个音节。
[0030]
基于计算得到的当前发言者的夹带振荡周期，对当前发言者的音视频数据进行时间流重定向，获得目标播放的音视频数据，包括：
[0031]
接收方客户端接收当前发言者音视频数据中的音频数据，提取当前音频数据的语音音节；
[0032]
根据提取的当前音频数据的语音音节，计算音节间隔；
[0033]
设定模糊夹带振荡周期值域，对计算得到的音节间隔不在模糊夹带振荡周期值域的当前音频数据，进行音频时间流重定向，输出时间流重定向变量；
[0034]
基于得到的重定向变量，匹配上述接收方客户端接收到的音视频数据，获得目标播放音视频数据。
[0035]
本发明还提供一种音频终端，其特征在于，包括：
[0036]
发言终端，包括音视频采集装置和第一处理装置，所述第一处理装置采用所述的音视频优化方法，计算计算得到发言终端上当前发言者的夹带振荡周期；
[0037]
播放终端，包括播放装置和第二处理装置，所述第二处理装置采用所述的音视频优化方法，基于计算得到的当前发言者的夹带振荡周期，对发言终端上当前发言者的音视频数据进行时间流重定向，获得播放装置上播放的音视频数据。
[0038]
本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述音视频优化方法的步骤。
[0039]
与现有技术相比，本发明的有益效果是：
[0040]
1.本发明提供的音视频优化方法，首先采集每一个发言者的音频数据计算其语音音节规律，也称夹带振荡周期，然后基于所述夹带振荡周期在接收方客户端对经过传输后的音视频数据进行重定向，进而解决了可变网络延迟导致的线上会议用户产生的“变焦疲劳”。
[0041]
2.本发明提供的方法成本低，对硬件和网络带宽水平要求不高，实现方法相对简
单，可以有效降低大规模会议成本。
[0042]
3.本发明音视频优化方法应用范围广，包括但不限于线上会议等线上交流应用。
[0043]
4.本发明方法综合采用设备终端和云端两部分协同工作，终端承担计算工作，不占用云端资源，信息处理和数据传输负荷得到合理分配。附图说明
附图说明
[0044]
图1是本发明音视频处理方法的流程图。
具体实施方式
[0045]
下面结合附图，对本发明做详细说明：
[0046]
本发明实施例提供一种线上会议音视频优化方法，参照图1，音视频优化方法的步骤为：
[0047]
s1.通过发言者客户端的音频传感器，获取待识别语音信号；
[0048]
s2.根据上述待识别语音信号，提取发言者的语音音节；
[0049]
s3.基于上述发言者的语音音节，计算得到当前发言者的夹带振荡周期；
[0050]
s4.发言者音视频数据传输到接收方客户端后，基于上述发言者的夹带振荡周期，对上述传输后的音视频数据进行时间流重定向，获得目标播放音视频数据。
[0051]
在本发明的一个实施例中，步骤s1，具体包括：
[0052]
s11.通过上述发言者客户端的音频传感器，获取当前发言者的音频信号，记录发言者id；
[0053]
s12.对上述采集的发言者的音频信号进行预处理，获取待识别的语音信号 wf。
[0054]
本发明的一个实施例中，获取待识别的语音信号wf的步骤，包括：
[0055]
s121.采用噪声消除算法抑制上述采集的音频信号中的环境自噪声；
[0056]
s122.采用小波降噪算法对上述处理后的音频信号进一步去噪，获取待识别语音信号wf，具体计算方法为：
[0057]
wf＝∫f(t)ψ(t)dt
[0058]
其中，wf为小波降噪后得到的待识别语音信号；f(t)为上述噪声消除后的音频信号，t为音频的时间参数；ψ(t)是基本小波，满足ψ(
±
∞)＝0，ψ(0)＝0，∫ψ(t)dt＝0。
[0059]
在本发明的一个实施例中，步骤s2，具体包括：
[0060]
s21.对上述待识别语音信号进行分帧处理，进行短时傅里叶变换，获得语音信号的语谱图；其中，语谱图的具体计算方式为：
[0061]
x(t，ω)＝∑wf(t)ω(t)e-ωt
[0062]
s(t，ω)＝|x(t，ω)|2[0063]
其中，wf(t)为输入的语音信号，ω(t)是窗函数，x(t，ω)是时间t和频率ω的二维函数，s(t，ω)为语音信号的语谱图。
[0064]
s22.基于所属语音信号的语谱图，计算每帧信号的频能比，得到语音信号频能比曲线，具体方法为：
[0065]
通过计算上述语音信号在250-3500hz范围内的短时能量与所有频率范围内的短时能量的比值，即：
[0066][0067]
其中，s(fk)为每一帧信号对应于频率fk的谱能量；为 250hz-3500hz；为每一帧信号在250hz-3500hz频率范围内的能量；为每一帧信号在从0到无穷的频率范围内的能量，由于不可能达到无穷，本方法采用最高采样频率为20000hz。
[0068]
s23.对上述语音信号频能比曲线进行平滑处理，得到语音信号的频能比包络；
[0069]
s24.利用smoothcurve算法对上述频能比包络进行曲线平滑处理；
[0070]
s25.基于上述平滑处理后的频能比包络，提取语音音节节点，具体方式为：提取上述频能比包络的峰值作为语音音节节点。
[0071]
为了保证夹带振荡周期计算的准确性，每个发言者至少采集2分钟时长的语音数据，以正常人语速为参考，大约包括400-500个音节。
[0072]
在本发明的一个实施例中，步骤s4，具体包括：
[0073]
s41.确定夹带振荡周期后的发言者端，在后续会议时间内将音视频数据与和 id匹配的夹带振荡周期数据打包通过udp库发送到听者客户端；
[0074]
s42.听者客户端读取音频数据，计算得到当前数据的语音音节时间特征，根据音节时间特征计算音节间隔t
′
；
[0075]
t
′
＝t
f-tb[0076]
其中，tf为当前音频最新的音节时间参数，tb为上一个音节的时间参数。
[0077]
s43.对比上述获得的语音数据包内的夹带振荡周期数据，如果传输后的音频数据音节间隔t
′
不在设定的模糊夹带振荡周期值域r内，则对传输后的音频数据进行音频时间流重定向，输出时间流重定向变量。
[0078]
s44.根据得到的重定向变量，匹配上述听者客户端接收到的音视频数据，得到重定向后的音视频数据，具体方法为：
[0079]
音视频内原音节时间点tf，重定向为最新时间点tf′
，其中：
[0080]
tf′
＝tf δt。
[0081]
在本发明的一个实施例中，设定的模糊夹带振荡周期值域为：
[0082]
r＝[r
min
·
rhy，r
max
·
rhy]
[0083]
其中，r
min
模糊值域最小参数，取0.8～0.9，r
max
为模糊值域最大参数，取 1.1～1.2。
[0084]
在一个实施例中，r
min
取值0.85，r
max
取值1.15。此时，r＝[0.85
·
rhy，1.15
· rhy]，输出时间流重定向变量的具体计算方法：
[0085]
c＝c1∪c2[0086]
c1＝{c1|c1＝tb 0.85
·n·
rhy}
[0087]
c2＝{c2|c2＝tb 1.15
·n·
rhy}
[0088]
d＝|t
′‑
c|
[0089]
|t
′‑
c|＝d
min
[0090]
δt＝t
′‑c[0091]
其中，c为根据模糊夹带振荡周期计算得出的，最新语音音节目标时间段点集，c1、
c2为c的两个子集，c1为最新语音音节目标时间段起点，c2为最新语音音节目标时间段终点；d为最新语音音节距离语音音节目标时间段端点的距离集，取距离集内最小值d
min
时对应c集合内的值c，即取距离上述最新语音音节的最近模糊夹带振荡周期节点，并计算时间流重定向变量δt；n为音节数，n∈n

，n

为指正整数集。
[0092]
重定向为最新时间点tf′
＝tf δt。
[0093]
本发明实施例还提供了一种音频终端，包括：
[0094]
发言终端，包括音视频采集装置和第一处理装置，第一处理装置采用本发明实施例中提供的音视频优化方法，计算计算得到发言终端上当前发言者的夹带振荡周期；
[0095]
播放终端，包括播放装置和第二处理装置，所述第二处理装置采用本发明实施例中提供的音视频优化方法，基于计算得到的当前发言者的夹带振荡周期，对发言终端上当前发言者的音视频数据进行时间流重定向，获得播放装置上播放的音视频数据。
[0096]
本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据) 的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于ram(random access memory，随机存取存储器)， rom(read-only memory，只读存储器)，eeprom(electrically erasableprogrammable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、cd-rom(compact disc read-only memory，光盘只读存储器)，数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
[0097]
本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述实施例中音视频优化方法的步骤。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

音视频优化方法、音频终端及存储介质

相关文献

最热文献