一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向管制语音品质划分的量化评价及分类方法和装置

2023-01-06 02:21:48 来源:中国专利 TAG:


1.本发明涉及管制语音数据质量计量领域,特别涉及一种面向管制语音品质划分的量化评价及分类方法和装置。


背景技术:

2.现在主要的语音品质评价方法主要围绕在mos(mean opinion score,平均主观意见分)、pesq(perceptual evaluation of speech quality,客观语音质量评估)、psqm(perceptual speech quality measure,感性的语音质量评价)等语音品质评估模型,但这种评价分类方法是一种很模糊的评价方法,是根据事先人们定好的级别标准采用机器学习算法和神经网络模型与之相映射而得出评价分数,主观因素较大,评价结果客观性不足。此外,现有的客观语音品质评估方法集中于:基于某些特定的参数去无参考地表征语音品质,或是基于信号的有参考对比表征语音品质,但这些客观评估方法只能得到综合性的评估结果,类似黑盒测试的方法,在客观语音评估过程中没有形成一套比较完善的评价指标体系。无法对语音品质进行客观量化分析或是找出客观量化分析的计量单位,这对我们后期研究语音识别软件性能优劣时是一个很大的难点,因为在同一语音识别软件下不同的语音品质所对应的识别性能各不一致。
3.根据以上内容可知,现有管制语音品质划分方法客观性不足以及无法对语音品质进行客观地量化分析或是找出客观量化分析的计量单位,不能明确管制语音品质与各评价指标之间的对应关系,尚未形成健全的管制语音评价指标体系。


技术实现要素:

4.本发明的目的在于解决无法对语音品质进行客观地量化分析,不能明确管制语音品质与各评价指标之间的对应关系的问题,为解决上述问题,提供一种依靠项目建立的标准管制语音数据库(内含音频和标注文本)进行语音数据品质划分,设计生成不同管制类别、不同难易级别的测试集的管制语音品质划分的量化评价及分类方法和装置。
5.为了实现上述发明目的,本发明提供了以下技术方案:一种面向管制语音品质划分的量化评价及分类方法,包括以下步骤:s1.输入标注有正确含义的标准管制语音数据库的语音数据;s2.从民航陆空通话本身特点考虑,构建管制语音品质划分的评价指标体系;s3.对各评价指标定性分析,包括技术分析方法和指标分级量化单位;s4.采用聚类法对单一评价指标分析得出的数据进行分组,规定在单一评价指标下各语音等级的范围值;s5.采用赋权融合算法给各个评价指标加权,组合成多个级别品质的管制语音数据集。
6.优选地,在步骤s2中,所述管制语音品质划分的评价指标体系包括极大型指标、中间型指标、极小型指标、指定型指标,所述极大型指标是指值越大,语音识别效果越好,包括
口音,所述中间型指标是指值越接近某个中间值时,语音识别效果越好,包括语速、声调(音调)、音强,所述极小型指标是指值越小,语音识别效果越好,包括连续性、干扰程度、专业术语占比、灰色词汇含量、音变,所述指定型指标是指值为某个值时,语音识别效果好,包括语种类别。
7.优选地,实现步骤s4中所述采用聚类法对单一评价指标分析得出的数据进行分组,规定在单一评价指标下各语音等级的范围值,包括以下步骤:步骤s4-1:输入想要划分的等级个数、各单一评价指标分析方法得出的数据集;步骤s4-2:输出聚类结果和各等级范围。
8.优选地,实现步骤s4-2中的输出聚类结果的方法,包括以下步骤:步骤s4-2-1:采用手肘法或者轮廓系数法确定最优类别数;步骤s4-2-2:初始化类中心值,计算每个样本点到每个类中心的欧氏距离,将每个样本指派到与其最近的类,构成聚类结果,欧氏距离指在m维空间中两个点之间的真实距离,或者向量的自然长度,其公式如下:其中, 代表样本点 到质点
ꢀꢀ
的距离,代表第i个样本的第k个属性,代表第j个样本的第k个属性,共有m维属性;步骤s4-2-3:计算聚类结果各类别中所有样本的均值,作为新的聚类中心;步骤s4-2-4:以样本到所属类中心距离总和作为目标函数,如果迭代收敛,或者符合停止条件,输出;否则,类别数 1,返回步骤s4-2-2重复计算;步骤s4-2-5:算法使用的是迭代计算,难以达到全局最优解,对此采用启发式策略,利用纳什均衡,实现问题最优解。
9.优选地,将管制语音品质划分为1-5级,等级越高,语音品质越好。
10.优选地,在步骤s5中所述的采用赋权融合算法包括主观赋权值法和客观赋权值法,其实现步骤如下:步骤s5-1:主观赋权值法是利用专家经验,对评价指标客观所赋权值进行调优,是利用1-9标度法对同属于一层次的各指标相对于其上一层次的同一指标的重要程度进行两两定量比较,形成判断矩阵x,采用最大特征向量法计算判断矩阵对应特征根的特征向量,检验判断矩阵满足一致性时,可将特征向量作为各指标的权重;步骤s5-2:客观赋权值法包括以下步骤:步骤s5-2-1:指标的正向化,将极小型指标和中间型指标转化为极大型指标:极小型

》极大型:中间型

》极大型:
其中,为识别效果最优数值,按评价指标方法所得出的语音集中数值作为最优值, 为正向化数值;步骤s5-2-2:数据标准化,平衡指标之间的量纲误差:其中,为第i条语音在第j个评价指标下的数值;步骤s5-2-3:数据归一化,统一到区间0-1:其中,n为评价对象的数量;步骤s5-2-4:计算各评价指标的信息熵值各评价指标的信息熵值:其中,n为评价对象的数量,m为评价指标的数量,j的值从1取到m;步骤s5-2-5:计算权重:其中,j的值从1取到m;步骤s5-3:主客观权重融合:其中,n为评价对象的数量,为主观权重, 为客观权重;步骤s5-4:每条语音综合得分:
其中,为第i个评价对象在第j个评价指标下数值的标准化,i的值从1取到n;步骤s5-5:各管制语音品质等级分值范围:整个标准管制语音数据库按照按上述评价方法计算综合评分,整个数据库的综合评分序列按5个等级划分,每个等级的区间范围即为每个品质等级的分值范围,所述区间范围为0到1,所有评价指标都进行了正向化处理,故综合评分值越大品质越优,5级品质最优。
11.一种面向管制语音品质划分的量化评价及分类的装置,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使至少一个处理器能够执行此分类方法的任意步骤。
12.与现有技术相比,本发明的有益效果:1.构建了管制语音品质评价指标体系,并对评价指标体系中的各个评价指标进行定量分析,实现对管制语音品质客观量化研究,定义管制语音品质客观量化分析的计量单位,获取管制语音品质与各评价指标之间的对应关系;2.根据对评价指标的定量分析,采用主赋权融合算法,建立了客观的管制语音品质划分方法,依据所划分的不同品质等级语音数据集去测试第三方管制语音识别软件,方便了航空单位甄选管制语音识别软件,提高空中交通管制效率、安全性、可靠性以及有效性。
附图说明
13.图1为管制语音品质划分技术路线图;图2为管制语音品质划分的定量分析结构框图;图3为指标分类图;图4为指标数值与识别效果趋势图;图5为指标量化分级第一部分效果图;图6为指标量化分级第二部分效果图;图7为管制语音品质等级评定技术路线图。
具体实施方式
14.下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例
15.本技术实施例是依靠项目背景从民航运行的实际环境中收集管制语音语料建立标准管制语音数据库,语料内容包含多场景、不同管制员发音、不同管制指令语音、不同飞行阶段、超大量陆空无线电通话用语词汇、单一或混合语种发音以及其他空管特征,还针对
数据库内每一条管制语音音频标注好对应的管制指令文本,并对数据库的数据进行量化评价及分类。
16.本技术实施例的实现过程和步骤如下,其流程框图如图1所示、管制语音品质划分的定量分析结构框图如图2所示:s1.输入标注有正确含义的标准管制语音数据库的语音数据;s2.从陆空通话本身特点考虑,构建管制语音品质划分的评价指标体系;s3.对各评价指标定性分析,包括技术分析方法和指标分级量化单位;s4.采用聚类法对单一评价指标分析得出的数据进行分组,规定在单一评价指标下各语音等级的范围值;s5.采用赋权融合算法给各个评价指标加权,组合成5个级别品质的管制语音数据集。
17.在步骤s2中,指标的分类如图3所示:管制语音品质划分的评价指标体系包括极大型指标、中间型指标、极小型指标、指定型指标,所述极大型指标是指值越大,语音识别效果越好,包括口音,所述中间型指标是指值越接近某个中间值时,语音识别效果越好,包括语速、声调(音调)、音强,所述极小型指标是指值越小,语音识别效果越好,包括连续性、干扰程度、专业术语占比、灰色词汇含量、音变,所述指定型指标是指值为某个值时,语音识别效果好,包括语种类别,单一语种语音比混合语种语音的识别效果更优。
18.在步骤s3中所述的对各评价指标体系定性分析的步骤如下,指标量化分级效果图如图5、图6所示,图5和图6是一个整图拆分成的两个图:步骤s3-1:语速量化单位为字/秒(中文),音节/秒(英文),语速分析方法包括以下步骤:步骤s3-1-1:对输入的语音信号进行分帧、加窗、预处理;步骤s3-1-2:检测有效语音的音频段;计算有效音频的帧数,获取有效发音的时间;步骤s3-1-3:对音频对应的文本进行处理,获取音频文本有效字符数或词汇数;步骤s3-1-4:计算语速,语速=有效音频帧数/音节数(或字符数);步骤s3-2:声调(音调)量化单位为基音变化频率,声调(音调)分析方法包括以下步骤:步骤s3-2-1:对输入的语音信号进行分帧、加窗、预处理,过滤掉其他干扰因素;步骤s3-2-2:对预处理后的分帧信号进行傅里叶变换,提取语音波形的时域和频域特征信息;步骤s3-2-3:通过语音波形的时域和频域估计法来直接估计波形变化趋势;步骤s3-3:音强量化单位:振幅(db),音强分析方法包括以下步骤:步骤s3-3-1:对输入的语音信号进行分帧、加窗、预处理;步骤s3-3-2:经过短时的傅里叶变换以及拆分原始信号得到各个频率和幅度值;步骤s3-3-3:对语音中的各个幅度值进行正态分布描述,用正态分布的期望值作为该条语音的音强强度度量值;步骤s3-4:口音量化单位为相似度,口音分析方法包括以下步骤:
步骤s3-4-1:建立标准普通话音素库,将不同声音特征映射为对应的音素;步骤s3-4-2:用音素提取算法提取输入语音的音素;步骤s3-4-3:比较标准发音和输入系统带有口音发音的差异,声学模型对输入语音进行解码得到语音特征序列,并与标准普通话的特征序列做对比,用特征向量表示上述特征序列,计算两个特征向量之间的相似度;步骤s3-5:连续性量化单位为一条语音中连续性异常段个数,连续性分析方法包括以下步骤:步骤s3-5-1:对输入的语音进行预处理;步骤s3-5-2:基于能量的语音端点检测方法去除每一条语音首尾两端静音段,标注出有效语音内连续性异常段;步骤s3-5-3:基于人声的语音端点检测方法标注出步骤s3-5-2中有效语音段内连续性异常段中的无说话人发音部分;步骤s3-5-4:基于上下文判断算法,标注出步骤s3-5-3中标注音段属于正常断句还是同一语音段,若属于同一语音段统计出该音段时长;步骤s3-6:干扰程度量化单位为噪声能量值,干扰程度分析方法包括以下步骤:步骤s3-6-1:对输入的语音进行短时傅里叶变换以对时域和频域分别进行平滑,得到带噪语音的短时局部能量谱值;步骤s3-6-2:将能量谱值与局部最小值的比值作为门限将带噪语音中的噪声能量剔除;步骤s3-6-3:在判决过程中根据门限判决结果不断更新噪声能量,直至获得最优的降噪效果,获得最优降噪效果时的能量值作为干扰程度;步骤s3-7:语种类别量化单位为语种类别(中文-0、英文-1、中英混合-2)。
19.指标数值与识别效果如图4所示:语音数据的口音相似度越高,语音识别效果越好,语音数据的语速、声调(音调)的基因频率、音强的振幅,在某个中间值时,语音识别效果最好,语音数据的异常片段个数、噪声能量、专业术语占比率、灰色词汇含量个数、音变个数越低,语音识别效果越好,语音数据的语种类别在1时,语音识别效果最好。
20.语种类别分析方法包括以下步骤:步骤s3-7-1:搭建中文和英文语音识别器,每种语音识别器都针对性的包含各自语言的语音特征;步骤s3-7-2:对输入的语音进行特征提取,与各类语言的语音特征进行匹配,确定语音语种类别;步骤s3-8:专业术语量化单位为一条语音文本中民航专业术语占比率,专业术语占比分析方法包括以下步骤:步骤s3-8-1:获取管制语音数据库中每个文本多对应的正确文本(基于人工标注/半自动化);步骤s3-8-2:使用文本分析算法进行文本断句、分词、字符判别等处理;步骤s3-8-3:参照《空中交通无线电通话用语》建立管制指令专业术语词典,将步骤s3-8-2中提取的词汇通过匹配算法与词典相匹配,统计匹配一致的个数作为该条语音专
业术语包含量;步骤s3-9:灰色词汇含量量化单位为灰色词汇含量,灰色词汇含量分析方法包括以下步骤:步骤s3-9-1:采用感生词库训练一个声学模型;步骤s3-9-2:对输入的语音进行分帧、加窗、预处理,并进行语音特征提取;步骤s3-9-3:步骤s3-9-1中声学模型接收步骤s3-9-2中语音特征,对输入语音包含感生词的音频段进行检测,并结合上下文语境判别算法,建立门控机制,对感声词进行甄选,决定该音频段是否保留;步骤s3-9-4:对检测为无意义的感声词音频段进行标注,统计整的一条语音中无意义音频段个数;步骤s3-10:音变量化单位为音变个数,音变分析方法包括以下步骤:步骤s3-10-1:构建完整的多音字词典和容易发生音变的合并词汇库;步骤s3-10-2:获取管制语音数据库中每个文本多对应的正确文本(基于人工标注/半自动化);步骤s3-10-3:使用文本分析算法进行分词、词性标注、字符判别等处理;步骤s3-10-4:采用匹配算法将管制语音文本与步骤s3-10-1中的多音字词典和合并词汇相匹配,统计文本所含多音字和词汇数。
21.实现步骤s4中所述内容包括以下步骤:步骤s4-1:输入想要划分的等级个数、各单一评价指标分析方法得出的数据集({x1x2x3,

,xn},n为数据集内数据个数);步骤s4-2:输出聚类结果和各等级范围;实现步骤s4中所述采用聚类法对单一评价指标分析得出的数据进行分组,规定在单一评价指标下各语音等级的范围值,包括以下步骤:步骤s4-2-1:由于管制语音数据先前没有指定的等级(该等级指的是基于某一语音评价指标划分的等级,和专利中最后文提到的品质等级是不一样的概念)划分,所以通过对上述所获取的数据集,采用手肘法或者轮廓系数法确定最优类别数k(即:聚点个数,质心集{c1c2c3,
…ck
|ci可为数据集内值,也可不是});步骤s4-2-2:初始化质点(类中心)值x
j∈
{c1c2c3,
…ck
},计算每个样本点到每个类中心的欧氏距离,将每个样本指派到与其最近的类,构成聚类结果,欧氏距离指在m维空间中两个点之间的真实距离,或者向量的自然长度,其公式如下:其中, 代表样本点 到质点
ꢀꢀ
的距离,代表第i个样本的第k个属性,代表第j个样本的第k个属性,共有m维属性,在本发明中,对各评价指标进行分析得出的是一个一维数据值,故m=1,欧式距离在本发明中的计算公式如下:
步骤s4-2-3:更新聚类中心点:对聚类结果,计算类中所有样本的均值,作为新的聚类中心;步骤s4-2-4:更新聚类中心点:以样本到所属类中心距离总和作为目标函数,如果迭代收敛,或者符合停止条件,输出;否则,类别数 1,返回步骤s4-2-2重复计算;步骤s4-2-5:算法使用的是迭代计算,难以达到全局最优解,对此可以采用启发式策略,寻找纳什均衡,寻求问题最优解。
22.管制语音品质等级评定步骤如下,管制语音品质等级评定技术路线图如图7所示:参照《民用航空器驾驶员、飞行教员和地面教员合格审定规则》(ccar-61部)、《mh/t 4014-2003 空中交通无线电通话用语》和民航领域业内人士指导,创新性地提出管制语音品质1-5级划分,等级越高,语音品质越好,5级为最高品质,各等级的判定标准如下:1)1级:管制专业词汇占比率较小;语速过快或过慢;中英混合发音语音;受自身母语或地域影响,普通话中带有少量口音;含有会误导语义理解的词汇音频(多音字、同音字);受传输信道、周围环境噪声等干扰较大;2)2级:管制专业词汇占比率少;语速过快或过慢;有少量灰色词汇和中英混合发音;受自身母语或地域影响,普通话中带有轻微口音;有个别误导语义理解的词汇音频;3)3级:管制专业词汇占比率普遍;语速正常;无灰色词汇发音;单一语种语音;语音信号偶尔会停顿;音频受干扰程度较少;无口音;4)4级:管制专业词汇占比率大;语音清晰度良好;语速正常;语音流利;有个别误导语义理解词汇音频;5)5级:管制专业词汇占比率较大;受干扰程度小;语音流利;普通话发音标准;无误导语义理解的词汇音频。
23.步骤s5-1:主观赋权值法是利用专家经验,对评价指标客观所赋权值进行调优,使所赋权重更加科学合理,从而实现定量、直观地显示管制语音品质状况,是利用1-9标度法对同属于一层次的各指标相对于其上一层次的同一指标的重要程度进行两两定量比较,形成判断矩阵x,采用最大特征向量法计算判断矩阵对应特征根的特征向量,检验判断矩阵满足一致性时,可将特征向量作为各指标的权重;步骤s5-2:客观赋权值法包括以下步骤:步骤s5-2-1:指标的正向化,将极小型指标和中间型指标转化为极大型指标:极小型

》极大型:中间型

》极大型:
其中,为识别效果最优数值,按评价指标方法所得出的语音集中数值作为最优值, 为正向化数值;步骤s5-2-2:数据标准化,平衡指标之间的量纲误差:其中,为第i条语音在第j个评价指标下的数值;步骤s5-2-3:数据归一化,统一到区间0-1:其中,n为评价对象的数量;步骤s5-2-4:计算各评价指标的信息熵值各评价指标的信息熵值:其中,n为评价对象的数量,m为评价指标的数量,j的值从1取到m;步骤s5-2-5:计算权重:其中,j的值从1取到m;步骤s5-3:主客观权重融合:
其中,n为评价对象的数量,为主观权重, 为客观权重;步骤s5-4:每条语音综合得分: 其中,为第i个评价对象在第j个评价指标下数值的标准化,i的值从1取到n;步骤s5-5:各管制语音品质等级分值范围:整个标准管制语音数据库按照按上述评价方法计算综合评分,整个数据库的综合评分序列按5个等级划分,每个等级的区间范围即为每个品质等级的分值范围,所述区间范围为0到1,所有评价指标都进行了正向化处理,故综合评分值越大品质越优,5级品质最优。
24.一种面向管制语音品质划分的量化评价及分类的装置,采用core i7-12700处理器,存储器采用三星980 pro 1t的固态硬盘,以及4个nvidia p40 gpu加快相关步骤的处理速度。
25.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献