一种语音口头言语特征检验方法和系统与流程

2021-08-31 17:44:00 来源：中国专利 TAG：技术口头鉴定语音言语

本发明涉及语音识别技术、声纹鉴定技术，尤其涉及一种语音口头言语特征检验方法和系统。

背景技术：

语音同一性鉴定又称声纹鉴定，指通过对语音听觉特征和频谱特征的比较和分析，对声像资料记载的语音的同一性问题所进行的科学判断。语音的听觉特征是个人发音器官特性、发音习惯特性和讲话习惯特性表现在口语中的各种征象，其中，口头言语特征是语音听觉特征的重要内容，头口言语特征通常包含语音的音高、音强、音长等超音质特征、发音标准程度、重复语、赘语、头口禅等特征。现阶段，声纹鉴定实施中的语音口头言语特征检验主要通过鉴定专家的人工听辨分析实施，严重依赖于专家经验判断，特征检验的准确性和充分性无法得到有效保障。随着语音识别等人工智能技术的越发成熟，通过结合自然语言处理、语音识别和声纹鉴定领域专家先验知识，高效、准确和自动的语音口头言语特征检验分析将成为一种重要技术手段和高效准确的实施方案。

技术实现要素：

针对法庭科学和司法鉴定领域对声纹鉴定新技术新方法的需求，本发明提供一种语音口头言语特征检验方法和系统，以解决当前声纹鉴定中语音口头言语特征检验依赖于人工听辨检验分析、检验准确性和充分性无法得到有效保障等问题，通过利用自然语言处理、语音识别和声纹鉴定领域专家先验知识实现声纹鉴定中语音口头言语特征的高效、准确和自动化识别和比对检验。

本发明是通过如下技术方案实现的：

一种语音口头言语特征检验方法，包括如下步骤：

步骤a、通过语音识别技术对需检语音进行语音文本识别，形成语音文本以及语音文本单字在需检语音中的时间定位信息；

步骤b、通过自然语言处理技术对所述的语音文本进行分词和短语识别，实现对所述的语音文本的文本元素识别，并计算文本元素在需检语音中的时间定位信息；

步骤c、通过对所述的文本元素的语音特征和文本特征分析，实现对所述的需检语音的口头言语特征识别；

步骤d、识别检材语音和样本语音的所述的口头言语特征，并通过文本元素相关和文本元素无关方式比较所述的检材语音和样本语音在所述的口头言语特征上的相似性程度。

进一步地，所述的文本元素包括字、词、短语、句子类型中的至少一个。

进一步地，所述的口头言语特征包括音高、音强、音长、发音标准程度、重复语、赘语、头口禅特征中的至少一个。

一种语音口头言语特征检验系统，包括：

语音识别模块，用于通过语音识别技术对需检语音进行语音文本识别，形成语音文本以及语音文本单字在需检语音中的时间定位信息；

文本元素识别模块，用于通过自然语言处理技术对所述的语音文本进行分词和短语识别，实现对所述的语音文本的文本元素识别，并计算文本元素在需检语音中的时间定位信息；

口头言语特征识别模块，用于通过对所述的文本元素的语音特征和文本特征分析，实现对所述的需检语音的口头言语特征识别；

口头言语特征比较模块，用于识别检材语音和样本语音的所述的口头言语特征，并通过文本元素相关和文本元素无关方式比较所述的检材语音和样本语音在所述的口头言语特征上的相似性程度。

进一步地，所述的文本元素包括字、词、短语、句子类型中的至少一个。

进一步地，所述的口头言语特征包括音高、音强、音长、发音标准程度、重复语、赘语、头口禅特征中的至少一个。

与现有技术相比，本发明提供的一种语音口头言语特征检验方法和系统，通过语音识别技术和自然语言处理方法实现语音文本识别以及文本元素识别，通过文本元素的语音特征和文本特征分析实现语音口头言语特征的识别，最终，通过检材语音和样本语音的口头言语特征的自动识别和比较检验分析，为声纹鉴定和语音人身分析提供重要的检验技术和检验内容。

附图说明

图1是本发明一种语音口头言语特征检验方法的流程示意图。

图2是本发明一种语音口头言语特征检验系统的组成原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步详细说明。

本实施例提供了一种语音口头言语特征检验方法。整个工作流程如图1所示，包括如下步骤：

步骤a、通过语音识别技术对需检语音进行语音文本识别，形成语音文本以及语音文本单字在需检语音中的时间定位信息；例如，本实施例中，需检语音时长3.668秒，采样率48khz，单声道，通过语音识别技术对需检语音进行语音文本识别形成的语音文本为“一种语音口头言语特征检验方法和系统。”语音文本单字在需检语音中的时间定位信息分别为：“一”字时间为“0.000-0.221秒”、“种”字时间为“0.222-0.418秒”、“语”字时间为“0.419-0.590秒”、“音”字时间为“0.591-0.899秒”、“口”字时间为“0.916-1.128秒”、“头”字时间为“1.140-1.340秒”，其他类似。语音文本包含中文文本和英文文本中的至少一个。此外，语音信号在计算机中通常以向量形式存储，语音文本单字在需检语音中的时间定位信息亦可以通过向量元素的起止位置信息方式表示。

步骤b、通过自然语言处理技术对所述的语音文本进行分词和短语识别，实现对所述的语音文本的文本元素识别，并计算文本元素在需检语音中的时间定位信息；其中，文本元素包括字、词、短语、句子类型中的至少一个。例如，本实施例中，语音文本为“一种语音口头言语特征检验方法和系统。”，其分词结果为“一种”、“语音”、“口头”、“言语”、“特征”、“检验”、“方法”、“系统”，短语识别结果为“语音口头言语”、“特征检验”、“方法和系统”，所形成的的文本元素包括字类型“一”、“种”、“语”、“音”、“口”、“头”、“言”、“语”等，词类型“一种”、“语音”、“口头”、“言语”、“特征”、“检验”、“方法”、“系统”，短语类型“语音口头言语”、“特征检验”、“方法和系统”和句子类型“一种语音口头言语特征检验方法和系统。”由于文本元素中的词、短语和句子均是由连续的文本单字组成，文本元素中的词、短语和句子在需检语音中的时间定位信息由文本元素中的第一个文本单字的开始时间至最后一个文本单字的结束时间组成。例如，本实施例中文本词“一种”在需检语音中的时间定位信息由“一”字的开始时间“0.000秒”至“种”字的结束时间“0.418秒”组成；又例如，实施例中文本短语“语音口头言语”在需检语音中的时间定位信息由其第一个“语”字的开始时间“0.419秒”至最后一个“语”字的结束时间“1.792秒”组成，其他类似。

步骤c、通过对所述的文本元素的语音特征和文本特征分析，实现对所述的需检语音的口头言语特征识别；其中，口头言语特征包括音高、音强、音长、发音标准程度、重复语、赘语、头口禅特征中的至少一个。口头言语特征中的音高、音强、音长、发音标准程度特征主要通过文本元素对应的需检语音中的语音片段的语音特征分析进行识别，口头言语特征中的重复语、赘语、头口禅特征主要通过文本元素的文本特征分析进行识别。本实施例中，音高特征通过计算文本元素对应的需检语音中的语音片段中的基音频率及其均值、变化范围、变化率、均方差特征中的至少一个实现，音强特征通过计算文本元素对应的需检语音中的语音片段的短时平均能力、短时能力变化率、短时平均振幅、振幅平均变化率和短时最大振幅特征中的至少一个实现，音长特征通过计算文本元素对应的需检语音中的语音片段的语速、短时平均过零率特征中的至少一个实现。针对中文语音文本元素的发音标准程度特征识别主要通过语音评测技术计算文本元素对应的需检语音中的语音片段的声母和韵母发音准确度、发音流畅度、声调发音准确度、发音完整度特征中的至少一个实现；针对英文语音文本元素的发音标准程度特征识别主要通过语音评测技术计算文本元素对应的需检语音中的语音片段的音节准确度、发音流畅度、发音准确度、发音完整度特征中的至少一个实现。重复语特征通过在文本元素中对相同的文本元素的重复出现情况进行统计分析实现，包括统计相同的文本元素的内容、出现频次、出现位置等信息。赘语、头口禅特征通过在文本元素中进行常见的赘语、头口禅文本检测实现。

步骤d、识别检材语音和样本语音的所述的口头言语特征，并通过文本元素相关和文本元素无关方式比较所述的检材语音和样本语音在所述的口头言语特征上的相似性程度。口头言语特征的相似性程度比较方面，通常是在相同的文本元素类型间进行比较。例如，在检材语音和样本语音中的文本字对象的头口言语特征上进行比较，又例如，在检材语音和样本语音中的文本词对象的头口言语特征上进行比较。文本元素相关方式比较检材语音和样本语音在口头言语特征上的相似性程度，指的是仅检材语音和样本语音中相同的文本元素内容所对应的语音片段参与口头言语特征上的相似性程度比较。文本元素无关方式比较检材语音和样本语音在口头言语特征上的相似性程度，指的是检材语音和样本语音中同类型的所有文本元素所对应的语音片段均参与口头言语特征上的相似性程度比较。例如，本实施例中，检材语音文本为“我爱你。”样本语音文本为“我也是。”以文本元素相关方式比较检材语音和样本语音在文本字对象中的口头言语特征上的相似性程度，则仅有检材语音文本元素中的字“我”与样本语音文本元素中的字“我”所对应的口头言语特征参与相似性程度比较。又例如，以文本元素无关方式比较检材语音和样本语音在文本字对象中的口头言语特征上的相似性程度，则检材语音文本元素中的字“我”、“爱”、“你”与样本语音文本元素中的字“我”、“也”、“是”所对应的口头言语特征均参与相似性程度比较。在口头言语特征的相似性程度计算中，所有涉及的头口言语特征分别单独计算该头口言语特征类型的相似性程度。例如，本实施例中，口头言语特征包含音高、音强、音长特征，则检材语音和样本语音的相似性程度比较结果中包含三个相似性程度计算结果，即检材语音和样本语音在音高特征上的相似性程度、在音强特征上的相似性程度，以及在音长特征上的相似性程度。具体相似性程度表示方式方面，如果头口言语特征以数值方式表示，则可以使用数值的大小、均值、变化率、最大值和最小值方式进行呈现和比较；如果头口言语特征以文本方式表示，则可以对文本信息间的相同内容和差异内容进行呈现和比较。

基于上述语音口头言语特征检验方法，本发明另一实施例还提供了一种语音口头言语特征检验系统。如图2所示，该语音口头言语特征检验系统包括：

语音识别模块1，用于通过语音识别技术对需检语音进行语音文本识别，形成语音文本以及语音文本单字在需检语音中的时间定位信息；

文本元素识别模块2，用于通过自然语言处理技术对所述的语音文本进行分词和短语识别，实现对所述的语音文本的文本元素识别，并计算文本元素在需检语音中的时间定位信息；

口头言语特征识别模块3，用于通过对所述的文本元素的语音特征和文本特征分析，实现对所述的需检语音的口头言语特征识别；

口头言语特征比较模块4，用于识别检材语音和样本语音的所述的口头言语特征，并通过文本元素相关和文本元素无关方式比较所述的检材语音和样本语音在所述的口头言语特征上的相似性程度。

其中，所述的文本元素包括字、词、短语、句子类型中的至少一个。所述的口头言语特征包括音高、音强、音长、发音标准程度、重复语、赘语、头口禅特征中的至少一个。

该语音口头言语特征检验系统中的各模块与上述语音口头言语特征检验方法中的各步骤对应，用于执行上述语音口头言语特征检验方法中的各步骤，各模块具体执行的动作可参见上述语音口头言语特征检验方法中的各步骤。

上述实施例仅为优选实施例，并不用以限制本发明的保护范围，在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。