语音解锁方法、装置、电子设备及存储介质与流程

2022-04-25 03:47:10 来源：中国专利 TAG：

1.本技术涉及通信技术领域，尤其涉及一种语音解锁方法、装置、电子设备及存储介质。

背景技术：

2.在当今疫情的状态下，人们习惯于佩戴口罩，不便于使用面容来解锁设备，且由于其面容解锁的安全性较高的问题，在用户更换隐形眼镜、妆容或者是外界光线不足的情况下，可能会出现面容难以识别导致解锁失败的情况。另外，越来越多的移动终端采用全面屏设计，普通的指纹识别技术逐渐被屏下指纹识别技术替代，而且较为先进的使用超声波反馈的屏下指纹识别技术，也同样会受到手指和屏幕的限制，可能出现指纹难以识别导致解锁失败的情况。也就是说，面容和屏下指纹都可能会出现难以识别的情况，从而导致设备解锁失败。

技术实现要素：

3.本技术提供了一种语音解锁方法、装置、电子设备及存储介质，以解决面容和屏下指纹都可能会出现难以识别的情况，从而导致设备解锁失败的问题。
4.第一方面，本技术提供了一种语音解锁方法，该语音解锁方法包括：
5.根据当前时刻获取到的目标语音信息，建立用户声纹模型；
6.若所述用户声纹模型与声纹识别模型匹配，则将所述目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果；
7.基于所述文本匹配结果，确定是否解锁设备。
8.可选地，在所述根据当前时刻获取到的目标语音信息，建立用户声纹模型之前，所述方法还包括：
9.对预设时间段内的至少一个用户在至少一种环境下的语音信息进行语音特征提取，得到至少一个梅尔倒谱系数；
10.将所述至少一个梅尔倒谱系数作为输入的语音特征参数，对高斯混合模型-通用背景模型进行模型训练，得到所述声纹识别模型；所述声纹识别模型用于识别至少一个用户的声纹。
11.可选地，所述根据当前时刻获取到的目标语音信息，建立用户声纹模型，包括：
12.提取所述目标语音信息的梅尔倒谱系数；
13.将所述目标语音信息的梅尔倒谱系数作为语音特征参数，建立所述用户声纹模型。
14.可选地，所述若所述用户声纹模型与声纹识别模型匹配，则将所述目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果，包括：
15.将所述用户声纹模型与所述声纹识别模型进行比对；
16.若所述用户声纹模型与所述声纹识别模型的匹配度大于预设阈值，则确定所述用
户声纹模型与所述声纹识别模型匹配；
17.将所述目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果。
18.可选地，在所述将所述目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果之前，所述方法还包括：
19.保留所述目标语音信息中预设频段的信息；
20.将预设频段的目标语音信息转化为文本，以得到所述目标语音信息对应的文本。
21.可选地，所述将所述目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果，包括：
22.对比所述目标语音信息对应的文本与所述目标文本；
23.若所述目标语音信息对应的文本与所述目标文本的匹配度大于或等于预设匹配度，则确定所述文本匹配结果为所述目标语音信息对应的文本与所述目标文本匹配；
24.若所述目标语音信息对应的文本与所述目标文本的匹配度小于预设匹配度，则确定所述文本匹配结果为所述目标语音信息对应的文本与所述目标文本不匹配。
25.可选地，所述基于所述文本匹配结果，确定是否解锁设备，包括：
26.若所述文本匹配结果为所述目标语音信息对应的文本与所述目标文本匹配，则解锁设备；
27.若所述文本匹配结果为所述目标语音信息对应的文本与所述目标文本不匹配，则不解锁设备。
28.第二方面，本技术提供了一种语音解锁装置，所述语音解锁装置包括：
29.建立模块，用于根据当前时刻获取到的目标语音信息，建立用户声纹模型；
30.匹配模块，用于若所述用户声纹模型与所述声纹识别模型匹配，则将所述目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果；
31.解锁模块，用于基于所述文本匹配结果，确定是否解锁设备。
32.第三方面，本技术提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
33.存储器，用于存放计算机程序；
34.处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的语音解锁方法的步骤。
35.第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的语音解锁方法的步骤。
36.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：
37.本技术实施例提供的该语音解锁方法，通过基于目标语音信息建立用户声纹模型，并在该用户声纹模型与声纹识别模型相匹配，即该目标语音信息的声纹与预设的使用设备的用户的声纹相匹配的情况下，进一步对比目标语音信息对应的文本与目标文本是否匹配，得到文本匹配结果，并基于文本匹配结果，确定是否解锁设备。声纹识别与目标文本识别相对于面容识别和指纹识别来说较为简单，因此通过声纹与目标文本来解锁设备，可在避免出现现有技术中面容和屏下指纹难以识别从而导致设备解锁失败的情况，并保证解锁安全性的同时，提高解锁便利性。
附图说明
38.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
39.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
40.图1为本技术实施例提供的一种语音解锁方法的流程示意图；
41.图2为本技术实施例提供的一种语音解锁流程的示意图；
42.图3为本技术实施例提供的一种语音解锁装置的示意图；
43.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
44.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
45.为了解决面容和屏下指纹都可能会出现难以识别的情况，从而导致设备解锁失败的问题，本技术实施例提供了一种语音解锁方法，应用于处理器中，该处理器可以位于任一设备中。如图1所示，该语音解锁方法包括步骤101-步骤103：
46.步骤101：根据当前时刻获取到的目标语音信息，建立用户声纹模型。
47.其中，当前时刻获取到的目标语音信息，为在当前时刻用户为了解锁设备输入的语音信息。
48.可选地，在执行步骤101之前，还需要建立用于识别至少一个用户的声纹的声纹识别模型，以通过该声纹识别模型确定该目标语音信息是合法用户输入的语音信息。
49.在一种可能的实现方式中，获取预设时间段内的语音信息，并基于该预设时间段内的语音信息进行模型训练，得到上述声纹识别模型。其中，预设时间段位于当前时刻之前，即预设时间段内的语音信息为当前时刻之前输入的历史语音信息。另外，该预设时间段可以是预先确定的，也可以是根据实际工况确定的，例如该预设时间段可以为20天、1个月、半年或一年等。
50.具体地，获取预设时间段内的至少一个用户在至少一种环境下的语音信息进行语音特征提取，得到至少一个梅尔倒谱系数(mel-scale frequency cepstral coefficients，mfcc)。随后，将这至少一个梅尔倒谱系数作为输入的语音特征参数，即将这至少一个梅尔倒谱系数作为模型的输入参数，对高斯混合模型-通用背景模型(gaussian mixture model-universal background model，gmm-ubm)进行模型训练，得到上述声纹识别模型，该声纹识别模型可用于识别这至少一个用户的声纹。
51.一般情况下，用于进行该声纹识别模型训练的语音信息为多个用户在多种环境下的语音信息，而不是单独一个用户或单一环境下的语音信息。这样的话，该声纹识别模型可用于识别多个用户的声纹，用于分属于这多个用户的设备的解锁。
52.另外，由于数量较少的语音信息对声纹识别模型的影响有限，不必要在每次执行
步骤101前，均建立上述声纹识别模型，可以在多次执行步骤101-步骤103后，获取到预设量的语音信息后，利用该预设量的语音信息对该声纹识别模型进行更新，从而节省资源，减少不必要的资源浪费。
53.其中，预设量可以是预先确定的，也可以是根据实际工况确定的。
54.当然，为了保证声纹识别的准确性，也可以将预设量设置为1，即每获取1条语音信息，均进行声纹识别模型的重训练，得到更新后的声纹识别模型。
55.示例性的，对获取到至少一个用户在至少一种环境下的语音信息进行语音特征提取，得到至少一个梅尔倒谱系数。在语音特征提取之前，对获取到的语音信息进行预加重处理、分帧操作及加窗处理等，从而突出人声部分，减小噪声的干扰，提高信噪比。另外，相对于基于线性预测编码(linear predictive coding，lpc)提取语音特征，提取梅尔倒谱系数作为语音特征，可以确定较好的语音特征。且采用多维动静态的方案，可提取待准确度和灵敏度更高的梅尔倒谱系数，使得该梅尔倒谱系数更好的反应用户的声纹特征。
56.示例性的，梅尔倒谱系数的提取方案依据人耳听觉效应的临界频带，将人正常发音的语音频率段作为限制滤波器，将所有的该频段范围内信号的幅度做加权和，再对求和结果作自然对数运算作为结果，经过离散余弦变换得到梅尔倒谱系数。具体可参见现有技术，在此不进行赘述。
57.其中，通俗来讲，临界频带就是白噪声掩蔽了一段音频，对噪声进行加带宽使人耳听不见该段音频，将能否听见该段音频的转变处的频带作为临界频带，并依据临界频带确定相对应的滤波器。
58.示例性的，利用上述提取到的至少一个梅尔倒谱系数作为输入语音特征参数，使用高斯混合模型-通用背景模型进行模型训练。其中，高斯混合模型是由多个n维的高斯分布通过加权得到，采集多用户在多种环境下的语音进行训练，得到训练后的对应各个用户的语音特征的高斯混合模型。通用背景模型是由n个高斯分量密度加权和表示的多维度概率密度函数。随后，根据训练后的高斯混合模型和通用背景模型，得到多个用户的高斯混合模型-通用背景模型。
59.具体地，周期性地更新声纹识别模型。示例性的，周期为一年、一个月或一周等
60.可选地，根据当前时刻获取到的目标语音信息，建立用户声纹模型的过程中，提取目标语音信息的梅尔倒谱系数，随后，将目标语音信息的梅尔倒谱系数作为语音特征参数，建立用户声纹模型。
61.步骤102：若用户声纹模型与声纹识别模型匹配，则将目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果。
62.可选地，先对用户声纹模型与声纹识别模型是否匹配进行判断，随后，根据判断结果确定是否进行目标语音信息对应的文本与目标文本的匹配。
63.在一种可能的实现方式中，将用户声纹模型与声纹识别模型进行比对。若用户声纹模型与声纹识别模型的匹配度大于预设阈值，则确定用户声纹模型与声纹识别模型匹配，并将目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果；若用户声纹模型与声纹识别模型的匹配度小于或等于预设阈值，则确定用户声纹模型与声纹识别模型不匹配，并确定设备解锁失败。其中，预设阈值可以是预先确定的，也可以是根据实际工况确定的。
64.具体地，对目标语音信息进行语音特征提取，将得到的梅尔倒谱系数作为语音特征参数输入到声纹识别模型，并将得到的结果与用户声纹模型进行比对，得到两者之间的相似度，即用户声纹模型与上文识别模型的匹配度。
65.示例性的，以预设阈值为0.5为例，若用户声纹模型与声纹识别模型的匹配度大于0.5，则确定用户声纹模型与声纹识别模型匹配。
66.具体地，关于上述将得到的结果与用户声纹模型进行比对的过程中，将该模型的结果与用户声纹模型的结果进行比对，根据该模型的结果与用户声纹模型的结果，确定两者之间的相似度，两者之间的差值越大，则相似度越低。
67.示例性的，基于最大似然准则的最大期望算法(expectation-maximization algorithm，em)进行计算，得到用户声纹模型的概率。同样的，以相同或相似的方式对目标结果进行计算，得到声纹识别模型的概率。其中，目标结果为将对目标语音信息进行语音特征提取得到的梅尔倒谱系数作为语音特征参数输入声纹识别模型后得到的结果。此时，若用户声纹模型的概率与声纹识别模型的概率的差值小于预设差值，则表示用户声纹模型与声纹识别模型的匹配度大于预设阈值；若用户声纹模型的概率与声纹识别模型的概率的差值等于预设差值，则表示用户声纹模型与声纹识别模型的匹配度等于预设阈值；若用户声纹模型的概率与声纹识别模型的概率的差值大于预设差值，则表示用户声纹模型与声纹识别模型的匹配度小于预设阈值。
68.其中，上述预设差值可以是预先确定的，也可以是根据实际工况确定的。
69.在一种可能的实现方式中，在将目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果之前，保留目标语音信息中预设频段的信息，随后，将预设频段的目标语音信息转化为文本，以得到目标语音信息对应的文本。
70.相应的，保留目标语音信息中预设频段的信息，将目标语音信息中预设频段外的信息删除。也可视为对目标语音信息中预设频段的信息进行加重处理。需要说明的是，将所需目标语音信息中预设频段外的信息删除，也就是对目标语音信息中预设频段的信息进行预加重处理，避免出现上下文的内容对文本匹配结果产生影响出现误识别的情况，还可减少后续对目标语音信息进行处理的工作量，加快确定文本匹配结果的效率。
71.示例性的，预设频段为300hz-700hz，则保留目标语音信息中频段为300hz-700hz的信息，删除目标语音信息中频段小于300hz或大于700hz的信息。
72.需要说明的是，该预设频段根据目标语音信息的频段变化幅度确定。
73.在一种可能的实现方式中，对比目标语音信息对应的文本与目标文本。基于目标语音信息对应的文本与目标文本的匹配度，确定目标语音信息对应的文本与目标文本是否匹配。
74.具体地，若目标语音信息对应的文本与目标文本的匹配度大于或等于预设匹配度，则确定文本匹配结果为目标语音信息对应的文本与目标文本匹配；若目标语音信息对应的文本与目标文本的匹配度小于预设匹配度，则确定文本匹配结果为目标语音信息对应的文本与目标文本不匹配。
75.其中，目标语音信息对应的文本与目标文本的匹配度，即目标语音信息对应的文本与目标文本的相似度。
76.示例性的，目标语音信息为“xxx解锁手机xxx”，其中“解锁手机”部分为预设频段
的信息，“xxx”部分为噪声或者其他模糊不清的音频，即预设频段外的信息。保留目标语音信息中的预设频段的信息，删除目标语音信息中除预设频段外的信息，以对预设频段的信息进行预加重。随后，对保留的目标语音信息的预设频段进行文本识别，得到文本“解锁手机”，并将该文本“解锁手机”确定为目标语音信息对应的文本。最后，确定目标语音信息对应的文本与目标文本例如“解锁手机”的相似度即匹配度为100％。以预设匹配度为100％为例，目标语音信息对应的文本与目标文本的匹配度等于预设匹配度，则确定文本匹配结果为目标语音信息对应的文本与目标文本匹配。当然，若目标语音信息对应的文本与目标文本的匹配度例如80％，小于预设匹配度100％，则确定文本匹配结果为目标语音信息对应的文本与目标文本不匹配。
77.其中，目标文本是经过多次实验确定的用于解锁设备的指令对应的文本。
78.步骤103：基于文本匹配结果，确定是否解锁设备。
79.其中，文本匹配结果包括目标语音信息对应的文本与目标文本匹配，以及目标语音信息对应的文本与目标文本不匹配。
80.若文本匹配结果为目标语音信息对应的文本与目标文本匹配，则解锁设备；相应的，若文本匹配结果为目标语音信息对应的文本与目标文本不匹配，则不解锁设备，也就是解锁设备失败。
81.在一种可能的实现方式中，在解锁设备失败后，生成提示信息并显示。
82.示例性的，提示信息可以为例如“解锁失败，请重试”83.具体地，语音播放该提示信息。
84.需要说明的是，通过上述过程，基于目标语音信息建立用户声纹模型，并在该用户声纹模型与声纹识别模型相匹配，即该目标语音信息的声纹与预设的使用设备的用户的声纹相匹配的情况下，进一步对比目标语音信息对应的文本与目标文本是否匹配，得到文本匹配结果，并基于文本匹配结果，确定是否解锁设备。声纹识别与目标文本识别相对于面容识别和指纹识别来说较为简单，因此通过声纹与目标文本来解锁设备，可在避免出现现有技术中面容和屏下指纹难以识别从而导致设备解锁失败的情况，并保证解锁安全性的同时，提高解锁便利性。
85.如图2所示，获取训练样本(即历史语音信息)，并对训练样本进行特征参数(即梅尔倒谱系数)提取，进行高斯混合模型-通用背景模型训练，得到声纹识别模型。另外，获取目标语音信息，对目标语音信息进行特征参数提取，得到用户声纹模型，对用户声纹模型与声纹识别模型进行匹配即进行声纹匹配。随后，进行文本内容匹配，得到得分结果即文本匹配结果。最后，基于文本匹配结果，确定是否解锁设备。
86.如图3所示，本技术实施例提供了一种语音解锁装置，该装置包括建立模块301、匹配模块302和解锁模块303。
87.其中，建立模块301，用于根据当前时刻获取到的目标语音信息，建立用户声纹模型。
88.匹配模块302，用于若所述用户声纹模型与所述声纹识别模型匹配，则将所述目标语音信息对应的文本与目标文本进行匹配，得到文本匹配结果。
89.解锁模块303，用于基于所述文本匹配结果，确定是否解锁设备。
90.如图4所示，本技术实施例提供了一种电子设备，包括处理器401、通信接口402、存
储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，
91.存储器403，用于存放计算机程序；
92.在本技术一个实施例中，处理器401，用于执行存储器403上所存放的程序时，实现前述任意一个方法实施例提供的语音解锁方法的步骤。
93.本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的语音解锁方法的步骤。
94.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
95.以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：应用于混响环境声纹识别的基频信息提取方法及装置与流程

语音解锁方法、装置、电子设备及存储介质与流程

相关文献

最热文献