一种基于云端机器学习的声纹开锁方法及装置与流程

2022-02-19 00:19:35 来源：中国专利 TAG：

1.本发明涉及一种基于云端机器学习的声纹开锁方法及装置，属于声纹识别技术领域。

背景技术：

2.锁具是安防最重要的环节，是家家户户都需要用到的刚需产品，传统机械锁是一种没有电子器件的大密钥量高可靠的全机械密码锁。它的操作方式独特，类似老电话机的拨号――从拨盘的起点开始，顺时针转动拨盘到某一位数码，然后退回到起点，就输入了一位密码。如此重复直到输入了最后一位密码，再从起点逆时针转动拨盘就可以开锁。在开锁的同时，内部已经复位，所以拨盘退回到起点关锁后，必须重新输入密码才能开锁，不需要考虑内部复位问题。如果输错了密码，逆时针转动拨盘(虚开锁)也可以内部复位，然后重新输入密码。但传统机械锁防技术开启能力较低，钥匙容易丢失甚至被复制，日常忘带钥匙会造成不方便，急需一种以声纹信息作为解锁秘钥的一种解锁方法，而传统的本地声纹识别训练库存在因训练数据少而导致的识别率低的问题。

技术实现要素：

3.本发明的目的在于克服现有技术中的不足，提供一种基于云端机器学习的声纹开锁方法及装置，解决传统的本地声纹识别训练库存在因训练数据少而导致的识别率低的问题。
4.为达到上述目的，本发明是采用下述技术方案实现的：
5.一方面，本发明提供了一种基于云端机器学习的声纹开锁方法，应用于嵌于锁具内部的主控板，包括：
6.获取第一录音信息，通过概率密度函数提取得到第一语音表征；
7.上传第一语音表征至云端服务器，其中云端服务器用于将第一语音表征使用期望最大化算法得出通用声纹背景模型作为背景库，并把通用声纹背景模型同步给主控板；
8.获取第二录音信息，通过概率密度函数提取得到第二语音表征；
9.将第二语音表征与从云端服务器下载的通用声纹背景模型进行对比，计算二者的近似程度；
10.将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具。
11.进一步的，所述第一录音信息、第二录音信息通过安装于锁具上的麦克风录制获取，所述麦克风与主控板相连接。
12.进一步的，所述第一录音信息的音频内容为预先约定的一段特定文字或声音，存储于主控板中。
13.第二方面，本发明提供一种基于云端机器学习的声纹开锁方法，应用于锁具中，包括：
14.获取第一录音信息，通过概率密度函数提取得到第一语音表征；
15.通过第一语音表征使用期望最大化算法得出通用声纹背景模型作为背景库；
16.获取第二录音信息，通过概率密度函数提取得到第二语音表征；
17.将第二语音表征与通用声纹背景模型进行对比，计算二者的近似程度；
18.将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具。
19.进一步的，所述第二语音表征与通用声纹背景模型使用最大后验概率算法进行对比。
20.第三方面，本发明提供一种基于云端机器学习的声纹开锁装置，包括：
21.第一提取单元，用于获取第一录音信息，通过概率密度函数提取得到第一语音表征；
22.背景库建立单元，用于通过第一语音表征使用期望最大化算法得出通用声纹背景模型作为背景库；
23.第二提取单元，用于获取第二录音信息，通过概率密度函数提取得到第二语音表征；
24.对比计算单元；将第二语音表征与通用声纹背景模型进行对比，计算二者的近似程度；
25.比较单元，将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具。
26.第四方面，本发明提供一种基于云端机器学习的声纹开锁系统，包括锁具，还包括：
27.麦克风，安装于锁具上，用于录制说话录音信息，发送录音信息至主控板；
28.主控板，嵌于锁具内部作为算法程序载体，主控板与外置麦克风相连接，将获取录音信息，通过概率密度函数提取得到语音表征，上传到云端服务器，并接入互联网定期从云端服务器下载通用声纹背景模型；将提取得到语音表征，与下载的通用声纹背景模型进行对比，计算二者的近似程度，将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具；
29.云端服务器，通过接收的语音表征作为训练数据通过期望最大化算法得出通用声纹背景模型作为背景库，并把通用声纹背景模型同步给主控板。
30.进一步的，所述主控板上设有存储模块，用于将接收的音频信息进行存储。
31.第五方面，本发明提供一种基于云端机器学习的声纹开锁装置，包括处理器及存储介质；
32.所述存储介质用于存储指令；
33.所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
34.第六方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述方法的步骤。
35.与现有技术相比，本发明所达到的有益效果：本发明相较于传统的本地声纹识别训练库，本发明将期望最大化算法与通用声纹背景模型部署在服务器云端，通过各终端上传的数据进行训练，并异步下发给各接入网络的主控板，对于每个说话人来说都用了其他
说话人的数据来进行“预训练”，从而解决了传统本地声纹识别训练库因训练数据少而导致的识别率低的问题。
附图说明
36.图1为本发明方法的流程图；
37.图2为本发明方法的原理框图；
38.图3为语音表征训练框图。
具体实施方式
39.下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
40.实施例1
41.本实施例介绍一种基于云端机器学习的声纹开锁方法，包括：应用于嵌于锁具内部的主控板，包括：
42.获取第一录音信息，通过概率密度函数提取得到第一语音表征；
43.上传第一语音表征至云端服务器，其中云端服务器用于将第一语音表征使用期望最大化算法得出通用声纹背景模型作为背景库，并把通用声纹背景模型同步给主控板；
44.获取第二录音信息，通过概率密度函数提取得到第二语音表征；
45.将第二语音表征与从云端服务器下载的通用声纹背景模型进行对比，计算二者的近似程度；
46.将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具。
47.所述第一录音信息、第二录音信息通过安装于锁具上的麦克风录制获取。
48.如图1至图3所示，本实施例提供的基于云端机器学习的声纹开锁方法，其应用过程具体涉及如下步骤：
49.步骤一，用户通过麦克风录入语音，语音传递到主控板中，通过概率密度函数提取语音表征；
50.说话人通过触碰、开关或按钮等操作唤醒主控板通过麦克风录制音频，其音频内容为预先约定的一段特定文字或声音，主控板将该音频存于缓存中，该音频为声纹信息。
51.概率密度函数是m个分量密度的带权重加和与多个高斯分布函数的线性组合，理论上可以拟合出语音表征任意类型的分布，公式如下：
[0052][0053]
其中，x是d维的随机向量，λ是高斯混合模型的参数集合{λ1,...,λ2,...,λ
m
},λ
i
＝(w
i
,μ
i
,σ
i
),i∈[1,
…
,m],w
i
是混合权重分量，为第i个d维高斯分量的概率密度函数，μ
i
,σ
i
分别是其均值和方差；高斯分量的概率密度函数为：
[0054][0055]
函数运算后得到数据用于描述数据点/特征点的分布，即语音表征。
[0056]
步骤二，主控板作为终端设备将本次识别到的语音表征通过移动数据或wifi上传至云端服务器，云端服务器通过语音表征作为训练数据，通过期望最大化算法得出通用声纹背景模型作为背景库；
[0057]
期望最大化算法是在依赖于无法观测的隐藏变量的概率模型中，寻找参数最大似然估计或者最大后验概率的算法。
[0058]
期望最大化算法分为两步：
[0059]
第一步，固定参数求解后验概率，固定μ，σ，计算后验概率分布p(z
(n)
|x
(n)
),公式如下：
[0060][0061]
其中，μ为高斯分布的均值，σ为高斯分布的方差，k代表第k个高斯分布，π
k
表示第k个高斯分布的权重系数并满足π
k
≥0，即样本x由第k个高斯分布产生的先验概率；n代表第n个样本；γ为后验分布；x
(n)
表示n个由高斯混合模型生成的训练样本；z
(n)
表示其来自于哪个高斯分布。
[0062]
用上式γ
nk
表示第n个样本对第k个高斯分布的后验概率，其用n
×
k的矩阵表示，n为样本集合，k为高斯分布集合。
[0063]
第二步：固定后验概率，优化求解证据下界对应的参数，在已知后验概率的情况下，最大化边际似然p(x|μ,σ)，即最大化对数似然(可能性)，公式如下：
[0064][0065]
其中，q(z)＝p(z
(n)
＝k),elbo通过不等式定义为函数下界，故进一步求其对数似然的下界，公式如下：
[0066]
[0067][0068]
其中，d为训练集，γ为后验分布，利用拉格朗日法求解后有如下更新的结论：
[0069][0070][0071][0072]
其中
[0073]
通过以上的期望最大化算法得到由多个语音表征组成的通用声纹背景模型，并将其模型异步发送给当前与云端服务器通信的主控板，更新主控板上的声纹背景模型，使得识别误差值得以缩小。
[0074]
步骤三，主控板使用当前的语音表征与从云端服务器下载的通用声纹背景模型使用最大后验概率算法进行对比，
[0075]
最大后验概率算法自适应过程主要总体分为三大步：
[0076]
第一步，估计说话人语音数据基于通用声纹背景模型中每个高斯分量的充分统计量，对于说话人的语音表征来说，充分统计量包括观测序列来自各个分量i的频数(n
i
)、一阶(e
i
(x)，均值期望)和二阶(s
i
(x),均值期望)矩，用以计算高斯混合模型的权重，均值和方差。
[0077]
第二步，使用数据依赖混合参数，即后文中的把新估计的充分统计量和通用声纹背景模型的充分统计量结合得最终的语音表征参数估计。
[0078]
具体过程如下：
[0079]
给定通用声纹背景模型和特定说话人的观测序列x＝{x1,
…
,x
t
}为分模型；
[0080]
其中分量i对观测数据x
t
的响应速度，观测数据x
t
来自通用声纹背景模型第i个分量的概率：
[0081][0082]
其中，w
i
是混合权重分量；μ
t
、σ
t
分别是其均值和方差；g为高斯分量的概率密度；m为分量密度个数。
[0083]
使用pr(i|x
t
,λ
i
)计算充分统计量，t个观测序列向量来自分量i的各概率之和，频数为：
[0084][0085]
t个观测序列向量来自分量i的均值期望为：
[0086][0087]
t个观测序列向量来自分量i的方差期望为：
[0088][0089]
第三步，使用第二步得到的充分统计量更新混合分量的参数(权重，均值和方差)：
[0090][0091][0092][0093]
对于每一个高斯混合分量的参数，数据依赖混合参数按如下形式定义：
[0094][0095]
r
ρ
是基于ρ的固定的相关因子，一般使用同样的a更新参数，即是基于ρ的固定的相关因子，一般使用同样的a更新参数，即实验表明，r的取值范围为(8
‑
20)有效，且自适应过程只更新均值效果最佳，实际系统中而γ仅仅是为了保证更新后的权重参数之和为1的归一化因子，故根据分量i遍历与语音表征的近似程度，将近似程度数值与预设的阈值进行比较，得出该说话人是否匹配，匹配则打开锁具；语音表征与其差值取绝对值即为近似程度，其差值越小两者越相似。
[0096]
实施例2
[0097]
本实施例提供一种基于云端机器学习的声纹开锁方法，应用于锁具中，包括：
[0098]
获取第一录音信息，通过概率密度函数提取得到第一语音表征；
[0099]
通过第一语音表征使用期望最大化算法得出通用声纹背景模型作为背景库；
[0100]
获取第二录音信息，通过概率密度函数提取得到第二语音表征；
[0101]
将第二语音表征与通用声纹背景模型进行对比，计算二者的近似程度；
[0102]
将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具。
[0103]
进一步的，所述第二语音表征与通用声纹背景模型使用最大后验概率算法进行对
比。
[0104]
实施例3
[0105]
本实施例提供一种基于云端机器学习的声纹开锁装置，包括：
[0106]
第一提取单元，用于获取第一录音信息，通过概率密度函数提取得到第一语音表征；
[0107]
背景库建立单元，用于通过第一语音表征使用期望最大化算法得出通用声纹背景模型作为背景库；
[0108]
第二提取单元，用于获取第二录音信息，通过概率密度函数提取得到第二语音表征；
[0109]
对比计算单元；将第二语音表征与通用声纹背景模型进行对比，计算二者的近似程度；
[0110]
比较单元，将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具。
[0111]
实施例4
[0112]
本实施例提供一种基于云端机器学习的声纹开锁系统，包括锁具，还包括：
[0113]
麦克风，安装于锁具上，用于录制说话录音信息，发送录音信息至主控板；
[0114]
主控板，嵌于锁具内部作为算法程序载体，主控板与外置麦克风相连接，将获取录音信息，通过概率密度函数提取得到语音表征，上传到云端服务器，并接入互联网定期从云端服务器下载通用声纹背景模型；将提取得到语音表征，与下载的通用声纹背景模型进行对比，计算二者的近似程度，将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具；
[0115]
云端服务器，通过接收的语音表征作为训练数据通过期望最大化算法得出通用声纹背景模型作为背景库，并把通用声纹背景模型同步给主控板。
[0116]
进一步的，所述主控板上设有存储模块，用于将接收的音频信息进行存储。
[0117]
实施例5
[0118]
本实施例提供一种基于云端机器学习的声纹开锁装置，包括处理器及存储介质；
[0119]
所述存储介质用于存储指令；
[0120]
所述处理器用于根据所述指令进行操作以执行根据下述任一项所述方法的步骤：
[0121]
获取第一录音信息，通过概率密度函数提取得到第一语音表征；
[0122]
通过第一语音表征使用期望最大化算法得出通用声纹背景模型作为背景库；
[0123]
获取第二录音信息，通过概率密度函数提取得到第二语音表征；
[0124]
将第二语音表征与通用声纹背景模型进行对比，计算二者的近似程度；
[0125]
将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具。
[0126]
实施例6
[0127]
本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现下述任一项所述方法的步骤：
[0128]
获取第一录音信息，通过概率密度函数提取得到第一语音表征；
[0129]
通过第一语音表征使用期望最大化算法得出通用声纹背景模型作为背景库；
[0130]
获取第二录音信息，通过概率密度函数提取得到第二语音表征；
[0131]
将第二语音表征与通用声纹背景模型进行对比，计算二者的近似程度；
[0132]
将所述近似程度数值与预设的阈值进行比较，根据比较结果判断第一录音信息与第二录音信息是否匹配，匹配则打开锁具。
[0133]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：门禁系统及其对应的开门方法、电子设备及可读介质与流程

一种基于云端机器学习的声纹开锁方法及装置与流程

相关文献

最热文献