一种智能耳机身份认证方法及装置与流程

2021-09-22 21:16:00 来源：中国专利 TAG：身份认证耳机装置身份智能

1.本发明涉及身份认证技术领域，具体而言，涉及一种智能耳机身份认证方法及装置。

背景技术：

2.随着智能可穿戴设备的发展，智能耳机越来越普遍。然而，由于耳机同时具有通话、语音聊天等隐私功能，为了保护用户个人信息，基于耳机的身份认证功能引起了业内的广泛关注。智能耳机的功能操作都是基于纯语音进行交互，可以通过耳机直接发出语音口令，以进行打电话、播报短信、记事、日程等操作。现有的身份认证技术大都基于手机终端实现，例如包括输入数字密码、图案密码、指纹密码等屏幕锁屏方案，这些屏幕锁屏方案都是需要在屏幕上操作的，针对的是有屏幕的硬件终端，但是对于没有屏幕的智能终端来说，无法进行用户身份认证，则不能保证智能终端的使用安全性。

技术实现要素：

3.本发明的目的在于提供一种智能耳机身份认证方法及装置，用以改善现有技术中对于没有屏幕的智能终端来说，无法进行用户身份认证，则不能保证智能终端的使用安全性的问题。
4.本发明的实施例是这样实现的：
5.第一方面，本技术实施例提供一种智能耳机身份认证方法，其包括如下步骤：获取语音口令。对语音口令进行处理，以得到语音口令处理结果。将语音口令处理结果输入至训练好的声学模型，以得到多个拼音识别结果。将多个拼音识别结果输入至训练好的语言模型，以得到语音文本。将语音文本与预置的文字库进行对比，以得到语音对比文本。对比语音对比文本和预存文本，若语音对比文本与预存文本一致时，则发出解锁智能耳机的指令。
6.在本发明的一些实施例中，上述对比语音对比文本和预存文本的步骤之后，方法还包括：若语音对比文本与预存文本不一致，则发出重新获取语音口令的指令。
7.在本发明的一些实施例中，上述对语音口令进行处理，以得到语音口令处理结果的步骤包括：对语音口令进行采样编码，以得到第一编码。对第一编码进行转换，以得到第二编码。对第二编码进行译码，以得到语音口令处理结果，并将语音口令处理结果传输至云服务器。
8.在本发明的一些实施例中，上述将语音口令处理结果输入至训练好的声学模型的步骤之前，方法还包括：建立声学初始模型。获取多个语音数据，以建立语音数据库。利用语音数据库训练声学初始模型，以得到训练好的声学模型。
9.在本发明的一些实施例中，上述将多个拼音识别结果输入至训练好的语言模型的步骤之前，方法还包括：建立语言初始模型。获取多个文字，以建立文字数据库。利用文字数据库训练语言初始模型，以得到训练好的语言模型。
10.第二方面，本技术实施例提供一种智能耳机身份认证装置，其包括：获取模块，用于获取语音口令。语音口令处理模块，用于对语音口令进行处理，以得到语音口令处理结果。拼音识别模块，用于将语音口令处理结果输入至训练好的声学模型，以得到拼音识别结果。语音文本识别模块，用于将拼音识别结果输入至训练好的语言模型，以得到语音文本。文字对比模块，用于将语音文本与预置的文字库进行对比，以得到语音对比文本。文本对比模块，用于对比语音对比文本和预存文本，若语音对比文本与预存文本一致时，则发出解锁智能耳机的指令。
11.在本发明的一些实施例中，上述文本对比模块包括：重新获取单元，用于若语音对比文本与预存文本不一致，则发出重新获取语音口令的指令。
12.在本发明的一些实施例中，上述语音口令处理模块包括：第一编码单元，用于对语音口令进行采样编码，以得到第一编码。第二编码单元，用于对第一编码进行转换，以得到第二编码。译码单元，用于对第二编码进行译码，以得到语音口令处理结果，并将语音口令处理结果传输至云服务器。
13.在本发明的一些实施例中，上述智能耳机身份认证装置还包括：声学初始模型建立模块，用于建立声学初始模型。语音数据库建立模块，用于获取多个语音数据，以建立语音数据库。声学模型训练模块，用于利用语音数据库训练声学初始模型，以得到训练好的声学模型。
14.在本发明的一些实施例中，上述智能耳机身份认证装置还包括：语言初始模型建立模块，用于建立语言初始模型。文字数据库建立模块，用于获取多个文字，以建立文字数据库。语言模型训练模块，用于利用文字数据库训练语言初始模型，以得到训练好的语言模型。
15.第三方面，本技术实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。
16.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
17.相对于现有技术，本发明的实施例至少具有如下优点或有益效果：
18.本发明提供一种智能耳机身份认证方法及装置，其包括如下步骤：获取语音口令。对语音口令进行处理，以得到语音口令处理结果。将语音口令处理结果输入至训练好的声学模型，以得到多个拼音识别结果。将多个拼音识别结果输入至训练好的语言模型，以得到语音文本。将语音文本与预置的文字库进行对比，以得到语音对比文本。对比语音对比文本和预存文本，若语音对比文本与预存文本一致时，则发出解锁智能耳机的指令。本发明利用pcm编码对获取的语音口令进行采样编码。然后将pcm编码转换为sbc编码或aac编码进行传输，以提高数据传输效率。紧接着将sbc 编码或aac编码译码为云服务器支持的编码格式，即语音口令处理结果。将语音口令处理结果输入至训练好的声学模型后，语音口令处理结果将与声学模型中的语音数据库中多个语音数据进行对比，以得到语音口令处理结果中的多个拼音，进而得到多个拼音识别结果。将多个拼音识别结果输入至训练好的语言模型后，语言模型根据文字数据库和各个拼音识别结果在语音口令处理结果的上下文字语义对各个拼音识别结果进行识别，进而得到各个拼音识别结果对应的文
字，得到的多个拼音识别结果分别对应的文字即语音文本，进而提高了得到的语音文本的准确性，保证了语音文本与用户语音的一致性。并通过文字库对语音文本进行再次查询对比，以得到语音对比文本，语音对比文本比语音文本更加准确，进一步保证了语音对比文本与用户语音的一致性。最后比对语音对比文本和预存文本，当语音对比文本与预存文本匹配一致时，则校验通过，发出解锁智能耳机的指令，以解锁智能耳机。则对于没有屏幕的智能终端，如智能耳机来说，实现了仍然可以进行用户身份认证的目的，并根据用户身份认证的情况判断是否解锁智能耳机，从而保证了智能耳机的使用安全性。
附图说明
19.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
20.图1为本发明实施例提供的一种智能耳机身份认证方法的流程图；
21.图2为本发明实施例提供的一种智能耳机身份认证装置的结构框图；
22.图3为本发明实施例提供的一种电子设备的示意性结构框图。
23.图标：100
‑
智能耳机身份认证装置；110
‑
获取模块；120
‑
语音口令处理模块；130
‑
拼音识别模块；140
‑
语音文本识别模块；150
‑
文字对比模块； 160
‑
文本对比模块；101
‑
存储器；102
‑
处理器；103
‑
通信接口。
具体实施方式
24.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
25.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
26.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，若出现术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
27.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，若出现术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，若出现由语句“包括一个
……”
限
定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
28.在本技术的描述中，需要说明的是，若出现术语“上”、“下”、“内”、
ꢀ“
外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。
29.在本技术的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。
30.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。
31.实施例
32.请参阅图1，图1所示为本技术实施例提供的一种智能耳机身份认证方法的流程图。一种智能耳机身份认证方法，其包括如下步骤：
33.s110：获取语音口令；
34.具体的，用户发出语音，智能耳机可以对用户发出的语音进行录音，以接收用户的语音，达到获取语音口令的效果。
35.s120：对语音口令进行处理，以得到语音口令处理结果；
36.具体的，获取的语音口令可以通过pcm编码进行采样编码，上述pcm 编码的采样率可以为16khz。通过智能耳机的蓝牙芯片可以将pcm编码转换为sbc编码或aac编码。其中，sbc编码是subband codec的缩写，sbc编码的输入是pcm编码，输出是二进制流。sbc编码的基本原理是把信号的频率分为若干子带，然后对每个子带进行编码，将各子带编码后的数据打包，作为一帧数据，以二进制流的方式输出，sbc编码适用于安卓系统。aac编码是一种高压缩比的音频压缩算法，aac编码适用于苹果系统。sbc编码或 aac编码的内存大大小于pcm编码的内存，将pcm编码转换为sbc编码或 aac编码进行传输可以有效提高数据传输效率。将sbc编码或aac编码通过蓝牙传输到充电盒的蓝牙设备，充电盒芯片将对sbc解码或aac编码进行译码，转换为pcm编码，转换得到的pcm编码即为上述语音口令处理结果。
37.作为本实施例的另一种实施方式，将sbc编码或aac编码通过蓝牙传输到充电盒的蓝牙设备后，充电盒芯片可以对sbc解码或aac编码进行译码，将其编码为云服务器支持的其他编码格式，例如opus编码，此时，该 opus编码即为上述语音口令处理结果。
38.s130：将语音口令处理结果输入至训练好的声学模型，以得到多个拼音识别结果；
39.具体的，将语音口令处理结果输入至训练好的声学模型后，语音口令处理结果将与声学模型中的语音数据库中多个语音数据进行对比，以得到语音口令处理结果中的多个拼音，从而得到多个拼音识别结果。
40.需要说明的是，上述语音数据可以包括中文语音数据和英文语音数据。
41.s140：将多个拼音识别结果输入至训练好的语言模型，以得到语音文本；
42.具体的，将多个拼音识别结果输入至训练好的语言模型后，语言模型根据文字数据库和各个拼音识别结果在语音口令处理结果上下文字语义对各个拼音识别结果进行识别，进而得到各个拼音识别结果对应的文字，得到的多个拼音识别结果分别对应的文字即上述语音文本。通过对语音口令进行处理，得到多个拼音识别结果，再对各个拼音识别结果进行识别，可以提高得到的语音文本的准确性，保证了语音文本与用户语音的一致性。
43.s150：将语音文本与预置的文字库进行对比，以得到语音对比文本；
44.具体的，预置的文字库包含有多个文本信息，将语音文本与文字库中多个文本信息进行对比，多个文本信息可以判断语音文本中的语义是否正确，即通过文字库对语音文本进行再次查询对比，以得到语音对比文本，上述语音对比文本比语音文本更加准确，进一步保证了语音对比文本与用户语音的一致性。
45.s160：对比语音对比文本和预存文本，若语音对比文本与预存文本一致时，则发出解锁智能耳机的指令。
46.具体的，预存文本为耳机持有者预先录入云服务器的文本。将语音对比文本与预存文本进行逐字匹配对比，当语音对比文本与预存文本匹配一致时，则校验通过，发出解锁智能耳机的指令，以解锁智能耳机。
47.上述实现过程中，利用采样率16khz的pcm编码对获取的语音口令进行采样编码。然后将pcm编码转换为sbc编码或aac编码进行传输，以提高数据传输效率。紧接着将sbc编码或aac编码译码为云服务器支持的编码格式，例如pcm编码、opus编码等编码，即语音口令处理结果。将语音口令处理结果输入至训练好的声学模型后，语音口令处理结果将与声学模型中的语音数据库中多个语音数据进行对比，以得到语音口令处理结果中的多个拼音，进而得到多个拼音识别结果。将多个拼音识别结果输入至训练好的语言模型后，语言模型根据文字数据库和各个拼音识别结果在语音口令处理结果的上下文字语义对各个拼音识别结果进行识别，进而得到各个拼音识别结果对应的文字，得到的多个拼音识别结果分别对应的文字即语音文本，进而提高了得到的语音文本的准确性，保证了语音文本与用户语音的一致性。并通过文字库对语音文本进行再次查询对比，以得到语音对比文本，语音对比文本比语音文本更加准确，进一步保证了语音对比文本与用户语音的一致性。最后比对语音对比文本和预存文本，当语音对比文本与预存文本匹配一致时，则校验通过，发出解锁智能耳机的指令，以解锁智能耳机。则对于没有屏幕的智能终端，如智能耳机来说，实现了仍然可以进行用户身份认证的目的，并根据用户身份认证的情况判断是否解锁智能耳机，从而保证了智能耳机的使用安全性。
48.上述实现过程中，由于上述将语音口令处理结果输入至训练好的声学模型后，语音口令处理结果将与声学模型中的语音数据库中多个语音数据进行对比，以得到语音口令处理结果中的多个拼音，进而得到多个拼音识别结果，而且将多个拼音识别结果输入至训练好的语言模型后，语言模型根据文字数据库和各个拼音识别结果在语音口令处理结果的上下文字语义对各个拼音识别结果进行识别，进而得到各个拼音识别结果对应的文字。由此可知，得到的语音文本考虑了各个拼音识别结果以及各个拼音识别结果在语音口令处理结果的上下文字语义，则上述语音口令处理结果转换成语音文本的过程在一定程度上可以避免用户方言带来的误差性。
49.在本实施例的一些实施方式中，用户可以将不同时间段的预存文本设定为不一样的文本信息，则在不同时间段，持有者口令不同，以使得智能耳机更加安全可靠。示例性的，用户可以将15:00
‑
17:00时间段的预存文本存入为“床前明月光”，当用户需要在15:30使用智能耳机时，用户需要对智能耳机说“床前明月光”，以使智能耳机录入“床前明月光”的语音口令。通过对“床前明月光”的语音口令进行处理，以得到“床前明月光
”ꢀ
的语音口令处理结果。将“床前明月光”的语音口令处理结果输入至训练好的声学模型，以得到“床前明月光”的多个拼音识别结果“chuang”“qian
”ꢀ“
ming”“yue”“guang”。将多个拼音识别结果输入至训练好的语言模型，以得到语音文本“床前明月光”，再将语音文本与预置的文字库进行对比，得到“床前明月光”的语音对比文本为“床前明月光”，此时语音对比文本与预存文本一致，发出解锁智能耳机的命令，成功解锁智能耳机。
50.在本实施例的一些实施方式中，上述对比语音对比文本和预存文本的步骤之后，方法还包括：若语音对比文本与预存文本不一致，则发出重新获取语音口令的指令。具体的，将语音对比文本与预存文本进行逐字匹配对比，当语音对比文本与预存文本匹配不一致时，则表示校验不通过，云服务器将重新获取语音口令的命令发送给充电盒，继而充电盒将传输重新获取语音口令的命令到智能耳机，智能耳机接收到命令后，发出“重新录入解锁密码”的语音，以提示用户再次输入语音进行再次校验。
51.在本实施例的一些实施方式中，上述对语音口令进行处理，以得到语音口令处理结果的步骤包括：对语音口令进行采样编码，以得到第一编码。对第一编码进行转换，以得到第二编码。对第二编码进行译码，以得到语音口令处理结果，并将语音口令处理结果传输至云服务器。具体的，通过 pcm编码对语音口令进行采样编码，以得到pcm编码，即第一编码。上述 pcm编码的采样率可以为16khz。通过智能耳机的蓝牙芯片可以将pcm编码转换为sbc编码或aac编码，即第二编码。其中，sbc编码是subband codec 的缩写，sbc编码的输入是pcm编码，输出是二进制流。sbc编码的基本原理是把信号的频率分为若干子带，然后对每个子带进行编码，将各子带编码后的数据打包，作为一帧数据，以二进制流的方式输出，sbc编码适用于安卓系统。aac编码是一种高压缩比的音频压缩算法，aac编码适用于苹果系统。sbc编码或aac编码的内存大大小于pcm编码的内存，将pcm编码转换为sbc编码或aac编码进行传输可以有效提高数据传输效率。将sbc编码或aac编码通过蓝牙传输到充电盒的蓝牙设备，充电盒芯片将对sbc解码或aac编码进行译码，转换为云服务器支持的编码格式，如pcm编码、 opus编码，即语音口令处理结果。充电盒的芯片将语音口令处理结果通过通信传输口传输到云服务器。
52.在本实施例的一些实施方式中，上述将语音口令处理结果输入至训练好的声学模型的步骤之前，方法还包括：建立声学初始模型。获取多个语音数据，以建立语音数据库。利用语音数据库训练声学初始模型，以得到训练好的声学模型。具体的，利用包含多个语音数据的语音数据库对声学初始模型进行训练，进而得到训练好的声学模型。当语音口令处理结果输入至训练好的声学模型后，语音口令处理结果将与声学模型中的语音数据库中多个语音数据进行对比，以得到语音口令处理结果中的多个拼音，也就得到多个拼音识别结果。
53.在本实施例的一些实施方式中，上述将多个拼音识别结果输入至训练好的语言模型的步骤之前，方法还包括：建立语言初始模型。获取多个文字，以建立文字数据库。利
用文字数据库训练语言初始模型，以得到训练好的语言模型。具体的，利用包含多个文字的文字数据库对语言初始模型进行训练，进而得到训练好的语言模型。当多个拼音识别结果输入至训练好的语言模型后，语言模型根据文字数据库和各个拼音识别结果在语音口令处理结果上下文字语义对各个拼音识别结果进行识别，以得到各个拼音识别结果对应的文字，也就得到了语音文本。
54.第二方面，本技术实施例提供一种智能耳机身份认证装置100，其包括：获取模块110，用于获取语音口令。语音口令处理模块120，用于对语音口令进行处理，以得到语音口令处理结果。拼音识别模块130，用于将语音口令处理结果输入至训练好的声学模型，以得到拼音识别结果。语音文本识别模块140，用于将拼音识别结果输入至训练好的语言模型，以得到语音文本。文字对比模块150，用于将语音文本与预置的文字库进行对比，以得到语音对比文本。文本对比模块160，用于对比语音对比文本和预存文本，若语音对比文本与预存文本一致时，则发出解锁智能耳机的指令。上述实现过程中，通过获取模块110获取语音口令。通过语音口令处理模块120对语音口令进行处理，具体而言，首先利用采样率16khz的pcm编码对获取的语音口令进行采样编码，然后将pcm编码转换为sbc编码或aac编码进行传输，以提高数据传输效率，紧接着将sbc编码或aac编码译码为云服务器支持的编码格式，例如pcm编码、opus编码等编码，即语音口令处理结果。拼音识别模块130将语音口令处理结果输入至训练好的声学模型后，语音口令处理结果将与声学模型中的语音数据库中多个语音数据进行对比，以得到语音口令处理结果中的多个拼音，进而得到多个拼音识别结果。语音文本识别模块140将多个拼音识别结果输入至训练好的语言模型后，语言模型根据文字数据库和各个拼音识别结果在语音口令处理结果的上下文字语义对各个拼音识别结果进行识别，进而得到各个拼音识别结果对应的文字，得到的多个拼音识别结果分别对应的文字即语音文本，进而提高了得到的语音文本的准确性，保证了语音文本与用户语音的一致性。文字对比模块150通过文字库对语音文本进行再次查询对比，以得到语音对比文本，语音对比文本比语音文本更加准确，进一步保证了语音对比文本与用户语音的一致性。通过文本对比模块160比对语音对比文本和预存文本，当语音对比文本与预存文本匹配一致时，则校验通过，发出解锁智能耳机的指令，以解锁智能耳机。则对于没有屏幕的智能终端，如智能耳机来说，实现了仍然可以进行用户身份认证的目的，并根据用户身份认证的情况判断是否解锁智能耳机，从而保证了智能耳机的使用安全性。
55.在本实施例的一些实施方式中，上述文本对比模块160包括：重新获取单元，用于若语音对比文本与预存文本不一致，则发出重新获取语音口令的指令。具体的，通过重新获取单元将语音对比文本与预存文本进行逐字匹配对比，当语音对比文本与预存文本匹配不一致时，则表示校验不通过，云服务器将重新获取语音口令的命令发送给充电盒。继而充电盒可以将命令传输到智能耳机，智能耳机接收到命令后，发出“重新录入解锁密码”的语音，以提示用户再次输入语音进行再次校验。
56.在本实施例的一些实施方式中，上述语音口令处理模块120包括：第一编码单元，用于对语音口令进行采样编码，以得到第一编码。第二编码单元，用于对第一编码进行转换，以得到第二编码。译码单元，用于对第二编码进行译码，以得到语音口令处理结果，并将语音口令处理结果传输至云服务器。具体的，通过第一编码单元对语音口令进行采样编码，以得到pcm编码，即第一编码。通过第二编码单元将pcm编码转换为sbc编码或aac编
码，即第二编码。通过译码单元对sbc解码或aac编码进行译码，转换为云服务器支持的编码格式，如pcm编码、opus编码，即语音口令处理结果。继而充电盒的芯片将语音口令处理结果通过通信传输口传输到云服务器。
57.在本实施例的一些实施方式中，上述智能耳机身份认证装置100还包括：声学初始模型建立模块，用于建立声学初始模型。语音数据库建立模块，用于获取多个语音数据，以建立语音数据库。声学模型训练模块，用于利用语音数据库训练声学初始模型，以得到训练好的声学模型。具体的，通过声学初始模型建立模块建立声学初始模型。通过语音数据库建立模块获取多个语音数据建立语音数据库。通过声学模型训练模块训练声学初始模型，以得到训练好的声学模型。利用包含多个语音数据的语音数据库对声学初始模型进行训练，可以得到训练好的声学模型。
58.在本实施例的一些实施方式中，上述智能耳机身份认证装置100还包括：语言初始模型建立模块，用于建立语言初始模型。文字数据库建立模块，用于获取多个文字，以建立文字数据库。语言模型训练模块，用于利用文字数据库训练语言初始模型，以得到训练好的语言模型。具体的，通过语言初始模型建立模块建立语言初始模型。通过文字数据库建立模块获取多个文字建立文字数据库。通过语言模型训练模块训练语言初始模型，以得到训练好的语言模型。利用包含多个文字的文字数据库对语言初始模型进行训练，可以得到训练好的语言模型。
59.请参阅图3，图3为本技术实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，如本技术实施例所提供的一种智能耳机身份认证装置100对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
60.其中，存储器101可以是但不限于，随机存取存储器101 (random access memory，ram)，只读存储器101(read only memory， rom)，可编程只读存储器101(programmable read
‑
only memory，prom)，可擦除只读存储器101(erasable programmable read
‑
only memory，eprom)，电可擦除只读存储器101(electric erasable programmable read
‑
onlymemory，eeprom)等。
61.处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器 102可以是通用处理器，包括中央处理器(central processing unit， cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processing，dsp)、专用集成电路(applicationspecific integrated circuit，asic)、现场可编程门阵列(field－ programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0062][0063]
在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、
功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0064]
另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0065]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器101(rom，read
‑
onlymemory)、随机存取存储器101(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0066]
综上所述，本技术实施例提供的一种智能耳机身份认证方法及装置，其包括如下步骤：获取语音口令。对语音口令进行处理，以得到语音口令处理结果。将语音口令处理结果输入至训练好的声学模型，以得到多个拼音识别结果。将多个拼音识别结果输入至训练好的语言模型，以得到语音文本。将语音文本与预置的文字库进行对比，以得到语音对比文本。对比语音对比文本和预存文本，若语音对比文本与预存文本一致时，则发出解锁智能耳机的指令。本发明利用pcm编码对获取的语音口令进行采样编码。然后将pcm编码转换为sbc编码或aac编码进行传输，以提高数据传输效率。紧接着将sbc编码或aac编码译码为云服务器支持的编码格式，即语音口令处理结果。将语音口令处理结果输入至训练好的声学模型后，语音口令处理结果将与声学模型中的语音数据库中多个语音数据进行对比，以得到语音口令处理结果中的多个拼音，进而得到多个拼音识别结果。将多个拼音识别结果输入至训练好的语言模型后，语言模型根据文字数据库和各个拼音识别结果在语音口令处理结果的上下文字语义对各个拼音识别结果进行识别，进而得到各个拼音识别结果对应的文字，得到的多个拼音识别结果分别对应的文字即语音文本，进而提高了得到的语音文本的准确性，保证了语音文本与用户语音的一致性。并通过文字库对语音文本进行再次查询对比，以得到语音对比文本，语音对比文本比语音文本更加准确，进一步保证了语音对比文本与用户语音的一致性。最后比对语音对比文本和预存文本，当语音对比文本与预存文本匹配一致时，则校验通过，发出解锁智能耳机的指令，以解锁智能耳机。则对于没有屏幕的智能终端，如智能耳机来说，实现了仍然可以进行用户身份认证的目的，并根据用户身份认证的情况判断是否解锁智能耳机，从而保证了智能耳机的使用安全性。
[0067]
以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
[0068]
对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频降噪方法、装置、计算机设备及存储介质与流程

一种智能耳机身份认证方法及装置与流程

相关文章

最热文献