一种低误唤醒率的关键词计算模型的训练方法及装置与流程

2022-02-24 13:16:14 来源：中国专利 TAG：

1.本文涉及智能语音领域，尤其是一种低误唤醒率的关键词计算模型的训练方法及装置。

背景技术：

2.随着智能技术的普及，智能语音设备已进入寻常百姓的生活。智能语音设备在进行语音交互前，需要先被唤醒，从休眠状态进入工作状态，才能正处理用户的指令。良好的智能产品有着较好的唤醒率，但是较好的唤醒率会造成较高的误唤醒率。
3.现有技术中，用户在没有与设备进行交互时，也可能误唤醒语音设备。语音设备可能会将用户常规的语音误识别成为唤醒词而误唤醒语音设备。设备的频繁误唤醒会导致用户体验降低。
4.针对目前误唤醒语音设备导致用户体验不佳的问题，迫切需要研究一种低误唤醒率的关键词计算模型的训练方法，在保证唤醒率的同时，降低语音交互设备的误唤醒概率。

技术实现要素：

5.为解决上述现有技术的问题，本文实施例提供了一种低误唤醒率的关键词计算模型的训练方法、装置、计算机设备及存储介质，解决了现有技术中误唤醒语音设备导致用户体验不佳的问题。
6.本文实施例提供了一种低误唤醒率的关键词计算模型的训练方法，包括：获取训练样本，所述训练样本包括唤醒词样本及非唤醒词样本。
7.根据本文实施例的一个方面，所述获取训练样本包括获取非唤醒词样本：获取唤醒词及第一非唤醒词；根据低误唤醒率的关键词计算模型及所述第一非唤醒词，确定所述第一非唤醒词被误唤醒的概率值；当所述第一非唤醒词被误唤醒的概率值高于设定值，将所述第一非唤醒词标记为第二非唤醒词；当第二非唤醒词的数量达到预设阈值，将所述第二非唤醒词加入所述非唤醒词样本；将所述唤醒词加入所述唤醒词样本，使用所述唤醒词样本和所述非唤醒词样本反复训练所述低误唤醒率的关键词计算模型。
8.根据本文实施例的一个方面，所述获取非唤醒词包括获取非唤醒词数据；对所述非唤醒词数据执行音频切割，获取所述第一非唤醒词。
9.根据本文实施例的一个方面，所述获取非唤醒词数据至少包括：从网络中爬取所述非唤醒词数据、下载音频数据并从所述音频数据中获取所述非唤醒词数据。
10.根据本文实施例的一个方面，根据低误唤醒率的关键词计算模型及所述第一非唤醒词，确定所述第一非唤醒词被误唤醒的概率值之后还包括：当所述第一非唤醒词被误唤醒的概率值低于所述设定值，丢弃所述第一非唤醒词，重新获取新的第一非唤醒词。
11.根据本文实施例的一个方面，将所述第一非唤醒词标记为第二非唤醒词之后还包括：当所述第二非唤醒词的数量未达到预设阈值，继续获取新的第一非唤醒词，直到所述第二非唤醒词的数量达到预设阈值。
12.本文实施例还提供了一种低误唤醒率的关键词计算模型的训练装置，所述装置包括：
13.训练样本获取模块，用于获取训练样本，所述训练样本包括唤醒词样本及非唤醒词样本；
14.模型训练模块，用于根据所述训练样本，训练低误唤醒率的关键词计算模型。
15.本文实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述低误唤醒率的关键词计算模型的训练方法。
16.本文实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现上述低误唤醒率的关键词计算模型的训练方法。
17.本方案的低误唤醒率的关键词计算模型的训练方法，可以训练一个性能良好的低误唤醒率的关键词计算模型，可以大大降低日常语音交互场景中语音误唤醒的概率，提高唤醒准确率，进一步提升用户体验。
附图说明
18.为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1所示为本文实施例一种低误唤醒率的关键词计算模型的网络结构示意图；
20.图2所示为本文实施例一种低误唤醒率的关键词计算模型的训练方法的流程图；
21.图3所示为本文实施例一种低误唤醒率的关键词计算模型的训练方法的流程图；
22.图4所示为本文实施例一种低误唤醒率的关键词计算模型的训练装置的结构示意图；
23.图5所示为本文实施例一种低误唤醒率的关键词计算模型的训练装置的具体结构示意图；
24.图6所示为本文实施例一种计算机设备的结构示意图。
25.附图符号说明：
26.101、语音交互终端；
27.102、用户；
28.103、服务器；
29.401、训练样本获取单元；
30.4011、唤醒词获取模块；
31.4012、第一非唤醒词获取模块；
32.4013、误唤醒率确定模块；
33.4014、第二非唤醒词标记模块；
34.4015、非唤醒词样本确定模块；
35.402、模型训练单元；
36.602、计算机设备；
37.604、处理器；
38.606、存储器；
39.608、驱动机构；
40.610、输入/输出模块；
41.612、输入设备；
42.614、输出设备；
43.616、呈现设备；
44.618、图形用户接口；
45.620、网络接口；
46.622、通信链路；
47.624、通信总线。
具体实施方式
48.为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。
49.需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
50.本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。
51.需要说明的是，本文的低误唤醒率的关键词计算模型的训练方法和装置可用于语音交互领域，也可用于除语音交互之外的任意领域，本文的低误唤醒率的关键词计算模型的训练方法和装置的应用领域不做限定。
52.如图1所示为本文实施例一种低误唤醒率的关键词计算模型的网络结构示意图。
53.在本图中描述了通过语音交互终端101、用户102、服务器103相结合的低误唤醒率的关键词计算模型的训练方法。其中，语音交互终端101、用户102、服务器103可以进行数据交互。
54.在本说明书的一些实施例中，语音交互终端101可以是具有语音接收功能的终端设备。其中，语音交互终端101可以包括智能家居设备、智能机器人、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等或其任意组合。在一些实施例中，智能家居设备可以包括智能音箱、智能清洁设备、智能照明设备、智能电器控制设备、智能监控设备、智能电
视、智能空调、智能门铃、智能摄像机等或其任意组合。在一些实施例中，可穿戴设备可以包括智能手表、智能眼镜、智能头盔、智能背包、智能配件等或其任意组合。在一些实施例中，智能移动设备可以包括智能电话、个人数字助理(pda)、游戏设备、导航设备、销售点(pos)等或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强型虚拟现实头盔、增强现实眼镜、增强现实眼罩等或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括google glass、oculus rift、hololens或gear vr等。
55.在本说明书的一些实施例中，语音交互终端101可以直接获取来自用户102发出的语音指令，从而确定是否进入工作状态或保持处于休眠状态。
56.在本说明书的一些实施例中，用户102可以是向语音交互终端101发出指令或命令的个人、工具或其他实体。用户102通过语音形式向语音交互终端101发出唤醒命令，可以将语音交互终端101从休眠状态切换为工作状态。用户102可以通过语音形式向语音交互终端101发出其他命令，可以控制语音交互终端101完成相关行为。例如，用户可以向语音交互终端101发出“打开电视”的语音指令，可以控制语音交互终端101打开电视机电源。
57.在本说明书一些实施例中，服务器103可以为具有网络交互功能的电子设备，也可以为运行于该电子设备中，为数据处理和网络交互提供业务逻辑的软件。其中，服务器103可以设定第一非唤醒词标记为第二非唤醒词设定值；服务器103还可以确定将第二非唤醒词加入非唤醒词样本的预设阈值。服务器103还可以使用唤醒词样本和非唤醒词样本作为训练样本反复训练低误唤醒率的关键词计算模型。
58.图2所示为本文实施例一种低误唤醒率的关键词计算模型的训练方法的流程图，主要描述了利用训练样本训练低误唤醒率的关键词计算模型的过程，其中具体包括如下步骤：
59.步骤201，获取训练样本，所述训练样本包括唤醒词样本及非唤醒词样本；
60.步骤202，根据所述训练样本，训练低误唤醒率的关键词计算模型。
61.在本说明书的场景中，语音交互终端(例如，智能音箱、智能手表等设备)语音交互终端在开启后大部分时间处于休眠状态，语音交互终端在执行语音交互前通常处于休眠状态。语音交互终端需要先被唤醒，才能从休眠状态进入工作状态，正常处理来自用户的指令。当语音交互终端获取环境中的语音信息时，当识别到语音信息中有唤醒词，语音交互终端被唤醒，从休眠状态进入工作状态，等待用户的下一步指令执行后续操作。基于语音唤醒的机制，语音交互终端设备只有被唤醒词唤醒后才会进入工作状态。在实际应用中，语音交互终端在一段时间内可能将与唤醒词较为相似的非唤醒词作为唤醒词从而导致误识别。即，语音交互终端误识别非唤醒词，进而从休眠状态进入工作状态。误唤醒率为一段时间内语音交互终端被误唤醒的次数。其中，一段时间包括但不限于6小时、12小时、24小时、48小时、72小时等。例如，在24小时内语音交互终端被误唤醒2次；又例如，在48小时内语音交互终端被误唤醒的5次。为了尽可能降低语音交互终端在一段时间内的误唤醒率，本文提供一种低误唤醒率的关键词计算模型的训练方法及装置。
62.在本说明书的一些实施例中，语音唤醒主要根据语音唤醒模型工作，唤醒模型需要实时检测环境中的语音信息，在听到唤醒词后立即将语音交互终端的休眠状态切换为工作状态。面对语音交互终端可能将与唤醒词较接近的非唤醒词作为唤醒词误识别的现象，
将通过训练低误唤醒率的关键词计算模型，降低语音交互终端误唤醒的概率。
63.在本说明书的一些实施例中，低误唤醒率的关键词计算模型的初始模型为基于卷积神经网络的二分类模型。
64.在本发明的一些实施例中，低误唤醒率的关键词计算模型的训练样本包括唤醒词样本和非唤醒词样本。其中，唤醒词是用于唤醒语音交互终端的词，非唤醒词是除了唤醒词之外的其他任意的词。唤醒词可以包括“小爱同学”、“天猫精灵”、“小度”、“小德”、“siri”等中的一种，或者为其他的预设的唤醒词，或者还可以为用户自定义的唤醒词。在本技术中，唤醒词为“小x同学”(其中，x可以为任意字符或者就为“x”字母本身。)。唤醒词样本包括但不限于由不同性别、不同年龄段的人在不同的噪音环境下发出的唤醒词语音样本、不同语音语调的唤醒词语音样本、不同音量的唤醒词语音样本、不同语速的唤醒词语音样本、不同方言的唤醒词语音样本等。例如，唤醒词样本可以是八岁儿童在打闹时发出的拖长声音的唤醒词语音样本、六十岁奶奶在安静环境中发出的唤醒词语音样本、三十岁女性在嘈杂的厨房发出的唤醒词语音样本等。又例如，唤醒词样本可以是在30db安静场景下发出的声音；也可以是在65-80db嘈杂噪音场景下发出的声音。
65.在本说明书的一些实施例中，唤醒词样本可以由专业人员通过专业语音设备录制获取，例如，唤醒词样本可以由不同的群体在不同的环境中获得。在本发明的一些实施例中，唤醒词样本可以是5万个、8万个、10万等。本技术在此对唤醒词样本的数量不作限制。
66.在本发明的一些实施例中，非唤醒词经过一定筛选条件筛选后，得到非唤醒词样本。其中，非唤醒词的数量级可以达到十几万，甚至几十万个，但非唤醒词样本的数量可以是几万个。本技术在此对非唤醒词样本的数量不作限制。
67.根据唤醒词样本和非唤醒词样本，可以训练低误唤醒率的关键词计算模型。关于使用训练样本训练低误唤醒率的关键词计算模型的详细描述参见图3的具体描述。
68.如图3所示为本文实施例一种低误唤醒率的关键词计算模型的训练方法的流程图。其中，具体步骤如下：
69.步骤301，获取唤醒词及第一非唤醒词。
70.在本步骤中，第一非唤醒词为未经过筛选的非唤醒词。获取第一非唤醒词包括：获取非唤醒词数据，对非唤醒词数据执行音频切割，从而获取第一非唤醒词。
71.其中，获取非唤醒词数据的方式可以是从线上平台(例如，网站、应用程序等)获取。例如，可以通过访问网站或者应用程序的音视频系统内的音视频数据获取非唤醒词数据。在本说明书的一些实施例中，获取非唤醒词数据包括在获得数据所有者授权的情况下使用网络爬虫脚本从网站(例如，youtube、亚马逊等)爬取大量视频数据，将视频数据转化为音频数据。从网络中爬取的数据默认是不包含唤醒词的音频数据。在本说明书的另外一些实施例中，还可以根据音频数据所有者授权的情况下下载音频数据，从音频数据中获取非唤醒词数据。例如，录制电视节目、电影、电视剧、纪录片、访谈节目的音频数据。这些音频数据的时长可以是5分钟、10分钟、30分钟、1小时、2小时等。再通过音频切割软件或音频切割脚本将获取得到的音频数据切割为较短时间长度的第一非唤醒词。其中，时间长度可以是1秒、2秒或其他时间长度。例如，将音频数据统一切割为1秒一段的第一非唤醒词，或者将音频数据统一切割为2秒一段的第一非唤醒词。
72.在本说明书的另外一些实施例中，获取非唤醒词数据的方式可以是直接从存储了
大量语音数据的存储设备中获取。在一些实施例中，还可以采用其他任意方式获取非唤醒词数据，本实施例不作限制。
73.步骤302，根据初始低误唤醒率的关键词计算模型及所述第一非唤醒词，确定所述第一非唤醒词被识别为唤醒词的概率值。
74.在本步骤中，在获取所述初始低误唤醒率的关键词计算模型之前，该模型可以是指尚未经过训练的二分类模型。本步骤中服务器可以使用少量唤醒词和非唤醒词训练二分类模型得到初始低误唤醒率的关键词计算模型。将少量唤醒词和非唤醒词输入至二分类模型中，输出得到所述少量唤醒词和非唤醒词被识别为唤醒词的概率。经过训练的二分类模型即为本步骤的初始低误唤醒率的关键词计算模型。其中，少量唤醒词和非唤醒词可以是500条、1000条数量级的样本。在一些实施例中，后续步骤(步骤303-305)可以基于带有标识的训练样本训练所述初始低误唤醒率的关键词计算模型得到低误唤醒率的关键词计算模型。
75.在本说明书的一些实施例中，在确定初始低误唤醒率的关键词计算模型后，服务器将所述第一非唤醒词输入至初始低误唤醒率的关键词计算模型中，初始低误唤醒率的关键词计算模型输出第一非唤醒词被识别为唤醒词的概率值，表示该第一非唤醒词被模型误识别为唤醒词的概率。例如，第一非唤醒词为“小x的童鞋”，初始低误唤醒率的关键词计算模型误识别该第一非唤醒词为唤醒词的概率为0.9；第一非唤醒词为“小爱心”，初始低误唤醒率的关键词计算模型误识别该第一非唤醒词为唤醒词的概率为0.8。又例如，第一非唤醒词为“早上好”，初始低误唤醒率的关键词计算模型误识别该第一非唤醒词为唤醒词的概率为0.01。由此可以看出，在实际使用中，与唤醒词在发音、音节上较为相近的非唤醒词被语音交互终端误唤醒概率较高，说明该第一非唤醒词质量越高，越难被模型正确识别。
76.步骤303，当所述第一非唤醒词被识别为唤醒词的概率值高于设定值，将所述第一非唤醒词标记为第二非唤醒词。
77.在本说明书的一些实施例中，设定值为预先设定的用于区分误唤醒程度不同的第一非唤醒词。例如，设定值为0.5。相对应的，被识别为唤醒词的概率值高于设定值的第一非唤醒词为初始低误唤醒率的关键词计算模型识别难度较高的非唤醒词，将该第一非唤醒词标记为第二非唤醒词，可以将第二非唤醒词保存在临时文件夹中(或者存储器、内存、缓存中)；被识别为唤醒词的概率值低于设定值的第一非唤醒词为初始低误唤醒率的关键词计算模型识别难度较低的非唤醒词，为不被需要的非唤醒词，将被丢弃。如上文所述，第一非唤醒词“小x的童鞋”被识别为唤醒词的概率为0.9，高于设定值，即可以将“小x的童鞋”记为第二非唤醒词；第一非唤醒词“小爱心”被识别为唤醒词为0.8，高于设定值，即可以将“小爱心”记为第二非唤醒词；第一非唤醒词为“早上好”被识别为唤醒词为0.01，低于设定值，则将该第一非唤醒词丢弃。
78.在本技术的一些实施例中，所述设定值可以根据模型训练的情况按照一定步长进行调整，也可以根据模型训练的情况人工设定。
79.步骤304，当所述第二非唤醒词的数量达到预设阈值，将所述第二非唤醒词加入所述非唤醒词样本。
80.在本步骤中，预设阈值是判断第二非唤醒词是否可以作为非唤醒词样本的条件。在本说明书的一些实施例中，预设阈值可以是1000条、2000条、3000条等。当临时文件夹(或
者存储器、内存、缓存)中的第二非唤醒词的数量超过预设阈值，可以将临时文件夹(或者存储器、内存、缓存)中当前保存的所有第二非唤醒词作为非唤醒词样本。当临时文件夹中的第二非唤醒词的数量没有达到预设阈值，则继续获取第一非唤醒词，重复上述步骤302和303，从第一非唤醒词中标记合适的第二非唤醒词。在本技术的一些实施例中，所述预设阈值可以根据模型训练的情况按照一定步长进行调整，也可以根据模型训练的情况人工设定。
81.在本步骤中，预设阈值也可以作为判断低误唤醒率的关键词计算模型新增训练样本规模的标志。当第二非唤醒词的数量未超过预设阈值，可以说明当前训练的低误唤醒率的关键词计算模型的训练样本的数量并未达到训练规模，需要新增更多的训练样本继续进行模型训练；当第二非唤醒词的数量超过预设阈值，说明当前训练的低误唤醒率的关键词计算模型的训练样本的数量满足训练规模，可以进行模型训练。预设阈值的设置可以直观获知模型训练的运算规模和数据量，以便及时调整模型训练的参数，进一步提高模型训练的效率。
82.步骤305，将所述非唤醒词加入所述非唤醒词样本，使用所述唤醒词样本和所述非唤醒词样本反复训练所述低误唤醒率的关键词计算模型。
83.在一些实施例中，初始低误唤醒率的关键词计算模型可以基于带有标识的训练样本训练得到低误唤醒率的关键词计算模型。在模型训练过程中，模型的输入是唤醒词样本和非唤醒词样本，输出是输入的样本被识别为唤醒词的概率。即，每一个唤醒词和非唤醒词被语音交互终端识别为唤醒词的概率。
84.在本说明书的一些实施例中，将步骤304中的第二非唤醒词加入到模型训练的非唤醒词样本中作为负样本；将唤醒词加入到模型训练的唤醒词样本中，作为正样本。在一些实施例中，可以基于包括非唤醒词样本和唤醒词样本的训练样本通过常用的方法进行训练。例如，可以基于梯度下降法进行训练。
85.具体的，将训练样本中的唤醒词样本和非唤醒词样本分别标注标识，将带有标识的唤醒词和非唤醒词作为训练样本输入初始低误唤醒率的关键词计算模型，基于标识对初始低误唤醒率的关键词计算模型进行训练。在一些实施例中，初始低误唤醒率的关键词计算模型的训练样本为数量较少的唤醒词和非唤醒词。在一些实施例中，训练样本的表示可以是训练样本是否为唤醒词。例如，为唤醒词则标识为1，为非唤醒词则标识为0。
86.在本步骤中，将唤醒词样本和非唤醒词样本作为训练样本，分别提取唤醒词样本和非唤醒词样本的语音特征。将提取得到的训练样本的语音特征输入至卷积神经网络模型中，通过softmax处理层将神经网络的输出处理为概率分布，从而获得每个唤醒词样本被唤醒的概率及非唤醒词样本被误唤醒的概率。在本说明书的一些实施例中，使用梅尔频率倒谱系数(mel frequency cepstral coefficents，mfcc)提取非唤醒词样本和唤醒词样本中具有辨识性的成分，并滤除背景噪声、情绪等。梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)考虑人类的听觉特征，将线性频谱映射到基于听觉感知的mel非线性频谱中，再转换到倒谱上。先对唤醒词样本和非唤醒词样本进行预处理，包括但不限于预加重、分帧和加窗、加强信噪比，处理精度等提高语音信号性能。其中，预加重的目的是提高语音信号的高频部分，使信号的频谱变得平坦。同时可以消除发声过沉重声带和嘴唇的效应，补偿语音信号收到发音系统所抑制的高频部分，也为了突出高频的共振峰。分
帧是将语音分成多个小段。加窗为了消除各帧两端可能造成的信号不连续性。对每一个短时分析窗，通过fft得到对应的频谱；获得分布在时间轴上不同时间窗内的频谱。将频谱通过mel滤波器组得到mel频谱；通过mel频谱，将线形的自然频谱转换为体现人类听觉特性的mel频谱。在mel频谱上面进行倒谱分析，包括但不限于取对数、做逆变换等。由此获得mel频率倒谱系数mfcc，这个mfcc就是唤醒词样本和非唤醒词样本中某一帧语音的特征。根据提取到的语音特征，可以训练低误唤醒率的关键词计算模型。
87.在一些实施例中，初始低误唤醒率的关键词计算模型可以是一个将唤醒词作为正样本、非唤醒词作为负样本训练获得的二分类模型。在本说明书的一些实施例中，二分类模型指能够根据输入的训练样本(唤醒词样本和非唤醒词样本)的特点把未知类别的待分类样本对映射到给定类别中的一个或多个的模型、算法、神经网络等，其中给定类别可以是提前设定好的。在本说明书的一些实施例中，低误唤醒率的关键词计算模型本质为神经网络，包括两个卷积层和两个全连接层。在本说明书的一些实施例中，给定类别为唤醒词和非唤醒词。二分类模型可以包括但不限于多层感知机(multi-layer perception,mlp)、决策树(decision tree,dt)、深度神经网络(convolutional neural network,dnn)、支持向量机(support vector machine,svm)、k最近邻算法(k-nearest neighbor,knn)等任何可以进行文本分类的算法或者模型。
88.在本说明书的一些实施例中，用于分类的神经网络基于输入的训练样本确定输入的训练样本的类别。具体地，输入的训练样本的类别经过用于分类的神经网络中的每一层神经网络，然后将最后一层神经网络的输出输入至sigmoid或softmax函数中，确定该输入的训练样本的类别属于唤醒词的概率和属于非唤醒词的概率。进一步的，将概率超过固定值的非唤醒词作为该模型下一次学习的训练样本。在一些实施例中，训练的低误唤醒率的关键词计算模型的输出值可以是训练样本属于各个给定类别的概率(即为，输入指令被识别为唤醒词的概率)。例如，若给定类别分别为语音识别不同的类别，初始分类模型对输入的非唤醒词“小x的童鞋”输出值可以是0.9、对输入的非唤醒词“小动物”输出值可以是0.2、对输入的非唤醒词“你好”输出值可以是0.01。
89.在一些实施例中，当训练的分类模型的损失函数最小化时，模型训练结束。在一些实施例中，训练的低误唤醒率的关键词计算模型的损失函数用于评价正在训练的低误唤醒率的关键词计算模型的预测输出值和标识的唤醒词被唤醒概率之间的差值。其中，预测输出值是指将训练样本输入正在训练的二分类模型所得到的预测被唤醒的值。在本说明书的一些实施例中，损失函数包括但不限于均方误差损失函数、交叉熵损失函数、指数损失函数等。本技术以交叉熵损失函数为例介绍损失函数。交叉熵表示模型的训练集的真实概率分布和预测概率分布之间的差异。更具体地，损失值是一个或多个特征向量的概率分布与扰动训练集的概率分布之间的kl散度和关于扰动训练集的概率分布的交叉熵的和或加权和。
90.在本说明书的一些实施例中，单个样本的损失函数为公式(1)，多个样本的损失函数是单个样本损失函数的叠加：
91.h＝-(q(xi)
ⅹ
logp(xi) (1-q(xi))
ⅹ
log(1-p(xi)))(1)
92.其中，h为损失函数值，q(xi)为训练样本分类的真实值，具体的，如果训练样本为唤醒词，则q(xi)为1；如果训练样本为非唤醒词，则q(xi)为0，p(xi)为在训练过程中的低误唤醒率的关键词计算模型确定的样本识别为唤醒词概率。服务器使用softmax方法确定概
率分布中的p和q。
93.另外，在模型在训练过程中，模型的权重会被不断优化(即，模型每层的两个节点连接的权重)来最小化损失函数。在一些实施例中，可以通过对训练的模型进行超参数优化。具体的，所述超参数可以包括学习率、迭代次数、批次大小等参数。其中，学习率指在优化算法中更新网络权重的幅度大小，迭代次数指整个训练集样本输入神经网络进行训练的次数，批次大小是每一次训练神经网络送入模型的样本的数量。
94.作为本文的一个实施例，所述获取第一非唤醒词包括：获取非唤醒词数据；对所述非唤醒词数据执行音频切割，获取第一非唤醒词。
95.如图3中所述，可以从线上平台获取非唤醒词数据，或下载音频数据，从音拼数据中获取非唤醒词数据。通过音频切割软件或音频切割脚本将获取得到的音频数据切割为较短时间长度的第一非唤醒词。例如，可以通过audacity，adobe audition，ocenaudio，lmms，wavepad等软件切割获取到的音频数据，或者还可以使用其他软件对音视频数据进行切割。
96.作为本文的一个实施例，所述获取非唤醒词数据至少包括：从网络中爬取非唤醒词数据、下载音频数据并从所述音频数据中获取非唤醒词数据。
97.如图3所述，可以从线上平台获取非唤醒词数据，或下载音频数据，从音拼数据中获取非唤醒词数据。例如，使用网络爬虫脚本从youtube网站、亚马逊网站爬取大量视频数据，将视频数据转化为音频数据。又例如，从cctv-6频道、电视访谈节目、电影、电视剧等节目中下载音频数据。
98.作为本文的一个实施例，根据低误唤醒率的关键词计算模型及所述第一非唤醒词，确定所述第一非唤醒词被误唤醒的概率值之后还包括：当所述第一非唤醒词被误唤醒的概率值低于所述设定值，丢弃所述第一非唤醒词，重新获取新的第一非唤醒词。
99.在本步骤中，当第一非唤醒词被误唤醒的概率值低于设定值，该第一非唤醒词无法作为第二非唤醒词用于后续训练模型。例如，第一非唤醒词“早上好”被低误唤醒率的关键词计算模型误识别的概率为0.01，说明该非唤醒词被误唤醒的概率极低，被模型误识别的概率极低，模型可以轻松识别该非唤醒词。因此，不需要使用该非唤醒词继续训练模型。该非唤醒词被丢弃，服务器将重新获取新的第一非唤醒词。其中，服务器可以重新从线上平台等位置获取新的非唤醒词数据，从新的非唤醒词数据中获取新的第一非唤醒词。服务器也可以从当前的非唤醒词数据中获取新的第一非唤醒词。
100.作为本文的一个实施例，将所述第一非唤醒词标记为第二非唤醒词之后还包括：当所述第二非唤醒词的数量未达到预设阈值，继续获取新的第一非唤醒词，直到所述第二非唤醒词的数量达到预设阈值。
101.如图3所述，预设阈值为判断第二非唤醒词作为非唤醒词样本训练模型的条件。当第二非唤醒词的数量低于预设阈值，即，第二非唤醒词的数量不满足训练模型的条件时，需要继续获取新的第一非唤醒词并作为第二非唤醒词，直至第二非唤醒词的数量达到预设阈值。
102.如图4所示为本文实施例一种低误唤醒率的关键词计算模型的训练装置的结构示意图，在本图中描述了低误唤醒率的关键词计算模型的训练装置的基本结构，其中的功能单元、模块可以采用软件方式实现，也可以采用通用芯片或者特定芯片实现，所述的功能单元、模块一部分或者全部可以在服务器上，或者其中的一部分也可以在宿主机或容器上，通
过与服务器的配合实现容器存储使用量监控，该装置具体包括：
103.训练样本获取单元401，用于获取训练样本，所述训练样本包括唤醒词样本及非唤醒词样本；
104.模型训练单元402，用于根据所述训练样本，训练低误唤醒率的关键词计算模型。
105.通过本文实施例的设置，可以训练一个性能良好的低误唤醒率的关键词计算模型，大大降低日常语音交互场景中语音误唤醒的概率，提高唤醒准确率，进一步提升用户体验。
106.作为本文的一个实施例，还可以参考如图5所示为本文实施例一种低误唤醒率的关键词计算模型的训练装置的具体结构示意图。
107.所述训练样本获取单元401还包括，获取唤醒词和第一非唤醒词，并确定所述第一非唤醒词被误唤醒的概率值。作为本文的一个实施例，所述训练样本获取单元401进一步包括：
108.唤醒词获取模块4011，用于获取唤醒词样本；
109.第一非唤醒词获取模块4012，用于获取第一非唤醒词；
110.误唤醒率确定模块4013，用于根据低误唤醒率的关键词计算模型及所述第一非唤醒词，确定第一非唤醒词被误唤醒的概率值；
111.第二非唤醒词标记模块4014，用于当所述第一非唤醒词被误唤醒的概率值高于设定值时，将所述第一非唤醒词标记为第二非唤醒词；
112.非唤醒词样本确定模块4015，用于当所述第二非唤醒词的数量达到预设阈值时，将所述第二非唤醒词加入所述非唤醒词样本。
113.如图6所示为本文实施例提供的一种计算机设备的结构示意图，前述的服务器或者语音交互终端都可以采用本实施例中的计算机设备结构，所述计算机设备602可以包括一个或多个处理器604，诸如一个或多个中央处理单元(cpu)，每个处理单元可以实现一个或多个硬件线程。计算机设备602还可以包括任何存储器606，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器606可以包括以下任一项或多种组合：任何类型的ram，任何类型的rom，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备602的固定或可移除部件。在一种情况下，当处理器604执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备602可以执行相关联指令的任一操作。计算机设备602还包括用于与任何存储器交互的一个或多个驱动机构608，诸如硬盘驱动机构、光盘驱动机构等。
114.计算机设备602还可以包括输入/输出模块610(i/o)，其用于接收各种输入(经由输入设备612)和用于提供各种输出(经由输出设备614)。一个具体输出机构可以包括呈现设备616和相关联的图形用户接口(gui)618。在其他实施例中，还可以不包括输入/输出模块610(i/o)、输入设备612以及输出设备614，仅作为网络中的一台计算机设备。计算机设备602还可以包括一个或多个网络接口620，其用于经由一个或多个通信链路622与其他设备交换数据。一个或多个通信总线624将上文所描述的部件耦合在一起。
115.通信链路622可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路622可以包括由任何协议或协议组合支配的硬连线链
路、无线链路、路由器、网关功能、名称服务器等的任何组合。
116.对应于图1-图3中的内容，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。
117.本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图1至图3所示的内容。
118.应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。
119.还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
120.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。
121.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
122.在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。
123.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
124.另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
125.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、
随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
126.本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备与流程

一种低误唤醒率的关键词计算模型的训练方法及装置与流程

相关文献

最热文献