抗误唤醒的训练方法、装置、设备及存储介质与流程

2022-06-05 08:02:18 来源：中国专利 TAG：

1.本发明属于设备唤醒技术领域，尤其涉及一种抗误唤醒的训练方法、装置、设备及存储介质。

背景技术：

2.目前，为了降低功耗，当待唤醒设备处于低功耗待机状态，仅有唤醒系统正常工作；当收到收到特定声音后，使待机的系统开启运行；语音唤醒的模型训练方法为：唤醒词音频为正例，其他话语的音频为负例，以此训练模型。训练好模型后，划定一个预设阈值，模型对传入的声音打分，如果分数达到预设阈值，则进行唤醒。
3.但是，如果预设阈值容易被超越，则容易被不相关的音频唤醒；如果预设阈值不易被超越，则如果唤醒词说的质量不够好，就无法唤醒，进而大大影响了用户的体验；因此，如果仅仅是调整预设阈值，很难满足真实场景需求。

技术实现要素：

4.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种抗误唤醒的训练方法、装置、设备及存储介质。
5.为了解决上述技术问题，本发明的实施例提供如下技术方案：
6.一种抗误唤醒的训练方法，包括：
7.对初始模型进行测试，获取误唤醒音频集；
8.对每个所述误唤醒音频进行标注，获取标注词；
9.基于每个所述误唤醒音频以及与所述误唤醒音频匹配的所述标注词，获取目标训练集；
10.基于所述目标训练集对所述初始模型进行训练，获得目标模型。
11.可选的，所述对初始模型进行测试，获取误唤醒音频集，包括：
12.获取测试音频集，其中，所述测试音频集包括多种音乐或节拍；
13.基于多种所述音乐或节拍对所述初始模型进行测试；
14.当所述初始模型进行唤醒，则对触发所述唤醒的测试音频段进行存储，获取误唤醒音频；
15.基于多个所述误唤醒音频，获得所述误唤醒音频集。
16.可选的所述当所述初始模型进行唤醒，则对触发所述唤醒的测试音频段进行存储，获取误唤醒音频，包括：
17.基于asr对触发所述唤醒的测试音频段进行存储，获取所述误唤醒音频。
18.可选的，所述对每个所述误唤醒音频进行标注，获取标注词，包括：
19.基于所述asr对每个所述误唤醒音频进识别，获取多个识别文本；
20.基于每个所述识别文本对与所述识别文本匹配的所述误唤醒音频进行标注，获取至少一个第一子标注词。
21.可选的，所述对每个所述误唤醒音频进识别，获取多个识别文本，包括：
22.基于所述asr对每个所述误唤醒音频进行识别，获取多个所述识别文本。
23.可选的，所述基于asr对每个所述误唤醒音频进行识别，还包括：
24.若基于所述asr无法对所述误唤醒音频进行识别；
25.则基于人工对所述误唤醒音频进行标注，获取第二子标注词。
26.可选的，所述第二子标注词与唤醒词包括至少一个相同音节。
27.可选的，还包括：所述目标模型基于唤醒词向待唤醒设备发送唤醒指令；所述待唤醒设备基于所述唤醒指令进行响应。
28.本发明的实施例还包括一种抗误唤醒的训练装置，包括：
29.测试模块，用于对初始模型进行测试，获取误唤醒音频集；
30.标注模块，用于对每个所述误唤醒音频进行标注，获取标注词；
31.获取模块，用于基于每个所述误唤醒音频以及与所述误唤醒音频匹配的所述标注词，获取目标训练集；
32.训练模块，用于基于所述目标训练集对所述初始模型进行训练，获得目标模型。
33.本发明的实施例还包括一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。
34.本发明的实施例还包括一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的方法。
35.本发明的实施例，具有如下技术效果：
36.本发明的上述技术方案，1)避免了出现训练初始模型时为了抗误唤醒加入过多种类的噪音，训练速度慢的问题；且获得的目标模型，具有抗噪性较强的特点，且训练目标模型的速度快，所需的训练数据量也大大减小。
37.2)用户在具有噪音或者其它干扰唤醒环境中基于目标模型对待唤醒设备进行唤醒的时候，目标模型不会基于误唤醒音频生成唤醒指令，因此，可以基于目标模型对待唤醒设备进行正确唤醒，大大降低了待唤醒设备被误唤醒的概率。
38.本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
39.图1是本发明实施例提供的抗误唤醒的训练方法的流程示意图；
40.图2是本发明实施例提供的抗误唤醒的训练装置的结构示意图。
具体实施方式
41.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
42.为了便于本领域的技术人员对实施例的理解，对部分用语进行解释：
43.(1)asr：automatic speech recognition，自动语音识别技术，是一种将人的语音转换为文本的技术。
44.(2)mcu：microcontroller unit，微控制单元。
45.(3)损失函数：是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
46.本发明的实施例提供一种抗误唤醒的训练系统，包括处理器、存储器、唤醒器以及待唤醒设备；
47.其中，处理器、存储器、唤醒器以及待唤醒设备基于网络实现数据交互。
48.处理器包括至少一个mcu，用于接收唤醒器的发送数据，并对发送数据进行处理，然后将处理结果分别对应反馈至唤醒器，同时，处理器还将处理获得的数据，存储至存储器中，以便于后续操作流程对数据的实时调用。
49.存储器可以用系统在运行过程中产生的各种数据，并基于处理器进行定时清理，以便于重要的数据进行实时存储，并尽可能地节省存储器的存储空间。
50.唤醒器，可以用于模型的搭建以及模型的训练，以及模型的使用，具体的，本发明的实施例，处理器将搭建模型的数据发送至唤醒器，唤醒器在接收到用于搭建模型的数据以后，进行模型的搭建，在完成模型的搭建以后，唤醒器将搭建完成的信号反馈至处理器；
51.处理器在接收到唤醒器反馈的模型搭建完成的信号以后，将获取的初始训练集发送至唤醒器，用于模型的训练；
52.唤醒器基于初始训练集对模型进行训练，获得初始模型(例如：神经网络模型等)，对于初始模型的训练过程，唤醒器可以预设训练次数，进而基于预设训练次数对初始模型进行训练，直到完成预设训练次数以后，才停止对初始模型的训练。
53.本发明的实施例，为了降低初始模型的误唤醒率，对初始模型在基于唤醒词进行训练的基础上，进行了进一步地增量训练。
54.具体的，处理器从存储器中调用大量的测试音频，并将大量的测试音频发送至唤醒器，唤醒器基于大量的测试音频对待唤醒设备进行不断地唤醒工作(例如：基于大量的测试音频对初始模型不间断地训练24小时、3天或7天等，具体的训练时间可以根据实际需要进行设定)，当待唤醒设备被唤醒，则表明当前的测试音频存在误唤醒音频。
55.每当有待唤醒设备被误唤醒，则处理器截取当前的测试音频，并将当前的测试音频发送至存储器进行存储，生成误唤醒音频集；具体的，当误唤醒音频集中的误唤醒音频达到一定的数量(该数量可以根据实际情况进行设定)，则处理器对生成的误唤醒音频集进行调用；
56.具体的，处理器可以基于asr对误唤醒音频进行存储并识别，获取多个识别文本，然后对每个识别文本进行标注；具体的，基于识别文本获取第一子标注词；
57.若asr无法对误唤醒音频进行识别，则可以基于人工对误唤醒音频进行识别，并基于与唤醒词相近的一个或多个相似或相同的音节进行标注，获取第二子标注词；因为，若将此误唤醒音频标注为与唤醒词毫不相干的词语，必然对初始模型的训练产生不好的影响。
58.在将每个误唤醒音频标注完成以后，基于每个误唤醒音频以及与每个误唤醒音频匹配的标注词，获得目标训练集；
59.处理器将目标训练集发送至唤醒器，唤醒器基于目标训练集对初始模型进行训
练，在训练的过程中，基于损失函数，通过初始模型的输出结果与标注词，获取损失函数值，基于损失函数值，防止初始模型基于误唤醒音频生成唤醒指令，经过多次训练，即可得到具有抗误唤醒功能的目标模型。
60.在实际应用场景中，基于目标模型对待唤醒设备进行唤醒，则可以大大降低待唤醒设备被误唤醒的概率。
61.一种抗误唤醒的训练方法，包括：
62.步骤s1：对初始模型进行测试，获取误唤醒音频集；
63.具体的，所述对初始模型进行测试，获取误唤醒音频集，包括：
64.获取测试音频集，其中，所述测试音频集包括多种音乐或节拍；
65.基于多种所述音乐或节拍对所述初始模型进行测试；
66.当所述初始模型进行唤醒，则对触发所述唤醒的测试音频段进行存储，获取误唤醒音频；
67.基于多个所述误唤醒音频，获得所述误唤醒音频集。
68.进一步地，所述当所述初始模型进行唤醒，则对触发所述唤醒的测试音频段进行存储，获取误唤醒音频，包括：
69.基于asr对触发所述唤醒的测试音频段进行存储，获取所述误唤醒音频。
70.在实际应用场景中，当将特殊的鼓点、音乐等音频输入初始模型的时候，由于特殊的鼓点或者音乐等音频可能存在与唤醒词相似的音节，因此，初始模型可能出现误判的情况，进而根据接收到的特殊的鼓点或者音乐等音频对待唤醒设备进行唤醒，然后导致误唤醒情况的发生，最终大大地影响了用户的体验，因此，本发明的实施例，为了解决上述技术问题，在获得初始模型以后，获取不同风格的音乐、节拍等多个音频，并基于获取的不同风格的音乐、节拍的等多个音频等初始模型进行测试，若出现初始模型被唤醒的状况，则表明测试音频集中包括误唤醒音频，并对这些误唤醒音频进行收集，获取唤醒音频集。
71.例如，对初始模型进行测试时，将初始模型放置在具有噪音或者其它各种干扰音频的环境中，然后对初始模型进行训练；
72.具体的，播放某种鼓点，初始模型接收某种鼓点的音频，由于某种鼓点可能是一段较长时间的音频，(例如：几分钟或者几秒等)，但是，用在对待唤醒设备进行实际唤醒的时候，可能只是基于一个唤醒词，例如“小度小度”等，都是一些简短的词语，所以，一个训练音频可能同时存在多个误唤醒音频。
73.因此，初始模型在某段时间内可能不会触发误唤醒，然后在另一段时间内触发误唤醒，没有触发误唤醒的时段，则表明该段时间内的某鼓点对应的音频不存在误唤醒音频，而出现误唤醒的情况的某种时间段的某种鼓点对应的音频，则包含误唤醒音频，依次类推，播放完该整个某种鼓点以后或者完成预设时间的训练后，即可以基于asr获得一个误唤醒音频集。
74.本发明的实施例，可以基于asr获取误唤醒音频，解决了需要人工对训练过程进行监督，进而导致工作人员工作强度大的问题。
75.步骤s2：对每个所述误唤醒音频进行标注，获取标注词；
76.具体的，所述对每个所述误唤醒音频进行标注，获取标注词，包括：
77.基于所述asr对每个所述误唤醒音频进识别，获取多个识别文本；
78.基于每个所述识别文本对与所述识别文本匹配的所述误唤醒音频进行标注，获取至少一个第一子标注词。
79.在实际应用场景中，对于有实际意义的音频，基于asr可以识别出具有实际意义的识别文本，基于识别文本中的音节对识别文本进行标注，获得第一子标注词。
80.对于无实际意义的音频，基于asr可以识别出识别文本，基于识别文本以及唤醒词进行标注，具体的，基于和唤醒词相近的一个或多个音节对识别文本本进行标注，第一子标注词。
81.在实际应用场景中，基于asr获取识别文本，其中，识别文本可以包括无实际意义的词语或者一句话，例如：识别文本可以为啊呀呀哦哦哦等。
82.进一步地，所述对每个所述误唤醒音频进识别，获取多个识别文本，包括：
83.基于所述asr对每个所述误唤醒音频进行识别，获取多个所述识别文本。
84.需要说明的是，本发明的实施例还可以基于其它方式对每个误唤醒音进行识别，asr只是识别方式的其中一种，本发明的实施例对此不做具体的限定。
85.进一步地，所述基于asr对每个所述误唤醒音频进行识别，还包括：
86.若基于所述asr无法对所述误唤醒音频进行识别；
87.则基于人工对所述误唤醒音频进行标注，获取第二子标注词。
88.进一步地，所述第二子标注词与唤醒词包括至少一个相同音节。
89.例如：唤醒词“苹果苹果”，测试时一段音乐产生了误唤醒；则可以将这段误唤醒音频标注为“帕博帕博”，“帕”与“苹”有一个音节相同，“博”与“果”有一个音节相同。
90.因此，本发明的实施例，获取的每个误唤醒词，为唤醒词的易错词，至少一个音节较为相似或相同。
91.步骤s3：基于每个所述误唤醒音频以及与所述误唤醒音频匹配的所述标注词，获取目标训练集；
92.步骤s4：基于所述目标训练集对所述初始模型进行训练，获得目标模型。
93.具体的，在训练的过程中，基于损失函数，通过初始模型的输出结果与第一子标注词或第二子标注词，获取损失函数值；其中，基于初始模型分别获得某个误唤醒音频的输出结果的值以及与该误唤醒音频对应的第一子标注词或第二子标注词的值，然后，基于输出结果的值与第一子标注词或第二子标注词的值的差值计算获得损失函数值；基于损失函数值，防止初始模型基于误唤醒音频生成唤醒指令，经过多次训练，即可得到具有抗误唤醒功能的目标模型。
94.需要说明的是，本发明的实施例提到的第一子标注词与第二子标注词无本质区别。
95.本发明的实施例，避免了出现训练初始模型时为了抗误唤醒加入过多种类的噪音，训练速度慢的问题；且获得的目标模型，具有抗噪性较强的特点，且训练目标模型的速度快，所需的训练数据量也大大减小。
96.本发明一可选的实施例，所述目标模型基于唤醒词向待唤醒设备发送唤醒指令；所述待唤醒设备基于所述唤醒指令进行响应。
97.本发明的实施例，用户在具有噪音或者其它干扰唤醒环境中基于目标模型对待唤醒设备进行唤醒的时候，目标模型不会基于误唤醒音频生成唤醒指令，因此，可以基于目标
模型对待唤醒设备进行正确唤醒，大大降低了待唤醒设备被误唤醒的概率。
98.如图2所示，本发明的实施例还提供一种抗误唤醒的训练装置200，包括：
99.测试模块201，用于对初始模型进行测试，获取误唤醒音频集；
100.标注模块202，用于对每个所述误唤醒音频进行标注，获取标注词；
101.获取模块203，用于基于每个所述误唤醒音频以及与所述误唤醒音频匹配的所述标注词，获取目标训练集；
102.训练模块204，用于基于所述目标训练集对所述初始模型进行训练，获得目标模型。
103.可选的，所述对初始模型进行测试，获取误唤醒音频集，包括：
104.获取测试音频集，其中，所述测试音频集包括多种音乐或节拍；
105.基于多种所述音乐或节拍对所述初始模型进行测试；
106.当所述初始模型进行唤醒，则对触发所述唤醒的测试音频段进行存储，获取误唤醒音频；
107.基于多个所述误唤醒音频，获得所述误唤醒音频集。
108.可选的，所述当所述初始模型进行唤醒，则对触发所述唤醒的测试音频段进行存储，获取误唤醒音频，包括：
109.基于asr对触发所述唤醒的测试音频段进行存储，获取所述误唤醒音频。
110.可选的，所述对每个所述误唤醒音频进行标注，获取标注词，包括：
111.基于所述asr对每个所述误唤醒音频进识别，获取多个识别文本；
112.基于每个所述识别文本对与所述识别文本匹配的所述误唤醒音频进行标注，获取至少一个第一子标注词。
113.可选的，所述对每个所述误唤醒音频进识别，获取多个识别文本，包括：
114.基于所述asr对每个所述误唤醒音频进行识别，获取多个所述识别文本。
115.可选的，所述基于asr对每个所述误唤醒音频进行识别，还包括：
116.若基于所述asr无法对所述误唤醒音频进行识别；
117.则基于人工对所述误唤醒音频进行标注，获取第二子标注词。
118.可选的，所述第二子标注词与唤醒词包括至少一个相同音节。
119.可选的，还包括：所述目标模型向待唤醒设备发送唤醒指令；所述待唤醒设备基于所述唤醒指令进行响应。
120.本发明的实施例还提供一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。
121.本发明的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的方法。
122.另外，本发明实施例的装置的其他构成及作用对本领域的技术人员来说是已知的，为减少冗余，此处不做赘述。
123.需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可
读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
124.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
125.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
126.在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
127.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
128.在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
129.在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示
第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。
130.尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：交管电子文书的安全生成方法、客户端及系统与流程

抗误唤醒的训练方法、装置、设备及存储介质与流程

相关文献

最热文献