一种语音唤醒方法、装置及设备与流程

2021-10-09 13:44:00 来源：中国专利 TAG：

1.本技术涉及计算机处理
技术领域：
：，具体涉及一种语音唤醒方法、装置及设备。
背景技术：
：：2.语音唤醒是目前语音领域非常重要的技术，其主要功能是在接收到用户的语音指令后进入工作状态，并执行用户发出语音指令所指示的操作。传统的唤醒方法均是在语音帧级别上进行解码和召回判断，由于存在大量的语音帧导致解码速度较慢。如果提高解码速度可能造成召回率下降，进而影响设备的唤醒。基于此，如何在不影响解码速度的情况下，提高召回率是急需解决的问题。技术实现要素：3.有鉴于此，本技术实施例提供一种语音唤醒方法、装置及设备，以实现在不影响解码速度的情况下，提高召回率。4.为实现上述目的，本技术实施例提供的技术方案如下：5.在本技术实施例第一方面，提供了一种语音唤醒方法，所述方法包括：6.获取待处理语音信号，并从所述待处理语音信号中提取文字序列；7.以唤醒词的长度在所述文字序列所形成的解码图上进行滑窗解码操作，确定每次滑窗内出现所述唤醒词的置信度，所述唤醒词用于唤醒设备；8.在滑窗内出现所述唤醒词的置信度满足第一预设条件时，对所述设备进行唤醒；9.终止滑窗解码操作以及维特比解码操作，所述维特比解码用于根据所述唤醒词对所述文字序列进行解码。10.在本技术实施例第二方面，提供了一种语音唤醒装置，所述装置包括：11.获取单元，用于获取待处理语音信号，并从所述待处理语音信号中提取文字序列；12.确定单元，用于以唤醒词的长度在所述文字序列所形成的解码图上进行滑窗，确定每次滑窗内出现所述唤醒词的置信度，所述唤醒词用于唤醒设备；13.唤醒单元，用于在滑窗内出现所述唤醒词的置信度满足第一预设条件时，对所述设备进行唤醒；14.终止单元，用于终止滑窗操作以及维特比解码操作，所述维特比解码用于根据所述唤醒词对所述文字序列进行解码。15.在本技术实施例第三方面，提供了一种电子设备，所述设备包括：处理器和存储器；所述存储器，用于存储指令或计算机程序；所述处理器，用于执行所述存储器中的所述指令或计算机程序，以使得所述电子设备执行第一方面所述的方法。16.在本技术实施例第四方面，提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行第一方面所述的方法。17.由此可见，本技术实施例具有如下有益效果：18.本技术实施例中对于获取的待处理语音信号，从待处理语音信号中提取文字序列。在获取文字序列后，以唤醒词的长度在文字序列所形成的解码图上进行滑窗，确定每次滑窗内出现唤醒词的置信度。同时，利用维特比解码对文字序列所形成的搜索图进行解码，获得维特比路径的置信度。当滑窗操作中某次滑窗内出现唤醒词的置信度满足第一预设条件时，对设备进行唤醒，并终止滑窗操作和维特比解码操作。也就是，本技术实施例同时对提取的文字序列进行滑窗解码和维特比解码，优先利用滑窗解码所获得置信度判断是否对设备进行唤醒，如果滑窗解码的置信度满足第一预设条件，则唤醒设备，并终止滑窗解码和维特比解码。如果滑窗解码的置信度不满足第一预设条件，则继续利用维特比解码所获得的置信度判断是否唤醒。可见，通过上述操作，不仅不会影响滑窗解码的解码速度，由于增加了维特比解码能够进一步提高召回率。附图说明19.图1为本技术实施例提供的一种语音唤醒方法流程图；20.图2为本技术实施例提供的另一种语音唤醒方法流程图；21.图3a为本技术实施例提供的一种滑窗解码示意图；22.图3b为本技术实施例提供的一种滑窗示意图；23.图4a为本技术实施例提供的一种维特比解码示意图；24.图4b为本技术实施例提供的一种维特比解码应用场景示意图；25.图5为本技术实施例提供的一种语音唤醒装置结构示意图；26.图6为本技术实施例提供的一种电子设备结构示意图。具体实施方式27.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术实施例作进一步详细的说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本技术，并非对本技术的限定。另外，还需要说明的是，为便于描述，附图中仅示出了与本技术相关的部分，并非全部结构。28.为便于理解本技术实施例提供的技术方案，将先对本技术涉及的技术术语进行说明。29.语音唤醒(keywordspotting，kws))是指在连续语流中实时检测出说话人特定片段。语音唤醒的目的就是将设备从休眠状态激活至运行状态，所以唤醒词说出之后，能立刻被检测出来，用户的体验才会更好。通常情况下通过以下4个指标来评价唤醒效果，分别为唤醒率、误唤醒率、响应时间和功耗水平。其中，唤醒率，指用户交互的成功率，专业术语为召回率，即recall。误唤醒，用户未进行交互而设备被唤醒的概率。响应时间，指从用户说完唤醒词后，到设备给出反馈的时间差。功耗水平，即唤醒系统的耗电情况。很多智能设备是通过电池供电，需要满足长时续航，对功耗水平就比较在意。30.通常情况下，为提高唤醒率，将解码大量的语音帧以识别语音信号是否包括唤醒词，由于存在大量的语音帧导致解码速度较慢，即响应时间较长。为提高解码速度可能导致唤醒率下降，导致设备无法被正常唤醒，影响用户使用体验。31.基于此，本技术实施例提供了一种语音唤醒方法，在获取到待处理语音信号后，从待处理语音信号中提取文字序列。以唤醒词的长度在文字序列所形成的解码图上进行滑窗解码，确定每个滑窗内出现唤醒词的置信度。其中，唤醒词用于唤醒设备。即，利用滑窗解码操作确定每个滑窗内包括唤醒词的概率。同时，利用维特比解码对文字序列所形成的搜索图进行解码，以获得维特比路径的置信度。即滑窗解码和维特比解码同时操作。在滑窗解码操作中存在某次滑窗内出现唤醒词的置信度满足第一预设条件时，则对设备进行唤醒。同时，终止滑窗解码操作和维特比解码操作。如果滑窗解码操作所获得置信度均不满足第一预设条件，则继续利用进行维特比解码操作，以利用维特比解码操作唤醒设备。32.也就是，当通过滑窗解码操作对设备进行唤醒后，不再进行滑窗解码操作和维特比解码操作；如果利用滑窗解码操作未对设备进行唤醒时，则继续利用维特比解码操作判断预测的文字序列中是否包括唤醒词，以对设备进行唤醒，从而提高唤醒率。另外，由于滑窗解码操作的解码速度大于维特比解码操作的解码速度，优先利用滑窗解码操作进行解码唤醒，从而在不影响解码速度的情况下，提高唤醒率。33.其中，从待处理语音信号中提取文字序列可以利用连续整合发放(continuousintegrate‑and‑fire，cif)模型实现。具体地，利用cif模型对获取的声学编码表示进行整合并发放出所识别的文字，进而基于字级别判断是否唤醒，减少解码的开销，提高解码速度。cif是一种以神经脉冲作为输出的神经元模型，把输入进行加权总和后按指数规律积累起来直到达到某个阈值会对先后到来的声学信息依次进行整合，当整合的信息量达到识别阈值，将整合后的信息发放以用作后续识别。具体地，cif应用于编解码框架，在每一个编码时刻，cif分别接收编码后的声学编码表示及其对应的权重(表征了蕴含的信息量)。cif不断地积累权重并对声学编码表示进行整合(加权求和的形式)。当积累的权重达到阈值后，意味一个声学边界被定位到。34.为便于理解本技术所提供的技术方案，下面将结合附图对本技术实施例所提供的语音唤醒方法进行说明。35.参见图1，该图为本技术实施例提供的一种语音唤醒方法流程图，如图2所示，该方法可以包括：36.s101：获取待处理语音信号，并从待处理语音信号中提取文字序列。37.本实施例中，对于具备语音唤醒能力的设备，其可以实时监听用户所发出的语音信号(待处理语音信号)是否包括特定的唤醒词，当用户说出特定的唤醒词时，设备就会被唤醒，切换到工作状态等待用户接下来的指令。其中，待处理语音信号为用户发出的语音信号。在获取到待处理语音信号中可以利用自然语言处理技术从待处理语音信号中提取所包括的文字序列。38.s102：以唤醒词的长度在文字序列所形成的解码图上进行滑窗解码操作，确定每次滑窗内出现唤醒词的置信度。39.在获取待处理语音信号所包括的文字序列后，根据文字序列以及唤醒词确定是否对设备进行唤醒。其中，唤醒词用于唤醒设备，唤醒词的长度可以根据实际情况进行设定。具体地，在获取文字序列后，利用解码器对文字序列进行解码获得解码图，其中，解码图的长度为文字序列的长度。即，本实施例中的解码图的长度为文字的长度，相较于基于语音帧进行唤醒，其解码路径的长度小，提高解码速度。40.在对文字序列所形成的解码图进行解码操作的同时，还对文字序列所形成的搜索图进行维特比解码，获得维特比路径上的置信度。即同时对文字序列进行两种不同的解码操作。41.s103：在滑窗内出现唤醒词的置信度满足第一预设条件时，对设备进行唤醒。42.在本实施例中，每进行一次滑窗操作，获得该次滑窗内出现唤醒词的置信度，并判断该置信度是否满足第一预设条件，如果满足第一预设条件，则唤醒设备，并执行s104，终止维特比解码操作。第一预设条件可以根据实际应用情况进行设备，例如，第一预设条件为唤醒词的置信度大于等于第一预设置信度阈值，则在第i次滑窗内出现唤醒词的置信度满足第一预设条件时，对设备进行唤醒，包括：在第i次滑窗内出现唤醒词的置信度大于等于第一预设置信度阈值时，对设备进行唤醒。其中，i为i为大于等于1且小于等于n的正整数，所述n为滑动次数。43.如果所有次滑窗操作内出现唤醒词的置信度均不满足第一预设条件，则继续对文字序列所形成的搜索图进行维特比解码操作，获得维特比路径上的置信度。如果维特比路径上的置信度满足第二预设条件，则对设备进行唤醒。其中，第二预设条件可以根据实际应用情况进行设备。例如，第二预设条件为维特比路径上的置信度大于等于第二预设置信度阈值。其中，第二预设置信度阈值小于第一预设置信度阈值。44.s104：终止滑窗解码操作以及维特比解码操作。45.本实施例中，在某一次滑窗操作出现唤醒词的置信度满足第一预设条件时，则对设备进行唤醒，并终止滑窗解码操作和维特比解码操作。46.可见，通过本技术实施例对于获取的待处理语音信号，从待处理语音信号中提取文字序列。在获取文字序列后，以唤醒词的长度在文字序列所形成的解码图上进行滑窗，确定每次滑窗内出现唤醒词的置信度。同时，利用维特比解码对文字序列所形成的搜索图进行解码，获得维特比路径的置信度。当滑窗操作中某次滑窗内出现唤醒词的置信度满足第一预设条件时，对设备进行唤醒，并终止滑窗操作和维特比解码操作。也就是，本技术实施例同时对提取的文字序列进行滑窗解码和维特比解码，优先利用滑窗解码所获得置信度判断是否对设备进行唤醒，如果滑窗解码的置信度满足第一预设条件，则唤醒设备，并终止滑窗解码和维特比解码。如果滑窗解码的置信度不满足第一预设条件，则继续利用维特比解码所获得的置信度判断是否唤醒。可见，通过上述操作，不仅不会影响滑窗解码的解码速度，由于增加了维特比解码能够进一步提高召回率。47.参见图2，该图为本技术实施例提供的另一种语音唤醒方法流程图，如图2所示，该方法可以包括：48.s201：获取待处理语音信号，并从待处理语音信号中提取文字序列。49.本实施例中，对于具备语音唤醒能力的设备而言，在设备开启并自动加载好资源后，这时处于休眠状态。在休眠状态，设备实时监听用户所发出的语音信号(待处理语音信号)是否包括特定的唤醒词，当用户说出特定的唤醒词时，设备就会被唤醒，切换到工作状态等待用户接下来的指令。其中，待处理语音信号为用户发出的语音信号。50.其中，从待处理语音信号中提取文字序列可以采用但不限于以下方式：51.1)从待处理语音信号中获取待处理语音特征，并对待处理语音特征进行编码获得声学编码表示。52.在设备采集到待处理语音信号后，从待处理语音信号中获取待处理语音特征，并对待处理语音特征进行编码获得声学编码表示。具体地，由于语音信号是准稳态信号，在处理时可以先把语音信号分帧，每帧长度约为20ms‑30ms，这一区间内把语音信号看作为稳态信号。只有稳态的信息才能进行信号处理。再把语音信号分帧后，对每一帧进行小波变换和处理，即获得每个语音帧对应的语音特征。在获得每个语音帧的语音特征后，对该语音特征进行编码获得声学编码表示。53.2)根据各声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列。54.在获得各语音特征对应的声学编码表示后，根据各声学编码表示以及声学编码表示对应的权重进行以获得文字序列。其中，可以利用cif模型实现对各声学编码表示以及声学编码表示对应的权重进行整合，以发放出待处理语音信号所包括的文字序列。具体地，根据各声学编码表示和所述声学编码表示对应的权重进行整合获得目标声学编码表示；在声学编码表示对应的权重满足预设条件时，根据目标声学编码表示获得待处理语音信号所包括的文字序列。其中，声学编码表示对应的权重满足预设条件可以为权重等于预设阈值，其中，预设阈值可以根据实际应用情况进行设定。55.例如，获取的待处理语音信号包括100帧，提取该100帧语音信号对应的语音特征，并对该100帧语音好的语音特征进行编码，获得100帧语音信号各自对应的声学编码表示，将该声学编码表示输入cif模型，cif模型积累权重并对声学编码表示进行整合(加权求和的形式)。当积累的权重达到阈值后，由该cif模型输出待处理语音信号所包括的10个文字。56.s202：以唤醒词的长度在文字序列所形成的解码图上进行滑窗解码操作，确定每次滑窗内出现唤醒词的置信度。57.在获取待处理语音信号所包括的文字序列后，根据文字序列以及唤醒词确定是否对设备进行唤醒。其中，唤醒词用于唤醒设备，唤醒词的长度可以根据实际情况进行设定。58.具体地，在获取文字序列后，利用解码器对文字序列进行解码获得解码图，其中，解码图的长度为文字序列的长度。即，本实施例中的解码图的长度为文字的长度，相较于基于语音帧进行唤醒，其解码路径的长度小，提高解码速度。其中，为减少参数量和计算量，提高计算速度，解码器可以为非自回归的解码器。具体地，解码图为一个m*k维的矩阵，其中，m为文字序列的长度，k为词表的长度。词表包括常见的词。例如图3a所示的解码图，在该解码图中以词表包括20个常见词word、文字序列长度为10为例，矩阵内的数据表示预测的文字为某一常见词的后验概率。其中，w1‑w20为常见的文字，q1‑q10为预测的10个文字，其中每一行表示预测的q1为各个字的概率，且每一行的后验概率之和为1。59.在获取到文字序列所对应的解码图后，可以以唤醒词的长度作为滑窗的大小在解码图上进行滑动，以确定每次滑动所对应的滑窗内出现唤醒词的置信度。其中，每次滑窗内出现唤醒词的置信度可以通过以下方式获取，具体为，针对任一次滑窗操作，获取滑窗内各个文字对应的后验概率，将各个文字的后验概率相乘获得每次滑窗内出现唤醒词的置信度。例如，图3b所示，以唤醒词长度为4，每次滑窗包括4个所预测的文字，并确定每个滑窗内4个预测的文字为唤醒词的后验概率。如第1次滑窗，q1为唤醒词中第一个字的概率为p15、q2为唤醒词中第二个字的概率为p22、q3为唤醒词中第三个字的概率为p37、q4为唤醒词中第四个字的概率为p48，则第1次滑窗对应的后验概率为p15*p22*p37*p48。同理，第2次滑窗，q2为唤醒词中第一个字的概率为p25、q3为唤醒词中第二个字的概率为p32、q4为唤醒词中第三个字的概率为p47、q5为唤醒词中第四个字的概率为p58，则第1次滑窗对应的后验概率为p25*p32*p47*p58。依次滑动，获得每次滑窗的置信度。60.s203：对文字序列所形成的搜索图进行维特比解码，获得维特比路径上的置信度。61.本实施例中，在利用滑窗解码对文字序列所形成的解码图进行解码操作的同时，也利用维特比解码对文字序列所形成的搜索图进行解码，二者并行执行。其中，进行维特比解码操作是指对文字序列所形成的搜索图进行维特比解码，获得维特比路径上的置信度。搜索图为n*m的矩阵，n为唤醒词的长度加1，即唤醒词所包括的文字总数加1。例如，唤醒词为4个文字，则n为5。m为文字序列的长度，即为文字序列所包括为文字总数。例如，从待处理语音信号中提取7个文字，则m为7。其中，搜索图的第一行对应非唤醒词，搜索图的第二行到第n行分别对应唤醒词的一个文字。62.如图4a所示，以唤醒词包括4个文字，为“xyxy”、文字序列包括7个文字为例进行说明，该搜索图的第一行为other节点，第二行为x、第三行为y、第四行为x和第五行为y。其中other节点代表其他字，用于将唤醒词的起点后。通常other表示当前节点预测的字中，除去唤醒词后，其他字中最高的概率，那么如果实际预测的是唤醒词所包括的文字，则other的概率会很低，而如果实际预测的不是唤醒词所包括的文字，则other的概率会很高。因此，other的存在不会影响维特比路径的置信度。63.需要说明的是，在对搜索图进行解码时，只允许向下或向右解码。其中，向下解码是为了准确识别文字序列所包括的唤醒词。向右解码是为了解决以下问题，一是，对于用户拖长音，可能存在“xyyxy”情况，通过向右解码可以合并之间的两个y从而不影响“y”的概率；二是，用户说错的情况，例如“xyzxy”，则将“z”判断为y的概率是很小的，进而使得维特比路径的置信度较小，通过阈值判断为不召回。64.具体地，在对文字序列所形成的搜索图进行维特比解码，获得维特比路径上的置信度时，可以从文字序列中第一个文字开始向右或向下进行维特比解码，从而获得维特比路径；获取维特比路径上各个文字对应的后验概率，将各文字对应的后验概率相乘获得维特比路径的置信度。如图4b所示，以获取的文字序列为“打开xyxy”为例，则维特比路径为a1‑a2‑a3‑a4‑a5，由于“打开”两个字为other的概率较高分别为p1、p2；第三字为x的概率为p3、第四个字为y的概率为p4、第五个字为x的概率为p5、第六个字为y的概率为p6，则维特比路径的置信度p＝p1*p2*p3*p4*p5*p6。65.s204：在第i次滑窗内出现唤醒词的置信度大于等于第一预设置信度阈值时，对设备进行唤醒。66.上述两个解码操作并行执行互不影响，由于滑窗解码的速度远高于维特比解码的速度，则优先利用滑窗解码操作所获得置信度判断是否唤醒设备。如果在某一次滑窗内出现唤醒词的置信度大于等于第一预设置信度阈值，表明待处理语音信号中包括唤醒词，则对设备进行唤醒，同时执行s105，则不再进行解码操作，减少计算量。其中，i为大于等于1且小于等于n，n为滑窗滑动总次数，n＝m‑l 1，l为唤醒词的长度。例如，文字序列的长度为10、唤醒词的长度为4，则滑动次数为7。假设第3次滑窗的置信度大于等于第一预设置信度阈值，则唤醒设备，否则继续滑窗，直至滑动n次滑窗。67.s205：终止滑窗解码操作以及维特比解码操作。68.s206：在n次滑窗内出现唤醒词的置信度均小于第一预设置信度阈值且维特比路径上的置信度大于等于第二预设置信度阈值时，对设备进行唤醒。69.在本实施例中，由于滑窗解码的速度高于维特比解码的速度，当滑窗解码完成之后还未唤醒设备时，则继续执行维特比解码操作，在维特比解码操作完成之后，获得维特比路径上的置信度。当维特比路径上的置信度大于等于第二预设置信度阈值时，则对设备进行唤醒。其中，第二预设置信度小于第一预设置信度，即维特比解码操作可以识别出被滑窗解码操作排除的低置信度的正样本。70.可见，通过本技术实施例提供的解码方法，当无法通过滑窗解码操作对设备唤醒时，还可以利用维特比解码操作进一步进行唤醒判断，不仅不会影响高置信度的解码速度，还可以提高低置信度的正样本(未被滑窗解码操作识别的样本)的唤醒率。71.基于上述方法实施例，本技术实施例提供了一种语音唤醒装置，下面将结合附图进行说明。72.参见图5，该图为本技术实施例提供的一种语音唤醒装置结构图，如图5所示，该装置可以包括：73.获取单元501，用于获取待处理语音信号，并从所述待处理语音信号中提取文字序列；74.确定单元502，用于以唤醒词的长度在所述文字序列所形成的解码图上进行滑窗，确定每次滑窗内出现所述唤醒词的置信度，所述唤醒词用于唤醒设备；75.唤醒单元503，用于在滑窗内出现所述唤醒词的置信度满足第一预设条件时，对所述设备进行唤醒；76.终止单元504，用于终止滑窗操作以及维特比解码操作，所述维特比解码用于根据所述唤醒词对所述文字序列进行解码。77.在一种可能的实现方式中，所述唤醒单元503，具体用于在第i次滑窗内出现所述唤醒词的置信度大于等于第一预设置信度阈值时，对所述设备进行唤醒，所述i为大于等于1且小于等于n的正整数，所述n为滑动次数。78.在一种可能的实现方式中，所述获取单元501，还用于在n次滑窗内出现所述唤醒词的置信度均未满足第一预设条件时，继续对所述文字序列所形成的搜索图进行维特比解码，获得维特比路径上的置信度，所述n为滑动次数；79.所述唤醒单元503，还用于在所述维特比路径上的置信度满足第二预设条件时，对所述设备进行唤醒。80.在一种可能的实现方式中，所述第一预设条件为所述唤醒词的置信度大于等于第一预设置信度阈值；所述第二预设条件为所述维特比路径上的置信度大于等于第二预设置信度阈值，所述第二预设置信度阈值小于所述第一预设置信度阈值。81.在一种可能的实现方式中，所述获取单元501，具体用于从所述文字序列中第一个文字开始向右或向下进行维特比解码，获得维特比路径；获取所述维特比路径上各个文字对应的后验概率，将所述各个文字对应的后验概率相乘获得所述维特比路径的置信度。82.在一种可能的实现方式中，所述搜索图为n*m的矩阵，所述n为所述唤醒词中所包括的文字的总数加1，所述m为所述文字序列所包括的文字总数。83.在一种可能的实现方式中，所述搜索图的第一行对应非唤醒词，所述搜索图的第二行到第n行分别对应所述唤醒词中的一个文字。84.在一种可能的实现方式中，所述解码图为m*k的矩阵，所述k为词表的长度。85.在一种可能的实现方式中，所述确定单元502，具体用于针对任一次滑窗操作，获取滑窗内各个文字对应的后验概率，将所述各个文字对应的后验概率相乘获得每次滑窗内出现所述唤醒词的置信度。86.在一种可能的实现方式中，所述获取单元501，具体用于从所述待处理语音信号中获取待处理语音特征，并对所述待处理语音特征进行编码获得声学编码表示；根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列。87.需要说明的是，本实施例中各个单元的实现可以参见图1或图2所述方法实施例中相关描述，本实施例在此不再赘述。88.下面参考图6，其示出了适于用来实现本技术实施例的电子设备1300的结构示意图。本技术实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(personaldigitalassistant，个人数字助理)、pad(portableandroiddevice，平板电脑)、pmp(portablemediaplayer，便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv(television，电视机)、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。89.如图6所示，电子设备1300可以包括处理装置(例如中央处理器、图形处理器等)1301，其可以根据存储在只读存储器(rom)1302中的程序或者从存储装置1306加载到随机访问存储器(ram)1303中的程序而执行各种适当的动作和处理。在ram1303中，还存储有电子设备1300操作所需的各种程序和数据。处理装置1301、rom1302以及ram1303通过总线1304彼此相连。输入/输出(i/o)接口1305也连接至总线1304。90.通常，以下装置可以连接至i/o接口1305：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1306；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置1307；包括例如磁带、硬盘等的存储装置1306；以及通信装置1309。通信装置1309可以允许电子设备1300与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备1300，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。91.特别地，根据本技术的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1309从网络上被下载和安装，或者从存储装置1306被安装，或者从rom1302被安装。在该计算机程序被处理装置1301执行时，执行本技术实施例的方法中限定的上述功能。92.本技术实施例提供的电子设备与上述实施例提供的图像修复模型的训练方法和图像修复方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。93.本技术实施例提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述任一实施例所述的语音唤醒方法。94.需要说明的是，本技术上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd‑rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。95.在一些实施方式中，客户端、服务器可以利用诸如http(hypertexttransferprotocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，adhoc端对端网络)，以及任何当前已知或未来研发的网络。96.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。97.上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述图像修复模型的训练方法或图像修复方法。98.可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。99.附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。100.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元/模块的名称在某种情况下并不构成对该单元本身的限定，例如，语音数据采集模块还可以被描述为“数据采集模块”。101.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。102.在本技术的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd‑rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。103.根据本公开的一个或多个实施例，提供了一种语音唤醒方法，获取待处理语音信号，并从所述待处理语音信号中提取文字序列；104.以唤醒词的长度在所述文字序列所形成的解码图上进行滑窗解码操作，确定每次滑窗内出现所述唤醒词的置信度，所述唤醒词用于唤醒设备；105.在滑窗内出现所述唤醒词的置信度满足第一预设条件时，对所述设备进行唤醒；106.终止滑窗解码操作以及维特比解码操作，所述维特比解码用于根据所述唤醒词对所述文字序列进行解码。107.根据本公开的一个或多个实施例，所述在滑窗内出现所述唤醒词的置信度满足第一预设条件时，对所述设备进行唤醒，包括：108.在第i次滑窗内出现所述唤醒词的置信度大于等于第一预设置信度阈值时，对所述设备进行唤醒，所述i为大于等于1且小于等于n的正整数，所述n为滑动次数。109.根据本公开的一个或多个实施例，所述方法还包括：110.在n次滑窗内出现所述唤醒词的置信度均未满足第一预设条件时，继续对所述文字序列所形成的搜索图进行维特比解码，获得维特比路径上的置信度，所述n为滑动次数；111.在所述维特比路径上的置信度满足第二预设条件时，对所述设备进行唤醒。112.根据本公开的一个或多个实施例，所述第一预设条件为所述唤醒词的置信度大于等于第一预设置信度阈值；所述第二预设条件为所述维特比路径上的置信度大于等于第二预设置信度阈值，所述第二预设置信度阈值小于所述第一预设置信度阈值。113.根据本公开的一个或多个实施例，所述对所述文字序列所形成的搜索图进行维特比解码，获得维特比路径上的置信度，包括：114.从所述文字序列中第一个文字开始向右或向下进行维特比解码，获得维特比路径；115.获取所述维特比路径上各个文字对应的后验概率，将所述各个文字对应的后验概率相乘获得所述维特比路径的置信度。116.根据本公开的一个或多个实施例，所述搜索图为n*m的矩阵，所述n为所述唤醒词中所包括的文字的总数加1，所述m为所述文字序列所包括的文字总数。117.根据本公开的一个或多个实施例，所述搜索图的第一行对应非唤醒词，所述搜索图的第二行到第n行分别对应所述唤醒词中的一个文字。118.根据本公开的一个或多个实施例，所述解码图为m*k的矩阵，所述k为词表的长度。119.根据本公开的一个或多个实施例，所述以唤醒词的长度在所述文字序列所形成的解码图上进行滑窗，确定每次滑窗内出现所述唤醒词的置信度，包括：120.针对任一次滑窗操作，获取滑窗内各个文字对应的后验概率，将所述各个文字对应的后验概率相乘获得每次滑窗内出现所述唤醒词的置信度。121.根据本公开的一个或多个实施例，所述从所述待处理语音信号中提取文字序列，包括：122.从所述待处理语音信号中获取待处理语音特征，并对所述待处理语音特征进行编码获得声学编码表示；123.根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列。124.根据本公开的一个或多个实施例，提供了一种语音唤醒装置，所述装置包括：125.获取单元，用于获取待处理语音信号，并从所述待处理语音信号中提取文字序列；126.确定单元，用于以唤醒词的长度在所述文字序列所形成的解码图上进行滑窗，确定每次滑窗内出现所述唤醒词的置信度，所述唤醒词用于唤醒设备；127.唤醒单元，用于在滑窗内出现所述唤醒词的置信度满足第一预设条件时，对所述设备进行唤醒；128.终止单元，用于终止滑窗操作以及维特比解码操作，所述维特比解码用于根据所述唤醒词对所述文字序列进行解码。129.根据本公开的一个或多个实施例，所述唤醒单元，具体用于在第i次滑窗内出现所述唤醒词的置信度大于等于第一预设置信度阈值时，对所述设备进行唤醒，所述i为大于等于1且小于等于n的正整数，所述n为滑动次数。130.根据本公开的一个或多个实施例，所述获取单元，还用于在n次滑窗内出现所述唤醒词的置信度均未满足第一预设条件时，继续对所述文字序列所形成的搜索图进行维特比解码，获得维特比路径上的置信度，所述n为滑动次数；131.所述唤醒单元，还用于在所述维特比路径上的置信度满足第二预设条件时，对所述设备进行唤醒。132.根据本公开的一个或多个实施例，所述第一预设条件为所述唤醒词的置信度大于等于第一预设置信度阈值；所述第二预设条件为所述维特比路径上的置信度大于等于第二预设置信度阈值，所述第二预设置信度阈值小于所述第一预设置信度阈值。133.根据本公开的一个或多个实施例，所述获取单元，具体用于从所述文字序列中第一个文字开始向右或向下进行维特比解码，获得维特比路径；获取所述维特比路径上各个文字对应的后验概率，将所述各个文字对应的后验概率相乘获得所述维特比路径的置信度。134.根据本公开的一个或多个实施例，所述搜索图为n*m的矩阵，所述n为所述唤醒词中所包括的文字的总数加1，所述m为所述文字序列所包括的文字总数。135.根据本公开的一个或多个实施例，所述搜索图的第一行对应非唤醒词，所述搜索图的第二行到第n行分别对应所述唤醒词中的一个文字。136.根据本公开的一个或多个实施例，所述解码图为m*k的矩阵，所述k为词表的长度。137.根据本公开的一个或多个实施例，所述确定单元，具体用于针对任一次滑窗操作，获取滑窗内各个文字对应的后验概率，将所述各个文字对应的后验概率相乘获得每次滑窗内出现所述唤醒词的置信度。138.根据本公开的一个或多个实施例，所述获取单元，具体用于从所述待处理语音信号中获取待处理语音特征，并对所述待处理语音特征进行编码获得声学编码表示；根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列。139.需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。140.应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。141.还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。142.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd‑rom、或
技术领域：
：内所公知的任意其它形式的存储介质中。143.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于MVGG-CTC的关键词搜索方法与流程

一种语音唤醒方法、装置及设备与流程

相关文章

最热文献