具有关键词适配的可定制关键词定位系统的制作方法

2022-06-06 00:17:34 来源：中国专利 TAG：

技术特征：
1.一种用于识别语音中的关键词的方法，其包括：检测所述语音中的第一音素；将所述第一音素转换为第一字素；将来自词典的第二字素添加到所述第一字素以呈现扩充字素集；将所述扩充字素集转换为第二音素集；修剪所述第二音素集以呈现输出音素；以及至少部分地基于所述输出音素识别所述关键词。2.如权利要求1所述的方法，其包括使用适用于生成所述语音的人类的至少一个神经网络来执行所述方法。3.如权利要求1所述的方法，其中所述词典包括：基本词，每个基本词与“k”个音素映射相关；翻译词，每个翻译词与“n”个音素映射相关；并且每个基本词与“m”个翻译词相关，其中“k”、“n”和“m”为整数且至少“k”大于1。4.如权利要求1所述的方法，其中所述语音中的所述关键词由用户指示，所述关键词不是在所述语音中被指示之前预定的。5.如权利要求1所述的方法，其包括：指示用户按大于1的预定次数说出所述关键词，并向所述用户指示所述关键词应该至少包含三个音素。6.如权利要求1所述的方法，其中修剪所述第二音素集包括从所述第二音素集中去除重复的音素序列。7.如权利要求1所述的方法，其中修剪所述第二音素集包括如果特定音素序列短于阈值序列长度，则从所述第二音素集中消除音素序列。8.如权利要求1所述的方法，其中修剪所述第二音素集包括如果所述第二音素集中的第一音素序列与由所述第一音素建立的第二音素序列不相似，则从所述第二音素集中消除音素序列。9.如权利要求8所述的方法，其中使用基于jaro winkler归一化距离和基于demerau levenshtein归一化距离的融合距离度量来测量相似性。10.如权利要求9所述的方法，其中所述融合距离度量是使用等式来确定的，其中α是加权参数，其中dl是demerau levenshtein归一化距离，并且其中jw是jaro winkler归一化距离。11.如权利要求1所述的方法，其中修剪所述第二音素集包括基于正样本和负样本的样本匹配来进行修剪，其中来自所述第二音素集的音素序列如果仅与负样本匹配则被消除。12.如权利要求11所述的方法，其中如果匹配样本的加权平均值大于阈值则不从所述第二音素集中消除来自所述第二音素集的与正样本和负样本匹配的音素序列。13.如权利要求1所述的方法，其中使用音素识别器模型执行所述检测，并且其中所述方法包括：在所述修剪之后，基于指示所述第一音素的一个或多个记录来训练所述音素识别器模型。14.如权利要求13所述的方法，其中所述输出音素为第一输出音素，其中所述音素识别
器模型为第一音素识别器模型，其中所述训练从所述第一音素识别器模型呈现第二音素识别器模型，并且其中所述方法包括：在所述训练之后，使用所述第二音素识别器模型来呈现第二输出音素；以及或者将所述第二输出音素添加到所述第一输出音素以尝试基于所述第一和第二输出音素两者来识别所述关键词，或者用所述第二输出音素替换所述第一输出音素以尝试基于所述第二输出音素而不是所述第一输出音素来识别所述关键词。15.一种用于识别语音中的关键词的方法，其包括：基于在第一实例中说出的所述关键词检测所述语音中的第一音素序列；使用所述第一音素序列识别第一字素序列；基于所述第一字素序列从词典中识别至少第二和第三字素序列；将所述第二字素序列转换为至少第二和第三音素序列并将所述第三字素序列转换为至少第四和第五音素序列；以及使用所述第二、第三、第四和第五音素序列中的至少一者识别在第二实例中再次说出的所述关键词，所述第二实例发生在所述第一实例之后。16.如权利要求15所述的方法，其还包括：消除所述第二音素序列；以及使用所述第三、第四和第五音素序列中的至少一者但不使用所述第二音素序列来识别在所述第二实例中再次说出的所述关键词。17.如权利要求15所述的方法，其中所述第一音素序列是使用第一音素识别器模型检测的，其中所述语音中的所述第一音素序列被存储为一个或多个记录，并且其中所述方法包括：使用所述一个或多个记录使所述第一音素识别器模型适用于提供所述语音的人。18.如权利要求17所述的方法，其中所述一个或多个记录用于使所述第一音素识别器模型适用于所述人以呈现第二音素识别器模型，所述第二音素识别器模型用于识别在所述第二实例中说出的所述关键词。19.一种设备，其包括：至少一个处理器；以及至少一个计算机存储设备，所述至少一个计算机存储设备不是瞬时信号并且包括指令，所述指令能够由所述至少一个处理器执行以：使用第一音素识别器模型，基于人说出唤醒词的记录，至少部分地通过将第一音素序列添加到所述第一音素识别器模型可访问的词典中，来向数字助理注册所述唤醒词，所述第一音素序列是从所述记录导出的；使用所述人说出所述唤醒词的所述记录训练所述第一音素识别器模型以呈现第二音素识别器模型；用所述第二音素识别器模型替换所述第一音素识别器模型；基于所述记录但使用所述第二音素识别器模型向所述数字助理再次注册所述唤醒词；以及通过将使用所述第二音素识别器模型从所述记录导出的第二音素序列添加到所述词典中来更新所述词典。
20.如权利要求19所述的设备，其中所述记录是第一记录，其中所述人是第一人，其中所述唤醒词是第一唤醒词，并且其中所述指令能够执行以：使用所述第二音素识别器模型，基于第二人说出第二唤醒词的第二记录，至少部分地通过将第三音素序列添加到所述词典中，向所述数字助理注册所述第二唤醒词，所述第三音素序列是从所述第二记录导出的，所述第二记录不同于所述第一记录，所述第二人不同于所述第一人，所述第二唤醒词不同于所述第一唤醒词；使用所述第二记录训练所述第二音素识别器模型以呈现第三音素识别器模型；用所述第三音素识别器模型替换所述第二音素识别器模型；基于所述第二记录但使用所述第三音素识别器模型向所述数字助理再次注册所述第二唤醒词；以及通过将使用所述第三音素识别器模型从所述第二记录导出的第四音素序列添加到所述词典中来更新所述词典。

技术总结
用户(202)可以指定针对数字助理(12)的唤醒词以触发数字助理对该唤醒词响应，其中该用户提供(204)该唤醒词的一个或多个初始发音。该唤醒词可以是唯一的，或者至少不是由所述数字助理的装置制造商或开发商事先确定的。然后可以用将来可能提供的唤醒词的其他潜在发音来扩充(214)该关键词的一个或多个初始发音，并且可以对那些其他潜在发音向下修剪(214)到阈值数量的其他潜在发音。然后可以使用该唤醒词的一个或多个初始发音的一个或多个记录来训练(218)音素识别器模型，以更好地识别所述用户或另一个人使用所述初始发音或其他潜在发音说出的所述唤醒词的未来实例。发音说出的所述唤醒词的未来实例。发音说出的所述唤醒词的未来实例。

技术研发人员：L.考希克 Z.葛
受保护的技术使用者：索尼互动娱乐股份有限公司
技术研发日：2020.08.26
技术公布日：2022/6/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

具有关键词适配的可定制关键词定位系统的制作方法

相关文献

最热文献