使用视听匹配对自动语音识别假设进行重新评分的制作方法

2022-07-10 16:21:48 来源：中国专利 TAG：

技术特征：
1.一种方法(400)，包括：在数据处理硬件(510)处接收与用户(10)说出的话语(101)相对应的音频数据(112)；在所述数据处理硬件(510)处接收表示在用户(10)正在说出所述话语(101)时所述用户的嘴唇的移动的视频数据(114)；通过所述数据处理硬件(510)基于所述音频数据(112)获得所述话语(101)的多个候选转录(135)；对于所述话语(101)的多个候选转录(135)中的每个候选转录(135)：通过所述数据处理硬件(510)生成所述对应候选转录(135)的合成语音表示(145)；以及通过所述数据处理硬件(510)确定一致性分数(155)，所述一致性分数(155)指示所述对应候选转录(135)的合成语音表示(145)匹配在所述用户(10)说出所述话语(101)时所述用户的嘴唇的移动的似然性；以及通过所述数据处理硬件(510)基于为所述话语(101)的多个候选转录(135)确定的一致性分数(155)选择所述话语(101)的多个候选转录(135)之一作为语音识别输出(175)。2.根据权利要求1所述的方法(400)，其中，确定所述一致性分数(155)包括：向一致性分数模型(152)提供所述对应候选转录(135)的合成语音表示(145)和表示所述用户的嘴唇的移动的视频数据(114)作为特征输入；以及基于所述对应候选转录(135)的合成语音表示(145)与所述用户(10)的嘴唇的移动相匹配的程度，从所述一致性分数模型(152)确定所述一致性分数(155)作为特征输出。3.根据权利要求2所述的方法(400)，其中，所述一致性分数模型(152)在多个训练示例(302)上进行训练，所述多个训练示例(302)包括：正训练示例(302a)，包括表示语音的话语的音频数据(112t)和表示与所述语音的话语相匹配的说话者嘴唇的移动的视频数据(114t)；以及负训练示例(302b)，包括表示语音话语的音频数据(112t)和表示与语音的话语(101)不匹配的说话者嘴唇的移动的视频数据(114t)。4.根据权利要求1-3中任一项所述的方法(400)，其中，选择所述话语(101)的多个候选转录(135)之一作为所述语音识别输出(175)包括：从所述话语(101)的多个候选转录(135)中选择与最高一致性分数(155)相关联的候选转录(135)作为所述话语(101)的语音识别输出(175)。5.根据权利要求1-4中任一项所述的方法(400)，其中，获得所述话语(101)的多个候选转录(135)包括：使用语音识别器模块(130)基于所述音频数据(112)生成所述话语(101)的候选转录(135)的初始集合，候选转录(135)的初始集合中的每个候选转录(135)与指示所述候选转录(135)正确的似然性的对应似然性分数相关联；基于所述似然性分数对候选转录(135)的初始集合中的候选转录(135)进行排名；以及将所述话语(101)的多个候选转录(135)确定为与最高似然性分数相关联的候选转录(135)的初始集合中的n个候选转录(135)，所识别的多个候选根据所述相关联的似然性分数被排名。6.根据权利要求5所述的方法(400)，还包括：在选择所述话语(101)的多个转录之一之
前，由所述数据处理硬件(510)基于为所述话语(101)的多个候选转录(135)确定的一致性分数(155)来重新排名所述话语(101)的多个候选转录(135)。7.根据权利要求1-6中任一项所述的方法(400)，其中，获得所述话语(101)的多个候选转录(135)包括：使用语音识别器模块(130)基于所述音频数据(112)生成所述话语(101)的候选转录(135)的初始集合，候选转录(135)的初始集合中的每个候选转录(135)与指示所述候选转录(135)正确的似然性的对应似然性分数相关联；在候选转录(135)的初始集合中识别与满足似然阈值的似然性分数相关联的两个或多个候选转录(135)；以及将所述话语(101)的多个候选转录(135)确定为与满足所述似然阈值的似然性分数相关联的在候选转录(135)的初始集合中的所识别的两个或多个候选转录(135)。8.根据权利要求1-7中任一项所述的方法(400)，其中，所述话语(101)的多个候选转录(135)中的每一个与相同的语言相关联。9.根据权利要求1-8中任一项所述的方法(400)，其中，所述话语(101)的多个候选转录(135)中的至少一个与不同于其他多个候选转录(135)的语言相关联。10.根据权利要求1-9中任一项所述的方法(400)，其中，接收与所述用户(10)说出的话语(101)相对应的音频数据(112)包括从与所述用户(10)相关联的客户端设备(110)接收所述音频数据(112)，所述客户端设备(110)与一个或多个音频捕获设备(103)通信，所述音频捕获设备(103)被配置为捕获对应于所述话语(101)的音频数据(112)。11.根据权利要求10所述的方法(400)，其中，所述数据处理硬件(510)驻留在所述客户端设备(110)上。12.根据权利要求10或11所述的方法(400)，其中，所述客户端设备(110)远离所述数据处理硬件(510)并且经由网络(118)与所述数据处理硬件(510)通信。13.根据权利要求10-12中任一项所述的方法(400)，其中，接收表示在所述用户(10)正在说出所述话语(101)时所述用户的嘴唇的移动的视频数据(114)包括：从与所述用户(10)相关联的客户端设备(110)接收所述视频数据(114)，所述客户端设备(110)包括一个或多个视频捕获设备(105)，所述视频捕获设备(105)被配置为记录表示在所述用户(10)正在说出所述话语(101)时的用户的嘴唇的移动的视频数据(114)。14.一种系统(100)，包括：数据处理硬件(510)；以及与所述数据处理硬件(510)通信的存储器硬件(520)，所述存储器硬件(520)存储指令，所述指令当在所述数据处理硬件(510)上被执行时使所述数据处理硬件(510)执行包括以下部分的操作：接收与用户(10)说出的话语(101)相对应的音频数据(112)；接收表示在所述用户(10)正在说出所述话语(101)时所述用户的嘴唇的移动的视频数据(114)；基于所述音频数据(112)获得所述话语(101)的多个候选转录(135)；对于所述话语(101)的多个候选转录(135)中的每个候选转录(135)：生成所述对应候选转录(135)的合成语音表示(145)；以及
确定一致性分数(155)，所述一致性分数(155)指示所述对应候选转录(135)的合成语音表示(145)匹配在所述用户(10)说出所述话语(101)时所述用户的嘴唇的移动的似然性；以及基于为所述话语(101)的多个候选转录(135)确定的一致性分数(155)，选择所述话语(101)的多个候选转录(135)之一作为语音识别输出(175)。15.根据权利要求14所述的系统(100)，其中，确定所述一致性分数(155)包括：向一致性分数模型(152)提供所述对应候选转录(135)的合成语音表示(145)和表示所述用户的嘴唇的移动的视频数据(114)作为特征输入；以及基于所述对应候选转录(135)的合成语音表示(145)与所述用户的嘴唇的移动相匹配的程度，从所述一致性分数模型(152)确定所述一致性分数(155)作为特征输出。16.根据权利要求15所述的系统(100)，其中，所述一致性分数模型(152)在多个训练示例(302)上进行训练，所述多个训练示例(302)包括：正训练示例(302a)，包括表示语音的话语的音频数据(112t)和表示与所述语音的话语相匹配的说话者嘴唇的移动的视频数据(114t)；以及负训练示例(302b)，包括表示语音话语的音频数据(112t)和表示与语音的话语不匹配的说话者的嘴唇的移动的视频数据(114t)。17.根据权利要求14-16中任一项所述的系统(100)，其中，选择所述话语(101)的多个候选转录(135)之一作为所述语音识别输出(175)包括：从所述话语(101)的多个候选转录(135)选择与最高一致性分数(155)相关的候选转录(135)作为所述话语(101)的语音识别输出(175)。18.根据权利要求14-17中任一项所述的系统(100)，其中，获得所述话语(101)的多个候选转录(135)包括：使用语音识别器模块(130)基于所述音频数据(112)生成所述话语(101)的候选转录(135)的初始集合，候选转录(135)的初始集合中的每个候选转录(135)与指示所述候选转录(135)正确的似然性的对应似然性分数相关联；基于所述似然性分数对候选转录(135)的初始集合中的候选转录(135)进行排名；以及将所述话语(101)的多个候选转录(135)确定为与最高似然性分数相关联的候选转录(135)的初始集合中的n个候选转录(135)，所识别的多个候选根据所述相关联的似然性分数被排名。19.根据权利要求18所述的系统(100)，其中，所述操作还包括，在选择所述话语(101)的多个转录之一之前，基于对所述话语(101)的多个候选转录(135)确定的一致性分数(155)来重新排名所述话语(101)的多个候选转录(135)。20.根据权利要求14-19中任一项所述的系统(100)，其中，获得所述话语(101)的多个候选转录(135)包括：使用语音识别器模块(130)基于所述音频数据(112)生成所述话语(101)的候选转录(135)的初始集合，候选转录(135)的初始集合中的每个候选转录(135)与指示所述候选转录(135)正确的似然性的对应似然性分数相关联；在候选转录(135)的初始集合中识别与满足似然阈值的似然性分数相关联的两个或多个候选转录(135)；以及
将所述话语(101)的多个候选转录(135)确定为与满足所述似然阈值的似然性分数相关联的在候选转录(135)的初始集合中的所识别的两个或多个候选转录(135)。21.根据权利要求14-20中任一项所述的系统(100)，其中，所述话语(101)的多个候选转录(135)中的每一个与相同的语言相关联。22.根据权利要求14-21中任一项所述的系统(100)，其中，所述话语(101)的多个候选转录(135)中的至少一个与不同于其他多个候选转录(135)的语言相关联。23.根据权利要求14-22中任一项所述的系统(100)，其中，接收与所述用户(10)说出的话语(101)相对应的音频数据(112)包括：从与所述用户(10)相关联的客户端设备(110)接收所述音频数据(112)，所述客户端设备(110)与一个或多个音频捕获设备(103)通信，所述音频捕获设备(103)被配置为捕获对应于所述话语(101)的音频数据(112)。24.根据权利要求23所述的系统(100)，其中，所述数据处理硬件(510)驻留在所述客户端设备(110)上。25.根据权利要求23或24所述的系统(100)，其中，所述客户端设备(110)远离所述数据处理硬件(510)并且经由网络(118)与所述数据处理硬件(510)通信。26.根据权利要求23-25中任一项所述的系统(100)，其中，接收表示在所述用户(10)正在说出所述话语(101)时的所述用户的嘴唇的移动的视频数据(114)包括：从与所述用户(10)相关联的客户端设备(110)接收所述视频数据(114)，所述客户端设备(110)包括一个或多个视频捕获设备(103)，所述视频捕获设备(103)被配置为记录表示在所述用户(10)正在说出所述话语(101)时的用户的嘴唇的移动的视频数据(114)。

技术总结
一种方法(400)包括：接收与用户(10)说出的话语(101)相对应的音频数据(112)；接收表示在用户说出话语时用户嘴唇的移动的视频数据(114)；以及，基于音频数据获得话语的多个候选转录(135)。对于多个候选转录的每个候选转录，该方法还包括：生成对应候选转录的合成语音表示(145)；且确定指示合成语音表示与在用户说出话语时的用户嘴唇的移动相匹配的似然性的一致性分数(155)。该方法还包括：基于为话语的多个候选转录确定的一致性分数来选择话语的多个候选转录之一作为语音识别输出(175)。多个候选转录之一作为语音识别输出(175)。多个候选转录之一作为语音识别输出(175)。

技术研发人员：奥利维尔
受保护的技术使用者：谷歌有限责任公司
技术研发日：2019.11.18
技术公布日：2022/7/9

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

使用视听匹配对自动语音识别假设进行重新评分的制作方法

相关文献

最热文献