技术特征:
1.一种计算机实现的方法,包括:
由计算设备接收话语的音频数据;
由所述计算设备使用(i)神经网络或(ii)声学模型和语言模型来生成字词网格,所述字词网格包括所述话语的多个候选转录并且包括转录置信分值,每个所述转录置信分值反映相应候选转录是所述话语的匹配的似然率;
由所述计算设备确定所述计算设备的场境;
基于所述计算设备的所述场境,由所述计算设备标识与所述多个候选转录相对应的语法;
基于当前场境,由所述计算设备针对所述多个候选转录中的每个候选转录来确定语法置信分值,所述语法置信分值反映相应语法是相应候选转录的匹配的似然率;
基于所述转录置信分值和所述语法置信分值,由所述计算设备从所述候选转录中选择候选转录;以及
由所述计算设备提供所选候选转录作为所述话语的转录,以用于输出。
2.根据权利要求1所述的方法,包括:
确定所述语法中的两个或更多个语法与所述候选转录中的一个候选转录相对应;以及
基于确定所述语法中的两个或更多个语法与所述候选转录中的一个候选转录相对应,针对所述两个或更多个语法来调整所述语法置信分值,
其中,所述计算设备基于所述转录置信分值和经调整的语法置信分值从所述候选转录中选择候选转录。
3.根据权利要求2所述的方法,其中,针对所述两个或更多个语法来调整所述语法置信分值包括:
针对所述两个或更多个语法中的每个语法将每个所述语法置信分值增加一个因数。
4.根据权利要求2所述的方法,包括:
针对所述候选转录中的每个候选转录,确定相应转录置信分值与相应语法置信分值的乘积,
其中,所述计算设备基于所述转录置信分值与相应语法置信分值的乘积从所述候选转录中选择候选转录。
5.根据权利要求1所述的方法,其中,由所述计算设备确定所述计算设备的所述场境是基于所述计算设备的位置、所述计算设备的在前台中运行的应用以及当日的时间。
6.根据权利要求1所述的方法,其中:
所述语言模型被配置成标识所述字词网格中所包括的词语序列的概率,以及
所述声学模型被配置成标识与所述音频数据的一部分相匹配的音素。
7.根据权利要求1所述的方法,包括:
由所述计算设备执行基于所选候选转录和与所选候选转录相匹配的语法的动作。
8.一种系统,包括:
一个或多个计算机;以及
存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行操作,所述操作包括:
由计算设备接收话语的音频数据;
由所述计算设备使用(i)神经网络或(ii)声学模型和语言模型来生成字词网格,所述字词网格包括所述话语的多个候选转录并且包括转录置信分值,每个所述转录置信分值反映相应候选转录是所述话语的匹配的似然率;
由所述计算设备确定所述计算设备的场境;
基于所述计算设备的所述场境,由所述计算设备标识与所述多个候选转录相对应的语法;
基于当前场境,由所述计算设备针对所述多个候选转录中的每个候选转录来确定语法置信分值,所述语法置信分值反映相应语法是相应候选转录的匹配的似然率;
基于所述转录置信分值和所述语法置信分值,由所述计算设备从所述候选转录中选择候选转录;以及
由所述计算设备提供所选候选转录作为所述话语的转录,以用于输出。
9.根据权利要求8所述的系统,其中,所述操作包括:
确定所述语法中的两个或更多个语法与所述候选转录中的一个候选转录相对应;以及
基于确定所述语法中的两个或更多个语法与所述候选转录中的一个候选转录相对应,针对所述两个或更多个语法来调整所述语法置信分值,
其中,所述计算设备基于所述转录置信分值和经调整的语法置信分值从所述候选转录中选择候选转录。
10.根据权利要求9所述的系统,其中,针对所述两个或更多个语法来调整所述语法置信分值包括:
针对所述两个或更多个语法中的每个语法将每个所述语法置信分值增加一个因数。
11.根据权利要求9所述的系统,其中,所述操作包括:
针对所述候选转录中的每个候选转录,确定相应转录置信分值与相应语法置信分值的乘积,
其中,所述计算设备基于所述转录置信分值与相应语法置信分值的乘积从所述候选转录中选择候选转录。
12.根据权利要求8所述的系统,其中,由所述计算设备确定所述计算设备的所述场境是基于所述计算设备的位置、所述计算设备的在前台中运行的应用以及当日的时间。
13.根据权利要求8所述的系统,其中,所述操作包括:
所述语言模型被配置成标识所述字词网格中所包括的词语序列的概率,以及
所述声学模型被配置成标识与所述音频数据的一部分相匹配的音素。
14.根据权利要求8所述的系统,其中,所述操作包括:
由所述计算设备执行基于所选候选转录和与所选候选转录相匹配的语法的动作。
15.一种存储软件的非暂时性计算机可读介质,所述软件包括可由一个或多个计算机执行的指令,所述指令在这样的执行后使所述一个或多个计算机执行操作,所述操作包括:
由计算设备接收话语的音频数据;
由所述计算设备使用(i)神经网络或(ii)声学模型和语言模型来生成字词网格,所述字词网格包括所述话语的多个候选转录并且包括转录置信分值,每个所述转录置信分值反映相应候选转录是所述话语的匹配的似然率;
由所述计算设备确定所述计算设备的场境;
基于所述计算设备的所述场境,由所述计算设备标识与所述多个候选转录相对应的语法;
基于当前场境,由所述计算设备针对所述多个候选转录中的每个候选转录来确定语法置信分值,所述语法置信分值反映相应语法是相应候选转录的匹配的似然率;
基于所述转录置信分值和所述语法置信分值,由所述计算设备从所述候选转录中选择候选转录;以及
由所述计算设备提供所选候选转录作为所述话语的转录,以用于输出。
16.根据权利要求15所述的介质,其中,所述操作包括:
确定所述语法中的两个或更多个语法与所述候选转录中的一个候选转录相对应;以及
基于确定所述语法中的两个或更多个语法与所述候选转录中的一个候选转录相对应,针对所述两个或更多个语法来调整所述语法置信分值,
其中,所述计算设备基于所述转录置信分值和经调整的语法置信分值从所述候选转录中选择候选转录。
17.根据权利要求15所述的介质,其中,所述操作包括:
针对所述候选转录中的每个候选转录,确定相应转录置信分值与相应语法置信分值的乘积,
其中,所述计算设备基于所述转录置信分值与相应语法置信分值的乘积从所述候选转录中选择候选转录。
18.根据权利要求15所述的介质,其中,由所述计算设备确定所述计算设备的所述场境是基于所述计算设备的位置、所述计算设备的在前台中运行的应用以及当日的时间。
19.根据权利要求15所述的介质,其中,所述操作包括:
所述语言模型被配置成标识所述字词网格中所包括的词语序列的概率,以及
所述声学模型被配置成标识与所述音频数据的一部分相匹配的音素。
20.根据权利要求15所述的介质,其中,所述操作包括:
由所述计算设备执行基于所选候选转录和与所选候选转录相匹配的语法的动作。
技术总结
本发明公开的方法、系统和装置包括编码在计算机存储介质上的计算机程序,用于实施场境语法选择。一方面,方法包括接收话语的音频数据的动作。所述动作进一步包括生成字词网格,该字词网格包括话语的多个候选转录并且包括转录置信分值。所述动作进一步包括确定计算设备的场境。所述动作进一步包括基于计算设备的场境来标识与多个候选转录相对应的语法。所述动作进一步包括针对多个候选转录中的每个来候选转录来确定语法置信分值,所述语法置信分值反映相应语法是相应候选转录的匹配的似然率;所述动作进一步包括从候选转录当中选择候选转录。所述动作进一步包括提供所选候选转录作为话语的转录,以用于输出。
技术研发人员:彼塔尔·阿列克西克;佩德罗·J·莫雷诺·门吉巴尔;列昂尼德·韦利科维奇
受保护的技术使用者:谷歌有限责任公司
技术研发日:2019.11.27
技术公布日:2021.07.23
本文用于企业家、创业者技术爱好者查询,结果仅供参考。