技术特征:
1.一种用于在自动语音识别(asr)系统中学习词汇表外的(oov)词的方法,所述方法包括:
使用原声词嵌入递归神经网络(awernn)来接收所述asr系统的新oov词的特征序列,所述rnn提供原声词嵌入(awe)向量作为其输出;
将从所述awernn输出的所述awe向量作为输入提供给被训练为从所述awe向量提供oov词权重值的原声词嵌入到原声到词的神经网络(awe→a2wnn);以及
将所述oov词权重插入到所述asr系统的用来从语音原声特征的输入输出识别出的词的原声到词(a2w)词嵌入的列表中,其中将所述oov词权重相对于所述a2w词嵌入列表中的现有权重插入到所述a2w词嵌入列表中。
2.如权利要求1所述的方法,其中,使用词汇表内的(iv)词的特征序列初始地训练所述awernn为整体子网络,
其中,所述初始训练进一步包括原声嵌入递归神经网络(aernn),所述原声嵌入递归神经网络接收与在训练期间使用的iv词的每个特征序列相对应的原声序列,
其中,所述awernn和aernn的输出被传递到对比的损失函数中,并且
其中,使用反向传播算法训练所述awernn和awe→a2wnn以训练所述awernn的权重、所述aernn的权重、以及所述awe→a2wnn的权重以使所述对比的损失函数最小化。
3.如权利要求2所述的方法,其中,在所述整个子网络的所述初始训练之后,所述aernn不用于所述asr系统的正常操作,并且仅所述awernn用于oov词到所述asr系统的后续引入。
4.如权利要求1所述的方法,其中,所述asr系统进一步包括原声到词的递归神经网络(a2wrnn),所述原声到词的递归神经网络接收语音原声特征作为其中的输入,并且使用点积将所述a2wrnn的输出与所述a2w词嵌入列表的嵌入进行比较,并且
其中,在所述asr系统的正常操作模式期间,所识别的词语由所述asr系统响应于来自到所述asr系统中的原声输入的语音原声特征而输出,来自a2w单词嵌入列表的具有最高比较结果的单词被提供作为asr系统的输出,作为用于输入语音原声特征的识别词。
5.如权利要求4所述的方法,其中,使用词汇表内的(iv)词来训练包括a2wrnn的整个子网络,其中,将iv词的语音原声特征与所述iv词对应的词序列提供到损失函数中,并且其中,反向传播算法更新a2wrnn的权重,以使所述损失函数最小化并且提供a2w词嵌入列表。
6.如权利要求1所述的方法,在云服务中实现。
7.一种用于自动语音识别(asr)的方法,所述方法包括:
接收词汇表外的(oov)词的特征序列,其进入到asr系统的原声词嵌入递归神经网络(awernn)中,作为接收所述asr系统的新oov词的特征序列的机制,所述awernn提供原声词嵌入(awe)向量作为其输出;
将从所述awernn输出的所述awe向量作为输入提供给被训练为从所述awe向量提供oov词权重值的原声词嵌入到原声到词的神经网络(awe→a2wnn);以及
将所述oov词权重插入到所述asr系统用来从语音原声特征的输入输出识别的词的原声到词的(a2w)词嵌入列表中,其中将所述oov词权重相对于所述a2w词嵌入列表中的现有权重插入到所述a2w词嵌入列表中。
8.如权利要求7所述的方法,其中,使用词汇表内的(iv)词的特征序初始地训练所述awernn为整体子网络,
其中,所述初始训练进一步包括原声嵌入递归神经网络(aernn),所述原声嵌入递归神经网络接收与在训练期间使用的iv词的每个特征序列相对应的原声序列,
其中,所述awernn和aernn的输出被传递到对比的损失函数中,并且
其中,使用反向传播算法训练所述awernn和awe→a2wnn以训练所述awernn的权重、所述aernn的权重、以及所述awe→a2wnn的权重以使所述对比的损失函数最小化。
9.如权利要求8所述的方法,其中,在所述整个子网络的所述初始训练之后,所述aernn不用于所述asr系统的正常操作,并且仅所述awernn用于oov词到所述asr系统中的后续引入。
10.如权利要求7所述的方法,其中,所述asr系统进一步包括原声到词递归神经网络(a2wrnn),所述原声到词递归神经网络接收语音原声特征作为其中的输入,并且使用点积将所述a2wrnn的输出与所述a2w词嵌入列表的嵌入进行比较,并且
其中,在所述asr系统的正常操作模式期间,所识别的词语由所述asr系统响应于来自到所述asr系统中的原声输入的语音原声特征而输出,来自a2w单词嵌入列表的具有最高比较结果的单词被提供作为asr系统的输出,作为用于输入语音原声特征的识别词。
11.如权利要求10所述的方法,其中,使用词汇表内的(iv)词来训练包括a2wrnn的整个子网络,其中,将iv词的语音原声特征与所述iv词对应的词序列提供到损失函数中,并且其中,反向传播算法更新a2wrnn的权重,以使所述损失函数最小化并且以提供a2w词嵌入列表。
12.如权利要求7所述的方法,在云服务中实现。
13.一种用于自动语音识别(asr)的方法,所述方法包括:
初始训练包括原声到词递归神经网络(a2wrnn)的整个子网络,所述a2wrnn接收用于所述初始训练的词汇表内的(iv)词,所述初始训练使用iv词导致存储在执行所述asr处理的asr系统的存储器中的原声到词的(a2w)词嵌入列表;
作为接收用于所述asr系统的新oov词的特征序列的机制,接收词汇表外的(oov)词作为原声词嵌入递归神经网络(awernn)中的特征序列,所述awernn提供原声词嵌入(awe)向量作为其输出;
将从所述awernn输出的所述awe向量作为输入提供给被训练为从所述awe向量提供oov词权重值的原声词嵌入到原声到词神经网络(awe→a2wnn);以及
将所述oov词权重插入到所述asr系统用来从语音原声特征的输入输出所识别的词的原声到词(a2w)词嵌入列表中,其中将所述oov词权重相对于所述a2w词嵌入列表中的现有权重插入到所述a2w词嵌入列表中。
14.如权利要求13所述的方法,其中,使用词汇表内的(iv)词的特征序列初始地训练所述awernn为整体子网络,
其中,所述初始训练进一步包括原声嵌入递归神经网络(aernn),所述原声嵌入递归神经网络接收与在训练期间使用的iv词的每个特征序列相对应的原声序列,
其中,所述awernn和aernn的输出被传递到对比的损失函数中,并且
其中,使用反向传播算法训练所述awernn和awe→a2wnn以训练所述awernn的权重、所述aernn的权重、以及所述awe→a2wnn的权重以使所述对比的损失函数最小化。
15.如权利要求14所述的方法,其中,在所述整个子网络的初始训练之后,所述aernn不用于所述asr系统的正常操作,并且仅所述awernn用于oov词到所述asr系统的后续引入。
16.如权利要求13所述的方法,其中,所述asr系统进一步包括原声到词递归神经网络(a2wrnn),所述原声到词递归神经网络接收语音原声特征作为其中的输入,并且使用点积将所述a2wrnn的输出与所述a2w词嵌入列表的嵌入进行比较,并且
其中,在所述asr系统的正常操作模式期间,所识别的词语由所述asr系统响应于来自到所述asr系统中的原声输入的语音原声特征而输出,来自a2w单词嵌入列表的具有最高比较结果的单词被提供作为asr系统的输出,作为用于输入语音原声特征的识别词。
17.如权利要求16所述的方法,其中,使用词汇表内的(iv)词来训练包括a2wrnn的整个子网络,其中,将iv词的语音原声特征与所述iv词对应的词序列提供到损失函数中,并且其中,反向传播算法更新a2wrnn的权重,以使所述损失函数最小化并且以提供a2w词嵌入列表。
18.如权利要求13所述的方法,在云服务中实现。
19.一种用于训练自动语音识别(asr)系统的方法,所述方法包括:
接收用于初始训练所述asr系统的每个词汇表内的(iv)词的原声序列;
同时接收每个iv词对应的词序列;以及
准备所述iv词的原声到词的(a2w)词嵌入的列表,其中所述初始训练使用判别式损失函数,所述判别式损失函数针对所述a2w词嵌入的列表中的每个iv词迫使所述iv词的原声嵌入接近于其在所述列表中的文本嵌入。
20.如权利要求19所述的方法,进一步包括:使用反向传播算法来更新接收所述原声序列的语音原声特征的原声到词的递归神经网络(a2wrnn)的权重,其中,所述权重更新在所述训练期间使所述判别式损失函数最小化。
21.如权利要求20所述的方法,进一步包括:
将iv词的特征序列条目的输入提供到原声词嵌入递归神经网络(awernn)中;
将每个iv词的原声序列提供到原声嵌入递归神经网络(aernn)中;
将所述awernn和所述aernn的输出提供到对比的损失函数中;
使用反向传播算法和对比的损失函数以使用iv词训练awernn的权重和aernn的权重;以及
使用经训练的awernn来接收词汇表外的(oov)词的特征序列作为新的oov词到asr系统中的用户输入以将oov词添加到a2w词嵌入列表。
22.如权利要求21所述的方法,其中,在训练所述awernn的权重之后,不再考虑所述aernn,使得oov词的条目仅考虑所述awernn的输出。
23.如权利要求19所述的方法,进一步包括:
向用户提供输入以输入用于词汇表外的(oov)词的特征序列;
计算所述oov词的awe向量;
从所述awe向量确定所述oov词的权重因子;以及
基于所确定的权重因子将所述oov添加到所述a2w词嵌入列表。
24.一种自动语音识别(asr)系统,包括:
计算机系统中的处理器;以及
该处理器可访问的一个或多个存储器装置,
其中所述一个或多个存储器装置中的所述至少一个存储器装置中的至少一个存储器存储一组机器可读指令以配置所述计算机系统充当所述asr系统,所述asr系统包括:
如由计算机系统上的处理器实施的原声到词递归神经网络(a2wrnn),该a2wrnn被配置为接收待自动识别的词的语音原声特征,该a2wrnn提供输入词的语音原声特征的原声嵌入;以及
原声到词(a2w)的词嵌入列表存储识别词的列表,
其中,所述asr被配置为通过从所述a2w词嵌入列表中选择与用于输入语音原声特征的所述a2wrnn的输出原声嵌入最接近匹配的词来从所述a2w词嵌入列表中选择用于所述asr的输出的词作为识别词,并且
其中,所述asr通过以下被初始训练的:
接收用于初始训练所述asr系统的每个词汇表内的(iv)词的原声序列;
同时接收每个iv词对应的词序列;
准备所述iv词的原声到词(a2w)的词嵌入列表,其中,所述初始训练使用判别式损失函数,对于所述a2w词嵌入列表中的每个iv词,所述判别式损失函数迫使所述iv词的原声嵌入接近其在所述列表中的文本嵌入。
25.如权利要求24所述的asr系统,进一步包括被配置为接收词汇表外的(oov)词的特征序列的原声词嵌入的神经网络(awenn),所述awenn提供来自输入特征序列的awe向量,其允许计算权重,通过该权重可相对于所述列表中的其他词的权重将oov词输入到所述asr的所述a2w词嵌入列表中。
技术总结
一种用于在自动语音识别(ASR)系统中学习词汇表外的(OOV)词的方法(和结构和计算机产品)包括:使用原声词嵌入递归神经网络(AWERNN)来接收所述ASR系统的新OOV词的特征序列,所述RNN提供原声词嵌入(AWE)向量作为其输出。从AWERNN输出的AWE向量被提供作为原声词嵌入到训练的原声到词的神经网络(AWE→A2W NN)的输入,以从所述AWE向量提供OOV词的权重值。将OOV词权重插入到由ASR系统使用的原声到词(A2W)的词嵌入的列表中,以从语音原声特征的输入输出所识别的词,其中OOV词权重相对于A2W词嵌入列表中的现有权重被插入到A2W词嵌入列表中。
技术研发人员:K·奥迪克哈希;S·塞特尔;K·利韦斯库;M·A·皮奇尼
受保护的技术使用者:国际商业机器公司;丰田芝加哥技术研究所
技术研发日:2020.02.03
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。