基于注意力的端到端语音识别的大间隔跟踪的制作方法

2022-03-18 12:02:59 来源：中国专利 TAG：

本申请要求于2019年2月14日提交的美国申请第16/276,081号的优先权，其公开内容通过引用整体并入本文。

背景技术

诸如最小字错误率(MWER)训练的最小贝叶斯风险(MBR)训练旨在使输出假设上的预期风险最小化。风险或损失L可以表示如下：

其中，(χ，s)表示训练集D中的样本，χ表示输入特征，s表示其相应的序列标签，s′表示在训练期间生成的输出假设，并且θ表示模型参数。s与s′之间的差表示为l(s′，s)，其为字词或字符级编辑距离。

相应地，评估期间的输出序列可以如下式生成：

其中，表示候选输出序列，并且表示通过MBR解码选择的输出序列。

的搜索空间随着其长度呈指数增长，使得诸如识别输出投票错误减小(ROVER)的MBR解码机制效率低下。尽管基于n佳列表或混淆网络的方法可以提高效率，但是基于最大后验(MAP)的波束搜索解码仍然是实践中最常用的评估方法之一。在MAP解码中，具有最高(对数)后验的输出假设被直接用于评估，如下所示：

MBR训练与MAP解码之间的不匹配指示可能存在具有比MBR训练更好的效率且与MBR训练性能相当的训练方案。

技术实现要素：

根据实施方式，一种基于注意力的端到端(E2E)自动语音识别(ASR)训练的方法包括：基于语音信号的一个或更多个输入特征执行模型的交叉熵训练；执行交叉熵训练被执行的模型的波束搜索，以生成输出假设的n佳假设列表；以及在所生成的n佳假设列表中确定一个最佳假设。该方法还包括：基于对其执行交叉熵训练的模型、和使参考序列与所确定的一个最佳假设之间的距离最大化的损失函数，来确定基于字符的梯度和基于字词的梯度；以及执行所确定的基于字符的梯度和所确定的基于字词的梯度到模型的反向传播，以更新模型。

根据实施方式，一种用于基于注意力的E2E ASR训练的装置，包括：至少一个存储器，其被配置成存储程序代码；以及至少一个处理器，其被配置成读取程序代码并且按照程序代码指示进行操作。程序代码包括：第一执行代码，其被配置成使至少一个处理器基于语音信号的一个或更多个输入特征执行模型的交叉熵训练；第二执行代码，其被配置成使至少一个处理器执行交叉熵训练被执行的模型的波束搜索，以生成输出假设的n佳假设列表；以及第一确定代码，其被配置成使至少一个处理器在所生成的n佳假设列表中确定一个最佳假设。程序代码还包括：第二确定代码和第三确定代码，所述第二确定代码和第三确定代码被配置成使至少一个处理器基于对其执行交叉熵训练的模型、和使参考序列与所确定的一个最佳假设之间的距离最大化的损失函数，来确定基于字符的梯度和基于字词的梯度；以及第三执行代码，其被配置成使至少一个处理器执行所确定的基于字符的梯度和所确定的基于字词的梯度到模型的反向传播，以更新模型。

根据实施方式，一种非暂态计算机可读介质，其存储有指令，该指令在由装置的至少一个处理器执行时使所述至少一个处理器：基于语音信号的一个或更多个输入特征执行模型的交叉熵训练；执行交叉熵训练被执行的模型的波束搜索，以生成输出假设的n佳假设列表；以及在所生成的n佳假设列表中确定一个最佳假设。该指令还使至少一个处理器：基于对其执行交叉熵训练的模型、和使参考序列与所确定的一个最佳假设之间的距离最大化的损失函数，来确定基于字符的梯度和基于字词的梯度；以及执行所确定的基于字符的梯度和所确定的基于字词的梯度到模型的反向传播，以更新模型。

附图说明

图1是根据实施方式的可以实现本文中描述的方法、装置和系统的环境的图。

图2是图1的一个或更多个设备的示例部件的图。

图3是根据实施方式的基于注意力的E2E ASR训练的方法的流程图。

图4是根据实施方式的用于基于注意力的E2E ASR训练的装置的图。

具体实施方式

基于注意力的E2E ASR系统与常规识别系统相比具有简化的训练流水线，但是它们的性能仍然需要改进。许多研究致力于各种训练策略以提高识别正确性。

本文中描述的实施方式包括用于基于注意力的E2E ASR系统的逐序列大间隔训练方案。该训练方案不是使预期损失最小化，而是使间隔最大化。换言之，当最佳假设不是参考时，模型被训练以使最佳假设与参考之间的得分差最大化，从而使模型更具判别性。与基于MBR的MWER标准不同，这种新方法在训练期间只关注每个话语的一个假设，但仍然可以达到可比的性能。当这两种方法都采用字符级编辑距离时，大间隔方法始终优于MWER训练。大间隔训练方案也是大间隔概念的更简洁表述。它保持了原有的模型结构，因此比当前基于支持向量机(SVM)的系统更容易应用。在基准SWB300h数据集上测试新模型。它实现了与MWER训练的结果相同的性能。

详细地说，基于注意力的E2E ASR系统通过编码、注意力和解码三个步骤将输入音频特征映射到文本序列中。最常用的解码器是用逐点交叉熵损失训练的递归网络。近来，诸如基于MBR的MWER的序列判别优化标准已被应用于提高模型性能。MWER在训练期间需要多个假设。因为解码基于常用的MAP评估，所以与MBR相比，基于大间隔的训练标准可能与MAP解码更好地匹配。

大间隔概念通常与SVM融合。通过扩大参考序列与不正确序列之间的间隔，可以使一般化误差的上限最小化。近年来，结构化SVM(SSVM)已经与各种深度神经网络(DNN)相结合用于语音识别任务。在这些模型中，softmax层被SSVM层取代，并且训练过程由两个阶段组成。在第一阶段，对所有训练样本使用切割-平面算法计算SSVM层的权重。然后用反向传播算法更新DNN中的参数。关于诸如电话短信听写的任务，深度神经支持向量机(DNSVM)的序列级实现比相应的序列有区别地训练的DNN显示出更好的性能。本文中描述的方法可以保持原有的深度神经网络结构，因此比DNSVM更容易应用。

在具体实施方式中出现的缩写和术语的定义包括以下：

语音识别系统：能够将语音信号识别和翻译为书面字符/字词的计算机程序。

编码器-解码器：编码器网络将原始输入映射到特征表示并且解码器将特征表示作为输入并产生输出的一种模型架构。

基于注意力的端到端(E2E)模型：具有编码器-解码器架构加上注意力方案的一种模型，该注意力方案使得模型能够在解码期间学习专注于输入序列的特定部分。

大间隔：大间隔或最大间隔是训练模型以使边界示例的距离最大化的学习原理。

支持向量机(SVM)：一种判别训练方法，其采用大间隔原理，学习对新示例进行分类的最优超平面。

最小贝叶斯风险(MBR)：旨在使分类中的预期误差最小化的训练/解码原理。

图1是根据实施方式的可以实现本文中描述的方法、装置和系统的环境100的图。如图1所示，环境100可以包括用户设备110、平台120和网络130。环境100的设备可以经由有线连接、无线连接或有线连接无线连接的组合进行互连。

用户设备110包括能够接收、生成、存储、处理和/或提供与平台120相关联的信息的一个或更多个设备。例如，用户设备110可以包括计算设备(例如，台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如，智能电话、无线电话等)、可穿戴设备(例如，一副智能眼镜或智能手表)或类似设备。在一些实现方式中，用户设备110可以从平台120接收信息并且/或者向平台120发送信息。

平台120包括如本文中其他地方描述的一个或更多个设备。在一些实现方式中，平台120可以包括云服务器或云服务器组。在一些实现方式中，平台120可以被设计成模块化的，使得可以取决于特定需要换入或换出软件部件。这样，可以容易地和/或快速地针对不同用途重新配置平台120。

在一些实现方式中，如所示出的，平台120可以被托管(hosted)在云计算环境122中。值得注意的是，虽然本文中描述的实现方式将平台120描述为托管在云计算环境122中，但是在一些实现方式中，平台120可以不是基于云的(即，可以在云计算环境的外部实现)或者可以是部分基于云的。

云计算环境122包括托管平台120的环境。云计算环境122可以提供计算、软件、数据访问、存储等服务，这些服务不需要终端用户(例如，用户设备110)知道托管平台120的系统和/或设备的物理位置和配置。如所示出的，云计算环境122可以包括一组计算资源124(统称为“计算资源(computing resources)124”并且单独称为“计算资源(computing resource)124”)。

计算资源124包括一个或更多个个人计算机、工作站计算机、服务器设备或其他类型的计算和/或通信设备。在一些实现方式中，计算资源124可以托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传输设备等。在一些实现方式中，计算资源124可以经由有线连接、无线连接或有线连接无线连接的组合与其他计算资源124通信。

如进一步在图1中示出的，计算资源124包括一组云资源，例如一个或更多个应用(“APP”)124-1、一个或更多个虚拟机(“VM”)124-2、虚拟化存储装置(“VS”)124-3、一个或更多个监管器(“HYP”)124-4等。

应用124-1包括可以提供给用户设备110和/或平台120或者由用户设备110和/或平台120访问的一个或更多个软件应用。应用124-1可以消除在用户设备110上安装和执行软件应用的需求。例如，应用124-1可以包括与平台120相关联的软件和/或能够经由云计算环境122提供的任何其他软件。在一些实现方式中，一个应用124-1可以经由虚拟机124-2向一个或更多个其他应用124-1发送信息或者从一个或更多个其他应用124-1接收信息。

虚拟机124-2包括执行程序的机器(例如，计算机)比如物理机的软件实现。虚拟机124-2可以是系统虚拟机，也可以是过程虚拟机，这取决于虚拟机124-2对任何真实机的使用和对应程度。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。过程虚拟机可以执行单个程序，并且可以支持单个过程。在一些实现方式中，虚拟机124-2可以代表用户(例如，用户设备110)执行，并且可以管理云计算环境122的基础架构，例如数据管理、同步或长持续时间数据传送。

虚拟化存储装置124-3包括在计算资源124的存储系统或设备内使用虚拟化技术的一个或更多个存储系统和/或一个或更多个设备。在一些实现方式中，在存储系统的上下文内，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指代逻辑存储与物理存储的提取(或分离)，以使得可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员在管理员管理针对终端用户的存储方面的灵活性。文件虚拟化可以消除在文件级别访问的数据与物理地存储文件的位置之间的依赖性。这可以使得能够优化存储使用、服务器整合和/或无中断文件迁移的性能。

监管器(Hypervisor)124-4可以提供允许多个操作系统(例如，“客户操作系统”)在诸如计算资源124的主计算机上同时执行的硬件虚拟化技术。监管器124-4可以向客户操作系统呈现虚拟操作平台，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。

网络130包括一个或更多个有线和/或无线网络。例如，网络130可以包括蜂窝网络(例如，第五代(fifth generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(Public Land Mobile Network,PLMN)、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、城域网(Metropolitan Area Network,MAN)、电话网络(例如，公共交换电话网络(Public Switched Telephone Network,PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等以及/或者这些或其他类型的网络的组合。

图1所示的设备和网络的数目和布置被作为示例提供。实际上，相比于图1所示的设备和/或网络，可以存在另外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或不同布置的设备和/或网络。此外，图1所示的两个或更多个设备可以在单个设备内实现，或者图1所示的单个设备可以被实现为多个分布式设备。另外地或可替选地，环境100的一组设备(例如，一个或更多个设备)可以执行被描述为由环境100的另一组设备执行的一个或更多个功能。

图2是图1的一个或更多个设备的示例部件的图。设备200可以对应于用户设备110和/或平台120。如图2所示，设备200可以包括总线210、处理器220、存储器230、存储部件240、输入部件250、输出部件260和通信接口270。

总线210包括允许设备200的部件之间的通信的部件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理部件。在一些实现方式中，处理器220包括能够被编程以执行功能的一个或更多个处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)以及/或者存储供处理器220使用的信息和/或指令的另一类型的动态或静态存储设备(例如，闪速存储器、磁存储器和/或光存储器)。

存储部件240存储与设备200的操作和使用相关的信息和/或软件。例如，存储部件240可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、致密盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非易失性计算机可读介质以及相应的驱动器。

输入部件250包括允许设备200例如经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)接收信息的部件。另外地或可替选地，输入部件250可以包括用于感测信息的传感器(例如，全球定位系统(GPS)部件、加速计、陀螺仪和/或致动器)。输出部件260包括提供来自设备200的输出信息的部件(例如，显示器、扬声器和/或一个或更多个发光二极管(LED))。

通信接口270包括使得设备200能够例如经由有线连接、无线连接或有线连接无线连接的组合与其他设备通信的类似收发器的部件(例如，收发器和/或单独的接收器和发送器)。通信接口270可以允许设备200从另一设备接收信息和/或向另一设备提供信息。例如，通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备200可以执行本文中所描述的一个或更多个处理。设备200可以响应于处理器220执行由非易失性计算机可读介质(例如，存储器230和/或存储部件240)存储的软件指令来执行这些处理。计算机可读介质在本文中被限定为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储器空间或分布在多个物理存储设备上的存储器空间。

可以经由通信接口270从另一计算机可读介质或从另一设备将软件指令读入到存储器230和/或存储部件240中。当被执行时，存储在存储器230和/或存储部件240中的软件指令可以使处理器220执行本文中所描述的一个或更多个处理。另外地或可替选地，可以使用硬连线电路来代替软件指令或与软件指令结合以执行本文中所描述的一个或更多个处理。因此，本文中所描述的实现方式不限于硬件电路和软件的任何特定组合。

图2所示的部件的数目和布置被作为示例提供。实际上，相比于图2所示的部件，设备200可以包括另外的部件、更少的部件、不同的部件或不同地布置的部件。另外地或可替选地，设备200的一组部件(例如，一个或更多个部件)可以执行被描述为由设备200的另一组部件执行的一个或更多个功能。

本文描述的实施方式包括基于逐序列损失函数的训练方法。与其他基于序列的训练方法一样，可以在用逐点交叉熵损失训练模型之后应用该训练方法。该训练方法不限于语音识别，而且还可以应用于其他序列到序列任务(sequence-to-sequence task)。

图3是根据实施方式的基于注意力的E2E ASR训练的方法300的流程图。在一些实现方式中，可以由平台120来执行图3的一个或更多个处理框。在一些实现方式中，可以由与平台120分离或包括该平台120的另一设备或一组设备(例如，用户设备110)来执行图3的一个或更多个处理框。

如图3所示，在操作310中，方法300包括基于语音信号的一个或更多个输入特征来执行模型的交叉熵训练。基于正执行的交叉熵训练，方法300包括在操作320至360中执行交叉熵训练被执行的模型的大间隔训练。

大间隔训练是指序列级训练标准，它扩大了参考序列与最具竞争性的不正确序列之间的距离。下面的等式(1)示出了参考序列s到最具竞争性的不正确序列的间隔以及在整个训练数据集D上定义的损失函数L()：

参考下面的等式(2)，阈值控制参考序列与最具竞争性的不正确序列之间的期望距离。为了滤出已经满足阈值约束的样本，应用铰链函数[·] 。损失函数是平方形式的，使得它不仅可以影响符号而且可以影响其梯度的值。

在操作320中，方法包括：执行交叉熵训练被执行的模型的波束搜索，以生成具有例如最高后验的输出假设或序列的n佳假设列表。

在操作330中，方法300包括：在所生成的n佳假设列表中确定一个最佳假设。

与基于隐马尔可夫模型(HMM)的系统不同，基于注意力的E2E ASR系统由于输出分词之间存在显式依赖关系而无法生成完全后验图。后验图的常见近似是n佳假设列表。在n佳假设列表中，选择一个最佳假设作为最具竞争性的不正确假设。因此，损失函数在等式(2)中如下所示，其中，表示一个最佳假设：

在基于注意力的E2E系统中，假设的对数后验可以被解释为得分。因此，上面的等式(2)可以写为下面的等式(3)，其中，score()由序列长度进行非标准化：

在操作340中，方法300包括：基于交叉熵训练被执行的模型和使参考序列与所确定的一个最佳假设之间的距离最大化的损失函数来确定基于字符的梯度。

在操作350中，方法包括：基于交叉熵训练被执行的模型、和使参考序列与所确定的一个最佳假设之间的距离最大化的损失函数，来确定基于字词的梯度。

阈值可以选择为字词和/或字符级编辑距离。下面的等式(4)中的每一个给出了顶层处的梯度，其中，δ(·)是克罗内克德尔塔(指示符)函数，并且由γ 表示：

在的开始正确段上进行重复训练可能使训练过程不稳定且易于过拟合。为了避免训练不稳定和过拟合，可以从中的第一个错误分词开始应用上面等式(4)中的梯度，在等式(5)中如下所示：

通过手动分配关于对数后验的梯度，可以由深度学习平台例如PyTorch和Chainer自动导出其他参数的梯度。

在操作360中，方法包括：执行所确定的基于字符的梯度和所确定的基于字词的梯度到模型的反向传播，以更新模型。方法300返回到操作320以继续大间隔训练。

方法300可以用不同的损失函数来实现。在上述实施方式中，使用基于字符和基于字词的损失函数。当应用于诸如翻译的其他序列学习任务时，损失函数可以基于双语评估替补(BLEU)得分等。即使方法300的目标是使间隔最大化，也可以应用多个边界示例。除了在实施方式中描述的那些之外，还存在各种方式来选择一组假设，其中具有最高后验的假设被波束搜索。最后，关于假设的梯度计算也可能不同。可以使用所有位置中的梯度或仅特殊位置处的梯度。

尽管图3示出了方法300的示例框，但是在一些实现方式中，与图3中描绘的这些框相比，方法300可以包括另外的框、更少的框、不同的框或不同地布置的框。另外地或可替选地，方法300的框中的两个或更多个框可以并行执行。

实施方式在相同的基准数据集上提供与MWER方法的性能相似的性能。实施方式将大间隔原理与深度神经网络学习相结合，这比当前的SVM深度学习结合方法更容易应用。

根据实施方式的模型与基准SWB300h数据集进行比较。设置与MWER中的设置相同，其中输入为40个dim log mel fbank特征，输出为49个字符。E2E框架是以6个双向长短时记忆(BiLSTM)作为编码器以及2个LSTM作为解码器的输入馈送标签附着得分(LAS)。基线交叉熵模型与MWER的模型相同，其用预定采样授权的交叉熵标准进行训练。Adam优化器用于训练，并且初始学习率为7.5*10^-7。丢弃率被选择为0.2，并且小批量的大小为8。对于大间隔训练，除了基于一个最佳假设的大间隔训练之外，还报告了使用多个假设的结果。MWER中的许多假设和多假设大间隔标准是相同的。不使用外部语言模型的结果表示为“w/o LM”，并且使用语言模型的结果表示为“w/LM”。

与13.3％的基线WER相比，基于一个最佳假设的大间隔训练的结果获得6.8％的相对改善，基于四个最佳假设的大间隔训练的结果获得8.3％的相对改善，如表1所示：

表1.大间隔训练的结果和比较

。

表3示出了与其他公布结果的比较：

表3.与先前提出的基于注意力的端到端系统的比较

。

图4是根据实施方式的用于基于注意力的E2E ASR训练的装置400的图。如图4所示，装置400包括第一执行代码410、第二执行代码420、第一确定代码430、第二确定代码440、第三确定代码450和第三执行代码460。

第一执行代码410被配置成基于语音信号的一个或更多个输入特征执行模型的交叉熵训练。

第二执行代码420被配置成执行交叉熵训练被执行的模型的波束搜索，以生成输出假设的n佳假设列表。

第一确定代码430被配置成在所生成的n佳假设列表中确定一个最佳假设。

第二确定代码440和第三确定代码450分别被配置成基于对其执行交叉熵训练的模型、和使参考序列与所确定的一个最佳假设之间的距离最大化的损失函数，来确定基于字符的梯度和基于字词的梯度。

第三执行代码被配置成执行所确定的基于字符的梯度和所确定的基于字词的梯度到模型的反向传播，以更新模型。

包括在所生成的n佳假设列表中的输出假设可以在对其执行交叉熵训练的模型的输出序列中具有最高后验。

第二执行代码420还可以被配置成基于所确定的基于字符的梯度和所确定的基于字词的梯度到正被执行的模型的反向传播，再次执行交叉熵训练被执行的模型的波束搜索，以重新生成n佳假设列表。

前述公开内容提供了说明和描述，但并非旨在是穷举的或将实现方式限制于所公开的精确形式。鉴于以上公开内容，可以进行修改和变型，或者可以从实现方式的实践中获得修改和变型。

如本文中使用的，术语“部件”旨在被广义地解释为硬件、固件或硬件和软件的组合。

将明显的是，本文所描述的系统和/或方法可以以不同形式的硬件、固件、或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际的专用控制硬件或软件代码并不限制实现方式。因此，本文中在不参考特定软件代码的情况下描述了系统和/或方法的操作和行为，应当理解的是，可以基于本文中的描述将软件和硬件设计成实现系统和/或方法。

即使在权利要求中限定了以及/或者在说明书中公开了特征的特定组合，这些组合也并非意在限制可能的实现方式的公开内容。实际上，这些特征中的许多特征可以以权利要求中未具体限定以及/或者说明书中未公开的方式组合。尽管所附每个从属权利要求可能直接引用仅一个权利要求，但是可能的实现方式的公开内容包括结合权利要求组中的每个其他权利要求的每个从属权利要求。

除非对此明确地描述，否则本文中使用的元素、动作或指令均不应当被解释为关键的或必要的。而且，如本文中使用的，冠词“一种”和“一个”意在包括一个或更多个项，并且可以与“一个或更多个”互换使用。此外，如本文所使用的，术语“组”旨在包括一个或更多个项(例如，相关项、不相关项、相关项与不相关项的组合等)，并且可以与“一个或更多个”互换使用。在意指仅一项的情况下，使用术语“一个”或类似语言。而且，如本文中使用的，术语“具有”、“有”、“含有”等意在为开放式术语。另外，除非另有明确说明，否则短语“基于”意在表示“至少部分地基于”。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于注意力的端到端语音识别的大间隔跟踪的制作方法

相关文献

最热文献