检测和恢复语音到文本转录系统中的词汇表外字词的制作方法

2022-04-27 10:52:08 来源：中国专利 TAG：

1.本发明涉及语音到文本转录系统，并且更具体地，涉及使用文本识别模型来标识和恢复语音数据中的词汇表外字词(out-of-vocabulary word)。

背景技术：

2.语音到文本(voice-to-text)系统被用于各种设置中以将音频内容转换成文本内容。例如，语音到文本系统可以用于实时生成口述字词的转录本以用于将来的参考或官方记录(例如，法律议程、会议等的转录本)。在另一示例中，语音到文本系统可以被实时地用于利用音频的文本表示来增强音频或视听内容，诸如实况转播电视节目。
3.通常，语音到文本系统可被训练成通过将音频内容的部分映射到整个字词(whole word)来生成音频内容的文本表示。根据所使用的字典的大小和内容训练语音到文本系统，语音到文本系统可能难以准确地构造音频内容的转录本。例如，如果在小字典上训练语音到文本系统，则可能无法准确地识别大量的字词。在另一示例中，专用的、领域特定的字词(例如，科学术语)可能不能被使用一般知识字典训练的语音到文本系统准确地识别。
4.当语音到文本系统遇到词汇表外字词、或在用于训练语音到文本系统的字典中找到的字词时，语音到文本系统可能输出未知字词的空串或试图输出听起来像未知字词的一部分的已知字词。输出空串可能导致音频内容与音频内容的文本表示之间的信息丢失。同时，输出听起来像未知字词的部分的已知字词可能导致生成音频内容的无意义的文本表示。
5.因此，在本领域中需要解决上述问题。

技术实现要素：

6.从第一方面来看，本发明提供了一种用于恢复语音数据记录的转录中的词汇表外字词的方法，包括：接收用于转录为语音数据记录的文本表示的语音数据记录；使用字词识别模型将语音数据记录转录为文本表示；标识文本表示中的未知字词；基于由子单元识别模型生成的未知字词的子单元的识别来重构文本表示中的未知字词；通过用未知字词的重构替换未知字词来修改语音数据记录的文本表示；以及输出语音数据记录的修改的文本表示。
7.从另一方面来看，本发明提供了一种系统，包括：处理器；以及存储器，具有存储在其上的指令，该指令在由处理器执行时执行用于恢复语音数据记录的转录中的词汇表外字词的操作，该操作包括：接收用于转录为语音数据记录的文本表示的语音数据记录；使用字词识别模型将语音数据记录转录为文本表示；标识文本表示中的未知字词；基于由子单元识别模型生成的未知字词的子单元的识别来重构文本表示中的未知字词；通过用未知字词的重构替换未知字词来修改语音数据记录的文本表示；以及输出语音数据记录的修改的文本表示。
8.从另一方面来看，本发明提供了一种用于恢复语音数据记录的转录中的词汇表外
字词的计算机程序产品，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质由处理电路可读取并且存储用于由处理电路执行以执行用于执行本发明的步骤的方法的指令。
9.从另一方面来看，本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，包括软件代码部分，当该程序在计算机上运行时，用于执行本发明的步骤。
10.从另一方面来看，本发明提供了一种其上存储有指令的计算机可读介质，当由处理器执行该指令时，执行用于恢复语音数据记录的转录中的词汇表外字词的操作，该操作包括：接收用于转录为语音数据记录的文本表示的语音数据记录；使用字词识别模型将语音数据记录转录为文本表示；标识文本表示中的未知字词；基于由子单元识别模型生成的未知字词的子单元的识别来重构文本表示中的未知字词；通过用未知字词的重构替换未知字词来修改语音数据记录的文本表示；以及输出语音数据记录的修改的文本表示。
11.本发明的一个方面提供一种用于恢复语音数据的转录中的词汇表外字词的方法。该方法一般包括接收用于转录为语音数据记录的文本表示的语音数据记录。使用字词识别模型将语音数据记录转录为文本表示。在文本表示中标识未知字词，并且基于由子单元识别模型生成的未知字词的子单元的识别来重构未知字词。通过用未知字词的重构替换未知字词来修改语音数据记录的文本表示，并且输出修改的文本表示。
12.本公开的另一方面提供了一种具有处理器和存储器的系统。存储器通常具有存储于其上的指令，当由处理器执行时，该指令执行用于恢复语音数据的转录中的词汇表外字词的操作。该操作一般包括接收用于转录为语音数据记录的文本表示的语音数据记录。使用字词识别模型将语音数据记录转录为文本表示。在文本表示中标识未知字词，并且基于由子单元识别模型生成的未知字词的子单元的识别来重构未知字词。通过用未知字词的重构替换未知字词来修改语音数据记录的文本表示，并且输出修改的文本表示。
13.本公开的又一方面提供了一种计算机可读介质，其上存储有指令，当由处理器执行该指令时，执行用于恢复语音数据的转录中的词汇表外字词的操作。该操作一般包括接收用于转录为语音数据记录的文本表示的语音数据记录。使用字词识别模型将语音数据记录转录为文本表示。在文本表示中标识未知字词，并且基于由子单元识别模型生成的未知字词的子单元的识别来重构未知字词。通过用未知字词的重构替换未知字词来修改语音数据记录的文本表示，并且输出修改的文本表示。
附图说明
14.现在将参照优选实施例仅通过示例的方式描述本发明，如以下附图所示：
15.图1示出了根据实施例的在其中使用第一文本识别模型将音频内容转录成文本表示并且使用第二文本识别模型来恢复文本表示中的未知字词的联网计算环境。
16.图2示出了根据实施例的用于使用第一文本识别模型生成音频内容的文本表示以及使用第二文本识别模型恢复所生成的文本表示中的词汇表外字词的示例操作。
17.图3示出了根据实施例的用于使用连接主义时间分类(ctc)文本识别模型来恢复词汇表外字词的示例操作。
18.图4示出了根据实施例的用于使用序列到序列文本识别模型来恢复词汇表外字词
的示例操作。
19.图5示出了可以在其中执行本公开的各方面的示例系统。
具体实施方式
20.音频内容中的词汇表外字词通常对音频到文本转录系统所产生的转录本的准确性和可读性产生不利影响。因为词汇表外字词对转录本具有负面影响，所以已经开发了各种技术来解决词汇表外字词在音频内容中的存在。在一个示例中，混合话语识别系统(hybrid speech recognition system)可以使用各种解码输出，可以补偿词汇表外字词的存在，并试图提高转录本的准确性和可读性。这些输出可包括字词置信度信息和定时信息，其可用于标识词汇表外字词的位置和长度，并试图恢复这些字词。例如，话语识别模型可以使用子字词单元来显式地对词汇表外字词建模，或者可以使用由话语识别系统产生的置信度分数来将文本输出分类到词汇表外和词汇表内区域。在其他示例中，基于端到端神经网络的话语识别系统可以用于标识和试图恢复词汇表外字词，该话语识别系统使用可能比在常规话语识别系统中使用的那些训练和推理流水线更简单的训练和推理流水线。
21.然而，这些系统具有降低这些系统在标识和恢复音频内容中的词汇表外字词方面的性能的限制。使用主要的基于整个字词的识别系统和基于字符的模型来进行词汇表外识别和恢复的系统可以依赖于由基于整个字词的识别系统生成的置信度分数，这可以导致生成保留未知字词标记，该保留未知字词标记最终调用基于字符的模型来用于可能实际上为基于整个字词的识别系统所知的字词。此外，这些系统可能产生音频内容中的字词的不准确的定时信息或不产生定时信息，这可能降低话语识别系统中词汇表外字词检测的性能。
22.本公开的各方面提供了用于检测和恢复音频内容中的词汇表外字词的高效技术。如下面进一步详细讨论的，可以通过确定话语识别系统是否已经重构了整个字词或作为字词片段(例如，语音分段、字符等)的集合来检测词汇表外字词。如果话语识别系统已经将字词重构为字词片段的集合，则话语识别系统可以认为该字词是未知字词，并试图从字词片段中恢复该字词。通过使用字词是否已被重构为整个字词或字词片段的集合的确定，本文所讨论的方面可以绕过使用置信度信息来确定字词是在词汇表内还是在词汇表外。话语识别系统可以附加地或替换地使用整个字词序列到序列系统，诸如基于注意的模型，来标识词汇表内和词汇表外字词，并使用与词汇表外字词重叠的区域中的字符输出来重构词汇表外字词。
23.图1示出了根据本公开的实施例的在其中使用整个字词和字词片段识别模型来标识和恢复音频内容的转录中的词汇表外字词的示例联网计算环境。如图所示，计算环境100包括客户端设备120、话语识别系统130和语音到文本数据存储装置140。
24.客户端设备120通常表示用户可以在其上访问视听内容并且从话语识别系统130接收视听内容的文本表示以用于显示的计算设备。如图所示，客户端设备120包括软件应用122。
25.软件应用122通常提供接口，通过该接口用户可以从远程源访问视听内容，并且调用话语识别系统130处的话语识别和转录本生成操作。在一些实施例中，软件应用122可以为客户端设备120的用户提供将先前记录的视听文件上传到话语识别系统130和从其检索记录的视听文件的转录本的机制。在一些实施例中，软件应用122可以是web浏览器或允许
用户与话语识别系统130交互的其他应用。
26.话语识别服务130接收视听内容，并且使用字词和字词子单元(或字词片)识别模型来生成视听内容的转录本，并且将该转录本输出到客户端应用以供显示和/或输出到数据存储装置(例如，语音到文本数据存储装置140)以供将来检索。如图所示，话语识别系统130包括语音数据转录器132和词汇表外字词恢复器134。
27.语音数据转录器132通常通过字词识别模型和子单元识别模型来处理接收的视听内容，以生成音频内容的文本表示，诸如语音数据记录或包括语音数据轨道的视听文件。由语音数据转录器132使用的模型可以由远程系统(未示出)训练，并且被部署到话语识别系统130以用于生成语音数据记录的转录本，并且这些模型可以被周期性地更新以提高使用这些模型生成的转录本的准确性。在一些实施例中，可以使用整个字词和字词子单元(诸如语音单元或整个字词的部分)的训练数据集来训练字词识别模型元。如下面进一步详细讨论的，在使用整个字词和字词子单元的训练数据集来训练字词识别模型的情况下，可以使用生成语音数据记录的给定部分的多个字词子单元作为语音数据记录的给定部分对应于词汇表外字词的指示。可以使用字词部分(诸如语音单元、字词的部分(例如音节)、字符、或者可以包括在语音数据记录中的字词的其它成分)的训练数据集来训练字词子单元识别模型。如以下进一步详细讨论的，字词子单元识别模型的输出可被用于恢复词汇表外字词。
28.字词识别模型和字词子单元识别模型可以被实现为神经网络，该神经网络被配置为将字词(或字词的部分)的音频表示映射到该字词(或字词的部分)的对应的文本表示。在一些实施例中，在字词识别模型和字词子单元识别模型是连接主义时间分类模型的情况下，字词识别模型可以被配置为将记录字词或字词子单元的语音数据的部分映射，并且子单元识别模型可以被配置为将语音数据记录的该部分映射到可以与其他字词子单元连接以恢复词汇表外字词的一个或多个语音或音节字词子单元。在一些实施例中，在字词识别模型和字词子单元识别模型是序列到序列模型的情况下，字词识别模型可以被配置为输出定时信息，并将语音数据记录的部分映射到整个字词或指示字词对于字词识别模型未知保留序列，并且字词子单元识别模型可以被配置为将语音数据记录的部分映射到一个或多个字符，并输出语音数据记录中识别的每个字符定时信息。
29.语音数据转录器132通常接收作为音频文件或视听文件中的音轨的语音数据记录，并将语音数据记录转录为语音数据记录的文本表示。为了将话音数据记录转录为文本表示，话音数据转录器132可将话音数据记录输入到产生针对给定音频输入的文本输出的字词识别模型中。如上所述，字词识别模型可以是神经网络，其被配置为例如基于与用于训练字词识别模型的字词和字词部分的总体中的字词或字词部分的语音数据记录的部分的映射相关联的置信度，将语音数据记录中的信息映射到各个整个字词或字词的部分。例如，字词识别模型可以生成用于训练字词识别模型的字词和字词部分的总体上的概率分布，并选择概率分布中具有最高概率的字词或字词部分作为与语音数据记录的每个部分相对应的字词或字词部分。
30.对于被构造为连接主义时间分类模型的字词识别模型，字词识别模型可以导致语音数据记录的部分被映射到整个字词或字词片段，诸如语音分段、字词的音节成分等。通常，将语音数据记录的部分映射到整个字词可以指示字词识别模型将语音数据记录的该部分识别为词汇表内字词，而将语音数据记录的该部分映射到字词片段可以指示字词识别模
型将语音数据记录的该部分(以及语音数据记录的其他相邻部分)识别为词汇表外字词。为了确定语音数据记录的部分是否已被映射到整个字词或字词部分，语音数据转录器132可在字典中搜索与映射到语音数据记录的部分的每个字词或字词部分的精确匹配。可能不存在于字典中的连续字词部分的分组因此可以对应于词汇表外字词，以便词汇表外字词恢复器134重建，如下所述。
31.对于被构造为序列到序列模型的字词识别模型，字词识别模型可为映射到用于训练序列到序列模型的字典中的识别的字词的语音数据记录的部分生成词汇表内字词。相反，可以为未映射到字典中的识别的字词的语音数据记录的部分生成保留字符序列或保留词子单元。如下面进一步详细讨论的，保留字符序列或保留字词子单元，诸如“《unk》”，可以向词汇表外字词恢复器134指示将从被训练来识别语音数据记录中的各个字符的序列到序列模型中重构的词汇表外字词的一般位置。
32.词汇表外字词恢复器134通常从语音数据转录器132接收语音数据记录的转录本，并且使用对应的字词子单元识别模型来重构由字词识别模型标识的词汇表外字词。基于字词识别模型和字词子单元识别模型是否是可用于将语音数据记录转录为语音数据记录的文本表示的连接主义时间分类模型、序列到序列模型或其他语言识别模型，词汇表外字词恢复器134所使用的技术可以不同。
33.对于被构造为连接主义时间分类模型的字词识别模型，在语音数据记录的转录本中标识的每个词汇表外字词可以被定义为由在前识别的整个字词和后续识别的整个字词界定的连续字词子单元或部分的序列。为了恢复词汇表外字词，词汇表外字词恢复器134通常被配置为使用字词子单元识别模型，该字词子单元识别模型也被构造为连接主义时间分类模型，并且被训练来将语音数据记录的部分映射到字词子单元，诸如语音分段、字词音节等，词汇表外字词恢复器134可以标识由字词子单元识别模型生成的、与转录本中的词汇表外字词相对应的字词子单元分段，并且将字词子单元一起连接为一个或多个字词子单元组，并且从一个或多个字词子单元组中重构字词。在其中字词子单元是语音分段的一些实施例中，词汇表外字词恢复器134可以搜索反向语音字典以从语音分段的每个分组中重构字词。在字词子单元是音节或其它非语音字词子单元的其它实施例中，词汇表外字词恢复器134可将组中的字词子单元连接成单个串，并搜索字典以找出与该串的潜在匹配。词汇表外字词恢复器134可以使用模糊匹配技术，诸如在基于计算机的拼写校正机制中使用的那些技术，来将与串的可能匹配标识为对应于字词子单元组的字词。在从字词子单元组中标识出字词之后，词汇表外字词恢复器134可以用标识的字词替换由语音数据转录器132生成的转录本中的该字词子单元组，从而用词汇表外字词的准确表示来恢复语音数据记录中的词汇表外字词。
34.在字词识别模型是序列到序列模型的实施例中，词汇表外字词和将词汇表外字词标识为语音数据转录器132生成的转录本中的未知字词的特殊字符序列可伴随有注意力峰值。注意力峰值可以是语音数据记录中的时间戳，未知、词汇表外字词位于该时间戳周围。可以使用字词子单元识别模型来基于每个字符恢复词汇表外字词，其中字词子单元识别模型可以是被配置为识别语音数据记录中的各个字符的序列到序列模型。为了标识对应于词汇表外字词的字符，词汇表外字词恢复器134可以使用与词汇表外字词相关联的注意力峰值来标识提供给话语识别系统130用于分析的语音数据记录中的字词的可能边界。可以基
于对语音数据记录内的空白字符的标识来定义字词的边界，其中，在语音数据记录中，在紧接着空白字符之后标识字词的第一字符，并且在紧接着下一个空白字符之前标识该字词的最后字符。在一些实施例中，周围的上下文也可以或替代地用于标识与语音数据记录中的词汇表外字词相关联的字符。例如，关于包括在词汇表外字词之前和之后的字词中的字符的信息可以用于标识由字词子单元识别模型生成的语音数据记录的逐字符转录本中的词汇表外字词的边界。
35.通常，在由字词子单元识别模型记录的语音数据中识别的每个字符可能伴随有模型中的对应的注意力峰值。词汇表外字词恢复器134可以通过将与模型中的每个注意力峰值相关联的字符连接在针对词汇表外字词标识的空白字符或其他边界字符之间来生成串。由词汇表外字词恢复器134生成的串可以替换语音数据记录的转录本中的对应的未知字词的保留字符序列。
36.在词汇表外字词恢复器134通过使用字词子单元识别模型用词汇表外字词的重构替换与词汇表外字词相关联的序列来修改语音数据记录的转录本之后，词汇表外字词恢复器134输出修改的转录本。在一些实施例中，可以输出修改后的转录，以便与从其生成转录本的视听内容一起实时地或接近实时地在客户端设备120上执行的软件应用122中显示。在一些实施例中，可以将修改的转录本提交给语音到文本数据存储装置140以供将来参考。
37.在一些实施例中，在话语识别系统130使用连接主义时间分类字词识别和字词子单元识别模型的情况下，可以调整与这些模型相关联的插值权重以控制字词将被识别为词汇表外字词的可能性。与字词子单元识别模型相关联的较高插值权重可增加被识别为词汇表外字词并从字词子单元(例如，语音单元、音节单元等)重构的字词的数量，这可降低系统的精度，同时增加可使用上文所论述的字词子单元分析和重构技术来再调用字词的可能性。类似地，与字词子单元识别模型相关联的较低插值权重可减少被识别为词汇表外字词的数目，这可减少从字词子单元重构字词的数量，但以识别准确性为代价。
38.语音到文本数据存储装置140通常用作由话语识别系统130生成的转录本的储存库。在一些实施例中，语音到文本数据存储装置可以另外包括字词和字词子单元的训练数据集，其可以用于训练由话语识别系统130使用的字词识别模型和字词子单元识别模型，以从语音数据记录生成转录本并在所生成的转录本中恢复词汇表外字词，如上所述。
39.图2示出了根据实施例的可以由语音到文本系统(例如，图1中所示的话语识别系统130)执行以生成语音数据记录的转录本并且使用字词识别模型和字词子单元识别模型来恢复转录本中的词汇表外字词的示例操作。如图所示，操作200开始于框210，其中系统接收要转录的音频剪辑。如所讨论的，音频剪辑可以是不包括任何其他内容的语音数据记录、来自视听文件的音轨、可以从其提取音频内容的视听文件等。
40.在框220，系统使用训练的模型将音频剪辑转录成文本表示。如所讨论的，系统可以使用字词识别模型来转录音频剪辑。该模型可以是例如对照整个的词汇表内字词和各种字词子单元的数据集训练的连接主义时间分类模型，使得音频剪辑中的词汇表内字词被映射到来自数据集的整个字词，而音频剪辑中的词汇表外字词被映射到多个字词子单元，以表示音频剪辑的对应的部分不包括数据集中的识别的字词。在另一示例中，模型可以是对照词汇表内字词的数据集训练的序列到序列模型，使得音频剪辑中的词汇表内字词被映射到来自数据集的整个字词，而词汇表外字词被映射到指示字词不能被映射到音频剪辑的对
应的部分的特殊或保留字符序列。
41.在框230，系统标识音频剪辑的文本表示中的未知字词。如所讨论的，系统可以通过标识音频剪辑的部分到字词子单元(例如，语音单元、音节、字符等)或到特殊或保留字符序列的映射来标识音频剪辑中的未知字词。
42.在框240，对于在音频剪辑的文本表示中标识的每个未知字词，系统基于音频剪辑的文本表示中的未知字词的较小部分来恢复该字词。如上所述，基于未知字词的较小识别的部分恢复未知、词汇表外字词可以基于用于识别音频剪辑中的字词的模型的类型。在一些实施例中，未知字词的恢复可以基于语音或音节字词子单元的连接以及将这些连接映射到可能的字词或字符串的字典。在其它实施例中，未知字词的恢复可以基于在与音频剪辑中的未知字词相关联的时间戳周围识别的字符的字符定时的信息。
43.在框250，系统用恢复的字词替换音频剪辑的文本表示中的未知字词。
44.在框260，系统输出包括恢复的字词的音频剪辑的文本表示。在一些实施例中，系统可以将文本表示输出到本地或远程系统，以便在与其连接或集成的设备上显示。在一些实施例中，系统可将要持久保存的文本表示输出到数据存储装置以供将来参考。
45.图3示出了根据实施例的可由话语识别系统执行的用于基于连接主义时间分类字词识别和字词子单元识别模型来恢复语音数据记录中的词汇表外字词的示例操作。如图所示，操作300可以在框310开始，其中话语识别系统基于由使用整个字词和字词子单元的数据集训练的第一语言模型对字词的子单元的识别来将字词标识为未知字词。如所讨论的，词汇表内字词可以由第一语言模型(即，字词识别模型)映射到整个字词或出现在字词的字典中的字词，而词汇表外字词可以由第一语言模型映射到字词子单元。为了将字词标识为未知字词，话语识别系统可以标识由第一语言模型生成的语音数据记录的转录本中的整个字词之间的字词子单元的序列。位于整个字词之间的字词子单元的序列可以被认为是与语音数据记录中的词汇表外字词相对应的序列，并且可以使用第二语言模型(即，字词子单元识别模型)来恢复对于该序列的字词。
46.在框320，话语识别系统将由第二语言模型(其可以与第一语言模型分开或并行执行)生成的字词的子单元聚合(或合成)成单个单元。第二语言模型可以是被训练成将语音数据记录的各部分映射到字词的语音或音节单元的字词子单元识别单元，如上所述。为了标识语音数据记录的转录本中的子单元以组合成与未知字词相对应的单个单元，系统可以试图基于由第一语言模型识别的最后整个字词和由第一语言模型识别的下一整个字词的位置来标识单个单元的开始位置。最后整个字词和下一整个字词之间的字词子单元可以被认为是词汇表外字词的成分，并且可以被连接以生成单个单元用于分析。
47.在框330，话语识别系统基于将识别的字词的子单元聚合成单个单元和子单元的类型来重构未知字词。例如，在框320识别的子单元包括字词的语音表示的情况下，话语识别系统可以将定义多个字词子单元中的每一个的语音表示的串连接成单个语音串。语音到文本识别服务可以使用字典和包括识别的子单元的单个单元来将识别的子单元串接成语音表示并且搜索字典的语音表示以标识话语识别系统识别的任何给定字词的定义。
48.相反，在文本到话语识别系统被训练以使用每音节识别来重构先前未知字词的情况下，可以将识别的音节组合成单个单元。话语识别系统可以搜索关于任何给定重构的字词的信息。例如，在文本到话语识别系统基于音节字词子单元的连接来重构未知字词的情
况下，话语识别系统可以对照已知字典来后处理连接的单元以提高在语音数据记录中识别的字词的准确性并将其输出给话语识别系统的用户。
49.在方框340，话语识别系统用重构词替换未知字词的子单元。系统可使用各种串替换操作来替换这些子单元。一旦被替换，系统可以将包括恢复的字词的语音数据记录的文本表示输出到客户端设备120，以便显示和/或将文本表示持久保存到语音到文本数据存储装置140以供将来参考。
50.图4示出了根据实施例的可以由话语识别系统执行以使用被配置为识别语音数据记录中的整个字词的第一序列到序列语言模型和被配置为识别语音数据记录中的字词的各个字符的第二序列到序列语言模型来恢复语音数据记录的文本表示中的词汇表外字词的示例操作。如图所示，操作400可以在框410开始，其中话语识别系统基于由序列到序列字词识别模型针对字词生成保留符号来将该字词标识为未知字词。如所讨论的，字词识别模型可以将语音数据记录的部分映射到存在于用于训练字词识别模型的训练数据集内的整个字词。相应地，字词识别模型可以将语音数据记录的部分映射到指示字词是词汇表外字词的特殊或保留字符序列。
51.在框420，话语识别系统导出序列到序列字词识别模型中的未知字词的定时信息以及由序列到序列字符识别模型生成的每个字符定时信息。未知字词的定时信息可以是在与语音数据记录中的识别的或词汇表外字词相对应的其它注意力峰值之间标识的单个注意力峰值。由序列到序列字符识别模型生成的每个字符定时信息可以被用来标识在与字词识别模型中的未知字词的注意力峰值相关联的时间戳周围识别的字符。通常，每个字符定时信息可以用于标识在这些字词的口述表示中分离各个字词的空白或暂停字符，以及当字词子单元识别模型识别各个字符时。
52.在框430，话语识别系统基于由序列到序列字符识别模型识别的字符来重构未知字词。如所讨论的，识别的字符可以与在界定由字词识别系统生成的未知字词的注意力峰值的空白字符之间的注意力峰值相关联。
53.在框440，系统用重构的字替换保留符号。通过用重构的字词替换保留符号，话语识别系统可以提高由话语识别系统生成的音频数据的转录本的准确性。
54.图5示出了根据实施例的示例系统500，其使用字词识别模型和字词子单元识别模型来标识语音数据记录中的词汇表外字词，并恢复标识的词汇表外字词以包括在语音数据记录的文本表示中。如图所示，系统500包括但不限于中央处理单元502、一个或多个i/o设备接口505、网络接口506、存储器508、存储设备510和互连512，其中i/o设备接口可以允许各种i/o设备514(例如键盘、显示器、鼠标设备、笔输入等)连接到系统500。
55.cpu 502可以检索并执行存储在存储器508中的编程指令。类似地，cpu502可以检索和存储驻留在存储器508中的应用。互连512在cpu 502、i/o设备接口504、网络接口506、存储器508和存储设备510之间传输编程指令和应用数据。所包括的cpu 502表示单个cpu、多个cpu、具有多个处理核的单个cpu等。另外，所包括的存储器508表示随机存取存储器。此外，存储设备510可以是磁盘驱动器、固态驱动器、相变存储器设备等。尽管被示为单个单元，但是存储设备510可以是固定和/或可移除存储设备的组合，诸如固定盘驱动器、固态驱动器、可移除存储卡或光存储、网络附加存储(nas)或存储区域网络(san)。
56.如图所示，存储器508包括语音数据转录器520和词汇表外字恢复器530。语音数据
转录器520通常被配置为使用字词识别模型来生成语音数据记录的初始转录本，该字词识别模型被配置为将词汇表外字词识别为字词部分的集合或将语音数据记录中的词汇表外字词映射到指示字词不能被识别的保留字符序列。词汇表外字词恢复器530可以检查由语音数据转录器520生成的语音数据记录的转录本，以标识字词子单元(例如，语音单元、音节、字符等)的序列或包括指示词汇表外字词的保留字符序列。使用对应于词汇表外字词子单元的组合，词汇表外字词恢复器530可以生成表示词汇表外字词的替换串，并用该替换串替换字词子单元或保留字符序列。
57.如图所示，存储设备510包括语音到文本数据存储540。语音到文本数据存储540一般是其中可存储语音数据记录的转录本的数据存储装置的示例。在一些实施例中，语音到文本数据存储装置还可以存储用于训练在标识和恢复语音数据记录中的词汇表外字词时使用的字词识别模型和词子单元识别模型的字典，如上所述。
58.已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。
59.下面，参考本公开中呈现的实施例。然而，本公开的范围不限于具体描述的实施例。相反，无论是否涉及不同的实施例，以下特征和元件的任何组合都被预期用于实现和实践预期的实施例。此外，尽管本文公开的实施例可以实现优于其他可能的解决方案或现有技术的优点，但是给定实施例是否实现特定优点不限制本公开的范围。因此，以下方面、特征、实施例和优点仅是说明性的，并且不被认为是所附权利要求的元素或限制，除非在权利要求中明确地陈述。同样，对“本发明”的引用不应被解释为对本文所公开的任何发明主题的概括，并且不应被认为是所附权利要求的元素或限制，除非在权利要求中明确记载。
60.本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件和硬件方面的实施例的形式，它们在本文中可以统称为“电路”、“模块”或“系统”。
61.本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。
62.计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。
63.本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
64.用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言(例如smalltalk、c 等)以及常规的过程式编程语言(例如“c”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(lan)或广域网(wan)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
65.在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
66.这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
67.计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
68.附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、分段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
69.虽然前述内容涉及本发明的实施例，但是在不偏离本发明的基本范围的情况下，可以设计本发明的其他和进一步的实施例，并且本发明的范围由所附权利要求确定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：具有改进的频率分辨率的噪声消除的制作方法

检测和恢复语音到文本转录系统中的词汇表外字词的制作方法

相关文献

最热文献