一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

端到端多讲话者视听自动语音识别的制作方法

2022-06-12 03:51:05 来源:中国专利 TAG:


1.本公开涉及端到端多讲话者视听自动语音识别。


背景技术:

2.自动语音识别(asr)是在移动设备和其它设备中使用的重要技术。一般而言,自动语音识别试图提供一个人已经说出的内容的准确转录。在嘈杂环境中,或者在其它情况下当记录话语的音频质量差时,获得准确asr结果可能是一项困难任务。当讲话者的视频数据可用时,能够利用视频数据来帮助改进asr结果。例如,讲话者的视频数据可以提供当讲话者正在讲出话语时嘴唇的运动,这进而能够与话语的音频数据组合以协助处理asr结果。


技术实现要素:

3.本公开的一个方面提供一种用于从视听数据转录语音的单一视听语音识别(av-asr)模型。该av-asr模型包括编码器前端,该编码器前端具有被配置成接收视听数据的音频轨迹和视听数据的视频部分的注意力机制。视听数据的视频部分包括多个视频面部轨迹。该多个视频面部轨迹中的每个视频面部轨迹与相应人的面部相关联。对于该多个视频面部轨迹中的每个视频面部轨迹,注意力机制被进一步配置成确定以下置信度分数,该置信度分数指示与视频面部轨迹相关联的相应人的面部包括音频轨迹的讲话面部的可能性。该av-asr模型还包括解码器,该解码器被配置成处理音频轨迹和该多个视频面部轨迹中的与最高置信度分数相关联的视频面部轨迹以确定音频轨迹的语音识别结果。
4.本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,单一av-asr模型包括序列到序列模型。例如,av-asr模型可以包括视听循环神经网络转换器(rnn-t)模型。解码器可以被配置成实时地发出音频轨迹的语音识别结果以提供音频轨迹的流式转录。在一些示例中,单一av-asr模型不包括用于硬选择该多个视频面部轨迹中的哪个视频面部轨迹包括音频轨迹的讲话面部的单独面部选择系统。
5.注意力机制可以被配置成为该多个视频面部轨迹生成注意力加权视觉特征向量以作为输出。这里,注意力加权视觉特征向量表示对该多个视频面部轨迹中的以下视频面部轨迹的软选择,其中该视频面部轨迹包括具有包括音频轨迹的讲话面部的最高可能性的相应人的面部。附加地或替换地,注意力机制可以包括具有逆温度参数的softmax层,该softmax层被配置成使注意力机制收敛到选择该多个视频面部轨迹中的与最高置信度分数相关联的视频面部轨迹作为音频轨迹的讲话面部的硬判定规则。
6.在一些示例中,在包括训练音频轨迹、第一训练视频面部轨迹和一个或多个第二视频面部轨迹的训练数据集上训练编码器前端。训练音频轨迹包括一个或多个口语话语,并且第一训练视频轨迹包括训练音频轨迹的该一个或多个口语话语的正确的讲话面部。每个第二训练视频面部轨迹包括训练音频轨迹的该一个或多个口语话语的不正确的讲话面部。在这些示例中,在训练期间,注意力机制被配置成学习如何将第一训练视频面部轨迹选通为训练音频轨迹的该一个或多个口语话语的正确的讲话面部。这里,可以用交叉熵损失
来训练注意力机制。
7.本公开的另一方面提供一种用于从视听数据转录语音的方法。该方法包括在单一视听自动语音识别(av-asr)模型的编码器前端的注意力机制处接收视听数据的音频轨迹和视听数据的视频部分。视听数据的视频部分包括多个视频面部轨迹并且该多个视频面部轨迹中的每个视频面部轨迹与相应人的面部相关联。对于该多个视频面部轨迹中的每个视频面部轨迹,该方法还包括通过注意力机制来确定以下置信度分数,该置信度分数指示与视频面部轨迹相关联的相应人的面部包括音频轨迹的讲话面部的可能性。该方法还包括由单一av-asr模型的解码器处理音频轨迹和该多个视频面部轨迹中的与最高置信度分数相关联的视频面部轨迹以确定音频轨迹的语音识别结果。
8.此方面可以包括以下可选特征中的一个或多个。在一些实现方式中,单一av-asr模型包括序列到序列模型。例如,av-asr模型可以包括视听循环神经网络转换器(rnn-t)模型。解码器可以被配置成实时地发出音频轨迹的语音识别结果以提供音频轨迹的流式转录。在一些示例中,单一av-asr模型不包括用于硬选择该多个视频面部轨迹中的哪个视频面部轨迹包括音频轨迹的讲话面部的单独面部选择系统。
9.在一些示例中,确定该多个视频面部轨迹中的每个视频面部轨迹的置信度分数包括为该多个视频面部轨迹生成注意力加权视觉特征向量。这里,注意力加权视觉特征向量表示对该多个视频面部轨迹中的以下视频面部轨迹的软选择,其中该视频面部轨迹包括具有包括音频轨迹的讲话面部的最高可能性的相应人的面部。附加地或替换地,注意力机制可以包括具有逆温度参数的softmax层,该softmax层被配置成使注意力机制收敛到选择该多个视频面部轨迹中的与最高置信度分数相关联的视频面部轨迹作为音频轨迹的讲话面部的硬判定规则。
10.在一些实现方式中,该方法还包括在包括训练音频轨迹、第一训练视频面部轨迹和一个或多个第二视频面部轨迹的训练数据集上训练编码器前端。训练音频轨迹包括一个或多个口语话语,并且第一训练视频轨迹包括训练音频轨迹的该一个或多个口语话语的正确的讲话面部。每个第二训练视频面部轨迹包括训练音频轨迹的该一个或多个口语话语的不正确的讲话面部。在这些示例中,训练编码器前端包括训练注意力机制以学习如何将第一训练视频面部轨迹选通为训练音频轨迹的该一个或多个口语话语的正确的讲话面部。这里,可以用交叉熵损失来训练注意力机制。
11.本公开的一个或多个实现方式的细节在附图和以下描述中阐述。从描述和附图以及从权利要求中,其它方面、特征和优点将是显而易见的。
附图说明
12.图1是包括用于从视听数据转录语音的单一视听自动语音识别模型的示例多讲话者环境的示意图。
13.图2是图1的单一视听自动语音识别模型的示例的示意图。
14.图3是用于训练图1的单一视听自动语音识别模型的编码器前端的示例训练过程的示意图。
15.图4是用于从视听数据转录语音的方法的示例操作布置。
16.图5是可用于实现本文描述的系统和方法的示例计算设备的示意图。
17.各图中相同的参考符号指示相同的元件。
具体实施方式
18.视听(a/v)自动语音识别(asr)能够通过利用除了来自讲话者的讲话的音频数据之外的讲话者的面部的视频数据来使常规asr变得更鲁棒。在现实设置中,当在图像中存在多个面部时,人们不得不在每个时间点判定要将哪个面部指定为音频轨迹的讲话面部。a/v asr的常规管道包括一系列系统/模型,该一系列系统/模型包括面部跟踪模块、活动讲话者选择模型和a/v asr模型。面部跟踪模块在音频视频数据中检测并跟踪面部,而活动讲话者选择模型为音频的每个部分选择讲话面部并且将所选讲话面部的面部轨迹和对应音频轨迹传递给a/v asr模型。a/v asr模型使用由活动讲话者选择模型选择的音频轨迹和面部轨迹来输出针对音频视频数据的分段的语音识别假设(例如,预测的转录)。
19.照惯例,活动讲话者选择模型和a/v asr模型是彼此分开地且独立地训练的单独模型。也就是说,a/v asr模型传统上用被假定为针对音频轨迹的给定部分选择的讲话面部的单一面部轨迹来训练。用此传统方法,a/v asr模型的性能(例如,转录的准确性)取决于单独活动讲话者选择模型在音频视频数据中准确选择正确的讲话面部的能力。在其它情况下,由活动讲话者选择模型对错误的讲话面部的选择将导致a/v asr模型的性能降级。
20.本文的实现方式针对同时地在具有多个面部轨迹和音频轨迹的视频数据上端到端(e2e)地训练单一a/v asr模型,使得该a/v asr模型学习如何为音频轨迹的每个分段选通正确的面部轨迹以协助语音识别。因此,通过训练单一a/v asr模型以在多个面部轨迹上操作,本文的实现方式不需要任务是跟踪多个面部并且检测正确的讲话面部作为单一面部轨迹传递给a/v asr模型的单独活动讲话者选择模型。简单来说,对于多讲话者a/v asr任务,单一a/v asr模型被配置成接收具有多个面部轨迹和一个音频轨迹的视听输入,在编码器前端处采用注意力层来软选择适当的面部轨迹作为音频轨迹的每个部分的讲话面部,以协助解码器部分确定音频轨迹的每个部分的语音识别结果。
21.与各自依靠潜在地执行类似角色的单独视觉前端的分开地训练的活动讲话者选择和a/v asr模型相反,训练单一a/v asr模型来处理多个面部视频轨迹通过消除与由单独视觉前端执行的类似任务相关联的冗余来提高计算性能。此外,单一a/v asr模型的e2e性质简化子系统之间的协调,因为a/v asr模型的唯一输入是来自作为标准计算机视觉中的常见组件的面部跟踪器模块的输出。如将变得显而易见的,单一a/v asr模型还在多讲话者asr任务上提供更鲁棒的语音识别,因为不需要像使用单独活动面部选择模型的常规技术那样,为选择活动面部轨迹而进行早期硬判定。替代地,单一a/v asr模型使用注意力机制来软选择活动面部轨迹(即,与活动讲话面部相关联的面部轨迹),从而即使在向错误的面部轨迹指配高概率时也允许a/v asr模型的剩余部分自然地适应。使用单独活动讲话者选择模型来选择正确的活动面部轨迹也对难以在训练期间模拟的离散讲话者随时间变化的动态特性敏感。
22.参考图1,在一些实现方式中,环境100包括参加会议(例如,视频会议)的多个参与者10、10a-j。这里,环境100是主会议室,其中六个参与者10a-f参加主会议室中的会议(例如,视频会议)。环境100包括经由网络120从远程系统130接收一个或多个内容馈源(feed)12(也称为多媒体馈源、内容流或馈源)的用户设备110。在所示示例中,用户设备110接收两
个馈源12a、12b,每个馈源对应于不同的远程会议室。这里,第一馈源12a包括从远程纽约办公室参加会议的三个参与者10、10g-i,而第二馈源包括从参与者10j的远程住所参与的单一参与者10、10j。每个内容馈源12可以对应于视听数据204,该视听数据204包括与音频轨迹相对应的音频部分210和包括一个或多个视频面部轨迹230(图2)的视频部分220。如本文所使用的,可以互换地使用术语“音频轨迹”和“音频部分”。视频部分220可以与诸如视频内容、视频信号或视频流的图像数据相关联。用户设备110包括被配置成显示视听数据204的视频部分220的显示器111或者与该显示器111通信。用户设备110还包括被配置成可听地输出视听数据204的音频部分210的音频扬声器112或者与该音频扬声器112通信。
23.除了经由相应的内容馈源12从远程会议室接收视听数据204之外,用户设备110还包括用于从主会议室捕获视听数据204的一个或多个外围设备116或者与该一个或多个外围设备通信。例如,音频捕获设备116、116a(例如,一个或多个麦克风的阵列)被配置成捕获由参与者10a-g讲出的话语14并且将所捕获的话语14转换成对应于视听数据204的音频部分210的音频数据。另一方面,图像捕获设备116、116b(例如,一个或多个相机)被配置成捕获对应于视听数据204的视频部分220的图像数据。这里,视频部分220包括各自与参与者10a-g中的相应一个的面部相关联的视频面部轨迹230。在一些配置中,图像捕获设备116b被配置成捕获用户设备110周围的360度以捕获环境100的全视图。例如,图像捕获设备116b包括被配置成捕获360度视图的相机的阵列。
24.远程系统130可以是具有可扩展/有弹性资源132的分布式系统(例如,云计算环境或存储抽象)。资源132包括计算资源134(例如,数据处理硬件)和/或存储资源136(例如,存储器硬件)。在一些实现方式中,远程系统130托管协调环境100的软件(例如,在计算资源132上)。例如,远程系统130的计算资源132运行软件,诸如实时通信应用程序或专业会议平台。在一些示例中,面部跟踪器模块在数据处理硬件114上运行以在视听数据204的视频部分220中检测视频面部轨迹230。
25.在所示示例中,用户设备110包括数据处理硬件114以及与数据处理硬件114通信并存储指令的存储器硬件118,其中这些指令当在数据处理硬件114上运行时使数据处理硬件114执行操作。在一些示例中,面部跟踪器模块在数据处理硬件114上运行以在视听数据204的视频部分220中检测视频面部轨迹230。用户设备110的一些示例包括视频会议计算设备、计算机、膝上型计算机、移动计算设备、电视、监视器、智能设备(如智能扬声器、智能显示器、智能家电)、可穿戴设备等。
26.继续参考图1,视听自动语音识别(av-asr)模型200处理视听数据204以从视听数据204的音频轨迹210生成转录250。值得注意的是,并且如在下面参考图2更详细地描述的,av-asr模型200包括接收音频轨迹210和在视听数据204的视频部分220中检测到的多个视频面部轨迹230的单一端到端模型,并且确定这些视频面部轨迹230中的哪个视频面部轨迹包括包含有音频轨迹210的活动讲话面部的最高可能性。av-asr模型200然后使用最有可能包括音频轨迹204的活动讲话面部的视频面部轨迹230来协助转录来自音频轨迹210的语音。因此,视频部分220的使用增加了音频轨迹210的转录250的准确性,因为视频面部轨迹230给av-asr模型200提供视觉特征(例如,面部特征/嘴唇)。在一些特定示例中,当音频是具有语音障碍的相关讲话者时,仅使用音频用于语音识别是困难的。视频部分可以使用使来自具有特定语音障碍的用户的嘴唇运动与音频数据一致关联的技术来改进语音识别的
准确性。
27.与用户设备110相关联的显示器111可以显示由av-asr模型200生成的转录250。av-asr模型200可以实时地流式传输转录250以供在显示器111上和/或在与远程地定位的参与者10h-j、10k相关联的显示器上输出。附加地或替换地,转录250可以被保存在存储器硬件118、136上并且在以后的时间检索以供查看。av-asr模型200可以在用户设备110的数据处理硬件114上运行,从而使得用户设备110能够在不需要在服务器(例如,远程系统130)上执行语音识别的情况下执行设备上语音识别。设备上语音识别减轻了与服务器建立网络连接(从而招致由于带宽约束而导致的时延)的要求,并且还保护用户可能不想与服务器共享的数据。此外,在用户设备110上运行av-asr模型200可以允许使用更高保真度的视听数据204,因为音频部分210或视频部分220中的任何一个都不需要被压缩以满足如在数据204被发送到服务器以进行处理的情况下可能需要的网络带宽约束。
28.av-asr模型200也可以在远程系统130的数据处理硬件134上运行。例如,远程系统130的数据处理硬件134可以运行存储在远程系统130的存储器硬件136上的指令以便运行av-asr模型200。这里,av-asr模型200可以处理多讲话者视听数据204以像上面所讨论的那样生成转录250。远程系统130可以通过网络120将转录250传送到用户设备110以供在显示器111上显示。远程系统134可以类似地将转录250传送到与对应于第一馈源12a的参与者10g-i和/或对应于第二馈源12b的参与者10j相关联的计算设备/显示设备。
29.远程系统130的数据处理硬件134可以提供在客户端设备上无法实现的增加的处理能力并且不限于存储器约束,从而使得能够使用具有更多参数的更大模型以获得增加的准确性。在一些示例中,av-asr模型200的一些部分在用户设备110上运行,然而av-asr模型200的其它部分在远程系统(例如,服务器)130上运行。
30.图2提供图1的端到端单一av-asr模型200的示例,其中该端到端单一av-asr模型200的示例被配置成接收包括音频轨迹210和具有多个面部轨迹230、230a-c的视频部分204的视听数据204以确定音频轨迹210的语音识别结果248。虽然图1的示例环境100描绘源自视频会议场景的视听数据204,但是视听数据204的单一馈源可以从任何来源到达。例如,av-asr 200可以从诸如电影或实况电视广播的媒体内容接收视听数据204的单一馈源。在此场景中,av-asr模型200可以类似地使用视听数据204的视频部分220来协助确定音频轨迹210的语音识别结果248,从而提供音频轨迹210中的语音的转录250,该转录250可以作为闭合字幕被提供在显示器(例如,电视屏幕)上。
31.每个视频面部轨迹230与相应人10的面部相关联。虽然av-asr模型200在示例中被示出为接收三个视频面部轨迹230a-c,但是av-asr模型200接收并随后处理的视频面部轨迹230的数目是非限制性的。因此,在其它示例中av-asr模型200可以接收少于三个视频面部轨迹230或多于三个视频面部轨迹。值得注意的是,单一av-asr模型200不包括用于硬选择多个视频面部轨迹中的哪个视频面部轨迹230包括音频轨迹的讲话面部的单独面部选择系统。
32.av-asr模型200包括编码器部分(“编码器”)260和解码器部分(“解码器”)280。av-asr模型200可以包括序列到序列模型。在一些示例中,av-asr模型200包括视听循环神经网络转换器(rnn-t)模型。视听rnn-t可以包括对于编码器260使用层归一化的512个单元的五个双向长短期记忆(bilstm)层和对于解码器280使用字符记号的2,048个单元的两个lstm
层的栈。
33.编码器260与包括注意力机制270的编码器前端相关联。注意力机制270可以与神经网络模型200的编码器部分260中的注意力层相关联。编码器被配置成接收视听数据204的音频轨迹210以及视听数据204的包括多个视频面部轨迹230、230a-c的视频部分220。音频轨迹210可以被分段成25毫秒(ms)的音频帧,其中在连续的音频帧之间步长为10ms。可以针对每个音频帧计算梅尔谱能量,诸如80个梅尔滤波器组通道,以用对数函数压缩其范围,并且此后,将每三个连续特征向量折叠在一起以每30毫秒产生240维声学特征向量210a-n。因此,编码器部分接收并处理从音频轨迹210导出的声学特征向量210a-n。
34.对于每个视频面部轨迹230,注意力机制270确定以下对应置信度分数,该对应置信度分数指示与对应视频面部轨迹230相关联的相应人的面部包括音频轨迹210的讲话面部的可能性。在一些实现方式中,注意力机制270包括具有逆温度参数的softmax层,该softmax层被配置成使注意力机制270收敛到选择该多个视频面部轨迹230a-c中的与最高置信度分数相关联的视频面部轨迹230作为音频轨迹110的讲话面部的硬判定规则。av-asr模型200的解码器部分280被配置成处理音频轨迹210和该多个视频面部轨迹230a-c中的具有最高置信度分数的视频轨迹230以确定音频轨迹210的语音识别结果248。
35.在一些示例中,注意力机制270将与每个视频面部轨迹230相关联的置信度表示为对应注意力权重,该对应注意力权重应用于与对应视频面部轨迹230相关联的视觉特征向量。因此,注意力机制270可以为该多个视频面部轨迹230输出注意力加权视觉特征向量272,该注意力加权视觉特征向量软选择最有可能包括音频轨迹210的对应同步分段(例如,声学特征向量)的活动讲话面部的视频面部轨迹230。
36.在一些实现方式中,编码器260将软选择与活动讲话面部相关联的视频面部轨迹230的注意力加权视觉特征向量272与声学特征向量级联以在每个时间步提供对应组合特征向量。在每个时间步的组合特征向量指示音频轨迹210和多个视频面部轨迹中的与最高置信度分数相关联的视频面部轨迹230的编码。因此,在每个时间步,解码器部分280被配置成对组合特征向量进行解码以确定音频轨迹210的对应语音识别结果248。在每个时间步的语音识别结果248可以包括关于可能的识别结果的概率分布。在当av-asr模型200是视听rnn-t模型时的示例中,模型200可以在每个时间步以流方式发出语音识别结果248。语音识别结果可以包括字符、空格、词条或单词。多个语音识别结果248可以组合以提供音频轨迹210的转录250。因此,视听rnn-t模型能够实时地流式传输音频轨迹210的转录250。在一些示例中,音频轨迹210包括用第一语言讲出的语音并且解码器280被配置成将第二语言的对应语音识别248确定为用第一语言讲出的语音的翻译。
37.在一些示例中,av-asr 200模型被进一步配置成向转录250提供讲话者标签255以标识转录内容的来源。例如,可以将标记转录内容的讲话者称为回答“谁讲出了什么”和“谁何时讲话了”两者的讲话者日志。因此,通过利用视听数据204的视频部分220,av-asr模型200可以提供包括指配给转录250的每个分段的对应讲话者标签255以标识“谁讲出了什么”和“谁何时讲话了”的日志结果。
38.图3示出了用于训练av-asr模型200的编码器部分260以学习如何为音频轨迹的每个分段选通正确的视频面部轨迹230以协助语音识别的示例训练过程300。在包括训练音频轨迹210t、第一训练视频面部轨迹230ta和一个或多个第二训练视频面部轨迹230tb的训练
数据集302上训练编码器部分260。训练音频轨迹210包括一个或多个口语话语。第一训练视频面部轨迹230ta包括训练音频轨迹210t的该一个或多个口语话语的正确的讲话面部。第一训练视频面部轨迹230ta与地面实况正确的面部标签232c配对。每个第二训练视频面部轨迹230tb包括音频轨迹210的该一个或多个口语话语的不正确的讲话面部。每个第二训练视频面部轨迹230tb与地面实况不正确的面部标签232i配对。
39.在训练过程300期间的多个时间步中的每一个时间步,编码器部分260接收训练音频轨迹210t、第一训练视频面部轨迹230ta和一个或多个第二训练视频面部轨迹230tb作为输入,并且经由注意力机制270生成/预测注意力加权视觉特征向量272以作为输出,其中该注意力加权视觉特征向量272对应于对最有可能包括在该时间步处的音频轨迹210的活动讲话面部的视频面部轨迹230ta、230tb的软选择。代替计算注意力加权视觉特征向量272,编码器部分210可以输出关于包括音频轨迹210的正确的讲话面部的可能的训练视频面部轨迹230t的预测概率分布。
40.注意力加权视觉特征向量272(或概率分布)被馈送到损失模块320以用于确定指示注意力机制270在软选择第一训练视频面部轨迹230ta为包括音频轨迹210的正确的讲话面部时的准确性的损失项325,例如,损失函数。因此,损失模块320是接收与第一训练视频面部轨迹210ta配对的正确的讲话面部标签232c和与每个第二训练视频面部轨迹210tb配对的不正确的讲话标签232i作为地面实况的监督损失项模块。损失项325指示注意力机制的交叉熵损失并且被反馈给注意力机制270以用于教导注意力机制270学习如何将第一训练视频面部轨迹230ta选通为训练音频轨迹210的一个或多个口语话语的正确的讲话面部。因此,损失项325通过更新注意力机制270的参数来用梯度下降交叉熵损失来训练注意力机制270。
41.图4提供使用单一视听自动语音识别(av-asr)模型200来从视听数据204转录语音14的方法400的操作的示例布置的流程图。单一av-asr模型200和方法400的操作可以在图1的用户设备110的数据处理硬件114、图1的远程系统(例如,分布式系统)130的数据处理硬件134、或它们的组合上运行。
42.在操作402处,方法400包括在单一av-asr模型200的编码器前端460的注意力机制470处接收视听数据402的音频轨迹210和视听数据402的视频部分220。视频部分220包括多个视频面部轨迹230。该多个视频面部轨迹230中的每个视频面部轨迹230与相应人的面部相关联。
43.在操作404处,对于该多个视频面部轨迹230中的每个视频面部轨迹230,方法400还包括通过注意力机制270来确定以下置信度分数,该置信度分数指示与视频面部轨迹230相关联的相应人的面部包括音频轨迹210的讲话面部的可能性。这里,确定该多个视频面部轨迹230中的每个视频面部轨迹230的置信度分数可以包括为该多个视频面部轨迹230生成注意力加权视觉特征向量272的注意力机制270。注意力加权视觉特征向量270可以表示对该多个视频面部轨迹230中的以下视频面部轨迹230的软选择,其中该视频面部轨迹包括具有包括音频轨迹210的讲话面部的最高可能性的相应人的面部。在一些示例中,注意力机制270包括具有逆温度参数的softmax层,该softmax层被配置成使注意力机制270收敛到选择该多个视频面部轨迹230中的与最高置信度分数相关联的视频面部轨迹230作为音频轨迹210的讲话面部的硬判定规则。
44.在操作406处,方法400包括由单一av-asr模型200的解码器280处理音频轨迹210和该多个视频面部轨迹230中的与最高置信度分数相关联的视频面部轨迹230以确定音频轨迹210的语音识别结果248。在一些示例中,解码器280被配置成实时地发出音频轨迹210的语音识别结果248以提供音频轨迹210的流式转录250。
45.软件应用程序(即,软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中,软件应用程序可以被称为“应用程序”、“app”或“程序”。示例应用程序包括但不限于系统诊断应用程序、系统管理应用程序、系统维护应用程序、文字处理应用程序、电子表格应用程序、消息传递应用程序、媒体流应用程序、社交联网应用程序和游戏应用程序。
46.非暂时性存储器可以是用于在临时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以用于计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(rom)/可编程只读存储器(prom)/可擦除可编程只读存储器(eprom)/电子可擦除可编程只读存储器(eeprom)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、相变存储器(pcm)以及磁盘或者磁带。
47.图5是可以被用于实现本文档中所描述的系统和方法的示例计算设备500的示意图。计算设备500旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。本文所示的组件、它们的连接和关系以及它们的功能仅是示例性的,并不意味着限制本文档中描述和/或要求保护的发明的实现方式。
48.计算设备500包括处理器510、存储器520、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540,以及连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每个组件使用各种总线互连,并且可以被安装在公共主板上或酌情以其它方式被安装。处理器510能够处理用于在计算设备500内执行的指令,包括存储在存储器520中或存储在存储设备530上的指令,以在诸如耦合到高速接口540的显示器580的外部输入/输出设备上显示用于图形用户界面(gui)的图形信息。在其它实现方式中,多个处理器和/或多个总线可以适当地被使用,连同多个存储器和存储器类型。此外,多个计算设备500可以被连接,其中每个设备提供必要操作的部分(例如,作为服务器组、刀片服务器组或多处理器系统)。
49.存储器520在计算设备500内非暂时性地存储信息。存储器520可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器520可以是用于在临时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以用于计算设备500使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(rom)/可编程只读存储器(prom)/可擦可编程只读存储器(eprom)/电子可擦可编程只读存储器(eeprom)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、相变存储器(pcm)以及磁盘或磁带。
50.存储设备530能够为计算设备500提供大容量存储。在一些实现方式中,存储设备530可以是计算机可读介质。在各种不同的实现方式中,存储设备530可以是软盘设备、硬盘
设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备,或设备阵列,包括在存储区域网络或其它配置中的设备。在另外的实现方式中,计算机程序产品被有形地体现为信息载体。该计算机程序产品包含指令,所述指令在被执行时执行一种或多种方法,诸如上述那些方法。信息载体是计算机或机器可读介质,诸如存储器520、存储设备530或处理器510上的存储器。
51.高速控制器540管理计算设备500的带宽密集型操作,而低速控制器560管理较低的带宽密集型操作。这种职责分配仅是示例性的。在一些实现方式中,高速控制器540被耦合到存储器520、显示器580(例如,通过图形处理器或加速器)和可以接受各种扩展卡(未示出)的高速扩展端口550。在一些实现方式中,低速控制器560被耦合到存储设备530和低速扩展端口590。可以包括各种通信端口(例如,usb、蓝牙、以太网、无线以太网)的低速扩展端口590可以例如通过网络适配器被耦合到一个或多个输入/输出设备,诸如键盘、定点设备、扫描仪或联网设备,诸如交换机或路由器。
52.如图所示,可以以多种不同形式来实现计算设备500。例如,其可以被实现为标准服务器500a或在这样的服务器500a的组中多次实现,被实现为膝上型计算机500b或被实现为机架服务器系统500c的一部分。
53.本文中所描述的系统和技术的各种实现方式能够以数字电子和/或光学电路、集成电路、专门设计的asic(专用集成电路)、计算机硬件、固件、软件和/或它们的组合被实现。这些各种实现方式能够包括在一个或多个计算机程序中的实现方式,该计算机程序在包括至少一个可编程处理器的可编程系统上是可执行的和/或可解释的,该可编程处理器可以是专用的或通用的,被耦合以从存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令,并将数据和指令传送到这些设备。
54.这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言被实现。如本文中使用的,术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、用于向可编程处理器提供机器指令和/或数据的装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(pld)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
55.本说明书中所描述的过程和逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器,也被称为数据处理硬件,被执行。过程和逻辑流程也能够由专用逻辑电路执行,例如fpga(现场可编程门阵列)或asic(应用专用集成电路)。例如,适合于执行计算机程序的处理器包括通用和专用微处理器,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常,计算机还将包括一个或多个用于存储数据的例如磁盘、磁光盘或光盘的大容量存储设备或可操作地耦合至该大容量存储设备以从其接收数据或向其传输数据,或者两者。然而,计算机不必须具有这种设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括半导体存储器设备,例如eprom、eeprom和闪存设备;磁盘,例如内部硬盘
或可移动磁盘;磁光盘;以及cd rom和dvd-rom盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。
56.为了提供与用户的交互,本公开的一个或多个方面能够在具有显示设备或用于向用户显示信息的触摸屏以及可选的键盘和定点设备的计算机上实现,该显示设备例如是crt(阴极射线管)、lcd(液晶显示器)监视器,该定点设备例如是鼠标和轨迹球,用户能够通过其向计算机提供输入。其它类型的设备也能够被用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入能够以任何形式被接收,包括声音、语音或触觉输入。另外,计算机能够通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互;例如,通过响应于从web浏览器收到的请求将网页发送到用户客户端设备上的web浏览器。
57.已经描述了许多实现方式。然而,应理解,在不脱离本公开的精神和范围的情况下,可以做出各种修改。因而,其它实现方式也在所附权利要求的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献