模型训练、语音识别方法及装置、电子设备及存储介质与流程

2021-06-11 21:44:00 来源：中国专利 TAG：电子设备装置模型语音识别训练

本申请涉及计算机技术领域，特别涉及一种模型训练、语音识别方法及装置、电子设备及存储介质。

背景技术：

随着计算机技术和机器学习技术的发展，语音识别成为一个重要的研究方向，并在各个领域得到广泛应用。在语音识别的一些应用场景下，存在待识别语音包括多个语种的情况，比如在英文课堂教学场景下，教师和学生在讲课和回答问题过程中会进行大量的中英文混合对话，而对教师和学生讲话中的英文单词进行准确识别，对英文课堂的质量分析具有重要意义。

目前，在训练用于对包括多个语种的混合语音进行识别的语音识别模型时，基于相应场景下的样本数据训练语音识别模型。比如，将此前英文课堂中教师和学生的中英文混合对话作为样本，训练用于识别英文课堂教学场景下教师与学生对话的语音识别模型。

对于目前多语种混合语音识别模型的训练方法，由于样本数据中各语种音频比例不均衡，导致所训练出的语音识别模型不能准确识别混合语音中的一个或多个语种，因此识别的准确性较差。比如，英文课堂教学场景下，教师和学生的中英文混合对话中英文占比远低于中文，在将英文课堂中教师和学生的中英文混合对话作为样本训练语音识别模型时，所训练出的语音识别模型无法准确识别混合语音中的英文。

技术实现要素：

有鉴于此，本申请实施例提供了一种模型训练、语音识别方法及装置、电子设备及存储介质，能够提高语音识别的准确性。

第一方面，本申请实施例提供了一种语音识别模型训练方法，包括：

获取语音样本，其中，所述语音样本为包括至少两个语种的音频；

将所述语音样本输入待训练的语音识别模型，获得所述语音识别模型输出的文本识别结果；

根据所述文本识别结果，确定所述语音识别模型的语种识别损失，其中，所述语种识别损失用于表征所述语音识别模型将语音识别为文本时，对语种识别的准确性；

确定所述语音识别模型的语音识别损失，其中，所述语音识别损失用于表征所述语音识别模型将语音识别为文本的准确性；

根据所述语种识别损失和所述语音识别损失，计算综合损失；

根据所述综合损失调整所述语音识别模型的参数，直至所述综合损失小于预先设定的损失阈值，停止对所述语音识别模型进行上述训练。

第二方面，本申请实施例还提供了一种语音识别方法，包括：

将待识别语音输入通过如上述第一方面中所述语音识别模型训练方法训练得到的语音识别模型，获得所述语音识别模型输出的文本识别结果；

根据所述文本识别结果，确定与所述待识别语音相对应的识别文本。

第三方面，本申请实施例还提供了一种语音识别模型训练装置，包括：

一个样本获取模块，用于获取语音样本，其中，所述语音样本为包括至少两个语种的音频；

一个语音识别模块，用于将所述获取模块获取到的所述语音样本输入待训练的语音识别模型，获得所述语音识别模型输出的文本识别结果；

一个语种损失确定模块，用于根据所述识别模块获得的所述文本识别结果，确定所述语音识别模型的语种识别损失，其中，所述语种识别损失用于表征所述语音识别模型将语音识别为文本时，对语种识别的准确性；

一个语音损失确定模块，用于确定所述语音识别模型的语音识别损失，其中，所述语音识别损失用于表征所述语音识别模型将语音识别为文本的准确性；

一个综合损失计算模块，用于根据所述语种损失确定模块确定出的所述语种识别损失和所述语音识别模型确定出的所述语音识别损失，计算综合损失；

一个模型调整模块，用于根据所述综合损失计算模块计算出的所述综合损失，调整所述语音识别模型的参数，直至所述综合损失小于预先设定的损失阈值，停止对所述语音识别模型进行上述训练。

第四方面，本申请实施例还提供了一种语音识别装置，包括：

一个语音处理模块，用于将待识别语音输入通过如上述第一方面中所述语音识别模型训练方法训练得到的语音识别模型，获得所述语音识别模型输出的文本识别结果；

一个文本确定模块，用于根据所述语音处理模块获得的所述文本识别结果，确定与所述待识别语音相对应的识别文本。

第五方面，本申请实施例还提供了一种电子设备，包括：处理器和存储器，所述处理器和所述存储器连接，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序实现上述第一方面所述的语音识别模型训练方法，或者实现上述第二方面所述的语音识别方法。

第六方面，本申请实施例还提供了一种计算机存储介质，包括：所述计算机存储介质存储有计算机程序，在处理器执行所述计算机程序时，实现上述第一方面所述的语音识别模型训练方法，或者实现上述第二方面所述的语音识别方法。

由上述技术方案可知，将语音样本输入语音识别模型后，语音识别模型输出文本识别结果，根据文本识别结果确定语音识别模型的语种识别损失，同时还可以确定语音识别模型的语音识别损失，然后根据语音识别损失和语种识别损失计算综合损失，进而基于综合损失调整语音识别模型的参数，直至综合损失小于预设的损失阈值，得到训练完成的语音识别模型。由于语种识别损失表征语音识别模型将语种误分类而造成的损失，通过语音识别损失和语种识别损失计算综合损失，使得综合损失能够反映语音识别模型的语种识别准确性，进而基于综合损失训练语音识别模型时，可以引导语音识别模型向能够正确识别语种的方向发展，因此所训练出的语音识别模型能够更加准确的识别混合语音中的语种，从而能够提高语音识别模型对语音进行识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的一种语音识别模型训练方法的流程图；

图2是本申请实施例二提供的一种语音识别模型训练方法的流程图；

图3是本申请实施例三提供的一种语音识别模型训练方法的示意图；

图4是本申请实施例四提供的一种语音识别方法的流程图；

图5是本申请实施例五提供的一种语音识别模型训练装置的示意图；

图6是本申请实施例六提供的一种语音识别装置的示意图；

图7是本申请实施例七提供的一种电子设备的示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请所提供的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

实施例一

图1是本申请实施例一提供的一种语音识别模型训练方法的流程图。参见图1，本申请实施例提供的语音识别模型训练方法包括如下步骤：

101、获取语音样本，其中，语音样本包括至少两个语种的音频。

语音样本用于训练语音识别模型。为了训练出能够对多语种混合语音进行识别的语音识别模型，语音样本为包括多个语种的混合语音，即语音样本包括有至少两个语种的音频。比如，为了获得用于对中英文混合对话进行语音识别的语音识别模型，语音样本中包括中文和英文两种语种的音频。

由于不同场景下发音规则、语法等存在差异，为了保证所训练出的语音识别模型能够准确对多语种混合语音进行识别，用于训练语音识别模型的语音样本与待识别语音来自相同的场景，并保证在语音识别模型的应用场景和语音样本的获取场景中发音人具有相同的母语。比如，训练语音识别模型用于对英文课堂中教师和学生的中英文混合对话进行识别，则语音样本应当来自英文课堂中教师和学生的对话，如果语音识别模型用于对中国教师教中国学生英文的场景，则语音样本来自中国教师教中国学生英文的课堂，如果语音识别模型用于对外国教师教中国学生英文的场景，则语音样本来自外国教师教中国学生英文的课堂。

需要说明的是，本申请实施例仅以一个语音样本为例进行说明，在实际语音识别模型训练过程中需要更多数量的语音样本，比如语音样本的数量可以为几百个、几千个或者更多数量，各语音样本均按照本申请实施例的方式进行处理，以使语音识别模型具有将语音识别为文本的能力，本申请实施例对语音样本的数量不加以限定。

102、将语音样本输入待训练的语音识别模型，获得语音识别模型输出的文本识别结果。

将语音样本输入到待训练的语音识别模型后，语音识别模型对语音样本进行处理，输出用于指示语音样本所对应识别文本的文本识别结果，基于文本识别结果可以确定与语音样本相对应的识别文本。训练语音识别模型的过程，在本质在上是对语音识别模型的参数进行调整，直至语音识别模型能够对语音样本进行准确识别，即语音识别模型对语音样本进行识别获得的识别文本，与语音样本对应的样本文本相同或相近，样本文本是指语音样本对应的实际文本。

在一种可能的实现方式中，文本识别结果指示语音样本中每个词语在发音词典上的概率分布，即文本识别结果记录了语音样本中每个词语为发音词典中各预设词语的概率，因此可以根据文本识别结果分别将语音样本中的每个词语确定为发音词典中对应概率最高的预设词语，将针对语音样本中各词语确定出的词语进行顺序组合，获得识别文本。

103、根据文本识别结果，确定语音识别模型的语种识别损失，其中，语种识别损失用于表征语音识别模型将语音识别为文本时，对语种识别的准确性。

由于文本识别结果用于指示语音样本对应的识别文本，所以文本识别结果可以指示识别文本所包括各词语的语种，因此根据文本识别结果可以确定语音识别模型对于语种的识别准确性，而语音识别模型对于语种的识别准确性可通过语种识别损失进行表征，语种识别损失越大，说明语音识别模型对语种识别的准确性较差。

104、确定语音识别模型的语音识别损失，其中，语音识别损失用于表征语音识别模型将语音识别为文本的准确性。

语音识别模型用于将输入的语音识别为文本，在训练语音识别模型的过程中，可以确定语音识别模型的语音识别损失，语音识别损失反映语音识别模型将语音识别为文本的准确性，语音识别模型的语种识别能力会影响语音识别损失，但语音识别损失不仅受语音识别能力的影响，还受其他因素的影响，所以根据语音识别损失无法直接确定语音识别模型的语种识别能力。

105、根据语种识别损失和语音识别损失，计算综合损失。

在获取到语音识别模型的语音识别损失和语种识别损失后，根据语音识别损失和语种识别损失，确定语种识别模型的综合损失，使得综合损失既能够反映语音识别模型将语音识别为文本的准确性，又能够反映语音识别模型将语音识别为文本时对语种识别的准确性。

106、根据综合损失调整语音识别模型的参数，直至综合损失小于预先设定的损失阈值，停止对语音识别模型进行上述训练。

在确定出综合损失后，判断综合损失是否小于预设的损失阈值，如果综合损失小于预设的损失阈值，说明语音识别模型的语音识别准确性和语种识别准确性已经达到预期，停止对语音识别模型进行训练，后续可以利用训练出的语音识别模型进行语音识别。如果综合损失大于或等于预设的损失阈值，则对语音识别模型的参数进行调整，然后重复执行本申请实施例中的各个步骤，直至综合损失小于预设的损失阈值，完成语音识别模型的训练。

在训练语音识别模型时，可以获取包括多个语音样本的训练集，通过训练集对语音识别模型进行设定轮次的训练，如果经过设定轮次训练后综合损失小于预设的损失阈值，则停止继续训练，完成语音识别模型的训练。如果经过设定轮次训练后综合损失大于或等于预设的损失阈值，则再对语音识别模型进行设定轮次的训练，直至语音识别模型的综合损失小于预设的损失阈值。

本申请实施例提供的语音识别模型训练方法，将语音样本输入语音识别模型后，语音识别模型输出文本识别结果，根据文本识别结果确定语音识别模型的语种识别损失，同时还可以确定语音识别模型的语音识别损失，然后根据语音识别损失和语种识别损失计算综合损失，进而基于综合损失调整语音识别模型的参数，直至综合损失小于预设的损失阈值，得到训练完成的语音识别模型。由于语种识别损失表征语音识别模型将语种误分类而造成的损失，通过语音识别损失和语种识别损失计算综合损失，使得综合损失能够反映语音识别模型的语种识别准确性，进而基于综合损失训练语音识别模型时，可以引导语音识别模型向能够正确识别语种的方向发展，因此所训练出的语音识别模型能够更加准确的识别混合语音中的语种，从而能够提高语音识别模型对语音进行识别的准确性。

可选地，在图1所示语音识别模型训练方法的基础上，步骤103根据文本识别结果确定语音识别模型的语种识别损失时，根据文本识别结果确定语音样本所对应识别文本中每个词语的语种，获取语音样本所对应样本文本中每个词语的语种，进而根据识别文本中每个词语的语种和样本文本中每个词语的语种，确定语音识别模型的语种识别损失。

根据文本识别结果可以确定识别文本，进而可以确定识别文本中每个词语的语种。比如，根据文本识别结果确定语音样本中一个词语对应的文本为“许多”，则确定识别文本中“许多”这个词语的语种为中文。再比如，根据文本识别结果确定语音样本中一个词语对应的文本为“of”，则确定识别文本中“of”这个词语的语种为英文。

样本文本为语音样本对应的实际文本，识别文本是语音识别模型基于语音样本识别出的文本，识别文本中每个词语的语种和样本文本中每个词语的语种差别，表征了语音识别模型对语种进行识别的准确性，进而可以根据识别文本中各词语的语种和样本文本中个词语的语种，确定语音识别模型的语种识别损失。

基于识别文本中各词语的语种和样本文本中各词语的语种，确定语音识别模型的语种识别损失，确定所确定出的语种识别损失能够真实反映语音识别模型对于语种的识别准确性，进而在根据综合损失调整语音识别模型的参数时，能够引导语音识别模型向能够正确识别语种的方向发展，不仅能够保证所训练出的语音识别模型能够准确识别混合语音中的语种，还能够缩短对语音识别模型进行训练所需的时间，提高对语音识别模型进行训练的效率。

可选地，在根据文本识别结果确定语音样本所对应识别文本中每个词语的语种时，从文本识别结果中获取语音样本中每个待识别词语对应的识别向量，识别向量中包括相对应待识别词语为预设词语的概率值，然后针对语音样本中的每个待识别词语，将该待识别词语对应的识别向量中最大概率值对应的预设词语的语种，确定为识别文本中与该待识别词语相对应的词语的语种。

语音样本包括有一个或多个待识别词语，文本识别结果包括每个待识别词语对应的识别向量，识别向量包括相对应待识别词语为预设词语的概率值。预先创建的发音词典中包括有多个预设词语，识别向量包括相对应待识别词语为发音词典中每个预设词语的概率值。在获得文本识别结果后，可以将每个识别向量中最大概率值对应的预设词语，确定为该识别向量所对应待识别词语对应的词语，进而将确定出的各词语进行顺序组合，获得语音样本对应的识别文本。

对于语音样本中的每个待识别词语，在获取到该待识别词语对应的识别向量后，将该待识别词语所对应识别向量中最大概率值对应的预设词语的语种，确定为识别文本中与该待识别词语相对应的词语的语种。比如，语音样本中包括一个待识别词语a，识别文本中与该待识别词语a相对应的词语为词语a´，即词语a´为语音识别模型对语音样本中待识别词语a的识别结果，待识别词语a所对应识别向量中最大概率值对应的预设词语为词语a´´，进而将词语a´´的语种确定为词语a´的语种。在实际业务实现过程中，词语a´即为词语a´´。

在根据文本识别结果确定识别文本时，根据文本识别结果包括的识别向量确定语音样本中各待识别词语对应的词语，通过对确定出的词语进行顺序组合获得识别文本，采用与确定待识别词语所对应词语相似的方法，确定识别文本中词语的语种，使得所确定出识别文本中词语的语种与语音识别模型识别出的识别文本相对应，保证根据识别文本中词语的语种能够准确的确定语种识别损失。

可选地，在根据识别文本中每个词语的语种和样本文本中每个词语的语种，确定语音识别模型的语种识别损失时，根据识别文本和样本文本中每个词语的语种，确定将语音样本中的每个待识别词语的语种识别为至少两个语种中每个语种的后验概率，并获取将每个待识别词语的语种错判为不同语种时的错判代价，然后根据每个待识别词语对应的后验概率和错判代价，计算相应待识别词语的局部损失，然后对语音样本中各待识别词语的局部损失进行求和，将求和结果作为语音识别模型的语种识别损失。

计算将待识别词语的语种识别为不同语种时的后验概率，以及将待识别词语的语种错判为不同语种时的错判代价，然后根据每个待识别词语的后验概率和错判代价，计算每个待识别词语的局部损失，然后将各待识别词语的局部损失之和作为语种识别损失。根据后验概率和错判代价确定局部损失，通过对局部损失进行累加获得语种识别损失，使得所确定出的语种识别损失能够更加准确的反映语音识别模型对于语种的识别准确性，而且所确定出的语种识别损失能够反映语音识别模型对混合语音整体的语种识别准确性，保证基于所确定出的语种识别损失训练出语音识别模型，在进行语音识别时，能够准确识别混合语音的语种。

可选地，在根据待识别词语对应的后验概率和错判代价，计算该待识别词语的局部损失时，计算将一个待识别词语识别为一个语种的后验概率，与将该待识别词语错判为该语种时的错判代价的乘积，作为该待识别词语在该语种上的子损失，然后对一个待识别词语在各语种上的子损失进行求和，获得该待识别词语的局部损失。

对于每个待识别词语，计算将该待识别词语识别为一个语种的后验概率，与将该待识别词语错判为该语种时的错判代价的乘积，作为该待识别词语在该语种上的子损失，进而对该待识别词语在不同语种上的子损失进行求和，获得该待识别词语的局部损失，保证所计算出的局部损失能够准确反映相应待识别词语被错误识别语种的概率，从而进一步保证所确定语种识别损失能够准确反映语音识别模型对于语种的识别准确性。

实施例二

语音识别模型可以通过神经网络算法实现，比如语音识别模型可以单独通过transformer模型、连接时序分类（connectionisttemporalclassification，ctc）模型等神经网络算法实现。语音识别模型还可以通过多种神经网络算法的结合实现，比如语音识别模型可以通过transformer模型和ctc模型的结合来实现。下面以对包括transformer模型和ctc模型的语音识别模型进行训练为例，对本申请实施例提供的语音识别模型训练方法作进一步详细说明。

图2是本申请实施例二提供的一种语音识别模型训练方法的流程图。参见图2，本申请实施例提供的语音识别模型训练方法包括如下步骤：

201、获取语音样本及语音样本对应的样本文本。

在训练语音识别模型时，需要获取相对应的语音样本和样本文本，样本文本为语音样本中音频内容对应的文本数据。在训练语音识别模型的过程中，语音样本将作为语音识别模型的输入，而样本文本将与语音识别模型的输出进行比较，以确定语音识别模型的损失，进而可以基于语音识别模型的损失调整语音识别模型的模型参数，实现对语音识别模型进行训练。

为了训练用于对多语种混合语音进行识别的语音识别模型，语音样本应当包括多种语种的音频，进而在通过语音样本训练语音识别模型时，使得语音识别模型能够获得对多个语种进行识别的能力。比如，语音识别模型用于中英文混合语音进行识别，则语音样本应当为包括中文和英文的混合语音。

在获取用于训练语音识别模型的语音样本时，根据语音识别模型的应用场景确定语音样本的来源，保证语音识别模型的应用场景与语音样本来源的场景相同。比如，语音识别模型用于对英文课堂教学场景下教师和学生的中英文混合对话进行识别，则获取英文课堂中教师与学生的中英文混合对话作为语音样本。

由于训练语音识别模型需要使用较多数量的语音样本，因此需要获取多个语音样本及语音样本对应的样本文本，通过各语音样本对语音识别模型进行迭代训练，获得能够准确对语音进行识别的语音识别模型。比如获取一万条语音样本和每条语音样本对应的样本文本，后续基于该一万条语音样本和对应的样本文本对语音识别模型进行训练。需要说明的是，在训练语音识别模型的过程中，采用相同的方式对每一条语音样本和对应的样本文本进行处理，因此本申请实施例仅以其中任意一条语音样本和对应的样本文本进行说明，在实际业务实现过程中需要对不同的语音样本重复执行本申请实施例的操作。

在获取到一条语音样本之后，可以采用人工标注的方式获得该语音样本对应的样本文本。比如，对于一条语音样本，生成的样本文本为“scoresof它也是表示许多还有dozensof”。

202、确定样本文本中每个待识别词语的语种。

在获取到语音样本和语音样本对应的样本文本后，通过对样本文本进行分词处理，确定样本文本包括的各待识别词语，然后确定样本文本中每个待识别词语的语种。在确定样本文本中各待识别词语的语种时，可以通过字符类型识别的方式确定词语的语种，对于包括中文和英文的样本文本，如果一个词语的字符类型为中文，则确定该词语的语种为中文，如果一个词语的字符类型为英文，则确定该词语的语种为英文。

例如，针对样本文本“scoresof它也是表示许多还有dozensof”，对该样本文本进行分词处理的结果为“_scores_of_它_也_是_表_示_许_多_还_有_dozens_of”，其中待识别词语之间以“_”为分隔符。对该样本文本中各待识别词语添加语种标签后的结果为“enencncncncncncncncncnenen”，其中“en”表示英文，“cn”表示中文。

203、从语音样本中提取音频特征。

对于获取到的语音样本，从语音样本中提取音频特征，以便后续通过对音频特征进行处理，实现音频到文本的识别。在从语音样本中提取音频特征时，可以从语音样本中提取语音fbank特征作为音频特征。首先在频域上对语音样本进行fbank特征提取，获得语音fbank特征，然后在时域上对语音fbank特征中不满足最长时间长度的部分进行补零，使得从不同语音样本获取到的语音fbank特征具有相同的长度，比如语音fbank特征的维度为80。

204、将音频特征输入声学模型，获得声学模型输出的声学特征。

在提取到音频特征后，将所提取到的音频特征输入语音识别模型包括的声学模型，通过声学模型将音频特征转换为声学特征，以供语言模型进行文本映射。当音频特征为语音fbank特征时，将语音fbank特征输入语音识别模型包括的声学模型，获得声学模型输出的声学特征。

当语音识别模型包括一个声学模型和多个语言模型时，将音频特征输入声学模型获得声学特征，然后将声学特征分别输入每个语言模型，分别获得每个语言模型输出的文本识别结果。

语音识别模型包括transformer模型和ctc模型，transformer模型包括编码器（transformerencoder）和解码器（transformerdecoder），transformerencoder作为语音识别模型的声学模型，transformerdecoder和ctc模型作为语音识别模型的语言模型。在获取到语音fbank特征后，将语音fbank特征输入到基于自注意力（self-attention）机制的transformerencoder，由transformerencoder对语音fbank特征进行并行计算，计算出更高阶的声学特征并输出，进而获得transformerencoder输出的声学特征。

self-attention在本质上是神经网络算法，神经网络算法的具体运算细节为矩阵运算，self-attention的输入为数据特征的数字化表示，输出为经过各种矩阵变换以及运算的矩阵向量，self-attention的输入和输出中单个数字无实际物理意义。

transformerencoder由6个相同的layer（层）组成，每个layer包括两个sub-layer（子层），两个sub-layer分别为multi-headself-attentionmechanism（多头自注意力机制）和fullyconnectedfeed-forwardnetwork（全连接前馈神经网络）。每个sub-layer都加入了residualconnection（残差连接）和normalization（归一化），因此可以将transformerencoder的输出表示为：

其中，x表示输入，针对transformerencoder的第一层，x为语音fbank特征，针对transformerencoder的第二层及后续各层，x为前一层的输出。layernorm表示层的归一化。

transformerencoder每一层的运算过程可以表示为：

其中，multihead表示多头机制，concat表示拼接操作，headi表示第i个head的计算方式，self_attention表示自注意力机制。multi-headattention（多头注意力机制）是通过h个不同线性变换的q、k、v进行投影，最后将不同的attention结果拼接起来。q、k、v是输入向量分别与不同的矩阵相乘得到的向量，然后若干个向量组成的q、k、v矩阵，方便同时运算。

205、将声学特征、嵌入向量和位置向量输入transformerdecoder，获得transformerdecoder输出的第一文本识别结果。

在通过语音样本训练语音识别模型的过程中，对于语音样本中的每个音频帧，可以确定该音频帧对应的嵌入向量和位置向量。位置向量用于表征音频帧在语音样本中的位置。如果一个音频帧为语音样本的首个音频帧，则该音频帧对应的嵌入向量为默认向量；如果一个音频帧不是语音样本的首个音频帧，则该音频帧对应的嵌入向量通过对该音频帧之前各音频帧的识别结果进行数值化处理获得。

嵌入向量通过对样本文本进行embedding获得，因为transformerdecoder采用自回归方式进行解码，因此在目标识别结果在开始时刻是由<bos>标记的符号，后续时刻为前一时刻的解码输出，通过embedding对目标识别结果进行数值化，获得嵌入向量。获取用于表征目标识别结果在样本文本中所处位置的位置信息，通过对位置信息进行对应的计算，获得位置向量。

在获得嵌入向量和位置向量后，对嵌入向量和位置向量进行相加计算，获得加和向量，进而将加和向量和transformerencoder输出的声学特征输入到transformerdecoder中，transformerdecoder基于加和向量和声学特征进行运算，获得第一文本识别结果并输出。

transformerdecoder的计算方式与transformerencoder的计算方式相似，以self-attention为核心，与transformerencoder相区别的是，基于transformerencoder输出的声学特征计算k向量和v向量，将加和向量作为q向量。

transformerdecoder输出的第一文本识别结果指示语音样本中每个词语在发音词典上的概率分布，即第一文本识别结果记录了语音样本中每个词语为发音词典中各词的概率，进而可以根据第一文本识别结果分别将语音样本中每个词语确定为发音词典中对应概率最高的词，将针对语音样本中各词语确定出的词进行顺序组合，便可以确定语音样本对应的识别文本。比如，发音词典包括3000个词，对于语音样本中的每个词语，第一文本识别结果记录了该词语在发音词典中3000个词上的概率，如果该词语在发音词典中第1200个词上的概率最大，则将该词语的识别结果确定为发音词典中的第1200个词。

206、将声学特征输入ctc模型，获得ctc模型输出的第二文本识别结果。

在获取到transformerencoder输出的声学特征后，将声学特征输入ctc模型，ctc模型基于声学特征对语音样本进行语音识别，获得第二文本识别结果并输出，进而可以获得ctc模型输出的第二文本识别结果。

第二文本识别结果与第一文本识别结果相似，也用于指示语音样本中每个词语在发音词典上的概率分布，因此根据第二文本识别结果也可以确定与语音样本相对应的识别文本。

ctc是一种适合在不知道输入输出是否对齐的情况下使用的算法。定义,，其中x表征输入，y表征与输入x相对应的输出。在w2i（语音到音素）模型中，x表征输入的音频帧，y表征识别出的国际音标（internationalphoneticalphabet，ipa）音素序列。在i2t（音素到文本）模型中，x表征输入的ipa音素序列，y表征对应的文本。由于x和y的长度不是对等的，为了能够通过这种类型的数据训练模型，希望确定一种由x到y的映射关系，ctc可以解决这种问题。

在ctc模型中，对于给定的输入x，在训练模型时希望使y的后验概率p(y|x)最大化，由于p(y|x)是可导的，因此可以使用梯度下降算法对p(y|x)进行求导，从而确定ctc模型的损失函数。对于一对输入输出(x,y)来说，ctc模型的目标是最大化：

对于transformerencoder与ctc模型相结合来说，transformerencoder的输出就是，t是时序的概念，乘法表示一条路径上所有字符相乘的概念，加法表示多条路径。

需要说明的是，步骤205和步骤206是同步执行的。

207、将第一文本识别结果和第二文本识别结果输入线性分类器，确定识别文本中每个词语的语种。

在transformerdecoder输出的第一文本识别结果，ctc模型输出第二文本识别结果后，将第一文本识别结果和第二文本识别结果输入预先设定的线性分类器，通过线性分类器对第一文本识别结果和第二文本识别结果进行线性拼接，并根据拼接后的第一文本识别结果和第二文本识别结果进行语种分类，进而根据线性分类器输出的语种分类结果，确定识别文本中每个词语的语种。

由于根据第一文本识别结果和第二文本识别结果可以分别确定语音样本对应的识别文本，通过线性分类器对第一文本识别结果和第二文本识别结果进行线性拼接后，根据拼接结果仍可以确定语音样本对应的识别文本，此时确定出的识别文本综合了transformerdecoder和ctc模型的识别结果，使得识别结果的准确性更高。由于根据拼接结果可以确定语音样本对应的识别文本，进而通过对识别文本进行线性映射，便可以获得识别文本中每个词语的语种。

线性分类器是一种简单的分类器，它不对输入数据做任何非线性变换，因此线性分类器具有较快的速度。

208、根据识别文本中每个词语的语种和样本文本中每个词语的语种，确定语音识别模型的语种识别损失。

步骤202已经确定出样本文本中每个词语的语种，在根据第一文本识别结果和第二文本识别结果确定识别文本中每个词语的语种后，针对识别文本中每个词语，通过如下第一公式计算该词语对应的局部损失。

第一公式包括：

其中，l(x,i)用于表征将词语x的语种确定为语种i时的局部损失；p(j|x)用于表征将词语x的语种确定为语种j时的后验概率，p(j|x)根据样本文本中每个词语的语种确定；m(i,j)用于表征将属于语种i的词语错判为属于语种j的代价，m(i,j)为预设值。

在计算出识别文本中每个词语对应的局部损失后，对识别文本中各词语对应的局部损失进行求和，将求和结果作为语音识别模型的语种识别损失。

在上述第一公式中，j用于表征语音样本中除语种i之外的其他语种，当语音识别模型用于对包括两个语种的混合语音进行识别时，比如语音识别模型用于对中文和英文的混合语音进行识别时，上述第一公式可以简化为l(x,i)=p(j|x)m(i,j)，当词语x被识别为中文时，i表征中文语种，j表征英文语种，当词语x被识别为英文时，i表征英文语种，j表征中文语种。当语音识别模型用于对包括三个或更多个语种的混合语音进行识别时，j有多种取值，即需要向第一公式中带入将词语x确定为不同语种时的后验概率进行计算。

需要说明的是，除了可以通过上述第一公式计算识别文本中每个词语对应的局部损失，进而对各词语对应的局部损失进行求和以计算语音识别模型的语种识别外，还可以根据识别文本中各词语的语种与样本文本中各词语的语种的匹配情况，确定语音识别模型的语种识别损失。比如，将识别文本与样本文本中语种不匹配的词语的个数占总词语个数的比值，作为语音识别模型的语种识别损失，例如识别文本和样本文本均包括10个词语，其中识别文本中第2个和第5个词语的语种与样本文本中第2个和第5个词语的语种不匹配，其他8个词语的语种均匹配，语种不匹配词语的占比为0.2，即确定语音识别模型的语种识别损失为0.2。

209、根据transformer模型的损失、ctc模型的损失和语种识别损失，确定语音识别模型的综合损失。

在通过transformerencoder进行编码并通过transformerdecoder进行解码的过程中，可以获取transformer模型的损失，transformer模型的损失包括transformerencoder的损失和transformerdecoder的损失。在通过ctc模型对声学特征进行处理的过程中，可以获取ctc模型的损失。对transformerencoder的损失、transformerdecoder的损失和ctc模型的损失进行加权求平均，将获得结果作为语音识别模型的语音识别损失。

根据transformer模型的损失、ctc模型的损失和语种识别损失，通过如下第二公式计算语音识别模型的综合损失。

第二公式包括：

其中，ltotal用于表征综合损失，l(x,i)用于表征语种识别损失；lctc用于表征ctc模型的损失；ltransformer用于表征transformer模型的损失；α用于表征预先设定的平衡因子，0＜α＜0。

在本申请实施例中，在计算出语音识别模型的语种识别损失后，根据语种识别损失、transformer模型的损失和ctc模型的损失计算综合损失，进而根据综合损失训练语音识别模型，通过将语种误分类的损失加入到语音识别模型的训练中，将语种的识别作为一个指标，引导语音识别模型向正确的语音识别结果发展，使得训练出的语音识别模型能够正确识别语种，从而提高语音识别模型对多语种混合语音进行语音识别的准确性。

210、判断综合损失是否小于预设的损失阈值，如果是，接收当前流程，否则执行步骤211。

在计算获得综合损失后，将综合损失与预设的损失阈值进行比较，如果综合损失小于预设的损失阈值，说明语音识别模型已经达到的预期的训练目标，能够准确进行语音识别和语种识别，停止对语音识别模型进行训练。如果综合损失大于或等于预设的损失阈值，说明语音识别模型还未达到预期的训练目标，需要继续对语音识别模型进行训练，相应的执行步骤211。

211、对语音识别模型的参数进行调整，并执行步骤201至步骤209。

在确定综合损失大于或等于预设的损失阈值后，对语音识别模型的模型参数进行调整，之后重新执行步骤201至步骤209对语音识别模型进行训练，直至综合损失小于预设的损失阈值，完成语音识别模型的训练。

在对语音识别模型的模型参数进行调整时，本质是对transformer模型和ctc模型的参数进行调整，使transformer模型和ctc模型能够更加准确的对语音进行识别。

本申请实施例提供的语音识别模型训练方法，语音识别模型包括transformer模型和ctc模型，transformerdecoder和ctc模型可以分别输出用于指示识别文本的文本识别结果，通过对transformer模型和ctc模型进行训练，所训练出的语音识别模型可以基于transformer模型和ctc模型进行语音识别，进而综合transformer模型和ctc模型的识别结果确定最终的识别结果，能够进一步提高语音识别模型进行语音识别的准确性。

在训练语音识别模型的过程中，根据transformer模型的损失、ctc模型的损失和语种识别损失确定综合损失，基于综合损失训练语音识别模型，将语音识别损失加入的语音识别模型的整体训练中，将语种识别作为语音识别模型训练的一个指标，引导语音识别模型向正确的语种识别结果上来，避免训练数据驱动下不同语种发音类似，而导致识别结果差异较大的问题，在保证整体识别准确率的基础上，还能够保证对语种识别的准确率。

在本申请实施例中，在计算语种识别损失时，可以根据业务关心的语种调整语种识别损失的算法，比如调整m(i,j)，使得语音识别模型能够在识别过程中更加偏向业务关心语种的识别结果，从而增加业务关心语种的识别准确率，同时还能保证整体的识别准确率。比如，用户更加关注中英文混合语音中英文的识别结果，则在训练过程中将英文样本错判为中文的代价设置为较大值，引导语音识别模型向英文语种识别结果上来，保证所训练出的语音识别模型能够更加准确识别中英文混合语音中的英文。

在本申请实施例中，语音识别模型为端到端语音识别模型。

另外需要说明的是，上述各个方法实施例中所有的可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

实施例三

图3是本申请实施例三提供的一种语音识别模型训练方法的示意图。下面结合图3，对上述实施例二提供的语音识别模型训练方法进行整体说明。参见图3，从语音样本中提取fbank-feature（语音fbank特征）后，将fbank-feature输入transformerencoder，transformerencoder输出声学特征给transformerdecoder和ctc模型，transformerdecoder和ctc模型分别基于输入的声学特征输出语音识别结果，另外将transformerdecoder和ctc模型还将各自输出的语音识别结果输入线性分类器，线性分类器基于输入的两个语音识别结果输出语种识别结果。根据线性分类器输出的语音识别结果确定语音识别模型的语种识别损失，然后联合语种识别损失及ctc模型和transformer模型的损失，联合训练由ctc模型和transformer模型组成的整个语音识别模型，直至由语种识别损失、ctc模型的损失和transformer模型的损失确定的综合损失小于预设损失阈值，完成语音识别模型的训练。

实施例四

图4是本申请实施例四提供的一种语音识别方法的流程图。参见图4，本申请实施例提供的语音识别方法包括如下步骤：

401、将待识别语音输入语音识别模型，获得语音识别模型输出的文本识别结果，其中，语音识别模型为通过上述实施例一、实施例二或实施例三所提供的语音识别模型训练方法训练得到的语音识别模型；

402、根据文本识别结果，确定与待识别语音相对应的识别文本。

本申请实施例提供的语音识别方法，由于在训练语音识别模型过程中联合了语音识别模型将语种误分类的损失，使得训练出的语音识别模型能够更加准确的识别语种，进而在通过语音识别模型对多语种混合语音进行识别时，语音识别模型能够准确识别语种，使根据语音识别模型输出的文本识别结果确定识别文本与待识别语音相匹配，保证对多语种混合语音进行识别的准确性。

在本申请实施例中，在训练语音识别模型时，将语种误分类的损失加入到模型整体训练中，将语种识别作为一个指标，引导语音识别模型向业务关心的语种识别结果发展，使得语音识别模型能够将发音类似的音频识别为业务关心的语种，以满足业务的需求，提高用户的使用体验和满意度。比如，在对中英文混合语音识别的场景中，用户更加关心中英文混合语音中的英文，通过将语种识别作为模型训练的一个指标，使得语音识别模型能够偏向于识别英文，当中英文读音类似时，语音识别模型优先识别为英文，从而满足用户的需求。

可选地，在图4所示语音识别方法的基础上，当语音识别模型包括transformer模型和ctc模型时，步骤401可以通过如下子步骤s1-s4实现，步骤402可以通过如下子步骤s5实现：

s1、在频域上对待识别语音进行fbank特征提取，获得语音fbank特征；

s2、在语音fbank特征输入语音识别模型包括的transformer模型的编码器，获得transformer模型的编码器输出的声学特征；

s3、将声学特征输入transformer模型的解码器，获得transformer模型的解码器输出的第一文本识别结果；

s4、将声学特征输入语音识别模型包括的ctc模型，获得ctc模型输出的第二文本识别结果；

s5、对第一文本识别结果和第二文本识别结果进行求和，根据求和结果确定待识别语音对应的识别文本。

在本申请实施例中，通过transformerencoder提取待识别语音的声学特征后，将声学特征分别输入transformerdecoder和ctc模型，分别通过transformerdecoder和ctc模型进行语音识别，然后根据transformerdecoder和ctc模型的输出确定与待识别语音相对应的识别文本。语音识别模型通过transformerdecoder和ctc模型相结合的方式进行语种识别，综合了transformerdecoder和ctc模型各自的优点，使得识别结果更加准确。

实施例五

图5是本申请实施例五提供的一种语音识别模型训练装置的示意图。参见图5，本申请实施例提供的语音识别模型训练装置包括：

一个样本获取模块501，用于获取语音样本，其中，语音样本为包括至少两个语种的音频；

一个语音识别模块502，用于将样本获取模块501获取到的语音样本输入待训练的语音识别模型，获得语音识别模型输出的文本识别结果；

一个语种损失确定模块503，用于根据语音识别模块502获得的文本识别结果，确定语音识别模型的语种识别损失，其中，语种识别损失用于表征语音识别模型将语音识别为文本时，对语种识别的准确性；

一个语音损失确定模块504，用于确定语音识别模型的语音识别损失，其中，语音识别损失用于表征语音识别模型将语音识别为文本的准确性；

一个综合损失计算模块505，用于根据语种损失确定模块503确定出的语种识别损失和语音损失确定模块504确定出的语音识别损失，计算综合损失；

一个模型调整模块506，用于根据综合损失计算模块505计算出的综合损失，调整语音识别模型的参数，直至综合损失小于预先设定的损失阈值，停止对语音识别模型进行上述训练。

在本申请实施例中，将语音样本输入语音识别模型后，语音识别模型输出文本识别结果，根据文本识别结果确定语音识别模型的语种识别损失，同时还可以确定语音识别模型的语音识别损失，然后根据语音识别损失和语种识别损失计算综合损失，进而基于综合损失调整语音识别模型的参数，直至综合损失小于预设的损失阈值，得到训练完成的语音识别模型。由于语种识别损失表征语音识别模型将语种误分类而造成的损失，通过语音识别损失和语种识别损失计算综合损失，使得综合损失能够反映语音识别模型的语种识别准确性，进而基于综合损失训练语音识别模型时，可以引导语音识别模型向能够正确识别语种的方向发展，因此所训练出的语音识别模型能够更加准确的识别混合语音中的语种，从而能够提高语音识别模型对语音进行识别的准确性。

在一种可能的实现方式中，语种损失确定模块503用于根据文本识别结果，确定语音样本所对应识别文本中每个词语的语种；获取语音样本所对应样本文本中每个词语的语种；根据识别文本中每个词语的语种和样本文本中每个词语的语种，确定语音识别模型的语种识别损失。

在一种可能的实现方式中，语种损失确定模块503用于从文本识别结果中获取语音样本中每个待识别词语对应的识别向量，其中，识别向量中包括相对应待识别词语为预设词语的概率值；针对每个待识别词语，将该待识别词语对应的识别向量中最大概率值对应的预设词语的语种，确定为识别文本中与该待识别词语相对应的词语的语种。

在一种可能的实现方式中，语种损失确定模块503用于根据识别文本中每个词语的语种和样本文本中每个词语的语种，确定将语音样本中每个待识别词语的语种，识别为至少两个语种中的每个语种的后验概率；获取将每个待识别词语的语种错判为不同语种时的错判代价；根据每个待识别词语对应的后验概率和错判代价，计算该待识别语种的局部损失；对语音样本中各待识别词语的局部损失进行求和，获得语音识别模型的语种识别损失。

在一种可能的实现方式中，语种损失确定模块503用于计算将一个待识别词语识别为一个语种的后验概率，与将该待识别词语错判为该语种时的错判代价的乘积，获得该待识别词语在该语种上的子损失；对一个待识别词语在至少两个语种上的子损失进行求和，获得该待识别词语的局部损失。

在一种可能的实现方式中，综合损失计算模块505用于计算语种识别损失与语音识别损失的加权平均值，作为综合损失。

在一种可能的实现方式中，语音识别模型包括声学模型和至少两个语言模型；语音识别模块502用于提取语音样本的音频特征；将音频特征输入声学模型，获得声学模型输出的声学特征；将声学特征分别输入至少两个语言模型，获得每个语言模型输出的文本识别结果。

在一种可能的实现方式中，语音识别模型包括两个语言模型；声学模型为transformer模型的编码器；两个语言模型分别为transformer模型的解码器和连接时序分类ctc模型。

在一种可能的实现方式中，语音识别模块502用于将语音样本中每个音频帧映射为对应的嵌入向量；获取语音样本中每个音频帧对应的位置向量，其中，位置向量用于指示相对应音频帧在语音样本中的位置；分别将语音样本中每个音频帧对应的嵌入向量和位置向量相加，获得该音频帧对应的加和向量；将声学特征和语音样本中各音频帧对应的加和向量，输入transformer模型的解码器，获得transformer模型的解码器输出的文本识别结果；将声学特征输入ctc模型，获得ctc模型输出的文本识别结果。

在一种可能的实现方式中，语种损失确定模块503用于将至少两个语言模型输出的各文本识别结果，输入预设的线性分类器，通过线性分类器对至少两个语言模型输出的各文本识别结果进行拼接，并根据拼接结果进行语种分类；根据线性分类器输出的语种分类结果，确定语音样本所对应识别文本中每个词语的语种；获取语音样本所对应样本文本中每个词语的语种；根据识别文本中每个词语的语种和样本文本中每个词语的语种，确定语音识别模型的语种识别损失。

在一种可能的实现方式中，语音损失确定模块504用于获取声学模型的损失和每个语言模型的损失；计算声学模型的损失和至少两个语言模型的损失的加权平均值，作为语音识别模型的语音识别损失。

实施例六

图6是本申请实施例六提供的一种语音识别装置的示意图。参见图6，本申请实施例提供的语音识别装置包括：

一个语音处理模块601，用于将待识别语音输入通过上述实施例一、实施例二或实施例三提供的语音识别模型训练方法训练得到的语音识别模型，获得语音识别模型输出的文本识别结果；

一个文本确定模块602，用于根据语音处理模块601获得的文本识别结果，确定与待识别语音相对应的识别文本。

在本申请实施例中，由于在训练语音识别模型过程中联合了语音识别模型将语种误分类的损失，使得训练出的语音识别模型能够更加准确的识别语种，进而在通过语音识别模型对多语种混合语音进行识别时，语音识别模型能够准确识别语种，进而使根据语音识别模型输出的文本识别结果确定识别文本与待识别语音相匹配，保证对多语种混合语音进行识别的准确性。

在一种可能的实现方式中，语音处理模块601用于在频域上对待识别语音进行fbank特征提取，获得语音fbank特征；将语音fbank特征输入语音识别模型包括的transformer模型的编码器，获得transformer模型的编码器输出的声学特征；将声学特征输入transformer模型的解码器，获得transformer模型的解码器输出的第一文本识别结果；将声学特征输入语音识别模型包括的ctc模型，获得ctc模型输出的第二文本识别结果；文本确定模块602用于对第一文本识别结果和第二文本识别结果进行求和，根据求和结果确定待识别语音对应的识别文本。

实施例七

基于上述实施例一、实施例二和实施例三所描述的语音识别模型训练方法，及上述实施例四所描述的语音识别方法，本申请实施例提供了一种电子设备，用于执行上述实施例一、实施例二或实施例三提供的语音识别模型训练方法，或者用于执行上述实施例四提供的语音识别方法。图7是本申请实施例七提供的一种电子设备的示意图。参见图7，本申请实施例提供的电子设备70包括：至少一个处理器(processor)702、存储器(memory)704、总线706及通信接口(communicationsinterface)708。其中，

处理器702、通信接口708、以及存储器704通过通信总线706完成相互间的通信。

通信接口708，用于与其它设备进行通信。

处理器702，用于执行程序710，具体可以执行上述实施例一、实施例二或实施例四所描述的方法中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。

存储器704，用于存放程序710。存储器704可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

实施例八

本申请实施例提供一种计算机存储介质，包括：计算机存储介质存储有计算机程序，在处理器执行计算机程序时，实现如本申请任一实施例所描述的语音识别模型训练方法或语音识别方法。

本申请实施例中，将语音样本输入语音识别模型后，语音识别模型输出文本识别结果，根据文本识别结果可以确定识别文本中每个词语的语种，然后根据语音样本所对应样本文本中每个词语的语种和识别文本中每个词语的语种，确定语音识别模型的语种识别损失，然后根据语音识别模型的语音识别损失和语种识别损失确定综合损失，进而基于综合损失语音识别模型的参数，直至综合损失满足预设损失阈值，得到训练完成的语音识别模型。由于语种识别损失表征语音识别模型将语种误分类而造成的损失，通过语音识别损失和语种识别损失确定综合损失，进而基于综合损失训练语音识别模型时，可以引导语音识别模型向能够正确识别语种的方向发展，因此所训练出的语音识别模型能够更加准确的识别混合语音中的语种，从而能够提高语音识别模型对语音进行识别的准确性。

至此，已经对本申请的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带和磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种远端及自主实验机器人装置、管理系统及方法与流程

模型训练、语音识别方法及装置、电子设备及存储介质与流程

相关文章

最热文献