语音识别系统、相关方法、装置及设备与流程

2022-02-22 17:02:55 来源：中国专利 TAG：

技术特征：
1.一种语音识别系统，其特征在于，包括：客户端，用于采集目标应用的语音数据，将所述语音数据发送至服务端；服务端，用于从训练样本集中学习得到模型参数动态可变的语音识别模型；针对终端设备发送的所述语音数据，确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。2.一种语音识别方法，其特征在于，包括：从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将目标应用的语音数据转换为文本序列。3.根据权利要求2所述的方法，其特征在于，所述模型参数包括：模型大小；所述模型大小包括：神经网络的层数和/或神经元数量；所述从训练样本集中学习得到模型参数动态可变的语音识别模型，包括：根据动态确定的模型大小，对所述模型执行迭代训练。4.根据权利要求3所述的方法，其特征在于，所述动态确定的模型大小，采用如下方式确定：从多个预设模型大小中，任意选取模型大小。5.根据权利要求3所述的方法，其特征在于，所述模型包括：流式端到端语音识别模型；所述模型包括：音频编码器，解码器；所述模型大小包括：音频编码器的大小。6.根据权利要求2或3所述的方法，其特征在于，所述模型参数包括：时延值；所述从训练样本集中学习得到模型参数动态可变的语音识别模型，包括：根据动态确定的时延值，对所述模型执行迭代训练。7.根据权利要求6所述的方法，其特征在于，所述动态确定的时延值，采用如下方式确定：从多个预设时延值中，任意选取时延值；所述目标应用的时延值包括：所述预设时延值以外的时延值。8.根据权利要求6所述的方法，其特征在于，所述模型包括：流式端到端语音识别模型；所述模型包括：音频编码器，特征数据确定模块，解码器；所述通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列，包括：通过音频编码器，确定所述语音数据的音频特征数据，并根据目标应用的时延值，将所述音频特征数据存入分块内存；通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据；
通过解码器，根据字的特征数据，确定所述语音数据中的字，形成所述文本序列。9.根据权利要求8所述的方法，其特征在于，所述通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的音频特征数据，包括：确定字与块内存间的对应关系；根据所述对应关系，确定与字对应的特征数据。10.根据权利要求9所述的方法，其特征在于，所述特征数据确定模块包括：预测器；所述通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据，还包括：通过所述预测器，确定各个块包括的文本长度；根据所述文本长度，确定字与块间的对应关系。11.根据权利要求2所述的方法，其特征在于，所述确定与所述目标应用对应的目标模型参数，包括：确定目标应用的语音识别性能需求信息；根据所述性能需求信息，确定所述目标模型参数。12.根据权利要求2所述的方法，其特征在于，若与目标应用相关的第一用户将与所述目标模型参数对应的资源对象发送至与所述模型相关的第二用户，则通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。13.一种语音识别方法，其特征在于，包括：采集目标应用的语音数据，将所述语音数据发送至服务端，以使得服务端从训练样本集中学习得到模型参数动态可变的语音识别模型；针对所述语音数据，确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。14.一种语音识别方法，其特征在于，包括：从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与目标应用对应的目标模型参数；将基于所述目标模型参数的所述语音识别模型发送至运行目标应用的目标设备，以使得所述目标应用通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。15.根据权利要求14所述的方法，其特征在于，所述确定与所述目标应用对应的目标模型参数，包括：确定目标应用的语音识别性能需求信息；根据所述性能需求信息，确定所述目标模型参数。16.根据权利要求14所述的方法，其特征在于，所述确定与所述目标应用对应的目标模型参数，包括：确定运行目标应用的设备性能信息；根据所述设备性能信息，确定所述目标模型参数。
17.根据权利要求16所述的方法，其特征在于，所述设备性能信息包括：计算资源信息和存储资源信息；所述根据所述设备性能信息，确定所述目标模型参数，包括：根据所述计算资源信息，确定模型大小；根据所述存储资源信息，确定时延值。18.根据权利要求14所述的方法，其特征在于，还包括：确定与所述目标模型参数对应的资源信息；向与目标应用相关的第一用户发送所述资源信息；若第一用户将资源对象发送至与所述模型相关的第二用户，则将基于所述目标模型参数的所述语音识别模型发送至所述目标设备。19.根据权利要求14所述的方法，其特征在于，还包括：根据所述目标模型参数，确定语音识别性能信息；将所述性能信息发送至与所述目标应用相关的管理设备，以使得管理设备显示所述性能信息。20.一种语音识别方法，其特征在于，包括：向服务端发送针对目标应用的语音识别模型获取请求；接收服务端回送的基于与目标应用对应的目标模型参数的模型参数动态可变的语音识别模型；通过基于所述目标模型参数的所述语音识别模型，将语音数据转换为文本序列。21.根据权利要求20所述的方法，其特征在于，还包括：确定目标应用的语音识别性能需求信息；所述请求包括所述性能需求信息，以使得服务端根据所述性能需求信息，确定所述目标模型参数。22.根据权利要求21所述的方法，其特征在于，还包括：接收服务端发送的根据所述性能需求信息确定的运行所述目标应用的设备性能需求信息；显示所述设备性能需求信息，以便于确定满足所述设备性能需求信息的目标设备，以使得服务端将基于所述目标模型参数的所述语音识别模型发送至所述目标设备。23.根据权利要求20所述的方法，其特征在于，还包括：确定运行目标应用的设备性能信息；所述请求包括所述设备性能信息，以便于服务端根据所述设备性能信息，确定所述目标模型参数。24.根据权利要求20所述的方法，其特征在于，还包括：接收服务端发送的与所述目标模型参数对应的资源信息；将资源对象发送至与所述模型相关的第二用户，以使得服务端发送基于所述目标模型参数的所述语音识别模型。25.根据权利要求20所述的方法，其特征在于，还包括：接收服务端发送的与所述目标模型参数对应的语音识别性能信息；显示所述语音识别性能信息。
26.根据权利要求20所述的方法，其特征在于，还包括：接收服务端发送的基于多组模型参数的语音识别模型的测试系统；分别通过基于各组模型参数的语音识别模型，将语音数据转换为文本序列，以便于确定各组模型参数的语音识别性能；确定目标模型参数，将目标模型参数发送至服务端。27.一种语音识别服务升级方法，其特征在于，包括：确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；根据所述使用状况信息，确定所述语音识别模型的第二模型参数；将运行目标应用的设备上的所述语音识别模型的模型参数配置为第二模型参数，以使得所述设备通过基于第二模型参数的所述语音识别模型，将语音数据转换为文本序列。28.一种语音识别服务升级方法，其特征在于，包括：确定目标应用对基于第一模型参数的模型参数动态可变的语音识别模型的使用状况信息；根据所述使用状况信息，确定所述语音识别模型的第二模型参数；存储所述目标应用与第二模型参数间的对应关系，以使得针对目标应用的待处理语音数据，根据所述对应关系，通过基于所述第二模型参数的所述语音识别模型，将所述语音数据转换为文本序列。29.一种语音识别服务测试方法，其特征在于，包括：接收针对目标应用的语音识别服务测试请求；针对多组模型参数，通过基于各组模型参数的模型参数动态可变的语音识别模型，将目标应用的语音数据转换为文本序列；向请求方回送与各组模型参数对应的文本序列，以便于请求方确定各组模型参数的语音识别性能，并根据所述性能，确定与目标应用对应的目标模型参数。30.一种语音识别模型构建方法，其特征在于，包括：确定训练数据集，所述训练数据包括：语音数据和文本序列标注信息；构建所述模型的网络结构；根据动态确定的模型参数，对所述模型执行迭代训练，得到模型参数动态可变的语音识别模型。

技术总结
本申请公开了语音识别系统、相关方法、装置及设备。其中，所述系统通过多个客户端采集不同应用的语音数据，将语音数据发送至服务端；服务端从训练样本集中学习得到模型参数动态可变的语音识别模型，并确定各个应用使用该模型的模型参数；针对客户端发送的语音数据，确定目标应用的模型参数；将目标应用的模型参数作为语音识别模型的模型参数，通过基于目标应用的模型参数的语音识别模型，将语音数据转换为文本序列。采用这种处理方式，使得通过一个通用模型即可满足不同应用对计算量与时延的不同需求；因此，可以有效节省系统资源，降低模型维护成本，提升模型在应用场景上的可扩展性，提升新应用场景下的模型部署效率。提升新应用场景下的模型部署效率。提升新应用场景下的模型部署效率。

技术研发人员：高志付张仕良
受保护的技术使用者：阿里巴巴集团控股有限公司
技术研发日：2020.07.15
技术公布日：2022/2/7

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种学前教育用音乐学习乐器摆放架的制作方法

语音识别系统、相关方法、装置及设备与流程

相关文献

最热文献