一种语种识别方法及装置与流程

2021-12-03 19:58:00 来源：中国专利 TAG：

技术特征：
1.一种语种识别方法，其特征在于，包括：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。2.根据权利要求1所述的方法，其特征在于，所述获取与所述待识别音频数据对应的音素特征信息，包括：获取与所述待识别音频数据对应的声学特征信息；将所述声学特征信息输入到目标音素特征提取模型中，获取所述音素特征信息，其中，所述目标音素特征提取模型是用于获取与音频数据对应的音素特征信息的模型。3.根据权利要求2所述的方法，其特征在于，所述目标音素特征提取模型，通过以下方法获得：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；获取与所述样本音频数据对应的样本声学特征信息；根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型。4.根据权利要求1所述的方法，其特征在于，所述获取与所述音素特征信息对应的嵌入式向量信息，包括：将所述音素特征信息输入到目标嵌入式向量表示模型中，获取所述目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型。5.根据权利要求4所述的方法，其特征在于，所述目标嵌入式向量表示模型，通过以下方法获得：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；获取与所述样本音频数据对应的样本音素特征信息；根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型。6.根据权利要求5所述的方法，其特征在于，所述根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，包括：获取与所述目标嵌入式向量表示模型对应的待训练模型，其中，所述待训练模型是用于根据所述样本音素特征信息，获得样本嵌入式向量表示信息，并根据获得的样本嵌入式向量表示信息，获得与所述样本音频数据对应的预测语种数量的模型，所述预测语种数量与所述语种标注信息对应，用于表示与样本数据对应的语种类别的数量；根据所述样本音素特征信息和所述语种标注信息，调整所述待训练模型的参数，获得满足预设收敛条件的优化模型；将所述优化模型中用于根据所述样本嵌入式向量表示信息、预测所述预测语种数量的
网络结构层删除，获得所述目标嵌入式向量表示模型。7.根据权利要求1所述的方法，其特征在于，所述根据所述目标嵌入式向量表示信息，获得目标语种，包括：将所述目标嵌入式向量表示信息输入到目标预测模型中，获取待确定语种信息和与所述待确定语种信息对应的预测分值，所述预测分值用于表示所述待确定语种信息的正确程度，所述目标预测模型是用于根据与音频数据对应的嵌入式向量表示信息，预测与所述音频数据对应的待确定语种信息和预测分值的模型；根据所述待确定语种信息和所述预测分值，获得所述目标语种信息。8.根据权利要求7所述的方法，其特征在于，所述根据所述待确定语种信息和所述预测分值，获得所述目标语种信息，包括：获取所述预测分值中的最大值；根据与所述最大值的预测分值对应的所述待确定语种信息，获得所述目标语种信息。9.根据权利要求1所述的方法，其特征在于，还包括：对所述目标嵌入式向量表示信息进行优化处理，获取优化完成的目标嵌入式向量表示信息；所述根据所述目标嵌入式向量表示信息，获得目标语种，包括：根据所述优化完成的目标嵌入式向量表示信息，获得目标语种。10.根据权利要求9所述的方法，其特征在于，所述对所述目标嵌入式向量表示信息进行优化处理，包括以下至少一种处理：对所述目标嵌入式向量表示信息进行向量长度规整处理；对所述目标嵌入式向量表示信息进行减均值处理；对所述目标嵌入式向量表示信息进行线性鉴别性分析处理；对所述目标嵌入式向量表示信息进行主成分分析处理；对所述目标嵌入式向量表示信息进行类内方差规整处理。11.根据权利要求1所述的方法，其特征在于，所述音素特征信息，包括以下至少一种特征信息：与所述待识别音频数据的至少一个音素状态对应的音素对数似然特征信息、与所述待识别音频数据的至少一个音素状态对应的后验概率特征信息。12.根据权利要求1所述的方法，其特征在于，所述待识别音频数据为满足预设时长条件的音频数据。13.根据权利要求1所述的方法，其特征在于，所述待识别音频数据包括至少一个语种类别的音频数据。14.根据权利要求1所述的方法，其特征在于，所述方法还包括：展示所述目标语种信息。15.根据权利要求14所述的方法，其特征在于，所述方法还包括：获取针对所述目标语种信息的确认信息；根据所述确认信息，确定所述待识别音频数据所属的语种类别。16.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取历史语种信息，其中，所述历史语种信息用于表征历史待识别音频数据所属的语种类别；
根据所述历史语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别。17.根据权利要求16所述的方法，其特征在于，所述根据所述历史语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别，包括：确定所述历史语种信息中的高频语种信息；根据所述高频语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别。18.一种音素特征提取模型的获得方法，其特征在于，包括：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；获取与所述样本音频数据对应的样本声学特征信息；根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。19.一种嵌入式向量表示模型的获得方法，其特征在于，包括：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；获取与所述样本音频数据对应的样本音素特征信息；根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。20.一种语音服务提供方法，其特征在于，包括：获取待处理的音频数据；获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。21.根据权利要求20所述的方法，其特征在于，所述语音服务，包括以下任意一种服务：语音识别服务、语音转换服务、语音应答服务。22.一种语音识别方法，其特征在于，包括：获取待识别音频数据；获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；
根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。23.一种语种识别装置，其特征在于，包括：音频数据获取单元，用于获取待识别音频数据；音素特征信息获取单元，用于获取与所述待识别音频数据对应的音素特征信息；嵌入式向量表示信息获取单元，用于获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；语种信息获得单元，用于根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。24.一种电子设备，其特征在于，包括：处理器；存储器，用于存储语种识别方法的程序，该设备通电并通过所述处理器运行所述语种识别方法的程序后，执行下述步骤：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。25.一种存储设备，其特征在于，存储有语种识别方法的程序，该程序被处理器运行，执行下述步骤：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。26.一种音素特征提取模型的获得装置，其特征在于，包括：样本音频数据获取单元，用于获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；样本声学特征信息获取单元，用于获取与所述样本音频数据对应的样本声学特征信息；模型获得单元，用于根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。27.一种电子设备，其特征在于，包括：处理器；存储器，用于存储音素特征提取模型的获得方法的程序，该设备通电并通过所述处理
器运行所述音素特征提取模型的获得方法的程序后，执行下述步骤：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；获取与所述样本音频数据对应的样本声学特征信息；根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。28.一种存储设备，其特征在于，存储有音素特征提取模型的获得方法的程序，该程序被处理器运行，执行下述步骤：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；获取与所述样本音频数据对应的样本声学特征信息；根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。29.一种嵌入式向量表示模型的获得装置，其特征在于，包括：样本音频数据获取单元，用于获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；样本音素特征信息获取单元，用于获取与所述样本音频数据对应的样本音素特征信息；模型获得单元，用于根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。30.一种电子设备，其特征在于，包括：处理器；存储器，用于存储嵌入式向量表示模型的获得方法的程序，该设备通电并通过所述处理器运行所述嵌入式向量表示模型的获得方法的程序后，执行下述步骤：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；获取与所述样本音频数据对应的样本音素特征信息；根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。31.一种存储设备，其特征在于，存储有嵌入式向量表示模型的获得方法的程序，该程序被处理器运行，执行下述步骤：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语
种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；获取与所述样本音频数据对应的样本音素特征信息；根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。32.一种语音服务提供装置，其特征在于，包括：音频数据获取单元，用于获取待处理的音频数据；语种信息获得单元，用于获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；语音服务提供单元，用于根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。33.一种电子设备，其特征在于，包括：处理器；存储器，用于存储语音服务提供方法的程序，该设备通电并通过所述处理器运行所述语音服务提供方法的程序后，执行下述步骤：获取待处理的音频数据；获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。34.一种存储设备，其特征在于，存储有语音服务提供方法的程序，该程序被处理器运行，执行下述步骤：获取待处理的音频数据；获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。35.一种语音识别装置，其特征在于，包括：待识别音频数据获取单元，用于获取待识别音频数据；语种信息获得单元，用于获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；
获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；文本信息获取单元，用于根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。36.一种电子设备，其特征在于，包括：处理器；存储器，用于存储语音识别方法的程序，该设备通电并通过所述处理器运行所述语音识别方法的程序后，执行下述步骤：获取待识别音频数据；获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。37.一种存储设备，其特征在于，存储有语音识别方法的程序，该程序被处理器运行，执行下述步骤：获取待识别音频数据；获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。

技术总结
本申请公开了一种语种识别方法，包括：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。所述方法通过获取与待识别音频数据对应的、用于表征待识别音频数据的发音分布的音素特征信息，并通过对提取的音素特征信息进行嵌入式向量表示，可以更准确、快速的识别出待识别音频数据对应的语种类别。识别出待识别音频数据对应的语种类别。识别出待识别音频数据对应的语种类别。

技术研发人员：王宪亮蔡寅翔索宏彬
受保护的技术使用者：阿里巴巴集团控股有限公司
技术研发日：2020.05.15
技术公布日：2021/12/2

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种具有降噪装置的通讯设备的制作方法

一种语种识别方法及装置与流程

相关文献

最热文献