语音识别方法和装置与流程

2022-04-27 12:50:28 来源：中国专利 TAG：

技术特征：
1.一种语音识别方法，其特征在于，所述方法包括：对目标音频数据中的每个音频帧进行特征提取，得到所述每个音频帧对应的特征信息；基于所述每个音频帧对应的特征信息和语音识别模型，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息，其中，所述文字对应的第一时间信息用于指示所述文字对应的音频帧在所述目标音频数据中的时间位置；基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，其中，所述声音类型包括主人声类型和非主人声类型；基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型，确定所述目标音频数据对应的主人声文本。2.根据权利要求1所述的方法，其特征在于，所述主人声识别模型包括第一conv模块、至少一个第一pyramid pooling模块、至少一个第一blstm模块和第一linear模块；所述基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，包括：基于所述每个音频帧对应的特征信息和所述第一conv模块，确定所述每个音频帧对应的第一中间特征信息；基于所述每个音频帧对应的第一中间特征信息、所述至少一个第一pyramid pooling模块和所述至少一个第一blstm模块，确定m个第一音频帧组分别对应的第二中间特征信息，其中，每个第一音频帧组由第一预设数目个相邻的音频帧组成；基于所述m个第一音频帧组分别对应的第二中间特征信息和所述第一linear模块，确定所述m个第一音频帧组分别对应的主人声类型的概率值或所述m个第一音频帧组分别对应的非主人声类型的概率值；基于所述m个第一音频帧组分别对应的主人声类型的概率值或所述m个第一音频帧组分别对应的非主人声类型的概率值，确定所述每个音频帧对应的声音类型。3.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括声学模型、语言模型、词典和解码器；所述基于所述每个音频帧对应的特征信息和语音识别模型，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息，包括：基于所述每个音频帧对应的特征信息和所述声学模型，确定n个第二音频帧组分别对应的声学模型得分，其中，每个第二音频帧组由第二预设数目个相邻的音频帧组成，所述第二音频帧组对应的声学模型得分用于指示所述第二音频帧组分别与多种预设发音音节的匹配概率；基于所述n个第二音频帧组分别对应的声学模型得分、所述语言模型、所述词典和所述解码器，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息。4.根据权利要求3所述的方法，其特征在于，所述基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，包括：基于所述每个音频帧对应的特征信息、所述n个第二音频帧组分别对应的声学模型得分和所述主人声识别模型，确定所述每个音频帧对应的声音类型。
5.根据权利要求4所述的方法，其特征在于，所述主人声识别模型包括第二conv模块、至少一个第二pyramid pooling模块、至少一个反向lstm模块、组合模块、第二blstm模块和第二linear模块；所述基于所述每个音频帧对应的特征信息、所述n个第二音频帧组分别对应的声学模型得分和所述主人声识别模型，确定所述每个音频帧对应的声音类型，包括：基于所述每个音频帧对应的特征信息和所述第二conv模块，确定所述每个音频帧对应的第三中间特征信息；基于所述每个音频帧对应的第四中间特征信息、所述至少一个第二pyramid pooling模块和所述至少一个反向lstm模块，确定n个第二音频帧组分别对应的第四中间特征信息；基于所述n个第二音频帧组分别对应的声学模型得分、所述n个第二音频帧组分别对应的第四中间特征信息和所述组合模块，确定n个第二音频帧组分别对应的组合特征信息；基于所述n个第二音频帧组分别对应的组合特征信息和所述第二blstm模块，确定所述n个第二音频帧组分别对应的第五中间特征信息；基于所述n个第二音频帧组分别对应的第五中间特征信息和所述第二linear模块，确定所述n个第二音频帧组分别对应的主人声类型的概率值或所述n个第二音频帧组分别对应的非主人声类型的概率值；基于所述n个第二音频帧组分别对应的主人声类型的概率值或所述n个第二音频帧组分别对应的非主人声类型的概率值，确定所述每个音频帧对应的声音类型。6.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型，确定所述目标音频数据对应的主人声文本，包括：基于所述每个音频帧对应的声音类型，确定出声音类型是主人声类型的音频帧对应的第二时间信息，其中，所述音频帧对应的第二时间信息用于指示所述音频帧在所述目标音频数据中的时间位置；在所述文本中，获取所述第二时间信息对应的文字，确定为所述目标音频数据对应的主人声文本。7.一种语音识别装置，其特征在于，所述装置包括：特征提取模块，用于对目标音频数据中的每个音频帧进行特征提取，得到所述每个音频帧对应的特征信息；第一确定模块，用于基于所述每个音频帧对应的特征信息和语音识别模型，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息，其中，所述文字对应的第一时间信息用于指示所述文字对应的音频帧在所述目标音频数据中的时间位置；第二确定模块，用于基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，其中，所述声音类型包括主人声类型和非主人声类型；第三确定模块，用于基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型，确定所述目标音频数据对应的主人声文本。8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至
权利要求6任一项所述的语音识别方法所执行的操作。9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音识别方法所执行的操作。10.一种计算机程序产品，其特征在于，所述计算机程序产品中包括至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音识别方法所执行的操作。

技术总结
本申请公开了一种语音识别方法和装置，属于计算机技术领域。该方法包括：对目标音频数据中的每个音频帧进行特征提取，得到每个音频帧对应的特征信息；基于每个音频帧对应的特征信息和语音识别模型，确定目标音频数据对应的文本和文本中的每个文字对应的第一时间信息；基于每个音频帧对应的特征信息和主人声识别模型，确定每个音频帧对应的声音类型；基于目标音频数据对应的文本、每个文字对应的第一时间信息和每个音频帧对应的声音类型，确定目标音频数据对应的主人声文本。采用本申请，可以对目标音频数据(如音乐、视频或语音等所涉及的音频数据)中的主人声和背景人声进行区分，从而得到目标音频数据的主人声文本，提高了语音识别的准确性。音识别的准确性。音识别的准确性。

技术研发人员：马东鹏苏丹唐立亮
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2022.01.24
技术公布日：2022/4/26

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种检测助听器语音质量的方法及设备与流程

语音识别方法和装置与流程

相关文献

最热文献