农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

语音识别置信度的确定方法和确定装置与流程

2021-08-27 13:36:00 来源：中国专利 TAG：语音识别置信装置特别公开

本公开涉及语音识别技术领域，特别涉及一种语音识别置信度的确定方法和确定装置。

背景技术：

一个老师对一个学生的教学方式是目前教育行业中一种个性化的教学辅导方式，其可以通过老师专门的辅导学生，让学生对知识点更加容易掌握。

线下一个老师对一个学生的教学方式相对于线上一个老师对一个学生的教学方式来说，教学课堂质量监测难度更大。这是因为，线下教学课堂的环境复杂，监测用的收音设备不仅能接收到本教室内部的学生、老师的对话内容，也能接收到隔壁教室或室外的声音，使得语音识别更加困难。

技术实现要素：

本公开实施例根据每句监测语音的声学识别结果中的非掩码单元的比例信息、每句监测语音的语言识别结果与教学课堂的关键词信息之间的相关性信息、教学课堂的每句监测语音的信噪比信息、困惑度等多模态信息，在复杂授课环境下的教学课堂质量监测中，也能够准确评估监测语音的语音识别置信度，为后续的下游任务提供支撑，可以适用于复杂授课环境下的教学课堂质量监测。

本公开一些实施例提出一种语音识别置信度的确定方法，包括：根据教学课堂的每句监测语音的声学识别结果，确定每句监测语音的声学识别结果中的非掩码单元的比例信息；获取所述教学课堂的关键词信息，并获取所述教学课堂的每句监测语音的语言识别结果，确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息；根据所述非掩码单元的比例信息和所述相关性信息，确定所述教学课堂的每句监测语音的语音识别置信度。

在一些实施例中，获取的所述教学课堂的关键词信息包括：所述教学课堂的科目信息、所述教学课堂的科目的专有名词中的一项或多项。

在一些实施例中，确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息包括：计算每句监测语音的语言识别结果相应的第一向量与所述教学课堂的关键词信息相应的第二向量的余弦值，作为所述相关性信息。

在一些实施例中，确定每句监测语音的声学识别结果中的非掩码单元的比例信息包括：计算每句监测语音的声学识别结果中的非掩码单元的数量与该句监测语音的单元总数之间的比例信息。

在一些实施例中，还包括：计算所述教学课堂的每句监测语音的信噪比信息；根据所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息，确定所述教学课堂的每句监测语音的语音识别置信度。

在一些实施例中，还包括：根据所述教学课堂的每句监测语音的语言识别结果，计算困惑度；根据所述非掩码单元的比例信息、所述相关性信息和所述困惑度，确定所述教学课堂的每句监测语音的语音识别置信度。

在一些实施例中，还包括：根据所述教学课堂的每句监测语音的语言识别结果，计算困惑度；根据所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度，确定所述教学课堂的每句监测语音的语音识别置信度。

在一些实施例中，确定所述教学课堂的每句监测语音的语音识别置信度包括：对语音识别置信度的多模态信息进行归一化处理；如果语音识别置信度的多模态信息包括困惑度，对困惑度进行正相关处理；对处理后的多模态信息进行加权求和运算，并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度；其中，语音识别置信度的多模态信息，包括所述非掩码单元的比例信息和所述相关性信息，或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息，或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度，或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。

在一些实施例中，还包括：根据所述教学课堂的每句监测语音的语音识别置信度，决定是否输出所述教学课堂的每句监测语音的语音识别结果。

本公开一些实施例提出一种语音识别置信度的确定装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行语音识别置信度的确定方法。

本公开一些实施例提出一种语音识别置信度的确定装置，包括：声学识别评估模块，被配置为根据教学课堂的每句监测语音的声学识别结果，确定每句监测语音的声学识别结果中的非掩码单元的比例信息；第一语言识别评估模块，被配置为获取所述教学课堂的关键词信息，并获取所述教学课堂的每句监测语音的语言识别结果，确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息；置信度确定模块，被配置为根据所述非掩码单元的比例信息和所述相关性信息，确定所述教学课堂的每句监测语音的语音识别置信度。

在一些实施例中，还包括：环境评估模块、第二语言识别评估模块中的一个或多个；

其中，所述环境评估模块，被配置为计算所述教学课堂的每句监测语音的信噪比信息；所述第二语言识别评估模块，被配置为根据所述教学课堂的每句监测语音的语言识别结果，计算困惑度；所述置信度确定模块，被配置为根据语音识别置信度的多模态信息，确定所述教学课堂的每句监测语音的语音识别置信度，其中，语音识别置信度的多模态信息，包括所述非掩码单元的比例信息和所述相关性信息，或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息，或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度，或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现语音识别置信度的确定方法的步骤。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一些实施例的语音识别置信度的确定方法的流程示意图。

图2为本公开一些实施例的语音识别置信度的确定装置的结构示意图。

图3为本公开一些实施例的语音识别置信度的确定装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非特别说明，否则，本公开中的“第一”“第二”等描述用来区分不同的对象，并不用来表示大小或时序等含义。

语音识别过程主要包括：在通过收音设备监测到教学课堂的授课音频后，先对监测语音进行特征提取，然后，对提取到的音频特征进行编码，接着，对编码后的音频特征依次进行声学识别和语言识别，最后，对识别结果进行解码并输出。

在语音识别中，提取监测语音的例如fbank特征，然后由音频编码器（audio_encoder）对提取到的音频特征例如采用multi-headattention（多头注意力）进行编码，其编码网络结构由多个相同的layer（层）组成，每个layer由两个sub-layer（子层）组成，分别是multi-headself-attentionmechanism（多头自我注意机制）和fullyconnectedfeed-forwardnetwork（全连接前馈网络）。其中每个sub-layer都加了residualconnection（剩余连接）和normalization（归一化）。multi-headattention编码方法的一些细节内容可以参考相关技术，这里不再赘述。

在语音识别中，例如可以采用maskctc（maskconnectionisttemporalclassification，基于掩码的连接时序分类）模型进行声学识别，该模型适合不确定输入与输出是否对齐的识别场景。

在语音识别中，例如可以采用bert（bidirectionalencoderrepresentationfromtransformers，transformers的双向编码器表示）模型或ngram模型等模型进行语言识别。

基于上述的语音识别过程，下面描述用来评价该语音识别效果的语音识别置信度的确定方法。

图1示出本公开一些实施例的语音识别置信度的确定方法的流程示意图。

如图1所示，该实施例的语音识别置信度的确定方法包括如下的步骤110-160，其中，步骤130、140、160可以根据需要选择执行或不执行。

在步骤110，根据教学课堂的每句监测语音的声学识别结果，确定每句监测语音的声学识别结果中的非掩码单元的比例信息。

也即，计算每句监测语音的声学识别结果中的非掩码单元的数量与该句监测语音的单元总数之间的比例信息。其中，声学识别结果中声学识别失败的单元会被掩码，因此，掩码单元比例越高，说明声学识别结果越不好，相应的，非掩码单元比例越高，说明声学识别结果越好。

在步骤120，获取所述教学课堂的关键词信息，并获取所述教学课堂的每句监测语音的语言识别结果，确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息。

教学课堂的关键词信息可以根据课程设计预先设置。教学课堂的关键词信息包括：所述教学课堂的科目信息、所述教学课堂的科目的专有名词中的一项或多项。

计算每句监测语音的语言识别结果相应的第一向量与所述教学课堂的关键词信息相应的第二向量的余弦值，作为所述相关性信息。其中，第一向量与第二向量越相似，第一向量与第二向量的余弦值越大，相应的，监测语音的语言识别结果与教学课堂的关键词信息的相关性度量值也越大。此外，为了便于计算，第一向量与第二向量可以是相同长度的向量。

例如，声学识别结果对应的拼音串是“zhierjiukeyiqiuyi”，拼音串对应的文字序列可以是“之二就可以球衣”，也可以是“知二就可以求一”。根据教学课堂设置的例如“知道”“求解”等关键词，通过计算发现后者与关键词的相关性更大，从而认为在当前教学课堂中后者出现的概率更大。

在步骤130，根据每句监测语音的语言识别结果，计算困惑度。

根据每句监测语音的语言识别结果，先计算交叉熵，然后基于交叉熵计算困惑度。困惑度越大，语言识别结果越不好，反之，困惑度越小，语言识别结果越好。

假设某句监测语音的语言识别序列为s=w1,w2,…,wn，其中，wi表示句子中的一个字或者单词，序列长度为n。交叉熵为h(s)=-1/n×logp(w1,w2,…,wn)，其中，p(w1,w2,…,wn)表示由w1,…,wn组成的序列s作为一个句子出现的概率。困惑度perplexity(s)等于以e为底的h(s)次幂。

例如，声学识别结果对应的拼音串是“zhierjiukeyiqiuyi”，拼音串对应的文字序列可以是“之二就可以球衣”，也可以是“知二就可以求一”。通过计算发现前者的困惑度更大，从而认为在当前教学课堂中后者出现的概率更大。

在步骤140，计算所述教学课堂的每句监测语音的信噪比信息。

音频信噪比是音频信号的平均功率和噪声的平均功率之比，记为s/n。如果用分贝（db）作为信噪比度量单位，则信噪比等于10×log10(s/n)(db)。一般来说，信噪比越大，原始音频质量越好，因此信噪比可以反应原始音频的质量，也能够一定程度上区分来自隔壁教室的音频和来自本教室的音频。

在步骤150，根据各项多模态信息，确定所述教学课堂的每句监测语音的语音识别置信度。

其中，语音识别置信度的多模态信息，包括所述非掩码单元的比例信息和所述相关性信息，或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息，或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度，或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。

（1）如果步骤130、140未执行，根据所述非掩码单元的比例信息和所述相关性信息，确定所述教学课堂的每句监测语音的语音识别置信度。

（2）如果步骤130未执行、步骤140执行，根据所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息，确定所述教学课堂的每句监测语音的语音识别置信度。

（3）如果步骤130执行、步骤140未执行，根据所述非掩码单元的比例信息、所述相关性信息和所述困惑度，确定所述教学课堂的每句监测语音的语音识别置信度。

（4）如果步骤130、140均执行，根据所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度，确定所述教学课堂的每句监测语音的语音识别置信度。

确定所述教学课堂的每句监测语音的语音识别置信度的方法例如包括：对语音识别置信度的多模态信息进行归一化处理，所谓归一化处理是指将数据按比例缩放，使之落入一个更小的特定区间，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权；如果语音识别置信度的多模态信息包括困惑度，对困惑度进行正相关处理，所谓正相关处理是指对原数据取倒数或取负数；对处理后的多模态信息进行加权求和运算，并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度。

根据多模态信息的不同，通过加权求和计算得到的语音识别置信度分别表示如下：

（1）final_score=a×score_topic b×score_nonmask；

（2）final_score=a×score_topic b×score_nonmask c×score_snr；

（3）final_score=a×score_topic b×score_nonmask d×score_ppl；

（4）final_score=a×score_topic b×score_nonmask c×score_snr d×score_ppl；

其中，score_topic表示关键词相关性信息，score_nonmask表示非掩码单元的比例信息，score_snr表示信噪比信息，score_ppl表示正相关处理后的困惑度，a、b、c、d表示各个加权项的加权系数，可以预先设置。

在步骤160，根据所述教学课堂的每句监测语音的语音识别置信度，决定是否输出所述教学课堂的每句监测语音的语音识别结果。

监测语音的语音识别置信度越高，说明监测语音的语音识别结果越准确。因此，如果监测语音的语音识别置信度高于一定阈值，说明该句监测语音的语音识别结果比较准确，该句监测语音很可能是来自本教室的比较清楚的语音，可以输出该句监测语音的语音识别结果。反之，如果监测语音的语音识别置信度不高于一定阈值，说明该句监测语音的语音识别结果不那么准确，该句监测语音很可能是来自其他教室或室外的比较模糊的语音，可以不输出该句监测语音的语音识别结果。

上述实施例，根据每句监测语音的声学识别结果中的非掩码单元的比例信息、每句监测语音的语言识别结果与教学课堂的关键词信息之间的相关性信息、教学课堂的每句监测语音的信噪比信息、困惑度等多模态信息，在复杂授课环境下的教学课堂质量监测中，也能够准确评估监测语音的语音识别置信度，为后续的下游任务提供支撑，可以适用于复杂授课环境下的教学课堂质量监测。

图2为本公开一些实施例的语音识别置信度的确定装置的结构示意图。

如图2所示，该实施例的语音识别置信度的确定装置200包括模块210、220、250，根据需要还可以包括模块230、240、260中的一个或多个。

声学识别评估模块210，被配置为根据教学课堂的每句监测语音的声学识别结果，确定每句监测语音的声学识别结果中的非掩码单元的比例信息。也即计算每句监测语音的声学识别结果中的非掩码单元的数量与该句监测语音的单元总数之间的比例信息。

第一语言识别评估模块220，被配置为获取所述教学课堂的关键词信息，并获取所述教学课堂的每句监测语音的语言识别结果，确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息。计算每句监测语音的语言识别结果相应的第一向量与所述教学课堂的关键词信息相应的第二向量的余弦值，作为所述相关性信息。获取的所述教学课堂的关键词信息包括：所述教学课堂的科目信息、所述教学课堂的科目的专有名词中的一项或多项。

第二语言识别评估模块230，被配置为根据所述教学课堂的每句监测语音的语言识别结果，计算困惑度。

环境评估模块240，被配置为计算所述教学课堂的每句监测语音的信噪比信息。

置信度确定模块250，被配置为根据语音识别置信度的多模态信息，确定所述教学课堂的每句监测语音的语音识别置信度，其中，语音识别置信度的多模态信息，包括所述非掩码单元的比例信息和所述相关性信息，或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息，或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度，或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。具体来说，对语音识别置信度的多模态信息进行归一化处理，所谓归一化处理是指将数据按比例缩放，使之落入一个更小的特定区间，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权；如果语音识别置信度的多模态信息包括困惑度，对困惑度进行正相关处理，所谓正相关处理是指对原数据取倒数或取负数；对处理后的多模态信息进行加权求和运算，并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度。

输出判决模块260，被配置为根据所述教学课堂的每句监测语音的语音识别置信度，决定是否输出所述教学课堂的每句监测语音的语音识别结果。

图3为本公开一些实施例的语音识别置信度的确定装置的结构示意图。

如图3所示，该实施例的语音识别置信度的确定装置300包括：存储器310以及耦接至该存储器310的处理器320，处理器320被配置为基于存储在存储器310中的指令，执行前述任意一些实施例中的语音识别置信度的确定方法。

例如，根据教学课堂的每句监测语音的声学识别结果，确定每句监测语音的声学识别结果中的非掩码单元的比例信息；获取所述教学课堂的关键词信息，并获取所述教学课堂的每句监测语音的语言识别结果，确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息；根据所述非掩码单元的比例信息和所述相关性信息，确定所述教学课堂的每句监测语音的语音识别置信度。

又例如，计算所述教学课堂的每句监测语音的信噪比信息；根据所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息，确定所述教学课堂的每句监测语音的语音识别置信度。

又例如，根据所述教学课堂的每句监测语音的语言识别结果，计算困惑度；根据所述非掩码单元的比例信息、所述相关性信息和所述困惑度，确定所述教学课堂的每句监测语音的语音识别置信度。

又例如，根据所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度，确定所述教学课堂的每句监测语音的语音识别置信度。

又例如，根据所述教学课堂的每句监测语音的语音识别置信度，决定是否输出所述教学课堂的每句监测语音的语音识别结果。

其中，根据语音识别置信度的上述各项多模态信息，确定所述教学课堂的每句监测语音的语音识别置信度，具体包括：对语音识别置信度的多模态信息进行归一化处理，所谓归一化处理是指将数据按比例缩放，使之落入一个更小的特定区间，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权；如果语音识别置信度的多模态信息包括困惑度，对困惑度进行正相关处理，所谓正相关处理是指对原数据取倒数或取负数；对处理后的多模态信息进行加权求和运算，并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度。

其中，存储器310例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序（bootloader）以及其他程序等。

装置300还可以包括输入输出接口330、网络接口340、存储接口350等。这些接口330，340，350以及存储器310和处理器320之间例如可以通过总线360连接。其中，输入输出接口330为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口340为各种联网设备提供连接接口。存储接口350为sd卡、u盘等外置存储设备提供连接接口。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现各实施例的语音识别置信度的确定方法的步骤。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质（包括但不限于磁盘存储器、cd-rom、光学存储器等）上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解为可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于循环生成网络的语音生成方法与流程

语音识别置信度的确定方法和确定装置与流程

相关文章

最热文献