一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据清洗方法、装置及存储介质与流程

2022-06-11 09:07:25 来源:中国专利 TAG:


1.本公开涉及数据处理技术领域,尤其涉及一种数据清洗方法、装置及存储介质。


背景技术:

2.随着互联网的发展,电子设备的智能化程度逐步提高,例如,无需按下按钮,人们可以通过说出一段语音的方式来唤醒音箱、手机、手环等设备,方便快捷。
3.语音唤醒技术即实时监测用户语音并实时响应有效唤醒词的流式处理技术,流式音频经过短时取窗并提取声学特征后送入唤醒模型,由唤醒模型判别是否将设备唤醒,因此,语音唤醒模型的性能和精度直接影响唤醒结果的准确性,从而影响用户体验。
4.语音唤醒模型的性能和精度往往受限于训练数据的规模和训练样本的质量,例如,可以采用半监督学习方式来扩充训练样本,即一个数据集可能包含大量未标注样本,半监督学习方式采用自训练方法,基于有标签样本进行学习来预测无标签样本结果。目前,对于预测结果通常需要人工核对,由人工确认预测结果是否准确,将人工确认准确的样本加入扩充数据集中,然而这种方式依赖于人工处理,费时费力,效率较低,且受到人工主观判断的影响,不够准确。


技术实现要素:

5.为克服相关技术中存在的问题,本公开提供一种数据清洗方法、装置及存储介质,可以提高语音样本数据的标签的准确性,且无需人工对语音样本数据的标签进行标注或确认。
6.根据本公开实施例的第一方面,提供一种数据清洗方法,包括:
7.获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的所述语音样本数据对应的唤醒结果信息,其中,所述唤醒结果信息用于表征所述目标设备是否被唤醒;
8.确定所述语音样本数据与用于唤醒所述目标设备的标准语音唤醒数据之间的差异信息;
9.根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签。
10.可选地,所述确定所述语音样本数据与用于唤醒所述目标设备的标准语音唤醒数据之间的差异信息,包括:
11.对所述语音样本数据进行音素解码处理,得到所述语音样本数据的样本音素序列;
12.确定所述样本音素序列与所述标准语音唤醒数据的标注音素序列之间的音错率,并将所述音错率作为所述差异信息。
13.可选地,所述确定所述样本音素序列与所述标准语音唤醒数据的标注音素序列之间的音错率,包括:
14.根据所述样本音素序列与所述标注音素序列之间的距离信息、以及所述标注音素序列的序列长度,确定所述音错率。
15.可选地,所述确定所述样本音素序列与所述标准语音唤醒数据的标注音素序列之间的音错率,包括:
16.对所述样本音素序列进行音调融合处理,得到第一融合信息;
17.对所述标注音素序列进行音调融合处理,得到第二融合信息;
18.根据所述第一融合信息与所述第二融合信息之间的距离信息、以及所述标注音素序列的序列长度,确定所述音错率。
19.可选地,所述根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签,包括:
20.在所述唤醒结果信息表征所述目标设备被唤醒的情况下,若所述差异信息小于或等于第一指定阈值,则确定所述语音样本数据为正样本,若所述差异信息大于或等于第二指定阈值,则确定所述语音样本数据为负样本,其中,所述第一指定阈值小于所述第二指定阈值。
21.可选地,所述根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签,包括:
22.在所述唤醒结果信息表征所述目标设备未被唤醒的情况下,若所述差异信息小于或等于第三指定阈值,则确定所述语音样本数据为正样本,若所述差异信息大于所述第三指定阈值,则确定所述语音样本数据为负样本。
23.可选地,所述方法还包括:
24.根据所述语音样本数据和所述分类标签,对所述当前语音唤醒模型进行更新。
25.根据本公开实施例的第二方面,提供一种数据清洗装置,包括:
26.获取模块,用于获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的所述语音样本数据对应的唤醒结果信息,其中,所述唤醒结果信息用于表征所述目标设备是否被唤醒;
27.确定模块,用于确定所述语音样本数据与用于唤醒所述目标设备的标准语音唤醒数据之间的差异信息;
28.清洗模块,用于根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签。
29.可选地,所述确定模块,包括:
30.解码处理子模块,用于对所述语音样本数据进行音素解码处理,得到所述语音样本数据的样本音素序列;
31.第一确定子模块,用于确定所述样本音素序列与所述标准语音唤醒数据的标注音素序列之间的音错率,并将所述音错率作为所述差异信息。
32.可选地,所述第一确定子模块,包括:
33.第二确定子模块,用于根据所述样本音素序列与所述标注音素序列之间的距离信息、以及所述标注音素序列的序列长度,确定所述音错率。
34.可选地,所述第一确定子模块,包括:
35.第一融合处理子模块,用于对所述样本音素序列进行音调融合处理,得到第一融
合信息;
36.第二融合处理子模块,用于对所述标注音素序列进行音调融合处理,得到第二融合信息;
37.第三确定子模块,用于根据所述第一融合信息与所述第二融合信息之间的距离信息、以及所述标注音素序列的序列长度,确定所述音错率。
38.可选地,所述清洗模块,包括:
39.第四确定子模块,用于在所述唤醒结果信息表征所述目标设备被唤醒的情况下,若所述差异信息小于或等于第一指定阈值,则确定所述语音样本数据为正样本,若所述差异信息大于或等于第二指定阈值,则确定所述语音样本数据为负样本,其中,所述第一指定阈值小于所述第二指定阈值。
40.可选地,所述清洗模块,包括:
41.第五确定子模块,用于在所述唤醒结果信息表征所述目标设备未被唤醒的情况下,若所述差异信息小于或等于第三指定阈值,则确定所述语音样本数据为正样本,若所述差异信息大于所述第三指定阈值,则确定所述语音样本数据为负样本。
42.可选地,所述装置还包括:
43.更新模块,用于根据所述语音样本数据和所述分类标签,对所述当前语音唤醒模型进行更新。
44.根据本公开实施例的第三方面,提供一种数据清洗装置,包括:
45.处理器;
46.用于存储处理器可执行指令的存储器;
47.其中,所述处理器被配置为:执行本公开第一方面所提供的数据清洗方法的步骤。
48.根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的数据清洗方法的步骤。
49.本公开的实施例提供的技术方案可以包括以下有益效果:
50.通过上述技术方案,获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的语音样本数据对应的唤醒结果信息,确定语音样本数据与用于唤醒目标设备的标准语音唤醒数据之间的差异信息,并根据唤醒结果信息和差异信息,对语音样本数据进行清洗,以确定语音样本数据的分类标签。由于受限于当前语音唤醒模型的性能,模型可能有误识别或漏识别的情况,因此唤醒结果可能存在错误,本方案中根据唤醒结果信息和差异信息对语音样本数据进行清洗,这样确定的语音样本数据的分类标签,相比于当前语音唤醒模型输出的唤醒结果更加准确,提高语音样本数据的标签的准确性,并且无需人工对语音样本数据的标签进行标注,避免人工处理费时费力和准确度不高的问题。
51.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
52.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
53.图1是根据一示例性实施例示出的根据语音样本数据对模型进行迭代更新的示意图。
54.图2是根据一示例性实施例示出的一种数据清洗方法的流程图。
55.图3是根据一示例性实施例示出的一种确定语音样本数据与标准语音唤醒数据之间的差异信息的方法的流程图。
56.图4是根据一示例性实施例示出的一种音素解码处理过程的示意图。
57.图5是根据一示例性实施例示出的一种目标设备被唤醒的情况下确定语音样本数据的分类标签的示意图。
58.图6是根据一示例性实施例示出的一种目标设备未被唤醒的情况下确定语音样本数据的分类标签的示意图。
59.图7是根据一示例性实施例示出的数据清洗方法的整体示意图。
60.图8是根据一示例性实施例示出的一种数据清洗装置的框图。
61.图9是根据一示例性实施例示出的一种用于数据清洗的装置的框图。
具体实施方式
62.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
63.需要说明的是,本技术中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
64.如背景技术所述,语音唤醒模型的性能和精度直接影响唤醒结果的准确性,且模型的性能和精度受限于训练数据的规模和训练样本的质量。在语音唤醒模型部署于设备中后,用户在实际使用设备的过程中,用户说出的用于唤醒该设备的语音数据,可作为训练数据,这样可以扩大训练数据的规模,用于对语音唤醒模型进行迭代更新,以对模型进行优化,从而不断提高模型的性能和精度。然而语音唤醒模型的识别准确性受限于当前模型的性能,可能会存在误识别和漏识别的情况下,例如,用户说出一段语音的意图不是为了将设备唤醒,而模型错误地识别了这段语音,误将设备唤醒,或者用户说出一段语音的目的是为了将设备唤醒,而模型未正确识别,没有将设备唤醒,如果采用这些误识别和漏识别的数据对模型进行迭代更新,不利于模型性能和精度的提高。
65.有鉴于此,本公开提供一种数据清洗方法、装置及存储介质,可以提高语音样本数据的标签的准确性,且无需人工对语音样本数据的标签进行标注或确认。图1是根据一示例性实施例示出的根据语音样本数据对模型进行迭代更新的示意图。如图1所示,当前语音唤醒模型可输出唤醒结果,通过对语音样本数据进行音素解码,可对语音样本数据的分类标签即语音样本数据是正样本还是负样本进行筛选清洗,从而采用筛选清洗之后的语音样本数据对当前语音唤醒模型进行训练,如此对模型进行迭代更新。
66.以下对本公开提供的数据清洗方法进行详细介绍。
67.图2是根据一示例性实施例示出的一种数据清洗方法的流程图,如图2所示,该数
据清洗方法可应用于终端中,包括步骤101至步骤103。
68.在步骤101中,获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的语音样本数据对应的唤醒结果信息。其中,该唤醒结果信息用于表征目标设备是否被唤醒。
69.示例地,目标设备可以是音箱、手机、平板电脑等终端设备,也可以是智能手环、智能手表等可穿戴设备,本公开对目标设备不做具体限制。用户在使用目标设备的过程中,可通过说出一段语音的方式将目标设备唤醒,目标设备可采集并存储这些语音,并作为语音样本数据。
70.目标设备中可部署有语音唤醒模型,在采集到语音样本数据后,当前语音唤醒模型可对语音样本数据进行识别,以识别用户说出这段语音的目的是否为了将目标设备唤醒,并输出对应的唤醒结果信息,该唤醒结果信息用于表征目标设备是否被成功唤醒。
71.在步骤102中,确定语音样本数据与用于唤醒目标设备的标准语音唤醒数据之间的差异信息。
72.其中,标准语音唤醒数据可以是用于唤醒目标设备的、没有地区方言和口音的标准语音,该标准语音唤醒数据可以预先存储在目标设备中。语音样本数据与标准语音唤醒数据之间的差异信息,可表征用户说出的语音与标准语音之间的差异程度。
73.在步骤103中,根据唤醒结果信息和差异信息,对语音样本数据进行清洗,以确定语音样本数据的分类标签。
74.该分类标签可用于表征语音样本数据是正样本还是负样本,其中,正样本表示实际需要将目标设备唤醒,负样本表示实际无需将目标设备唤醒。
75.如上文介绍,受限于当前语音唤醒模型的性能,模型可能有误识别或漏识别的情况,因此唤醒结果可能存在错误,例如语音样本数据实际是为了将目标设备唤醒,而唤醒结果信息表征目标设备未被成功唤醒,或者语音样本数据并不是为了将目标设备唤醒,而唤醒结果信息表征目标设备被成功唤醒,这些误识别和漏识别的数据不利于模型性能和精度的提高。因此本公开中根据唤醒结果信息和差异信息,对语音样本数据进行清洗,以确定语音样本数据的分类标签,这样确定的分类标签,相比于当前语音唤醒模型输出的唤醒结果更加准确,并且无需人工对语音样本数据的标签进行标注,避免人工处理费时费力和准确度不高的问题。
76.通过上述技术方案,获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的语音样本数据对应的唤醒结果信息,确定语音样本数据与用于唤醒目标设备的标准语音唤醒数据之间的差异信息,并根据唤醒结果信息和差异信息,对语音样本数据进行清洗,以确定语音样本数据的分类标签。由于受限于当前语音唤醒模型的性能,模型可能有误识别或漏识别的情况,因此唤醒结果可能存在错误,本方案中根据唤醒结果信息和差异信息对语音样本数据进行清洗,这样确定的语音样本数据的分类标签,相比于当前语音唤醒模型输出的唤醒结果更加准确,提高语音样本数据的标签的准确性,并且无需人工对语音样本数据的标签进行标注,避免人工处理费时费力和准确度不高的问题。
77.图3是根据一示例性实施例示出的一种确定语音样本数据与标准语音唤醒数据之间的差异信息的方法的流程图,如图3所示,步骤102可包括步骤201和步骤202。
78.在步骤201中,对语音样本数据进行音素解码处理,得到语音样本数据的样本音素
序列。
79.考虑到唤醒词通常是固定的词或句子,为了避免词级别语音模型的影响,本公开中对语音样本数据进行音素解码处理,音素(phone)是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。
80.示例地,可以采用音素级别的自动语音识别模型(automatic speech recognition,asr)进行音素解码,其中asr模型可由声学模型、发音词典、音素级语言模型复合得到。图4是根据一示例性实施例示出的一种音素解码处理过程的示意图,如图4所示,其中音素级解码器pd(phonetic decoder)可以为asr模型,由声学模型、发音词典和音素级语言模型构成,语音样本数据输入到音素级解码器中,可得到音素级解码器输出的音素序列。
81.示例地,对于语音样本数据u,通过音素解码器pd(phonetic decoder)进行解码,可得到样本音素序列pd(u)={p1,p2,

,pn},其中pi表示音素,i∈[1,n],n表示样本音素序列中音素的个数。
[0082]
在步骤202中,确定样本音素序列与标准语音唤醒数据的标注音素序列之间的音错率,并将音错率作为差异信息。
[0083]
其中,标注音素序列可以是对标准语音唤醒数据进行音素解码处理得到的,例如采用asr模型对标准语音唤醒数据进行音素解码,得到标注音素序列,该音素解码处理方式可参照图4所示的方式,该标注音素序列可预先存储于目标设备中。
[0084]
在一实施例中,该步骤202的实施方式可以为:根据样本音素序列与标注音素序列之间的距离信息、以及标注音素序列的序列长度,确定音错率。
[0085]
示例地,可通过如下公式(1)确定音错率:
[0086]
per(u)=ed(sw,pd(u))/length(sw)
ꢀꢀꢀ
(1)
[0087]
其中,per(u)表示音错率,ed(edit distance)表示用于计算样本音素序列与标注音素序列之间的编辑距离的函数,sw表示标注音素序列,pd(u)表示样本音素序列,length(sw)表示标注音素序列的序列长度。
[0088]
虽然音素级解码结果相比较词级别结果具有更多的容错空间,但是音素解码模型的性能表现优劣不一,为了进一步提高容错空间,使得分类标签的标注结果更加符合用户意图,在另一优选实施例中,该步骤202的实施方式可以为:
[0089]
对样本音素序列进行音调融合处理,得到第一融合信息;
[0090]
对标注音素序列进行音调融合处理,得到第二融合信息;
[0091]
根据第一融合信息与第二融合信息之间的距离信息、以及标注音素序列的序列长度,确定音错率。
[0092]
其中,考虑到用户说话口音和地区方言等问题,同样的字或词不同地区的用户说出来可能音调不同,可对样本音素序列进行音调融合处理,融合处理后的结果可以达到相同,以及对标注音素序列进行音调融合处理,使得具有地区方言和口音的语音样本数据,也能被准确标注。对于音调融合处理方式,可参照相关技术,本公开不做限制。
[0093]
示例地,以“小爱同学”为例,由于说话人口音等问题,小爱同学的音素解码结果可能不一样,但是经过融合后的结果可以达到相同:
[0094][0095]
作为示例,该实施例可通过如下公式(2)确定音错率:
[0096]
per(u)=ed(m(sw),m(pd(u)))/length(sw)
ꢀꢀꢀ
(2)
[0097]
其中,m()表示音调融合处理。
[0098]
通过上述方案,音素是根据语音的自然属性划分出来的最小语音单位,可以避免词级别语音模型的影响,将样本音素序列与标注音素序列之间的音错率,作为差异信息,该差异信息可准确反映用户说出的语音样本数据与标准语音数据之间的差异程度。
[0099]
其中,唤醒结果信息表征目标设备被唤醒,对应的语音样本数据可记为x

,这些样本可分为两类,一类是实际需要将目标设备唤醒且目标设备被唤醒,即tp例(true positive,真值为真且识别为真),可记为另一类是实际无需将目标设备唤醒而目标设备被唤醒,即fp例(false positive,真值为假而识别为真),可记为
[0100]
唤醒结果信息表征目标设备未被唤醒,对应的语音样本数据可记为x

,这些样本也可分为两类,一类是实际无需将目标设备唤醒且目标设备未被唤醒,即tn例(true negative,真值为假且识别为假),可记为另一类是实际需要将目标设备唤醒而目标设备未被唤醒,即fn例(false negative,真值为真而识别为假),可记为
[0101]
下面首先介绍唤醒结果信息表征目标设备被唤醒的情况。本公开中,步骤103可包括:在唤醒结果信息表征目标设备被唤醒的情况下,若差异信息小于或等于第一指定阈值,则确定语音样本数据为正样本,若差异信息大于或等于第二指定阈值,则确定语音样本数据为负样本,其中,第一指定阈值小于第二指定阈值。
[0102]
图5是根据一示例性实施例示出的一种目标设备被唤醒的情况下确定语音样本数据的分类标签的示意图。如图5所示,表示第一指定阈值,表示第二指定阈值。
[0103]
差异信息可表征语音样本数据与标准语音数据之间的差异程度。如图5所示,如果差异信息大于或等于第二指定阈值,即大于或等于可表征语音样本数据与标准语音数据之间的差异程度较大,用户说出语音样本数据的目的是想要唤醒目标设备的可能性较小,语音样本数据属于类,可将语音样本数据确定为负样本,即实际无需将目标设备唤醒。这种情况即属于当前语音唤醒模型识别不够准确,在实际无需将目标设备唤醒时,唤醒了目标设备。通过数据清洗,这种情况下可将语音样本数据确定为负样本,可提高样本标签的准确度。
[0104]
若差异信息小于第二指定阈值即小于可表征用户说出语音样本数据的目的可能是想要唤醒目标设备,即语音样本数据属于类。
[0105]
进一步地,如果差异信息越小,可表征语音样本数据与标准语音数据越接近,用户说出语音样本数据的目的是想要唤醒目标设备的可能性越大,因此若差异信息小于或等于第一指定阈值即可将语音样本数据作为优质类,并确定为正样本,即实际需要将目标设备唤醒。
[0106]
如果差异信息大于第一指定阈值且小于第二指定阈值可表征语音样本数据与标准语音数据之间的差异程度一般,不能明确确定用户说出语音样本数据的目的是否是想要唤醒目标设备,可将语音样本数据作为劣质类,属于劣质类的语音样本数据可不作为训练样本。
[0107]
对唤醒结果信息表征目标设备未被唤醒的情况进行介绍。本公开中,步骤103可包括:在唤醒结果信息表征目标设备未被唤醒的情况下,若差异信息小于或等于第三指定阈值,则确定语音样本数据为正样本,若差异信息大于第三指定阈值,则确定语音样本数据为负样本。
[0108]
图6是根据一示例性实施例示出的一种目标设备未被唤醒的情况下确定语音样本数据的分类标签的示意图。如图6所示,t

表示第三指定阈值。
[0109]
如图6所示,若差异信息小于或等于第三指定阈值t

,可表征语音样本数据与标准语音数据接近,用户说出语音样本数据的目的是想要唤醒目标设备的可能性很大,即语音样本数据属于类,可将语音样本数据确定为正样本,即实际需要将目标设备唤醒。这种情况也属于当前语音唤醒模型识别不够准确,在实际需要将目标设备唤醒时,未将目标设备唤醒。通过数据清洗,这种情况下可将语音样本数据确定为正样本,可提高样本标签的准确度。
[0110]
若差异信息大于第三指定阈值t

,可表征语音样本数据与标准语音数据之间的差异程度较大,实际无需将目标设备唤醒,即语音样本数据属于类,可确定语音样本数据为负样本。
[0111]
需要说明的是,本公开对于各个阈值的取值不做限制。上述涉及的第一指定阈值、第二指定阈值、第三指定阈值,可以是预先设定的固定值,也可是浮动的阈值,例如目标设备采集了大量的语音样本数据,可分别确定每一语音样本数据与标准语音数据之间的差异信息,根据各个差异信息的排序结果,确定阈值的取值。
[0112]
通过上述技术方案,对于当前语音唤醒模型识别不够准确的情况,通过数据清洗,可以提高语音样本数据的分类标签的准确性,且本方案中确定分类标签的方式,可以自动化完成,无需人工进行核对。
[0113]
本公开提供的数据清洗方法还可包括:根据语音样本数据和分类标签,对当前语音唤醒模型进行更新。
[0114]
其中,分类标签用于标注语音样本数据为正样本还是负样本,由于进行了数据清洗,修正了当前语音唤醒模型误识别的情况,因此该分类标签相比于当前语音唤醒模型输出的唤醒结果更加准确,根据语音样本数据和分类标签,对当前语音唤醒模型进行更新,可以使得语音唤醒模型的性能得到优化,精度进一步提高。其中,语音唤醒模型可以是神经网络模型,也可以是音素分类-解码器模型,不做限制。
[0115]
图7是根据一示例性实施例示出的数据清洗方法的整体示意图。如图7所示,用户语音可以是用户说出的用于唤醒目标设备的语音样本数据,用户语音输入至语音唤醒模型中,语音唤醒模型可输出唤醒结果信息,如果唤醒结果信息表征目标设备被唤醒,样本可作为被唤醒语音样本数据,如果唤醒结果信息表征目标设备未被唤醒,样本可作为未被唤醒语音样本数据。不管是被唤醒语音样本数据还是未被唤醒语音样本数据,均可经过音素解
码处理(如asr模型处理),得到对应的样本音素序列,并确定样本音素序列与标注音素序列之间的音错率,该音错率可作为语音样本数据与标准语音唤醒数据之间的差异信息。之后,根据音错率和各个指定阈值,确定被唤醒语音样本数据是tp例还是fp例,以及未被唤醒语音样本数据是tn例还是fn例,并将fp例和tn例作为负样本,以及如图7所示的实施例中将tp例和fn例作为正样本。在另一实施例中,可如上文所述,将tp例中的优质类作为正样本,tp例中的劣质类不作为训练数据。在确定语音样本数据的分类标签之后,语音样本数据即可作为训练数据对语音唤醒模型进行迭代更新。
[0116]
基于同一发明构思,本公开还提供一种数据清洗装置,图8是根据一示例性实施例示出的一种数据清洗装置的框图,如图8所示,该装置300可包括:
[0117]
获取模块301,用于获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的所述语音样本数据对应的唤醒结果信息,其中,所述唤醒结果信息用于表征所述目标设备是否被唤醒;
[0118]
确定模块302,用于确定所述语音样本数据与用于唤醒所述目标设备的标准语音唤醒数据之间的差异信息;
[0119]
清洗模块303,用于根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签。
[0120]
采用上述装置,获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的语音样本数据对应的唤醒结果信息,确定语音样本数据与用于唤醒目标设备的标准语音唤醒数据之间的差异信息,并根据唤醒结果信息和差异信息,对语音样本数据进行清洗,以确定语音样本数据的分类标签。由于受限于当前语音唤醒模型的性能,模型可能有误识别或漏识别的情况,因此唤醒结果可能存在错误,本方案中根据唤醒结果信息和差异信息对语音样本数据进行清洗,这样确定的语音样本数据的分类标签,相比于当前语音唤醒模型输出的唤醒结果更加准确,提高语音样本数据的标签的准确性,并且无需人工对语音样本数据的标签进行标注,避免人工处理费时费力和准确度不高的问题。
[0121]
可选地,所述确定模块302,可包括:
[0122]
解码处理子模块,用于对所述语音样本数据进行音素解码处理,得到所述语音样本数据的样本音素序列;
[0123]
第一确定子模块,用于确定所述样本音素序列与所述标准语音唤醒数据的标注音素序列之间的音错率,并将所述音错率作为所述差异信息。
[0124]
可选地,所述第一确定子模块,包括:
[0125]
第二确定子模块,用于根据所述样本音素序列与所述标注音素序列之间的距离信息、以及所述标注音素序列的序列长度,确定所述音错率。
[0126]
可选地,所述第一确定子模块,包括:
[0127]
第一融合处理子模块,用于对所述样本音素序列进行音调融合处理,得到第一融合信息;
[0128]
第二融合处理子模块,用于对所述标注音素序列进行音调融合处理,得到第二融合信息;
[0129]
第三确定子模块,用于根据所述第一融合信息与所述第二融合信息之间的距离信
息、以及所述标注音素序列的序列长度,确定所述音错率。
[0130]
可选地,所述清洗模块303,可包括:
[0131]
第四确定子模块,用于在所述唤醒结果信息表征所述目标设备被唤醒的情况下,若所述差异信息小于或等于第一指定阈值,则确定所述语音样本数据为正样本,若所述差异信息大于或等于第二指定阈值,则确定所述语音样本数据为负样本,其中,所述第一指定阈值小于所述第二指定阈值。
[0132]
可选地,所述清洗模块303,可包括:
[0133]
第五确定子模块,用于在所述唤醒结果信息表征所述目标设备未被唤醒的情况下,若所述差异信息小于或等于第三指定阈值,则确定所述语音样本数据为正样本,若所述差异信息大于所述第三指定阈值,则确定所述语音样本数据为负样本。
[0134]
可选地,所述装置300还包可括:
[0135]
更新模块,用于根据所述语音样本数据和所述分类标签,对所述当前语音唤醒模型进行更新。
[0136]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0137]
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的数据清洗方法的步骤。
[0138]
图9是根据一示例性实施例示出的一种用于数据清洗的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0139]
参照图9,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。
[0140]
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的数据清洗方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
[0141]
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0142]
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
[0143]
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感
器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0144]
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
[0145]
i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0146]
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0147]
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0148]
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据清洗方法。
[0149]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述的数据清洗方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0150]
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的数据清洗方法的代码部分。
[0151]
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技
术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0152]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献