训练数据的筛选方法、系统、装置及介质与流程

2022-02-20 01:37:05 来源：中国专利 TAG：

技术特征：
1.一种训练数据的筛选方法，其特征在于，包括：将语音识别在解码时的所有解码路径中每条解码路径的每个节点预计会链接的节点数量的均值，作为判断准确率高低的指标；为准确率高的解码结果所对应的音频数据标注伪标签，并将带有伪标签的音频数据作为选出的训练数据。2.根据权利要求1所述的训练数据的筛选方法，其特征在于，语音识别在解码时的所有解码路径，具体包括：利用kaldi工具包的语音识别模型，对输入的未标注的音频数据进行语音识别；在语音识别过程中根据预定束宽beamsize进行beam搜索解码；将解码时搜索过的预计存在的所有解码路径进行存储。3.根据权利要求2所述的训练数据的筛选方法，其特征在于，将解码时搜索过的预计存在的所有解码路径进行存储，具体包括：解码时从状态网络wfst中进行解码路径搜索，获得解码路径图；利用lattice对解码路径图中搜索过的所有解码路径进行存储；输出最优解码路径作为对应所述音频数据的解码结果。4.根据权利要求3所述的训练数据的筛选方法，其特征在于，所有解码路径中每条解码路径的每个节点预计会链接的节点数量的均值，作为判断准确率高低的指标，具体包括：从lattice存储的所有解码路径中，获取每个解码路径中每个节点能够向后链接的路径的数量并计算均值；将所述均值作为判断准确率高低的指标latticedepth；根据数据集中多个音频数据经语音识别在解码时得到的相应的多个指标latticedepth进行排序比较，以判断准确率高低。5.根据权利要求4所述的训练数据的筛选方法，其特征在于，根据数据集中多个音频数据经语音识别在解码时得到的相应的多个指标latticedepth进行排序比较，以判断准确率高低，具体包括：将多个音频数据各自对应的指标latticedepth进行排序并与预设的阈值进行比较；如果所述指标latticedepth的排序在低于所述预设阈值的位置，表示对应的所述音频数据的解码结果的准确率越高。6.根据权利要求1至5中任一项所述的训练数据的筛选方法，其特征在于，为准确率高的解码结果所对应的音频数据标注伪标签，具体包括：获取准确率高的解码结果所对应的未标注的音频数据；根据语音识别输出的解码结果中的文本标签，对所述音频数据进行伪标签标注。7.根据权利要求6所述的训练数据的筛选方法，其特征在于，将带有伪标签的音频数据作为选出的训练数据，具体包括：筛选出所有准确率高的解码结果所对应的未标注的音频数据；在所述音频数据进行伪标签标注后，将带有所述伪标签的所述音频数据加入到语音识别的模型训练集中，重新训练语音识别的模型。8.根据权利要求1至7中任一项所述的训练数据的筛选方法，其特征在于，还包括：基于半监督学习方式，通过少量人工标注标签训练后的语音识别的模型、或者通过初
始化设置文本标签的语音识别的模型，直接将数据集中的多个未标注的音频数据输入所述模型中进行语音识别，输出相应的多个解码结果，以在筛选出一个或多个准确率高的解码结果时，将解码结果所对应的未标注的音频数据直接用解码结果中的文本标签进行标注。9.一种电子装置，包括处理器和存储器，所述存储器用于存储计算机可执行程序，其特征在于：当所述计算机程序被所述处理器执行时，所述处理器执行如权利要求1至7中任一项所述的基于持续交互的特征分析方法。10.一种计算机可读介质，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现如权利要求1至7中任一项所述的基于持续交互的特征分析方法。

技术总结
本发明涉及语音识别处理技术领域，特别适用于语音识别转写时使用的机器学习模型的训练数据的获取。针对不同场景需要大批量数据训练模型并需要大量人工标注数据而存在数据获取成本高、消耗大、数据质量/准确度差以及现有伪标签数据筛选效果差等缺陷，提出了本发明的训练数据的筛选方法、系统、装置及介质，旨在解决如何基于半监督学习的伪标签准确度筛选高质量的应用于语音识别、搜索、转写等模型的训练数据的技术问题。为此，本发明的方法通过在解码中利用解码路径的节点链接个数均值对解码结果排序以筛选排序靠前的伪标签语音数据作为模型训练数据。提高了筛选效率和数据质量，降低成本减少消耗。降低成本减少消耗。降低成本减少消耗。

技术研发人员：袁正鹏王强强
受保护的技术使用者：作业帮教育科技(北京)有限公司
技术研发日：2021.09.17
技术公布日：2022/1/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

训练数据的筛选方法、系统、装置及介质与流程

相关文献

最热文献