一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音识别测试项目中自动转录和测试方法与流程

2021-06-04 14:53:00 来源:中国专利 TAG:测试 转录 人工智能 语音识别 方法


1.本发明属于人工智能技术领域,涉及一种语音识别测试项目中自动转录和测试方法。


背景技术:

2.近年来人工智能相关技术发展迅速,人工智能技术正对我们生活的方方面面产生越来越大的影响。人工智能语音识别技术作为人机交流接口的关机技术,正在发挥越来越大的作用。
3.人工智能语音识别技术正运用在越来越广多的电子产品中,不管是新型电子产品,还是传统电子产品的数字化转型,都有人工智能语音技术的运用。但是随着人工智能语音识别技术的广泛运用,对其人工智能语音算法的性能、语音识别效果、有无缺陷都需要专业的测试给出结论,在算法的调试、升级迭代也均需要测试为其提供方向。因此人工智能语音算法的测试需求巨大,但是传统的测试方式有如下问题:
4.(1)人工智能识别技术运用广泛,产品多样,其每个产品中语音算法相对应的测试标准,测试场景多样,造成搭建测试环境困难,比如:一个项目的测试标准下,有20是个测试场景,那么一个完整的测试需要测试人员改变20次测试环境,占用测试人员大量的时间,而且受工作时间的限制,大量非工作时间均被浪费,效率极底。
5.(2)人工搭建测试环境,不能完全保证每次搭建环境完全相同,特别是测试集及噪声的播放音量的设置。
6.(3)语音识别算法项目对测试集音频需求量大,导致这方面的工作量大,从事测试和测试集音频转录工作人员辛苦,人员成本高。


技术实现要素:

7.本发明的目的是提供一种语音识别测试项目中自动转录和测试方法。
8.本发明方法具体是:
9.步骤(1)针对测试项目,根据其测试标准在主控电脑中查询是否有对应测试标准的测试环境搭建配置;如果没有对应测试标准的测试环境搭建配置,则按照新的测试标准,在静音室内搭建一次环境,创建该测试标准的测试环境搭建配置,并将新的测试环境搭建配置保存在主控电脑;
10.所述的测试环境搭建配置包括多个测试场景下的噪声播放设备、噪声播放位置坐标、噪声播放位置角度、噪声音频文件、噪声播放音量,以及测试集播放设备、测试集播放位置坐标、测试集播放位置角度、测试集播放音量,和被测设备位置坐标、被测设备位置角度;
11.步骤(2)放置被测设备并连接主控电脑,在主控电脑中选择对应测试标准的测试环境搭建配置;选择测试工作模式或录音工作模式:如选择测试工作模式则输入测试固件路径,输入测试集高保真音频文件;如选择录音工作模式则输入录音固件路径,输入测试集高保真音频文件;
12.所述的测试集高保真音频文件为未被被测设备在测试环境中录制的音频文件;
13.步骤(3)主控电脑根据选择的工作模式,烧录对应的测试固件或录音固件到被测设备,并读取选择的测试环境搭建配置;
14.步骤(4)从测试环境搭建配置中选择其中一个测试场景,选择该场景对应的噪声播放设备和测试集播放设备;
15.主控电脑通过控制继电器切换测试集播放的音频输出到指定设备,即测试集播放设备;
16.主控电脑通过控制继电器切换噪声音频输出到指定设备,即噪声播放设备;
17.步骤(5)主控电脑读取该测试场景下的噪声播放位置坐标、噪声播放位置角度、噪声音频文件、噪声播放音量,以及测试集播放位置坐标、测试集播放位置角度、测试集播放音量,和被测设备位置坐标、被测设备位置角度;
18.步骤(6)主控电脑根据该测试场景控制三轴吊装模块,将被测设备、噪声播放设备、测试集播放设备放置在设备对应的坐标处;
19.所述的三轴吊装模块能够将物体放置在静音室内立体空间的任意立体坐标处;
20.步骤(7)主控电脑根据该测试场景控制每个设备配置的舵机云台模块,将被测设备、噪声播放设备、测试集播放设备通过各自的舵机云台模块调整位置角度;
21.所述的舵机云台模块为单轴舵机云台,能够在一个平面上转动至任意角度;
22.步骤(8)主控电脑根据该测试场景选择噪声音频文件,并控制噪声播放音量和测试集播放音量;
23.步骤(9)如果是测试工作模式,则启动被测设备的测试固件,进行测试;如果如果是录音工作模式,则启动被测设备的录音固件,利用被测设备进行转录,将带有测试环境和被测设备特征的测试集音频文件转录至主控电脑;
24.步骤(10)从测试环境搭建配置中选择另一个测试场景,重复步骤(4)~(9),直至完成该测试标准下的所有测试场景的测试或录音;
25.如果是录音工作模式,主控电脑实时保存带有环境特征的测试集音频文件,并上传至服务器,直到录音结束;
26.如果是测试工作模式,主控电脑实时生成测试报告,并上传至服务器,直到测试结束。
27.采用本发明方法,测试/录音过程中环境的搭建和改变均是自动化完成,极大的节省人力成本和提高工作效率。由于测试环境搭建和变换以及测试或录音均是自动化完成,可以24小时运行,不受工作人员的工作时间影响,可以半夜、周末、节假日都处于工作状态,压缩任务周期,提高工作效率,可以大大减少工作人员投入和测试/录音任务时间,减少了项目的投入成本。
附图说明
28.图1是本发明的实施例应用示意图。
具体实施方式
29.以下结合实施例对本发明技术方案做进一步的说明。
30.一种语音识别测试项目中自动转录和测试方法,以图1所示的的一个测试标准下的测试环境举例。一个新的人工智能语音算法的测试标准下环境搭建示意图为图1,且本项目是一个远场的方案,那么测试集播放设备均是人声播放音箱播放。该方法具体如下:
31.步骤(1)对应一个新项目,根据其测试标准在主控电脑中查询是否有对应测试标准的测试环境搭建配置;如果没有对应测试标准的测试环境搭建配置,则按照新的测试标准,在静音室(一个装有隔音装置的密闭房间,通常用于音频相关测试及实验)内搭建一次环境,创建该测试标准的测试环境搭建配置,并将新的测试环境搭建配置保存在主控电脑。
32.测试环境搭建配置包括多个测试场景下的噪声播放设备、噪声播放位置坐标、噪声播放位置角度、噪声音频文件、噪声播放音量,以及测试集播放设备、测试集播放位置坐标、测试集播放位置角度、测试集播放音量,和被测设备位置坐标、被测设备位置角度。
33.图1为一个测试标准下测试环境,且为远场方案,测试集播放设备为人声播放音箱1,其在测试环境下可分别为如图1中b位置(距离1m角度90
°
)、c位置(距离2m角度90
°
)、d位置(距离3m角度90
°
),被测设备2放置a位置麦克风正对人声播放音箱1,噪声音箱3位于e位置(距离2m角度180
°
),将位置信息转换为该测试静音室的位置做标准,存储在测试环境搭建配置中。
34.根据该方案的测试标,测试集播放声压为80dbc,噪声播放为75dbc,在主控电脑(上述主控电脑为安装linux操作系统,并采用linux命令调节测试集播放输出音量,同时用专业声压计测量,直至把音量校准到测试标准指定声压,并且计量当前音量设定值,校准噪声播放音量和上述的测试集播放音量校准方法一致,把相关信息写入配置存储在主控电脑。
35.因为原始测试集高保真音频文件中各个音量强弱不一,为便于声压校准和转录(把原始测试集高保真音频文件,在相关测试环境中播放,并通过测试设备录制下来,称为转录),将测试集归一化处理(对语料进行归一化处理的基本原理是:取一段语料中幅度最大的点将其幅度拉大到接近1)。
36.步骤(2)放置被测设备,通过usb线连接主控电脑,在主控电脑中选择对应测试标准的测试环境搭建配置;选择测试工作模式或录音工作模式:如选择测试工作模式则输入测试固件路径,输入测试集高保真音频文件;如选择录音工作模式则输入录音固件路径,输入测试集高保真音频文件;测试集高保真音频文件为未被被测设备在测试环境中录制的音频文件。
37.步骤(3)主控电脑根据选择的工作模式,烧录对应的测试固件或录音固件到被测设备,并读取选择的测试环境搭建配置。
38.步骤(4)从测试环境搭建配置中选择其中一个测试场景,选择该场景对应的噪声播放设备和测试集播放设备;
39.主控电脑通过控制继电器切换测试集播放的音频输出到指定设备,即测试集播放设备;
40.主控电脑通过控制继电器切换噪声音频输出到指定设备,即噪声播放设备。
41.步骤(5)主控电脑读取该测试场景下的噪声播放位置坐标、噪声播放位置角度、噪声音频文件、噪声播放音量,以及测试集播放位置坐标、测试集播放位置角度、测试集播放音量,和被测设备位置坐标、被测设备位置角度。
42.步骤(6)主控电脑根据该测试场景控制三轴吊装模块,将被测设备2放置在a位置,噪声播放设备3放置在e位置,测试集播放设备1放置在b位置。
43.步骤(7)主控电脑根据该测试场景控制每个设备配置的舵机云台模块,将被测设备、噪声播放设备、测试集播放设备通过各自的舵机云台模块调整位置角度。
44.步骤(8)主控电脑根据该测试场景选择噪声音频文件,并控制噪声播放音量和测试集播放音量。
45.步骤(9)如果是测试工作模式,则启动被测设备的测试固件,进行测试;如果如果是录音工作模式,则启动被测设备的录音固件,利用被测设备进行转录,将带有环境特征的测试集音频文件转录至主控电脑。
46.步骤(10)从测试环境搭建配置中选择另一个测试场景,将测试集播放设备1放置在c位置,重复步骤(4)~(9),再放置在d位置,重复步骤(4)~(9),完成该测试标准下的三个测试场景的测试或录音;
47.如果是录音工作模式,主控电脑实时保存带有环境特征的测试集音频文件,并上传至服务器,直到录音结束;
48.如果是测试工作模式,主控电脑实时生成测试报告,并上传至服务器,直到测试结束。
49.由此,该方法可以实现人工智能语音算法自动测试、测试音频自动转录、测试报告自动生成、测试报告及录音文件自动上传服务器,该方法主要分五个部分组成,即测试人员部分,测试环境自动搭建模块部分,主控电脑部分,录音及测试模块部分、服务器部分。
50.测试人员部分,主要是两个工作,第一,如果新的项目到来,在静音室根据当前项目的测试标准要求搭建环境,并且创建环境搭建配置,存储到主控电脑中,第二,放置被测设备到指定位置,启动脚本,至此测试人员工作结束。当然不是每个项目都是需要创建环境配置,如果主控电脑存有相关项目的配置,就可以直接使用,无需重复创建。
51.测试环境自动搭建模块部分,主要包括三轴吊装模块和舵机云台模块,用于移动设备至指定位置及角度。
52.主控电脑部分,该静音室主要是一个装有隔音设施的标准密闭房间,用于语音相关项目的测试和实验。主控部分主要是控制噪声播放设备,测试集播放设备、舵机云台模块、三轴吊装模块、测试模块、录音模块的使用。
53.录音及测试模块部分,录音模块部分主要是负责被测设备录音,通过被测设备的麦克风录制每个测试场景下的测试用例音频,使其音频带有场景噪声、测试集、静音室各个播放设备角度距离、被测设备自身结构及音频信号通路的一系列特征,以便于后续可以用该音频,测试算法模型。测试模块部分主要启动测试固件,并通过串口收集测试日志,生成测试报告。
54.服务器部分,该部分主要是保存通过该方法转录出来的测试集,或者该项目的测试报告。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜