数据采集的方法及装置与流程

2021-07-13 16:21:00 来源：中国专利 TAG：

本申请涉及人工智能
技术领域：
，尤其涉及数据采集的方法及装置。
背景技术：
：人工智能技术的发展需要数据提供基础的保障，语音数据库的建设是人工智能技术中不可或缺的一部分。在语音数据库的建设中，需要采集大量的语音数据。目前，一般通过手机、平板电脑、笔记本电脑等计算机设备进行语音数据的采集。为了能够得到有效的语音数据，采集结束后需要对无效语音进行筛选、剔除和标注。筛选、剔除和标注无效语音的工作离不开人工作业，人工作业导致工作效率和准确率得不到保证。一方面，在噪声场景下采集的语音或带有口音的语音，人耳较难分辨。另一方面，人工标注的随机性，使得语音起始或末尾的语音保留的空余部分长短不一，可能混入噪声，或者丢词，这会导致语音数据采集效率低，且所采集的语音数据的质量差。技术实现要素：本申请的实施例提供数据采集的方法及装置，有助于减少人工参与，从而提高语音数据采集的效率及所采集的语音数据的质量。为达到上述目的，本申请的实施例采用如下技术方案：第一方面，提供一种数据采集方法，该方法包括：获取第一语音片段和第一唇语片段。第一唇语片段是录制第一语音片段时采集的录制人员的唇语片段。对第一语音片段进行语音识别，得到第一语音片段的内容。对第一唇语片段进行唇语识别，得到第一唇语片段的内容。若第一语音片段的内容和第一唇语片段的内容都包含预定义内容，则根据预定义内容对第一语音片段进行切割或标注，得到第二语音片段。第二语音片段的内容是预定义内容。第二语音片段是第一语音片段中的子片段。将第二语音片段与预定义内容的对应关系存入数据库。该对应关系用于训练语音识别模型。这样，不需要人工判断第一语音片段的内容是否包含预定义内容，同时对语音片段的内容与唇语片段的内容进行判断是否包含预定义内容，只有两者都包含预定义内容，才自动完成对第一语音片段的切割或标注，减少了人工作业，提高了数据采集的效率和采集的语音的质量。根据第一方面，在第一方面的第一种可能的实现方式中，该方法还包括：根据预定义内容对第一唇语片段进行切割或标注，得到第二唇语片段。第二唇语片段的内容是预定义内容。第二唇语片段是第一唇语片段中的子片段。将第二唇语片段与预定义内容的对应关系存入数据库。第二唇语片段与预定义内容的对应关系用于训练唇语识别模型。这样，不需要人工判断第一唇语片段的内容是否包含预定义内容，并自动完成对第一唇语片段的切割或标注，减少了人工作业，提高了数据采集的效率。对于采集的唇语数据来说，同时对语音片段的内容与唇语片段的内容进行判断是否包含预定义内容，只有两者都包含预定义内容，才获取第二唇语片段，提高了采集的唇语数据的质量。根据第一方面或第一方面的第一种可能的实现方式中，在第一方面的第二种可能的实现方式中，采集第一语音片段的语音采集设备与录制人员之间的距离小于等于阈值。这样，可以提高采集的数据的质量，以及准确率。根据第一方面、第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式中，在第一方面的第三种可能的实现方式中，获取第三语音片段。采集第三语音片段的语音采集设备与录制人员之间的距离大于阈值。对第三语音片段进行语音识别，得到第三语音片段的内容。若第一语音片段的内容和第三语音片段的内容都包含预定义内容，则根据预定义内容对第三语音片段进行切割或标注，得到第四语音片段。第四语音片段的内容是预定义内容，第四语音片段是第三语音片段的子片段。将第四语音片段与预定义内容的对应关系存入数据库。该对应关系用于训练语音识别模型。这样，对与录制人员之间的距离不同的语音采集设备所采集到的语音片段的内容进行判断，只有两者都包含预定义内容，才得到第四语音片段，提高了采集的语音数据的质量，以及准确率。根据第一方面、第一方面的第一种可能的实现方式至第一方面的第三种可能的实现方式中的任一种实现方式，在第一方面的第四种可能的实现方式中，在接收第一语音片段之前，该方法还包括：向可移动设备发送第一指令，第一指令用于指示可移动设备移动至目标位置；可移动设备包括背景音播放设备、语音采集设备、声场记录设备或可移动墙体中的至少一种。这样，采集系统可以自动控制录音场景的创建，降低了成本，提高了数据采集的效率。根据第一方面、第一方面的第一种可能的实现方式至第一方面的第四种可能的实现方式中的任一种实现方式，在第一方面的第五种可能的实现方式中，在接收第一语音片段之前，该方法还包括：向背景音播放设备发送第二指令，第二指令用于指示背景音播放设备关闭或者开启。或者，第二指令用于指示背景音播放设备关闭，或者，开启并按照目标音量大小播放背景音。这样，采集系统可以自动控制录音场景的创建，提高了数据采集的效率。根据第一方面、第一方面的第一种可能的实现方式至第第一方面的第五种可能的实现方式中的任一种实现方式，在第一方面的第六种可能的实现方式中，在接收第一语音片段之前，该方法还包括：输出指示信息，该指示信息用于指示录制人员按照录音要求进行语音录制。这样，提高了数据采集效率。根据第一方面、第一方面的第一种可能的实现方式至第第一方面的第六种可能的实现方式中的任一种实现方式，在第一方面的第七种可能的实现方式中，该方法还包括：获取第一语音片段的录制人员信息。该录制人员信息包括录制人员的性别、年龄或口音所属地中的至少一种；将第二语音片段与预定义内容存入数据库，具体包括：将第二语音片段、预定义内容以及录制人员信息的对应关系存入数据库。这样，按照录制人员信息分类存储，可以提高后续训练识别模型的效率。第二方面，提供一种数据采集方法，该方法包括：获取第一语音片段和第一唇语片段。第一唇语片段是录制第一语音片段时采集的录制人员的唇语片段。对第一语音片段进行语音识别，得到第一语音片段的内容。对第一唇语片段进行唇语识别，得到第一唇语片段的内容。若第一语音片段的内容和第一唇语片段的内容都包含预定义内容，则根据预定义内容对第一唇语片段进行切割或标注，得到第二唇语片段。第二唇语片段的内容是预定义内容。第二唇语片段是第一唇语片段中的子片段。将第二唇语片段与预定义内容的对应关系存入数据库。第二唇语片段与预定义内容的对应关系用于训练唇语识别模型。这样，不需要人工判断第一唇语片段的内容是否包含预定义内容，并自动完成对第一唇语片段的切割或标注，减少了人工作业，提高了数据采集的效率。对于采集的唇语数据来说，同时对语音片段的内容与唇语片段的内容进行判断是否包含预定义内容，只有两者都包含预定义内容，才获取第二唇语片段，提高了采集的唇语数据的质量。第二方面可能的实现方式参考第一方面的各种可能的实现方式，不再赘述。第三方面，提供一种数据采集方法，该方法包括：获取第一语音片段和第三语音片段。对第一语音片段进行语音识别，得到第一语音片段的内容。采集第三语音片段的语音采集设备与录制人员之间的距离大于阈值。对第三语音片段进行语音识别，得到第三语音片段的内容。若第一语音片段的内容和第三语音片段的内容都包含预定义内容，则根据预定义内容对第三语音片段进行切割或标注，得到第四语音片段。第四语音片段的内容是预定义内容，第四语音片段是第三语音片段的子片段。将第四语音片段与预定义内容的对应关系存入数据库。该对应关系用于训练语音识别模型。这样，对与录制人员之间的距离不同的语音采集设备采集到的语音片段的内容进行判断，只有两者都包含预定义内容，才得到第四语音片段，提高了采集的语音数据的质量和准确率。第三方面可能的实现方式参考第一方面的各种可能的实现方式，不再赘述。第四方面，提供一种识别模型测试方法，该方法包括：接收语言片段。使用待测试识别模型对该语言片段进行识别，得到第一内容。当语言片段包括语音片段时，待测试的识别模型为语音识别模型；或者，当语言片段包括唇语片段时，待测试的识别模型为唇语识别模型。计算第一内容与第二内容的重合度；其中，语言片段包括第二内容。若重合度大于等于一个阈值，则测试通过。若重合度小于阈值，则测试不通过。其中，阈值可以根据技术人员的经验设定。例如：可以根据语音识别模型的精准度要求设定阈值范围，当语音识别模型或唇语识别模型的精准度要求为95％时，则阈值可以设定为不低于96％。这样，系统自行判断识别模型的识别的第一内容与第二内容的重合度，从而确定识别模型的识别结果是否正确，减少了人工参与，提高了测试效率。根据第四方面，在第四方面的第一种可能的实现方式中，语言片段包括语音片段，在接收语言片段之前，该方法还包括：向可移动设备发送第一指令，第一指令用于指示可移动设备移动至目标位置；可移动设备包括背景音播放设备、语音采集设备、声场记录设备、待测试语音播放设备或可移动墙体中的至少一种。这样，测试系统可以自动控制测试场景的创建，降低了成本，提高了测试识别模型的效率。根据第四方面或第四方面的第一种可能的实现方式，在第四方面的第二种可能的实现方式中，语言片段包括语音片段，在接收语言片段之前，该方法还包括：向待测试语音播放设备发送第三指令，第三指令用于指示待测试语音播放设备播放语言片段。这样，测试系统可以自动控制测试场景的创建，提高了测试识别模型的效率。根据第四方面、第四方面的第一种可能的实现方式或第四方面的第二种可能的实现方式，在第四方面的第三种可能的实现方式中，该方法还包括：当语言片段包括语音片段时，使用语音识别系统对语音片段进行识别得到第二内容；或者，当语言片段包括唇语片段时，使用唇语识别系统对唇语片段进行识别得到第二内容。这样，可以自动获取第二内容也就是评判待测试识别模型的依据。从而实现系统自动判断测试结果的正确性，提高了测试效率。第五方面，提供了一种数据采集装置，该数据采集装置可用于执行上述第一方面至第三方面的任一种可能的实现方式中提供的任一种方法。示例的，该数据采集装置可以是计算机设备(如终端设备或服务器)或芯片等。根据第五方面，在第五方面的第一种可能的实现方式中，可以根据上述第一方面至第三方面的任一种可能的实现方式中提供的任一种方法，对该装置进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。又如，在该装置包含处理模块的基础之上，还可以包括发送模块，用于该装置向其他装置(或设备)发送数据。根据第五方面、第五方面的第一种可能的实现方式，在第五方面的第二种可能的实现方式中，该装置可以包括处理器和收发器，处理器用于执行上述第一方面至第三方面提供的任一种方法，收发器，用于该装置与其他装置(或设备)进行通信。第六方面，提供了一种计算机可读存储介质，如计算机非瞬态的可读存储介质。其上储存有计算机程序(或指令)，当该计算机程序(或指令)在计算机上运行时，使得该计算机执行上述第一方面至第三方面的任一种可能的实现方式中提供的任一种方法。第七方面，提供了一种识别模型测试装置，该识别模型测试装置可用于执行上述第四方面或第四方面的任一种可能的实现方式提供的任一种方法。示例的，该识别模型测试装置可以是计算机设备(如终端设备或服务器)或芯片等。根据第七方面，在第七方面的第一种可能的实现方式中，可以根据上述第四方面或第四方面的任一种可能的实现方式提供的任一种方法，对该装置进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。又如，在该装置包含处理模块的基础之上，还可以包括收发模块(包括发送模块和接收模块)，其中，发送模块用于该装置向其他装置(或设备)发送数据，接收模块用于接收其他装置(或设备)发送的数据。根据第七方面、第七方面的第一种可能的实现方式，在第七方面的第二种可能的实现方式中，该装置可以包括处理器和收发器，处理器用于执行上述第四方面或第四方面的任一种可能的实现方式提供的任一种方法，收发器，用于该装置与其他装置(或设备)进行通信。第八方面，提供了一种计算机可读存储介质，如计算机非瞬态的可读存储介质。其上储存有计算机程序(或指令)，当该计算机程序(或指令)在计算机上运行时，使得该计算机执行上述第四方面或第四方面的任一种可能的实现方式提供的任一种方法。第九方面，提供了一种计算机程序产品，当其在计算机上运行时，使得第一方面至第三方面的任一种可能的实现方式中提供的任一种方法被执行。第十方面，提供了一种计算机程序产品，当其在计算机上运行时，使得第四方面或第四方面的任一种可能的实现方式提供的任一种方法被执行。第十一方面，提供了一种芯片，包括：处理器和接口，用于从存储器中调用并运行该存储器中存储的计算机程序，执行第一方面至第四方面提供的任一种方法。可以理解的是，上述提供的任一种数据采集装置、识别模型测试装置、计算机存储介质、计算机程序产品或芯片等均可以应用于上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。附图说明图1为可适用于本申请实施例的一种计算机系统的结构示意图；图2为本申请实施例提供的一种可移动设备的结构示意图；图3为本申请实施例提供的一种数据采集的方法的流程示意图；图4为本申请实施例提供的一种创建环境、控制背景音播放设备和进行录音要求指示的方法的流程示意图；图5为本申请实施例提供的另一种数据采集的方法的流程示意图；图6为本申请实施例提供的一种测试语音识别模型的方法的流程示意图；图7为本申请实施例提供的一种数据采集装置的结构示意图；图8为本申请实施例提供的一种识别模型测试装置的结构示意图。具体实施方式如图1所示，为可适用于本申请实施例的一种计算机系统的结构示意图。其中，该计算机系统可以包括计算机设备101，以及与计算机设备101直接或间接连接的设备/器件/网络等。参见图1，计算机设备101包括处理器103，处理器103和系统总线105耦合。处理器103可以是一个或者多个处理器，其中每个处理器都可以包括一个或多个处理器核。显示适配器(videoadapter)107，显示适配器可以驱动显示器109，显示器109和系统总线105耦合。系统总线105。通信接口115和系统总线105耦合。通信接口115和多种设备进行通信，比如输入设备117(如键盘、鼠标、触摸屏等)，多媒体盘(mediatray)121(如只读光盘(compactdiscread-onlymemory，cd-rom)、多媒体接口等)和外部通用串行总线(universalserialbus，usb)接口125。其中，可选地，与通信接口115相连接的接口可以是usb接口。其中，处理器103可以是任何传统处理器，包括精简指令集计算(reducedinstructionsetcomputer，risc)处理器、复杂指令集计算(complexinstructionsetcomputer，cisc)处理器或上述的组合。可选地，处理器可以是诸如专用集成电路(applicationspecificintegratedcircuit，asic)的专用装置。可选地，处理器103可以是神经网络处理器或者是神经网络处理器和上述传统处理器的组合。例如，处理器103可以是中央处理器(centralprocessingunit，cpu)。计算机设备101可以通过网络接口129和软件部署服务器(deployingserver)149通信。网络接口129是硬件网络接口，比如，网卡。网络127可以是外部网络，比如因特网，也可以是内部网络，比如以太网或者虚拟私人网络(virtualprivatenetwork，vpn)。可选地，网络127还可以是无线网络，比如wifi网络，蜂窝网络等。硬盘驱动器接口131和系统总线105耦合。硬件驱动接口131和硬盘驱动器133相连接。存储器135和系统总线105耦合。存储器135中存储的数据可以包括计算机设备101的操作系统137和应用程序143。操作系统137包括shell139和内核(kernel)141。shell139是介于使用者和操作系统137之内核间的一个接口。shell是操作系统137最外面的一层。shell管理使用者与操作系统137之间的交互,等待使用者的输入，向操作系统137解释使用者的输入，并且处理各种各样的操作系统137的输出结果。内核141由操作系统137中用于管理存储器、文件、外设和系统资源的那些部分组成。直接与硬件交互，操作系统137内核通常运行进程，并提供进程间的通信，提供cpu时间片管理、中断、内存管理、io管理等等。应用程序143包括语音识别程序、唇语识别程序、标注程序等。可选的，应用程序143还可以包括用于训练语音识别模型和/或唇语识别模型的程序、用于测试语音识别模型和/或唇语识别模型的程序，以及用于进行环境切换和场景切换的程序等。这些程序所对应的方法可以参考下文。应用程序143也存在于软件部署服务器149的系统上。在一个实施例中，在需要执行应用程序143时，计算机设备101可以从软件部署服务器149下载应用程序143。可选地，存储器135中还可以存储语音识别模型和/或唇语识别模型，用于存放背景音的数据库、用于存放预定义内容的数据库等。与计算机设备101连接的i/o设备还可以包括：位置检测装置153，唇语采集设备155，背景音播放设备157，语音采集设备159和声场记录设备161等。位置检测装置153用于探测计算机设备101周围的环境。举例来说，位置检测装置153可以包括位置传感器，用于定位并调节可移动设备的位置。唇语采集设备155可以是任何用于采集图像的摄像头(如彩色相机、深度相机、红外相机等)。摄像头的数量可以有一个或多个。在本申请实施例中，唇语采集设备155可以用于采集视频图像、捕捉唇部动作，并将所采集的数据发送给计算机设备101。计算机设备可以基于该数据识别唇语，从而对说话内容进行识别和标注。待测试语音播放设备154，是指用于播放待测试语音的设备，如音响设备等。在本申请实施例中，待测试语音播放设备所播放的声音是数据库中所存储的语音片段。背景音播放设备157，是指用于播放背景音的设备，如音响设备等。在本申请实施例中，背景音播放设备所播放的声音用于模拟噪声，以模拟噪音场景。在模拟噪声场景时，背景音播放设备可以根据计算机设备的指示在开启状态下以指定的音量大小播放指定的背景音，或者根据终端的指示关闭，从而改变录音角度、录音距离、混响和噪声等场景信息，同时通过声场记录设备161校准说话的能量、信噪比以及混响等，以确保场景的准确切换。具体实施时，待测试语音播放设备154与背景音播放设备157可以是同一个设备也可以是不同的设备。本申请中的实施例皆是以待测试语音播放设备154与背景音播放设备157是不同的设备为例进行说明的。语音采集设备159，可以包括近场语音采集设备和/或远场语音采集设备。近场语音采集设备，是指与目标声源之间的距离小于预设距离的语音采集设备。近场语音采集设备可以是麦克风，如鹅颈麦克风或头戴式麦克风等。可选的，近场语音采集设备周围可以设置有挡板(或称为噪声挡板)，用于降低从背景音播放设备发出的噪声被近场语音采集设备录入的几率，从而提高语音自动识别的准确率。作为示例，该挡板可以是环形挡板，作为示例，该挡板位于近场语音采集设备朝人脸外侧。远场语音采集设备，是指与声源之间的距离大于或等于预设距离的语音采集设备，用于采集远场语音。声场记录设备161，用于测量信号源所在空间(如房间)中的混响等声场相关信息。如声场记录设备可以是音频频谱分析仪、声压计等。作为示例，计算机系统包含一个或多个近场语音采集设备，不包含远场语音采集设备；或者，计算机系统包含一个或多个远场语音采集设备，不包含近场语音采集设备；或者，计算机系统包含一个或多个近场语音采集设备以及一个或多个远场语音采集设备。作为示例，在静音场景下，计算机系统中可以不包含背景音播放设备157，相应的，近场语音采集设备周围可以不设置挡板。作为示例，上述位置检测装置153、声场记录设备161和唇语采集设备155中的任意一个或多个均可以是可选的。作为示例，图1中所示意的与电机驱动装置所连接的一个或多个器件可以与计算机设备101集成在一起，例如唇语采集设备155与计算机设备101集成在一起等。需要说明的是，图1所示的计算机系统仅为示例，其不对本申请实施例可适用的计算机系统构成限定。实际实现时，计算机系统可以包括比图1中所示的更多或更少的设备或器件。以下，对本申请中涉及的部分术语进行解释说明：1)、目标声源目标声源用于产生语音，可以是录制人员或设备，该设备用于播放语音。目标声源产生的语音可以用于语音数据的采集或用于基于采集的语音数据构建的语音识别系统的测试。2)、环境环境，即录音环境，可以通过录音时目标声源/近场语音采集设备与计算机系统中的设备(如背景音播放设备、远场语音采集设备、声场记录设备)及墙体之间的距离来表征环境。3)、场景，场景信息场景，包括静音场景和噪音场景。静音场景是指没有背景音的场景。噪音场景是指有背景音的场景。在同一环境下，依据背景音的种类和音量大小，可以构建不同的噪音场景。也就是说，场景可以由环境以及背景音(包括有无背景音，以及背景音的种类和大小)决定。不同场景具有不同的场景信息。场景信息，包括：录音角度、录音距离、混响、音量和信噪比等。其中，录音角度包括近场语音采集设备与目标声源之间的角度(简称近场录音角度)，和/或远场语音采集设备与目标声源之间的距离(简称远场录音角度)。录音距离包括近场语音采集设备与目标声源之间的距离(简称近场录音距离)，和/或远场语音采集设备与目标声源之间的距离(简称远场录音距离)。4)、可移动设备可移动设备，是指在计算机设备的控制下可以进行位置移动的设备。本申请实施例对如何实现一个设备可以在计算机设备的控制下成为可移动设备的具体实现方式不进行限定。例如，将该设备与电机驱动装置连接，这样，该设备可以通过其所连接的电机驱动装置与计算机设备进行交互，从而实现在计算机设备的指示下改变该设备的位置。具体的，在该设备下安装导轨或轮子。这样，在电机驱动装置的驱动下，该设备可以在所安装的导轨上移动，或基于所安装的轮子进行移动。可选的，在该设备上安装位置检测装置(如，电机编码器、位置传感器)，这样，计算机设备通过与该设备上安装的位置检测装置进行信息交互，可以确定该设备所处的位置。如图2所示，为本申请实施例提供的一种可移动设备的结构示意图。该可移动设备20可以包括：设备本体201，与设备本体201连接的电机驱动装置202，设备本体201上安装的位置检测装置203以及导轨或轮子204。其中，设备本体可以包括：唇语采集设备，背景音播放设备，语音采集设备、声场记录设备或墙体等中的至少一种。5)、预定义内容预定义内容为预定义的语义。是计算机设备中以可以被计算机设备所识别的形式存储的待录制的内容。例如，预定义内容可以为字符串“打开导航”。6)、其他术语在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。在本申请实施例中，“至少一个”是指一个或多个。“多个”是指两个或两个以上。在本申请实施例中，“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。实施例一如图3所示，为本申请实施例提供的一种数据采集的方法的流程示意图。示例性的，本实施例可以应用于图1所示的系统架构。图3所示的方法可以包括以下步骤：s100：计算机设备接收语音采集设备发送的第一语音片段。可以理解的是，在不同场景下，语音采集设备采集到的录制人员发出的同一语音，所得到的语音片段不同。第一语音片段是当前场景下采集到的语音片段。在一种实现方式中，计算机设备所连接的语音采集设备获取第一语音片段，并将第一语音片段发送给计算机设备。其中，语音采集设备可以是近场语音采集设备或远场语音采集设备。示例性的，录制人员录入的语音为“知道了打开导航”。计算机设备接收近场语音采集设备发送的第一语音片段为当前场景下采集到的语音片段“知道了打开导航”。s101：计算机设备对第一语音片段进行语音识别，得到第一语音片段的内容。在一种实现方式中，计算机设备中的语音识别系统检测与录制人员录入的内容对应的语音区间。然后，提取出与录制人员录入的内容对应的语音区间的语音片段，语音识别系统对与录制人员录入的内容对应的语音区间的语音片段进行识别，得到第一语音片段的内容。其中，语音识别系统对第一语音片段进行语音识别的方法可以是基于语法的单词识别、关键词定位、大词汇连续语音识别或其他公知方法中的任一种。基于s100中的示例，计算机设备识别的第一语音片段的内容为“知道了打开导航”。s102：计算机设备判断第一语音片段的内容是否包含预定义内容。若是，则执行s103。若否，则计算机设备提示录制人员重新录入第一语音片段。例如，该预定义内容可以为字符串“打开导航”。s103：计算机设备接收唇语采集设备发送的第一唇语片段。第一唇语片段是录制第一语音片段时采集的录制人员的唇语片段。该录制人员是指发出第一语音片段对应的语音的人员。在一种实现方式中，计算机设备所连接的唇语采集设备(如摄像头)获取第一唇语片段，并将第一唇语片段发送给计算机设备。示例性的，录制人员录入的唇语为“知道了打开导航”。计算机设备接收摄像头发送的第一唇语片段为唇语片段“知道了打开导航”。s104：计算机设备对第一唇语片段进行唇语识别，得到第一唇语片段的内容。具体的，计算机设备中的唇语识别系统获取录制人员的图像片段(即第一唇语片段)，从图像片段中提取唇部特征进行唇语识别，得到第一唇语片段的内容。在一种实现方式中，录制人员在进行唇语录制时在唇部粘贴色标点，唇语识别系统可以依据色标点获取录制人员的唇部图像片段(即唇语片段)。示例性的，若计算机设备获取的唇语片段中的唇部图像的色标点的位置变化在第一阈值范围之内，则计算机设备不使用唇语识别系统进行唇语识别，并提示录制人员重新录制。若计算机设备获取的唇语片段中的色标点的位置变化大于第一阈值，则计算机设备使用唇语识别系统进行唇语识别。其中，第一阈值的取值可以由能够产生语音的唇部图像的位置变化的平均值预估得出。在另一种实现方式中，录制人员在进行唇语录制时，与计算机设备连接的深度相机、彩色相机或红外相机中的至少一种，可以获取录制人员的唇部图像片段(即唇语片段)。唇语识别系统可以依据获取到的唇语片段进行唇语识别。s105：计算机设备判断第一唇语片段的内容是否包含预定义内容。例如，该预定义内容可以为“打开导航”。若是，则执行s106；若否，则计算机设备提示录制人员重新录入第一唇语片段。需要说明的是，本申请实施例中对s100～s102和s103～s105的执行顺序不进行限定。例如，计算机设备可以先执行s103～s105然后再执行s100～s102。s106：计算机设备根据预定义内容对第一语音片段进行切割或标注，得到第二语音片段。其中，第二语音片段的内容是预定义内容。第二语音片段是第一语音片段的子片段。具体的，计算机设备可以根据预定义内容在第一语音片段中的位置，对第一语音片段进行切割或标注，得到第二语音片段。其中，预定义内容在第一语音片段中的位置包括预定义内容在第一语音片段中的起始时间点和预定义内容在第一语音片段中的结束时间点。本申请对计算机设备获取预定义内容在第一语音片段中的位置的实现方式不进行限定。在一种实现方式中，计算机设备可以按照语音子片段对第一语音片段进行内容识别，并为每个语音子片段打上时间戳标记。计算机设备在识别到预定义内容时，记录预定义内容在第一语音片段中的起始子片段的时间戳(即起始时间点)以及预定义内容在第一语音片段中的结束子片段的时间戳(即结束时间点)，从而得到预定义内容在第一语音片段中的位置。在另一种实现方式中，计算机设备可以每次识别一个语音子片段，并利用计数器进行计数。计算机设备在识别到预定义内容时，根据计数器的计数乘以一个语音子片段的时长得到预定义内容在第一语音片段中的起始子片段的时间戳与预定义内容在第一语音片段中的结束子片段的时间戳。其中，每个语音子片段的时长相等。例如，一个语音子片段的时长为10ms。从而得到预定义内容在第一语音片段中的位置。在另一种实现方式中，计算机设备接收了近场语音采集设备和远场语音采集设备发送的第一语音片段，该情况下，针对近场语音采集设备发送的语音片段，计算机设备可以根据前面描述的两种实现方式获取预定义内容在第一语音片段中的位置。针对远场语音采集设备发送的语音片段，计算机设备可以将预定义内容在近场语音采集设备发送的语音片段中的起始时间点，作为预定义内容在远场语音采集设备发送的语音片段中的起始时间点；计算机设备将预定义内容在近场语音采集设备发送的语音片段中的结束时间点，作为预定义内容在远场语音采集设备发送的语音片段中的结束时间点(由于远场语音采集设备与近场语音采集设备的距离通常小于第二阈值(如34米，34米是一个标准大气压下，温度15度时人耳能分清的前后两个声源的距离差)，因此可以将远场语音采集设备与近场语音采集设备接收到的语音片段的时间差忽略)。从而得到预定义内容在远场语音采集设备发送的第一语音片段中的位置。基于s105中的示例，计算机设备获取的第二语音片段为语音子片段“打开导航”。s107：计算机设备将第二语音片段与预定义内容的对应关系存入数据库。第二语音片段与预定义内容的对应关系用于训练语音识别模型。在一种实现方式中，计算机设备将第一语音片段、预定义内容在第一语音片段中的起始时间点、预定义内容在第一语音片段中的结束时间点与预定义内容的对应关系(例如可以是映射关系)存入数据库中。这样，如果计算机设备在标注时间点的时候标注错误，方便检查追溯问题。示例性的，第一语音片段、预定义内容在第一语音片段中的起始时间点、预定义内容在第一语音片段中的结束时间点与预定义内容的对应关系如下表1所示：表1语音片段起始时间点结束时间点预定义内容第一语音片段0.5s2s打开导航在另一种实现方式中，计算机设备将第二语音片段与预定义内容的对应关系存入数据库中。这样，有助于节省存储空间。示例性的，第二语音片段与预定义内容的对应关系如下表2所示：表2语音片段预定义内容第二语音片段打开导航可选的，计算机设备将上述对应关系按照录制人员输入的录制人员信息分类存入数据库中。基于表2的示例，分类存放上述对应关系后可以如下表3所示：表3录制人员信息语音片段预定义内容信息1第二语音片段打开导航s108：计算机设备根据预定义内容对第一唇语片段进行切割或标注，得到第二唇语片段，其中，第二唇语片段的内容是预定义内容。第二唇语片段是第一唇语片段的子片段。具体的，计算机设备可以根据预定义内容在第一唇语片段中的位置对第一唇语片段进行切割或标注，得到第二唇语片段。其中，预定义内容在第一唇语片段中的位置包括预定义内容在第一唇语片段中的起始时间点和预定义内容在第一唇语片段中的结束时间点。本申请对计算机设备获取预定义内容在第一唇语片段中的位置的实现方式不进行限定。例如，可以参考实施例一中获取预定义内容在第一语音片段中的位置的实现方式。基于s105中的示例，计算机设备获取的第二唇语片段为唇语子片段“打开导航”。s109：计算机设备将第二唇语片段与预定义内容的对应关系存入数据库。第二唇语片段与预定义内容的对应关系用于训练唇语识别模型。在一种实现方式中，计算机设备将该第一唇语片段、第二唇语片段的起始时间点、第二唇语片段的结束时间点与预定义内容的对应关系存入数据库中。在另一种实现方式中，计算机设备将第二唇语片段与预定义内容的对应关系存入数据库中。可选的，计算机设备将上述对应关系按照录制人员输入的录制人员信息分类存入数据库中。需要说明的是，上述s108～s109是可选的步骤。本申请实施例中，计算机设备可以使用上述s100～s107的方法采集语音片段存入数据库用于训练语音识别模型。计算机设备也可以使用上述s100～s109的方法采集唇语片段存入数据库，用于训练唇语识别模型。可选的，在上述步骤s100之前，计算机设备可以使用图4所示的方法创建环境、控制背景音播放设备和进行录音要求指示。图4所示的方法可以应用于图1所示的系统架构。图4所示的方法可以包括以下步骤：s200：计算机设备确定当前场景所对应的环境以及背景音。具体的，计算机设备确定当前场景下可移动设备的位置(下文中称为目标位置)，以及背景音播放设备的状态。其中，背景音播放设备的状态包括：背景音播放设备关闭或开启。可选的，如果开启则背景音播放设备的状态还包括背景音的种类和音量大小。通常需要采集不同场景下的语音数据，当前场景可以是预定义的其中一种场景。可移动设备可以包括：唇语采集设备，背景音播放设备，语音采集设备、声场记录设备或可移动墙体中的至少一种。可移动设备的位置可以是绝对位置或相对位置(如相对于目标声源的位置，或者相对于近场麦克风的位置等)。例如，可移动设备的位置可以是可移动设备在以目标声源或近场麦克风的位置为原点的平面投影中的坐标值(包括：x轴坐标的值和y轴坐标的值)。下表4中不同的位置标号代表可移动设备的坐标值不同。由上文中的描述可知，一种环境对应一组可移动设备的位置。示例性的，环境与可移动设备的位置的对应关系(如映射关系)可以如下表4所示：表4在表4中，环境一对应的可移动设备的位置包括：唇语采集设备处于位置1，背景音播放设备处于位置2，语音采集设备处于位置3，声场记录设备处于位置4，可移动墙体处于位置5。其余环境对应的位置的解释与此类似，不再赘述。示例性的，环境、场景与背景音播放设备的状态的对应关系(如映射关系)可以如下表5所示：表5在表5中，场景一下，背景音播放设备的状态为：开启，且以35分贝的音量播放背景音一，场景一对应环境一。场景二下，背景音播放设备的状态为关闭。场景三下，背景音播放设备的状态为：开启，且以50分贝的音量播放背景音二，场景三对应环境二。示例的，基于表4和表5，假设当前场景是场景一，则：当前场景下可移动设备的目标位置为：唇语采集设备处于位置1，背景音播放设备处于位置2，语音采集设备处于位置3，声场记录设备处于位置4，可移动墙体处于位置5；当前场景下背景音播放设备的状态为：开启，且以35分贝的音量播放背景音一。需要说明的是，计算机设备确定当前场景所对应的环境以及背景音的触发条件可以是人机交互界面接收录音人员的输入指令之后触发，也可以是在计算机设备中预置好执行规则。计算机设备在满足预置条件时，自动按照预置好的规则进行执行。s201：计算机设备向可移动设备发送第一指令，该第一指令用于指示可移动设备移动至目标位置。基于s200中的示例，假设当前场景是场景一，则第一指令用于指示将唇语采集设备移动至位置1，背景音播放设备移动至位置2，远场麦克风移动至位置3，声场记录设备移动至位置4，可移动墙体移动至位置5。s202：可移动设备根据第一指令，移动至目标位置。基于s201中的示例，传感器移动至位置1，背景音播放设备移动至位置2，远场麦克风移动至位置3，声场记录设备移动至位置4，可移动墙体移动至位置5。s203：计算机设备向背景音播放设备发送第二指令，第二指令用于指示s200中所确定的背景音播放设备的状态。基于s200中的示例，假设当前场景是场景一，则第二指令用于指示背景音播放设备以35分贝的音量播放背景音一。s204：背景音播放设备根据第二指令，关闭或者按照指定的音量大小播放指定的背景音。计算机设备可以通过执行s200～s204，自动创建场景。具体的，计算机设备可以通过执行s201～s202自动创建环境，通过执行s203～s204自动控制背景音播放设备的状态。这样可以提高场景切换的准确度，并节约人工成本。s205：计算机设备输出第一指示信息，第一指示信息用于指示录制人员按照录音要求进行语音片段的录制。第一指示信息包括：需要录制的预定义内容以及录音要求。其中，录音要求指录制人员录音时需要遵循的规则。本申请对第一指示信息的具体体现形式不进行限定，示例性的，第一指示信息可以是通过语音合成系统自动播报的一段语音消息、计算机设备的人机交互界面上显示的文字消息或其他能被录制人员所理解的消息中的至少一种。示例性的，计算机设备输出的预定义内容为文字消息“打开导航”，录音要求为语音消息“请用普通话说出预定义内容”。s206：计算机设备输出第二指示信息，第二指示信息用于指示用户输入录制人员信息。本申请实施例对第二指示信息的具体体现形式不进行限定，例如，计算机设备通过人机交互界面或语音输出该指示信息。s207：计算机设备获取输入的录制人员信息。其中，录制人员信息包括该录制人员的性别、年龄或口音所属地中的至少一种。s208：计算机设备将获取的录制人员信息存入数据库。需要说明的是，s201～s208是可选的步骤。例如，上述s201～s202所描述的自动创建环境的过程，s203～s204所描述的自动控制背景音播放设备的状态的过程，s205所描述的录音要求指示过程，s206～s208所描述的录制人员信息自动存储过程中的一个或多个过程均可以替换为人工执行。另外，本申请对s201～s202、s203～s204、s205和s206～s208的执行顺序不进行限定。例如，可以先执行s206～s208再执行s203～s204，然后执行s201～s202再执行s205。本申请实施例中，由于计算机设备对可移动设备的自动化控制，同时对语音片段的内容与唇语片段的内容进行判断是否包含预定义内容，只有两者都包含预定义内容，计算机设备采用语音识别系统才自动对采集的语音片段进行切割或标注。或者，计算机设备采用唇语识别系统自动对采集的唇语片段进行切割或标注，从而实现语音片段的自动化采集，切割和标注实现语音片段的自动化采集，切割和标注。实现唇语片段的自动化采集，切割和标注实现唇语片段的自动化采集，切割和标注。减少了人工作业，提高了采集语音数据的效率以及准确率。实施例二如图5所示，为本申请实施例提供的另一种数据采集的方法的流程示意图。示例性的，本实施例可以应用于图1所示的系统架构。图5所示的方法可以包括以下步骤：s300：计算机设备自动创建环境、控制背景音播放设备的状态和进行录音要求指示。具体的，参考实施例一中s200～s208中的实现方式，此处不再赘述。s301：计算机设备接收第一语音采集设备发送的第一语音片段和第二语音采集设备发送的第三语音片段。其中第一语音采集设备与录制人员之间的距离小于第四阈值。第二语音采集设备与录制人员之间的距离大于等于第四阈值。其中，第四阈值可以是根据第一语音采集设备与第二语音采集设备所采集到的语音片段的重合度预设的一个值。s302：计算机设备分别对第一语音片段和第三语音片段进行语音识别，得到第一语音片段的内容和第三语音片段的内容。具体的，参考实施例一中s101的实现方式，此处不再赘述。s303：计算机设备判断第一语音片段的内容和第三语音片段的内容是否都包含预定义内容。具体的，参考实施例一中s102中的实现方式，此处不再赘述。若是，则执行s304。若否，则计算机设备提示录制人员重新录入第一语音片段和第三语音片段。s304：计算机设备根据预定义内容对第三语音片段进行切割或标注，得到第四语音片段。第四语音片段的内容是预定义内容，第四语音片段是第三语音片段中的子片段。可选的，计算机设备还根据预定义内容对第一语音片段进行切割或标注，得到第二语音片段，其中，第二语音片段的内容是预定义内容。第二语音片段是第一语音片段的子片段。具体的，参考实施例一中s106中的实现方式，此处不再赘述。s305：计算机设备将第四语音片段与预定义内容的对应关系存入数据库。第四语音片段与预定义内容的对应关系用于训练语音识别模型。可选的，计算机设备还将第二语音片段与预定义内容的对应关系存入数据库。第二语音片段与预定义内容的对应关系用于训练语音识别模型。后续，计算机设备可以使用上述s300～s305的方法采集语音片段(如第二语音片段、第四语音片段)，将语音片段与预定义内容的对应关系存入数据库，基于该数据库采用机器学习进行语音识别模型的训练。本实施例中的部分术语如录制人员信息，录制指示信息等的相关说明可以参考实施例一。本实施例中，由于计算机设备采用语音识别系统自动对来自两个不同采集设备采集的语音片段进行判断，在两个语音片段都包括预定义内容时，对语音片段进行切割或标注，从而实现语音片段的自动化采集，切割和标注。节省了人力资源，提高了采集语音片段的效率以及准确率。需要说明的是，在不冲突的前提下，结合实施例一与实施例二中的特征，可以得到一个新的实施例。示例性的，计算机设备接收第一语音片段、第一唇语片段和第三语音片段。此时，第一唇语片段是录制人员在录制第一语音片段时所生成的唇语片段。若第一语音片段的内容包含预定义内容，第三语音片段的内容包含预定义内容且第一唇语片段的内容包含预定义内容，则计算机设备根据预定义内容完成对第一语音片段与第一唇语片段的切割或标注，得到第二语音片段和第二唇语片段，并将第二语音片段、第二唇语片段以及预定义内容的对应关系存入数据库。若第一语音片段的内容不包含预定义内容或第一唇语片段的内容不包含预定义内容，则计算机设备提示录制人员重新录入。需要说明的是，本申请的所有实施例中，对计算机设备判断语音片段是否包含预定义内容与计算机设备判断唇语片段是否包含预定义内容的实现方式不进行限定，可以是现有技术中可实现的任何方式。例如，在一种实现方式中，计算机设备中设定语音片段或唇语片段的命中概率阈值(如80％)，若语音片段或唇语片段的内容命中预定义内容的概率大于等于命中概率阈值时，则认为该语音片段或唇语片段包含预定义内容，若语音片段或唇语片段的内容命中预定义内容的概率小于命中概率阈值时，则认为语音片段或唇语片段不包含预定义内容。在具体实现时，语音片段的命中概率阈值可以与唇语片段的命中概率阈值相同也可以不同。在另一种实现方式中，根据语音片段命中预定义内容的概率以及唇语片段的内容命中预定义内容的概率使用加权平均算法计算总的命中概率，若总的命中概率大于或等于命中概率阈值则认为语音片段或唇语片段包含预定义内容。若总的命中概率小于命中概率阈值时，则认为语音片段或唇语片段不包含预定义内容。实施例三基于实施例一或实施例二的数据采集的方法采集语音片段，采用机器学习进行语音识别模型的训练，得到语音识别模型。基于实施例一的数据采集的方法采集唇语片段，采用机器学习进行唇语识别模型的训练，得到唇语识别模型。基于实施例一采集的语音片段和唇语片段，采用机器学习进行语音唇语识别模型的训练，得到语音唇语识别模型。本申请对语音识别模型、唇语识别模型或语音唇语识别模型的训练方法不进行限定，例如：可以使用统计概率的传统机器学习方法或者深度学习方法。具体参考现有技术。实施例四如图6所示，为本申请实施例提供的一种测试语音识别模型的方法的流程示意图。示例性的，本实施例可以应用于图1所示的系统架构。图6所示的方法可以包括以下步骤：s400：计算机设备执行如实施例一中s200～s208所描述的自动创建环境的过程或者自动控制背景音播放设备的状态的过程或者录音要求指示过程。该步骤是可选的步骤。s401：计算机设备向待测试语音播放设备发送第三指令。该第三指令用于指示待测试语音播放设备播放预定义内容的语音片段。计算机设备记录预定义内容以及预定义内容在该语音片段中的第一起始时间点和第一结束时间点。s402：待测试语音播放设备根据第三指令播放语音。需要说明的是，s401～s402是可选的步骤，在使用录音作为目标声源测试语音识别模型时执行s401～s402之后执行s403。在使用真人作为目标声源测试语音识别模型时，可执行s400之后执行s403。s403：语音采集设备获取第五语音片段。其中，语音采集设备可以是远场语音采集设备，也可以是近场语音采集设备。在一种实现方式中，执行了s401～s402之后,第五语音片段可以是待测试语音播放设备播放的语音。在另一种实现方式中，第五语音片段是测试人员发出的语音。s404：语音采集设备向计算机设备发送第五语音片段。s405：计算机设备使用待测试语音识别模型对接收到的第五语音片段进行语音识别，得到第一内容。其中，待测试语音识别模型可以是实施例三中训练的语音识别模型。s406：计算机设备计算第一内容与第二内容的重合度。s407：计算机设备判断重合度是否大于等于第五阈值，若是，则执行s408。若否，则执行s409。其中，阈值可以根据技术人员的经验设定。例如：可以根据语言识别模型的精准度要求设定第五阈值范围，当语音识别模型或唇语识别模型的精准度要求为95％时，则第五阈值可以设定为不低于96％。本申请对计算机设备计算第一内容与第二内容的重合度的方式不进行限定。在一种实现方式中，计算机设备可以计算出第一内容命中第二内容的概率。该概率为第一内容与第二内容的重合度。其中，该概率为第二内容在第一内容中所占的比例。示例的，重合度可以是第一内容中识别正确的字数与第二内容总字数的比值。例如：假设第二内容为“目的地为丰登东路”，第一内容为“目的地为风灯东路”，那么，第一内容与第二内容的重合度为75％。在另一种实现方式中，计算机设备获取第二内容在第五语音片段中的起始时间点(即第一起始时间点)和第二内容在第五语音片段中的结束时间点(即第一结束时间点)，第一内容在第五语音片段中的起始时间点(即第二起始时间点)和第一内容在第五语音片段中的结束时间点(即第二结束时间点)。计算机设备计算第一起始时间点至第一结束时间点构成的时间段与第二起始时间点和第二结束时间点构成的时间段的重合度。示例性的，第一起始时间点为0.005s，第一结束时间点为2s。第二起始时间点为0.007s，第二结束时间点为2.01s。第一起始时间点至第一结束时间点构成的时间段与第二起始时间点和第二结束时间点构成的时间段的重合度为重合的时间段与第一起始时间点与第一结束时间点之间的时间段的比值，重合度为(2-0.007)÷(2-0.005)＝99.9％。其中，第二内容、第一起始时间点与第一结束时间点的来源可以包括：情况一，使用真人作为目标声源或待测试语音播放设备播放的语音作为目标声源，测试待测试语音识别模型时，计算机设备可以将原语音识别系统识别的第五语音片段的内容作为第二内容、原语音识别系统识别的第二内容在第五语音片段中的起始时间点作为第一起始时间点，原语音识别系统识别的第二内容在第五语音片段中的结束时间点作为第一结束时间点。其中，原语音识别系统为任何测试通过的可以投入使用的语音识别系统。示例性的，原语音识别系统可以为实施例一实施例二中的语音识别系统。情况二，使用待测试语音播放设备播放的语音作为目标声源时，第二内容、第一起始时间点、第一结束时间点可以是数据库中存储的样本数据。其中，第二内容为预定义内容，第一起始时间点为预定义内容在播放的语音片段中的起始时间点，第一结束时间点为预定义内容在播放的语音片段中的结束时间点。s408：计算机设备确定第五语音片段在待测试语音识别模型中测试通过。执行s408之后，则本流程结束。s409：计算机设备确定第五语音片段在待测试语音识别模型中测试不通过。后续，计算机设备可以切换场景，进行多个场景或多个不同的待测试内容的语音的测试之后，输出语音识别模型的测试结果，判断语音识别模型识别的正确率。若正确率大于一个第五阈值，则认为该语音识别模型测试通过，若正确率小于等于该第五阈值则认为该语音识别模型测试不通过。本申请对测试结果的输出方式不进行限定，可以是通过人机界面输出的文字消息。也可以是计算机设备合成的由背景音播放设备播放的语音消息。也可以是能够被测试人员所理解的其他方式。本实施例中，利用计算机设备存储待测试内容，或者利用原语音识别系统识别语音片段得到待测试内容。以此作为参照，来测试待测试语音识别模型对待测试内容的语音片段的识别是否正确，这样，减少了人工参与，从而提高了测试效率。需要说明的是，在具体实施时，在不冲突的前提下实施例一至实施例四中的任意多个实施例中的部分或全部特征可以集合，从而得到一个新的实施例。比如，计算机设备接收唇语采集设备发送的唇语片段，利用原唇语识别系统识别唇语的内容作为参照，再利用待测试唇语识别模型识别唇语的内容，与原唇语识别系统识别的内容进行比对，从而实现对待测试唇语识别模型的测试。这样，可以减少人工参与，从而提高测试效率。上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的方法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。本申请实施例可以根据上述方法示例对计算机设备进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。如图7所示，为本申请实施例提供的一种数据采集装置的结构示意图。该数据采集装置60可以用于执行上文中任意一个实施例(如图3、图4或图5所示的实施例)中计算机设备所执行的功能。数据采集装置60可以包括：获取模块601、处理模块602和存储模块603。获取模块601用于获取第一语音片段和第一唇语片段。第一唇语片段是录制第一语音片段时采集的录制人员的唇语片段。处理模块602，用于对第一语音片段进行语音识别，得到第一语音片段的内容，以及对第一唇语片段进行唇语识别，得到第一唇语片段的内容。若第一语音片段的内容和第一唇语片段的内容都包含预定义内容，则根据预定义内容对第一语音片段进行切割或标注，得到第二语音片段。第二语音片段的内容是预定义内容。第二语音片段是第一语音片段中的子片段。存储模块603，用于将第二语音片段与预定义内容的对应关系存入数据库。第二语音片段与预定义内容的对应关系用于训练语音识别模型。例如结合图3，获取模块601可以用于执行s100、s103。处理模块602可以用于执行s101～s102、s104～s106、s108。存储模块603可以用于执行s107、s109。结合图4，获取模块601可以用于执行s200、s207。处理模块602可以用于执行s205～s206。存储模块603可以用于执行s208。结合图5获取模块601可以用于执行s301。处理模块602可以用于执行s300、s302～s304。存储模块603可以用于执行s305。可选的，处理模块602还用于：根据预定义内容对第一唇语片段进行切割或标注，得到第二唇语片段。第二唇语片段的内容是预定义内容。第二唇语片段是第一唇语片段中的子片段。存储模块603还用于，用于将第二语音片段与预定义内容的对应关系存入数据库。第二语音片段与预定义内容的对应关系用于训练语音识别模型。可选的，获取模块601用于获取第三语音片段。采集第三语音片段的语音采集设备与录制人员之间的距离大于一个阈值。采集第一语音片段的语音采集设备与录制人员之间的距离小于等于该阈值。处理模块602还用于：对第三语音片段进行语音识别，得到第三语音片段的内容。若第一语音片段的内容和第三语音片段的内容都包含预定义内容，则根据预定义内容对第三语音片段进行切割或标注，得到第四语音片段。第四语音片段的内容是预定义内容。第四语音片段是第三语音片段中的子片段。存储模块603还用于：将第四语音片段与预定义内容的对应关系存入数据库。第四语音片段与预定义内容的对应关系用于训练语音识别模型。可选的，该数据采集装置60还包括发送模块604，用于向可移动设备发送第一指令，第一指令用于指示可移动设备移动至目标位置；可移动设备包括背景音播放设备、语音采集设备、声场记录设备或可移动墙体中的至少一种。可选的，发送模块604还用于向背景音播放设备发送第二指令，第二指令用于指示背景音播放设备关闭，或者，开启按照目标音量大小播放背景音。可选的，该数据采集装置60还包括输出模块605，用于输出指示信息，指示信息用于指示录制人员按照录音要求进行语音录制。可选的，获取模块601还用于：获取第一语音片段的录制人员信息；录制人员信息包括录制人员的性别、年龄或口音所属地中的至少一种。存储模块603具体用于：将第二语音片段、预定义内容和录制人员信息的对应关系存入数据库。在一个示例中，参见图1，上述发送模块604可以由图1中的通信接口115实现；处理模块602、存储模块603均可以由图1中的处理器103调用存储器135中存储的计算机程序实现。关于上述可选方式的具体描述参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种数据采集装置60的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。需要说明的是，上述各个模块对应执行的动作仅是具体举例，各个模块实际执行的动作参照上述基于图3、图4或图5所述的实施例的描述中提及的动作或步骤。如图8所示，为本申请实施例提供的一种识别模型测试装置的结构示意图。该识别模型测试装置80可以用于执行上文中任意一个实施例(如图5所示的实施例)中计算机设备所执行的功能。识别模型测试装置80可以包括：收发模块801、处理模块802。收发模块801用于接收语言片段。处理模块802，用于使用待测试识别模型对语言片段进行识别，得到第一内容。当语言片段包括语音片段时，待测试的识别模型为语音识别模型。或者，当语言片段包括唇语片段时，待测试的识别模型为唇语识别模型。计算第一内容与第二内容的重合度。其中，语言片段包括第二内容。若重合度大于等于一个阈值，则测试通过；若重合度小于阈值，则测试不通过。例如结合图5，收发模块801可以用于执行s301中的发送步骤，s304中的接收步骤。处理模块802可以用于执行s300、s305～s309。可选的，收发模块801还用于，向可移动设备发送第一指令，第一指令用于指示可移动设备移动至目标位置。可移动设备包括背景音播放设备、语音采集设备、声场记录设备、待测试语音播放设备或可移动墙体中的至少一种。可选的，收发模块801还用于：向待测试语音播放设备发送第三指令，第三指令用于指示待测试语音播放设备播放语言片段。可选的，处理模块802还用于：当语言片段包括语音片段时，使用语音识别系统对语音片段进行识别得到第二内容；或者，当语言片段包括唇语片段时，使用唇语识别系统对唇语片段进行识别得到第二内容。在一个示例中，参见图1，上述收发模块801可以由图1中的通信接口115实现；处理模块802可以由图1中的处理器103调用存储器135中存储的计算机程序实现。关于上述可选方式的具体描述参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种识别模型测试装置80的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。需要说明的是，上述各个单元对应执行的动作仅是具体举例，各个单元实际执行的动作参照上述基于图5所述的实施例的描述中提及的动作或步骤。本申请实施例还提供了一种装置(如计算机设备或芯片)，包括：存储器和处理器；该存储器用于存储计算机程序，该处理器用于调用该计算机程序，以执行上文提供的任一实施例中提及的动作或步骤。本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上文提供的任一实施例中提及的动作或步骤。本申请实施例还提供了一种芯片。该芯片中集成了用于实现上述数据采集装置及识别模型测试装置的功能的电路和一个或者多个接口。可选的，该芯片支持的功能可以包括基于图3-图5所述的实施例中的处理动作，此处不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可通过程序来指令相关的硬件完成。所述的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器，随机接入存储器等。上述处理单元或处理器可以是中央处理器，通用处理器、特定集成电路(applicationspecificintegratedcircuit，asic)、微处理器(digitalsignalprocessor，dsp)，现场可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。本申请实施例还提供了一种包含指令的计算机程序产品，当该指令在计算机上运行时，使得计算机执行上述实施例中的任意一种方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，dvd)、或者半导体介质(例如固态硬盘(solidstatedisk，ssd))等。应注意，本申请实施例提供的上述用于存储计算机指令或者计算机程序的器件，例如但不限于，上述存储器、计算机可读存储介质和通信芯片等，均具有非易失性(non-transitory)。在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。尽管结合具体特征及其实施例对本申请进行了描述，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于AI处理的语音合成处理系统及方法与流程

数据采集的方法及装置与流程

相关文章

最热文献