一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音质检方法、装置、电子设备及存储介质与流程

2022-03-09 07:34:05 来源:中国专利 TAG:


1.本技术涉及语音数据处理技术领域,具体而言,涉及一种语音质检方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.传统的语音质检工作通常由质检人员进行人工检测,这种质检方式在面对大量的音频数据时,需要花费大量时间。
3.为了避免这种情况,可以将规则引擎用于语音质检,然而,目前将规则引擎用于语音质检的方法存在一些弊端。例如,质检规则无法同时使用文本特征条件和音频特征条件;又如,质检规则无法针对出现特定语义内容的部分再叠加音频特征条件;亦或实现质检功能的方法较为复杂,导致语音质检的过程非常繁琐,浪费大量的计算时间和计算成本,造成语音质检成本较高。


技术实现要素:

4.本技术实施例的目的在于提供一种语音质检方法、装置、电子设备及计算机可读存储介质,解决了文本特征条件和音频特征割裂使用的问题,通过对音频数据进行音频特征质检,提升质检结果的准确性。
5.第一方面,本技术实施例提供了一种语音质检方法,所述方法包括:
6.获取音频数据;
7.将所述音频数据转换成对应的文本数据;
8.对所述文本数据进行质检分析,得到质检分析数据;
9.根据所述质检分析数据输出质检结果。
10.在上述实现过程中,通过对音频数据处理之后进行质检的方式,可以同时使用文本条件和音频条件进行质检,并输出质检结果,支持使用细粒度的质检规则,可以一次完成文本规则和音频规则判断,提高了质检结果准确性,缩短了质检过程耗时。
11.进一步地,所述对所述文本数据进行质检分析,得到质检分析数据的步骤,包括:
12.对所述文本数据进行字符坐标标记,得到所述文本数据的字符开始质检坐标和字符结束质检坐标;
13.根据所述字符开始质检坐标和字符结束质检坐标得到所述质检分析数据。
14.在上述实现过程中,对文本数据进行字符坐标标记,可以获得文本数据中字符的坐标信息,可以完整地获取到文本数据,不会造成文本数据丢失。
15.进一步地,所述根据所述文本数据的字符开始质检坐标和字符结束质检坐标得到所述质检分析数据的步骤,包括:
16.将所述字符开始质检坐标转换为对应的时间坐标,得到开始时间质检坐标;
17.将所述字符结束质检坐标转换为对应的时间坐标,得到结束时间质检坐标;
18.根据所述开始时间质检坐标和所述结束时间质检坐标得到质检分析数据。
19.在上述实现过程中,将字符坐标转换为时间坐标,可以获取到字符对应的时间信息,便于文本数据和音频数据的匹配,不会造成音频数据的丢失。
20.进一步地,所述根据所述开始时间质检坐标和所述结束时间质检坐标得到质检分析数据的步骤,包括:
21.获取所述文本数据中的音频参数;
22.获取质检规则参数;
23.根据所述音频参数匹配所述开始时间质检坐标和所述结束时间质检坐标对应的质检规则参数,得到所述质检分析数据。
24.在上述实现过程中,音频参数中包含了文本数据对应的音频信息,使得音频数据不会因为转换为文本数据而丢失音频信息,保证质检结果更加准确。
25.进一步地,所述将所述字符结束质检坐标转换为对应的时间坐标,得到结束时间质检坐标的步骤,包括:
26.根据所述字符开始质检坐标和所述字符结束质检坐标得到文本序列长度和区间时长;
27.根据所述文本序列和所述区间时长计算得到所述文本数据中每个字符对应的时间戳;
28.根据所述开始时间质检坐标和所述时间戳得到所述结束时间质检坐标。
29.在上述实现过程中,通过文本序列长度和区间时长可以得到每个字符对应的时间戳,能够保证每个字符对应音频信息的完整、有效,不会造成对某个字符的质检分析的缺失。
30.进一步地,通过以下公式根据所述文本序列和所述区间时长计算得到所述文本数据中每个字符对应的时间戳:
31.所述时间戳的计算公式为:g=d/l;
32.其中,g为时间戳,d为区间时长,l为文本序列长度。
33.进一步地,所述获取音频数据的步骤,包括:
34.接收所述音频数据;
35.对所述音频数据进行转换处理,得到转换处理后的音频数据。
36.在上述实现过程中,对音频数据进行转换处理,可以去除音频数据中的无效信息,并将音频数据转换成适合质检分析的数据格式,使得质检结果更加准确。
37.第二方面,本技术实施例还提供了一种语音质检装置,所述装置包括:
38.获取模块,用于获取音频数据;
39.转换模块,用于将所述音频数据转换成对应的文本数据;
40.质检模块,用于对所述文本数据进行质检分析,得到质检分析数据;
41.输出模块,用于根据所述质检分析数据输出质检结果。
42.在上述实现过程中,通过对音频数据处理之后进行质检的方式,可以同时使用文本条件和音频条件进行质检,并输出质检结果,支持使用细粒度的质检规则,可以一次完成文本规则和音频规则判断,提高了质检结果准确性,缩短了质检过程耗时。
43.第三方面,本技术实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时
实现如第一方面任一项所述的方法的步骤。
44.第四方面,本技术实施例提供的一种计算机可读存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
45.第五方面,本技术实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
46.本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
47.并可依照说明书的内容予以实施,以下以本技术的较佳实施例并配合附图详细说明如后。
附图说明
48.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
49.图1为本技术实施例提供的语音质检方法的流程示意图;
50.图2为本技术实施例提供的语音质检装置的结构组成示意图;
51.图3为本技术实施例提供的电子设备的结构组成示意图。
具体实施方式
52.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
53.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
54.下面结合附图和实施例,对本技术的具体实施方式作进一步详细描述。以下实施例用于说明本技术,但不用来限制本技术的范围。
55.实施例一
56.图1是本技术实施例提供的语音质检方法的流程示意图,如图1所示,该方法包括:
57.s1,获取音频数据;
58.s2,将音频数据转换成对应的文本数据;
59.s3,对文本数据进行质检分析,得到质检分析数据;
60.s4,根据质检分析数据输出质检结果。
61.以本实施例为例,通过对音频数据处理之后进行质检的方式,可以同时使用文本条件和音频条件进行质检,并输出质检结果,支持使用细粒度的质检规则,可以一次完成文本规则和音频规则判断,提高了质检结果准确性,缩短了质检过程耗时。
62.进一步地,s1包括:
63.接收音频数据;
64.对音频数据进行转换处理,得到转换处理后的音频数据。
65.以本实施例为例,音频数据可以来自数据库网站或者来自业务场景收集到的音频数据,例如电话销售过程中产生的电话录音,收集到音频数据之后,转换音频数据的编码格式、采样率,得到转换处理后的音频数据。
66.对音频数据进行转换处理,可以去除音频数据中的无效信息,并将音频数据转换成适合质检分析的数据格式,使得质检结果更加准确。
67.在s2中,将音频数据转换为对应的文本数据,即输出文字或文字序列对应的时间戳,本文数据包含音频数据中的参数、音频特征。
68.进一步地,s3包括:
69.对文本数据进行字符坐标标记,得到文本数据的字符开始质检坐标和字符结束质检坐标;
70.根据字符开始质检坐标和字符结束质检坐标得到质检分析数据。
71.字符坐标系是将输入的文本数据以字符数量为坐标轴,从0开始依次计数并作为坐标值,得到文本数据的字符开始质检坐标和字符结束质检坐标。
72.以本实施例为例,对文本数据进行字符坐标标记,可以获得文本数据中字符的坐标信息,可以完整的获取到文本数据,不会造成文本数据丢失。
73.进一步地,根据文本数据的字符开始质检坐标和字符结束质检坐标得到质检分析数据,包括:
74.将字符开始质检坐标转换为对应的时间坐标,得到开始时间质检坐标;
75.将字符结束质检坐标转换为对应的时间坐标,得到结束时间质检坐标;
76.根据开始时间质检坐标和结束时间质检坐标得到质检分析数据。
77.进一步地,根据开始时间质检坐标和结束时间质检坐标得到质检分析数据,包括:
78.获取文本数据中的音频参数;
79.获取质检规则参数;
80.根据音频参数匹配开始时间质检坐标和结束时间质检坐标对应的质检规则参数,得到质检分析数据。
81.以本实施例为例,时间坐标是将输入的文本数据中的字符以时间为轴,用字符对应的时间区间,得到的特征时间,如最小值、平均值、最大值,作为时间坐标值,字符坐标和时间坐标两种坐标系坐标可以互相转换,转换依据为坐标系下的坐标或坐标区间对应的字符相同。通过这种转换方法将文本数据的字符开始质检坐标和字符结束质检坐标转换为对应的开始时间质检坐标和结束时间质检坐标。质检规则参数中包含了文本数据对应的音频信息,使得音频数据不会因为转换为文本数据而丢失音频信息,保证质检结果更加准确。
82.质检规则参数包含音量、语速、抢话插话等判定音频数据是否符合质检要求的声音特征对应的参数。其中,音量指一句、一段或全部区间音频的音量的均值,语速指一句、一段或全部区间对应文本数据的字数除以发话时长,抢话指角色a发话时角色b正在发话且角色b先于a结束发话,插话指角色a发话时角色b正在发话,且角色b晚于a结束发话。
83.进一步地,将字符结束质检坐标转换为对应的时间坐标,得到结束时间质检坐标,包括:
84.根据字符开始质检坐标和字符结束质检坐标得到文本序列长度和区间时长;
85.根据文本序列和区间时长计算得到文本数据中每个字符对应的时间戳;
86.根据开始时间质检坐标和时间戳得到结束时间质检坐标。
87.以本实施例为例,通过文本序列长度和区间时长可以得到每个字符对应的时间戳,能够保证每个字符对应音频信息的完整、有效,不会造成对某个字符的质检分析的缺失。
88.进一步地,根据文本序列和区间时长计算得到文本数据中每个字符对应的时间戳,包括:
89.时间戳的计算公式为:g=d/l;
90.其中,g为时间戳,d为区间时长,l为文本序列长度。
91.示例性地,可以采用插值算法将字符坐标中文本序列对应的时间区间转换为序列中每个文字对应的时间区间,计算文本序列长度l,计算区间时长d,得到每个字符对应时间区间的时间戳g=d/l,第一个字符时间区间开始值为文本序列时间区间开始值s,结束值为其开始值加g;第二个字符时间区间开始值为第一个字符时间区间结束值,结束值为第二个字符时间区间开始值加g,依次类推完成整个文本序列的转换。文本序列长度为不包含非文字(如标点)的字符,得到字符对应时间戳时,对文本序列长度去除的标点等非文字字符,可以忽略其时长。示例性地,计算区间时长、开始时间、结束时间可以选择整数,可以采用毫秒、微秒等作为时间的单位。
92.以本实施例为例,将字符坐标转换为时间坐标,可以获取到字符对应的时间信息,便于文本数据和音频数据的匹配,不会造成音频数据的丢失。
93.在s4中,根据质检分析数据输出质检结果。
94.示例性地,得到质检分析数据之后,会根据质检分析数据进行评级或者打分,判定质检分析数据是否符合要求,并将分数或者评级的级别作为质检结果,记录到文件、数据库或传输给下游系统。
95.本技术实施例,通过对音频数据处理之后进行质检的方式,同时使用文本条件和音频条件进行质检,输出质检结果,不需要浪费大量计算时间和计算成本,提高了质检的效率,降低了质检成本。
96.实施例二
97.为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种语音质检装置,如图2所示,该装置包括:
98.获取模块1,用于获取音频数据;
99.转换模块2,用于将音频数据转换成对应的文本数据;
100.质检模块3,用于对文本数据进行质检分析,得到质检分析数据;
101.输出模块4,用于根据质检分析数据输出质检结果。
102.获取模块1还用于:
103.接收音频数据;
104.对音频数据进行转换处理,得到转换处理后的音频数据。
105.质检模块3还用于:
106.对文本数据进行字符坐标标记,得到文本数据的字符开始质检坐标和字符结束质检坐标;
107.根据字符开始质检坐标和字符结束质检坐标得到质检分析数据。
108.将字符开始质检坐标转换为对应的时间坐标,得到开始时间质检坐标;
109.将字符结束质检坐标转换为对应的时间坐标,得到结束时间质检坐标;
110.根据开始时间质检坐标和结束时间质检坐标得到质检分析数据。
111.获取文本数据中的音频参数;
112.获取质检规则参数;
113.根据音频参数匹配开始时间质检坐标和结束时间质检坐标对应的质检规则参数,得到质检分析数据。
114.根据字符开始质检坐标和字符结束质检坐标得到文本序列长度和区间时长;
115.根据文本序列和区间时长计算得到文本数据中每个字符对应的时间戳;
116.根据开始时间质检坐标和时间戳得到结束时间质检坐标。
117.时间戳的计算公式为:g=d/l;
118.其中,g为时间戳,d为区间时长,l为文本序列长度。
119.上述的语音质检装置可实施上述实施例一的方法。上述实施例一中的可选项也适用于本实施例,这里不再详述。
120.本技术实施例的其余内容可参照上述实施例一的内容,在本实施例中,不再进行赘述。
121.实施例三
122.本技术实施例提供一种电子设备,包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一的语音质检方法。
123.可选地,上述电子设备可以是服务器。
124.请参见图3,图3为本技术实施例提供的电子设备的结构组成示意图。该电子设备可以包括处理器31、通信接口32、存储器33和至少一个通信总线34。其中,通信总线34用于实现这些组件直接的连接通信。其中,本技术实施例中设备的通信接口32用于与其他节点设备进行信令或数据的通信。处理器31可以是一种集成电路芯片,具有信号的处理能力。
125.上述的处理器31可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
126.存储器33可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。存储器33中存储有计算机可读取指令,当计算机可读取指令由所述处理器31执行时,设备可以执行上述图1方法实施例涉及的各个步骤。
127.可选地,电子设备还可以包括存储控制器、输入输出单元。存储器33、存储控制器、处理器31、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线34实现电性连接。处理器31用于执行存储器33中存储的可执行模块,例如设备包括的软件功能模块或计算机程序。
128.输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。输入输出单元可以是,但不限于,鼠标和键盘等。
129.可以理解,图3所示的结构仅为示意,电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
130.另外,本技术实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的语音质检方法。
131.本技术实施例还提供一种计算机程序产品,该计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
132.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
133.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
134.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
135.以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
136.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
137.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖
非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献