获取回听音频的方法、装置、设备及存储介质与流程

2022-09-15 05:10:58 来源：中国专利 TAG：

1.本技术涉及音频回听技术领域，更具体的说，是涉及一种获取回听音频的方法、装置、设备及存储介质。

背景技术：

2.随着语音识别、转写技术的发展，语音识别、转写的准确率得到了极大的提升，越来越多的会议系统中集成了语音识别、转写功能，用于辅助会议纪要的记录。
3.在会议中，使用会议系统进行会议内容自动识别、转写的同时，都会有会议记录人员对转写的会议内容进行编辑，如对不同发言人的发言内容进行合并等。会议系统所转写的会议内容一般是以容器形式存在的，用户看到的文本内容被包裹在容器中，容器中含有当前文本的开始和结束时间，容器和时间信息对用户不可见。当用户对转写的会议内容进行编辑后，有可能破坏掉容器中文本与时间信息的对应关系，导致无法基于容器中的时间信息找到用户真实所要回头的音频。

技术实现要素：

4.鉴于上述问题，提出了本技术以便提供一种获取回听音频的方法、装置、设备及存储介质，以实现准确的查找用户所要回头的音频的目的。具体方案如下：
5.一种获取回听音频的方法，包括：
6.获取待回听文本及其文本长度l1，判断是否存在与所述待回听文本对应的有效音频时间信息；
7.若不存在，则获取所述待回听文本对应的筛选文本，所述筛选文本为，从原始音频的转写文本中筛选出的与所述待回听文本对应的发言人相关的文本；
8.基于所述待回听文本的文本长度l1，及所述发言人的发言速度，计算待回听音频的真实时长；
9.在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段；
10.确定每一候选文本段与所述待回听文本的文本匹配度，并基于文本匹配度筛选满足匹配度要求的目标文本段；
11.获取所述目标文本段对应的原始音频段，作为回听音频。
12.优选地，在筛选候选文本段之前，该方法还包括：
13.获取用户输入的回听关键字；
14.在所述待回听文本及所述筛选文本中分别定位所述回听关键字所在位置；
15.则所述在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段，包括：
16.在所述筛选文本中筛选时长等于所述待回听音频的真实时长，且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段。
17.优选地，所述判断是否存在与所述待回听文本对应的有效音频时间信息，包括：
18.获取待回听文本所在的第一容器；
19.判断所述第一容器中是否包含有音频时间信息，若没有，则确定不存在与所述待回听文本对应的有效音频时间信息。
20.优选地，还包括：
21.若确定所述第一容器中包含有音频时间信息，则基于所述音频时间信息确定时长δt1，以及基于所述第一容器的容器标识，获取预先存储的与所述第一容器的容器标识相同标识的第二容器，所述第二容器中存储有所述原始音频中与所述音频时间信息对应音频的转写文本；
22.获取所述第二容器中包含的转写文本的文本长度l2；
23.判断所述文本长度l1与所述文本长度l2的差值，是否超过所述时长δt1与预设偏差阈值a的乘积，所述预设偏差阈值a表示单位时间内说话字数和实际的偏差阈值；
24.若超过，则确定不存在与所述待回听文本对应的有效音频时间信息。
25.优选地，所述获取所述待回听文本对应的筛选文本，包括：
26.判断预设的声纹库中是否存在所述发言人的声纹；
27.若存在，则获取所述发言人的声纹，并基于所述发言人的声纹在所述原始音频中查找所述发言人的音频及其转写文本，作为所述筛选文本；
28.若不存在，则将所述原始音频对应的转写文本作为所述筛选文本。
29.优选地，所述发言人的发言速度为设定值，或，
30.将所述筛选文本的长度除以所述筛选文本对应的音频时长，结果作为所述发言人的发言速度；
31.或，
32.将所述原始音频的转写文本的长度除以所述原始音频的时长，结果作为所述发言人的发言速度。
33.优选地，所述基于所述待回听文本的文本长度l1，及所述发言人的发言速度，计算待回听音频的真实时长，包括：
34.按照下述计算待回听音频的真实时长δt2：
35.l1/(v-a)《δt2《l1/(v a)
36.其中，v表示发言人的发言速度，a表示预设的单位时间内说话字数和实际的偏差阈值。
37.优选地，在所述待回听文本定位所述回听关键字所在位置，包括：
38.在所述待回听文本中查找每一所述回听关键字距离待回听文本起始字符的长度l3；
39.基于长度l3，及所述发言人的发言速度，计算每一所述回听关键字距离待回听文本起始字符的时长δt3；
40.则，在所述筛选文本中筛选时长等于所述待回听音频的真实时长，且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段的过程，包括：
41.对于筛选文本中每个回听关键字：
42.在回听关键字位置开始，向前查找时长等于所述δt3的文本，以及，向后查找时长等于δt2-δt3的文本，由向前、向后查找到的文本组成一条候选文本段，其中δt2为待回听音频的真实时长。
43.优选地，在所述待回听文本中定位所述回听关键字所在位置，包括：
44.在所述待回听文本中查找每一所述回听关键字距离待回听文本末尾字符的长度l4；
45.基于长度l4，及所述发言人的发言速度，计算每一所述回听关键字距离待回听文本末尾字符的时长δt4；
46.则，在所述筛选文本中筛选时长等于所述待回听音频的真实时长，且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段的过程，包括：
47.对于筛选文本中每个回听关键字：
48.在回听关键字位置开始，向后查找时长等于所述δt4的文本，以及，向前查找时长等于δt2-δt4的文本，由向前、向后查找到的文本组成一条候选文本段，其中δt2为待回听音频的真实时长。
49.优选地，还包括：
50.若确定存在与所述待回听文本对应的有效音频时间信息，则在所述原始音频中获取与所述有效音频时间信息对应的音频段，作为回听音频。
51.一种获取回听音频的装置，包括：
52.有效性判断单元，用于获取待回听文本及其文本长度l1，判断是否存在与所述待回听文本对应的有效音频时间信息；
53.筛选文本获取单元，用于在所述有效性判断单元判断不存在时，获取所述待回听文本对应的筛选文本，所述筛选文本为，从原始音频的转写文本中筛选出的与所述待回听文本对应的发言人相关的文本；
54.真实时长计算单元，用于基于所述待回听文本的文本长度l1，及所述发言人的发言速度，计算待回听音频的真实时长；
55.候选文本段筛选单元，用于在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段；
56.匹配度计算单元，用于确定每一候选文本段与所述待回听文本的文本匹配度，并基于文本匹配度筛选满足匹配度要求的目标文本段；
57.回听音频获取单元，用于获取所述目标文本段对应的原始音频段，作为回听音频。
58.一种获取回听音频的设备，包括：存储器和处理器；
59.所述存储器，用于存储程序；
60.所述处理器，用于执行所述程序，实现如上所述的获取回听音频的方法的各个步骤。
61.一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的获取回听音频的方法的各个步骤。
62.借由上述技术方案，本技术对于待回听文本首先判断是否存在与其对应的有效音频时间信息，在确定不存在时，从原始音频的转写文本中筛选出与待回听文本对应的发言
unique＝”893”start-time＝”6340”end-time＝”7850”》小明给小红回信问候《/ins》
78.其中，data-unique＝”893”为容器的标识，容器中包含的文本为“小明给小红回信问候”，对应的起始时间为start-time＝”6340”，结束时间为end-time＝”7850”。
79.可以理解的是，若待回听文本所在的容器中不存在时间信息，则可以直接确定不存在与待回听文本对应的有效音频时间信息。若待回听文本所在的容器中存在时间信息，则有两种可能，一种是容器内文本未经过编辑，所存在的时间信息属于有效音频时间信息，另一种是容器内文本经过编辑已经远远超过编辑前文本的长度，则容器中所存在的时间信息已经失效，也即不存在与待回听文本对应的有效音频时间信息。
80.步骤s120、获取所述待回听文本对应的筛选文本。
81.其中，所述筛选文本为，从原始音频的转写文本中筛选出的与所述待回听文本对应的发言人相关的文本。
82.对于待回听文本对应的发言人，其可以是用户在指定待回听文本的同时，指定了发言人的身份。基于此，为了缩小在原始音频的转写文本中查找与待回听文本匹配的文本的范围，可以从原始音频的转写文本中筛选出与待回听文本的发言人相关的文本，作为筛选文本。
83.一种可选的实现方式中，可以先判断预设的声纹库中是否存在发言人的声纹；若存在，则获取发言人的声纹，并基于发言人的声纹在原始音频中查找发言人的音频及其转写文本，作为所述筛选文本。
84.除此之外，若确定声纹库中不存在发言人的声纹，则可以将原始音频对应的转写文本作为筛选文本。
85.步骤s130、基于所述待回听文本的文本长度l1，及发言人的发言速度，计算待回听音频的真实时长。
86.其中，待回听文本的文本长度l1已经在步骤s100中获取到。至于发言人的发言速度，其可以有多种确定方式，本实施例中介绍了几种可选的实现方式：
87.第一、发言人的发言速度为设定值。也即，可以设置固定的发音速度设定值作为发言人的发言速度。
88.第二、在用户指定发言人的同时，设置了发言人的发言速度，也即，获取用户设定的发言人的发言速度。
89.第三、将筛选文本的长度除以筛选文本对应的音频时长，结果作为发言人的发言速度。
90.可以理解的是，筛选文本为原始音频的转写文本中与发言人相关的文本，因此可以基于筛选文本的长度除以对应的音频时长，结果作为发言人的发言速度。
91.第四、将原始音频的转写文本的长度除以原始音频的时长，结果作为发言人的发言速度。
92.在一些场景下，也可以直接将原始音频的转写文本的长度除以原始音频的时长，结果作为发言人的发言速度。
93.由于待回听文本为用户真实所要回听的文本，因此在确定了文本长度l1，以及发言人的发言速度v之后，可以计算出待回听音频的真实时长。
94.步骤s140、在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文
本段。
95.可以理解的是，筛选文本中包含了发言人的全量发言内容，可以从中筛选出时长等于待回听音频的真实时长的候选文本段。候选文本段的数量可以是一个或多个。
96.本步骤中通过待回听音频的真实时长这一筛选条件，从筛选文本中筛选出候选文本段，缩小了查找范围。
97.步骤s150、确定每一候选文本段与所述待回听文本的文本匹配度，并基于文本匹配度筛选满足匹配度要求的目标文本段。
98.其中，文本匹配度可以是采用tf-idf、语义匹配、文本匹配度模型等方式来计算。匹配度要求可以是匹配度超过阈值、匹配度最高的topn等。
99.步骤s160、获取所述目标文本段对应的原始音频段，作为回听音频。
100.在上一步骤得到目标文本段之后，可以直接获取目标文本段对应的原始音频段，作为回听音频。
101.除此之外，为了提高回听音频的准确度，还可以将各个目标文本段按照文本匹配度由高至低的顺序进行排序，并向用户展示，响应用户从各目标文本段中选择的目标文本段，并获取用户所选择的目标文本段对应的原始音频段，作为回听音频。
102.本技术实施例提供的回听音频的获取方法，对于待回听文本首先判断是否存在与其对应的有效音频时间信息，在确定不存在时，从原始音频的转写文本中筛选出与待回听文本对应的发言人相关的文本，得到筛选文本，进一步基于待回听文本的文本长度l1以及发言人的发言速度，计算出待回听音频的真实时长，在筛选文本中筛选时长等于该真实时长的候选文本段，通过计算每一候选文本段与待回听文本的文本匹配度，筛选满足匹配度要求的目标文本段，获取目标文本段对应的原始音频段，作为回听音频。由此可见，本技术通过获取筛选文本以及计算待回听音频的真实时长，能够缩小候选文本段的查找范围，最终通过匹配度计算得到用户真实所要回听音频，在保证能够获取到用户真实所要回听音频的基础上，缩短了查找时间，提升了响应效率。
103.在本技术的一些实施例中，对上述步骤s110中判断是否存在与待回听文本对应的有效音频时间信息的过程进行介绍。
104.前文已经说明，语音识别转写后的文本可以是包裹在容器中，为了便于表述，定义获取的待回听文本所在的容器为第一容器。
105.获取待回听文本所在的第一容器，判断第一容器中是否包含有音频时间信息，若没有，则确定不存在与待回听文本对应的有效音频时间信息。
106.可以理解的是，若第一容器中不包含音频时间信息，则意味着肯定不会存在与待回听文本对应的有效音频时间信息。
107.若第一容器中包含有音频时间信息，则需要进一步基于所包含的音频时间信息来确定有效性。具体包括如下步骤：
108.s1、基于所述音频时间信息确定时长δt1，以及基于所述第一容器的容器标识，获取预先存储的与所述第一容器的容器标识相同标识的第二容器，所述第二容器中存储有所述原始音频中与所述音频时间信息对应音频的转写文本。
109.具体地，本技术存储有对于原始音频转写后的文本。当前的待回听文本所在的第一容器可能是用户已经编辑后的，也可能是未经过编辑的。本步骤在预先存储的原始音频
对应的转写文本中，查找与第一容器的容器标识相同的第二容器，该第二容器中包含的是未经过任何编辑的转写文本。第二容器中的音频时间信息与第一容器中的音频时间信息一致，时长均为δt1。
110.s2、获取所述第二容器中包含的转写文本的文本长度l2。
111.s3、判断所述文本长度l1与所述文本长度l2的差值，是否超过所述时长δt1与预设偏差阈值a的乘积。
112.其中，预设偏差阈值a表示单位时间内说话字数和实际的偏差阈值。步骤s3可以转换为判断下式是否成立：
113.l1-l2》δt1*a
114.可以理解的是，如果待回听文本的长度l1相比于编辑前的文本长度l2的差值，超过时长δt1与预设偏差阈值a的乘积，则说明待回听文本相比于编辑前的文本所新增的内容过多，导致容器中的音频时间信息失效，因此可以确定不存在与所述待回听文本对应的有效音频时间信息。
115.一种可选的场景下，用户在对会议系统的转写文本进行编辑过程，可能会将前后相邻的两个或多个个容器内的文本合并至一个容器内，导致合并后容器内包含的文本长度与容器内的音频时间信息对应关系失效。
116.举例说明如下：
117.待回听文本所在第一容器为：《span class＝"vad"data-unique＝"51"start-time＝"6340"end-time＝"6350"》。小明给小红回信问候《/span》。
118.其中，容器标识为data-unique＝"51"，包含的文本为“。小明给小红回信问候”，文本长度l1为10，时长δt1＝6350-6340＝0.01s。
119.编辑前的，相同容器标识的第二容器为：《span class＝"vad"data-unique＝"51"start-time＝"6340"end-time＝"6350"》。《/span》。
120.包含的文本为“。”，文本长度l2为1。
121.定义α设定值为3，则l1-l2＝10-1》0.01*3。
122.因此，可以确定待回听文本所在第一容器中的音频时间信息失效，也即不存在与待回听文本对应的有效音频时间信息。
123.本实施例中，通过分析待回听文本所在第一容器中的音频时间信息，来判断是否存在与待回听文本对应的有效音频时间信息，为后文获取回听音频的过程提供了基础。
124.在本技术的一些实施例中，对前述步骤s130，基于所述待回听文本的文本长度l1，及发言人的发言速度，计算待回听音频的真实时长的过程进行介绍。
125.一种可选的方式下，可以将待回听文本的文本长度l1除以发言人的发言速度v，结果作为待回听音频的真实时长δt2。
126.当然，进一步考虑到发言人的语速可能会存在上下浮动，因此可以进一步引入发言速度修正项a，a含义与前文相同，即表示单位时间内说话字数和实际的偏差阈值。
127.在此基础上，待回听音频的真实时长δt2计算方式如下：
128.l1/(v-a)《δt2《l1/(v a)
129.在本技术的一些实施例中，进一步提供了另一种获取回听音频的方法，在前述各实施例的基础上，为了进一步缩小查找范围，快速定位到用户所要回听的文本及其音频段，
进一步提供了关键字筛选条件。具体方案可以参照图2所示：
130.步骤s200、获取待回听文本及其文本长度l1。
131.步骤s210、判断是否存在与所述待回听文本对应的有效音频时间信息，若否，执行步骤s220。
132.步骤s220、获取所述待回听文本对应的筛选文本。
133.步骤s230、基于所述待回听文本的文本长度l1，及发言人的发言速度，计算待回听音频的真实时长。
134.本实施例中步骤s200-s230与前述实施例中的步骤s100-s130一一对应，详细参照前文介绍，此处不再赘述。
135.步骤s240、获取用户输入的回听关键字。
136.具体地，用户可以将所要回听的关键字输入，输入的回听关键字可以是一个或多个。
137.步骤s250、在所述待回听文本及所述筛选文本中分别定位所述回听关键字所在位置。
138.具体地，分别在待回听文本及筛选文本中对回听关键字进行位置定位，确定回听关键字所在的位置。
139.需要说明的是，步骤s240及s250可以在步骤s220之后，步骤s260之前的任意位置执行，图2仅仅示例了一种可选的执行流程。
140.步骤s260、在所述筛选文本中筛选时长等于待回听音频的真实时长，且包含的回听关键字的位置分布与待回听文本中回听关键字的位置分布满足设定分布相似条件的候选文本段。
141.相比于前述实施例，本实施例中在筛选文本中筛选候选文本段时，在参考了筛选时长这一筛选条件的基础上，进一步增加了回听关键字位置分布满足设定分布相似条件这一筛选条件，回听关键字类似于锚点，通过增加回听关键字位置分布满足设定分布相似条件这一筛选条件，更加精确地定位到用户真实所要回听的文本，得到的候选文本段更加准确，同时也能够减少候选文本段的数量。
142.步骤s270、确定每一候选文本段与所述待回听文本的文本匹配度，并基于文本匹配度筛选满足匹配度要求的目标文本段。
143.步骤s280、获取所述目标文本段对应的原始音频段，作为回听音频。
144.本实施例中步骤s270-s280与前述实施例中的步骤s150-s160一一对应，详细参照前文介绍，此处不再赘述。
145.本实施例提供的获取回听音频的方法，新增了用户录入回听关键字的过程，使得在筛选文本中筛选候选文本段时可以进一步增加回听关键字位置分布满足设定分布相似条件这一筛选条件，能够更加精确地定位到用户真实所要回听的文本，得到的候选文本段更加准确，最终确定的回听音频也会更加准确，同时能够减少步骤s270中确定文本匹配度的计算量。
146.在本技术的一些实施例中，对上述步骤s250，在待回听文本中定位回听关键字所在位置的过程，以及步骤s260，在筛选文本中筛选候选文本段的过程进行展开说明。
147.具体地，对于回听关键字在待回听文本中的位置，其表现形式可以有多种，如回听
关键字距离待回听文本起始字符的长度，或者，回听关键字距离待回听文本末尾字符的长度，等。进一步地，可以基于上述长度进一步计算回听关键字距离起始字符或末尾字符的时长，也即，回听关键字在待回听文本中的位置，可以是距离起始字符或末尾字符的文本长度，也可以是时长。
148.对于回听关键字在待回听文本中位置的不同表现形式，对应的在筛选文本中筛选候选文本段的方式也可以不同。接下来示例几种可选的方式：
149.第一种、
150.步骤s250，在待回听文本中定位回听关键字所在位置的过程，具体包括：
151.在待回听文本中查找每一回听关键字距离待回听文本起始字符的长度l3。
152.进一步，基于长度l3，及发言人的发言速度v，计算每一回听关键字距离待回听文本起始字符的时长δt3。
153.其中，发言人的发言速度v可以参照前文介绍。
154.时长δt3的计算过程可以按照如下公式计算：
155.l3/(v-a)《δt3《l3/(v a)
156.其中，a含义与前文相同，即表示单位时间内说话字数和实际的偏差阈值。
157.在此情况下，步骤s260，在筛选文本中筛选时长等于待回听音频的真实时长，且包含的回听关键字的位置分布与待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段的过程，可以包括：
158.对于筛选文本中每个回听关键字：
159.在回听关键字位置开始，向前查找时长等于所述δt3的文本，以及，向后查找时长等于δt2-δt3的文本，由向前、向后查找到的文本组成一条候选文本段，其中δt2为待回听音频的真实时长，其确定过程参照前文相关介绍即可。
160.可以理解的是，按照本实施例的方式，可以在筛选文本中筛选出时长等于δt2，且至少包含一个位置分布上与待回听文本相同的回听关键字的候选文本段。
161.第二种、
162.步骤s250，在待回听文本中定位回听关键字所在位置的过程，具体包括：
163.在待回听文本中查找每一回听关键字距离待回听文本末尾字符的长度l4。
164.进一步，基于长度l4，及发言人的发言速度，计算每一回听关键字距离待回听文本末尾字符的时长δt4。
165.时长δt4的计算过程可以按照如下公式计算：
166.l4/(v-a)《δt4《l4/(v a)
167.其中，a含义与前文相同，即表示单位时间内说话字数和实际的偏差阈值。
168.在此情况下，步骤s260，在筛选文本中筛选时长等于待回听音频的真实时长，且包含的回听关键字的位置分布与待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段的过程，可以包括：
169.对于筛选文本中每个回听关键字：
170.在回听关键字位置开始，向后查找时长等于所述δt4的文本，以及，向前查找时长等于δt2-δt4的文本，由向前、向后查找到的文本组成一条候选文本段，其中δt2为待回听音频的真实时长。
171.可以理解的是，按照本实施例的方式，可以在筛选文本中筛选出时长等于δt2，且至少包含一个位置分布上与待回听文本相同的回听关键字的候选文本段。
172.上述仅仅示例了两种可选的实现方式，除此之外，本技术还可以选择其它实现方式，保证在筛选文本中能够筛选时长等于待回听音频的真实时长，且包含的回听关键字的位置分布与待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段即可。示例如，在待回听文本中计算相邻两个回听关键字间时长，以及首个关键字距离待回听文本起始字符的时长δt3。进一步在筛选文本中筛选候选文本段时，可以从首个关键字开始，向前查找时长为δt3的文本，向后查找时长为δt2-δt3，且包含的相邻两个关键字间时长与待回听文本中保持一致的候选文本段。
173.下面对本技术实施例提供的获取回听音频的装置进行描述，下文描述的获取回听音频的装置与上文描述的获取回听音频的方法可相互对应参照。
174.参见图3，图3为本技术实施例公开的一种获取回听音频的装置结构示意图。
175.如图3所示，该装置可以包括：
176.有效性判断单元11，用于获取待回听文本及其文本长度l1，判断是否存在与所述待回听文本对应的有效音频时间信息；
177.筛选文本获取单元12，用于在所述有效性判断单元判断不存在时，获取所述待回听文本对应的筛选文本，所述筛选文本为，从原始音频的转写文本中筛选出的与所述待回听文本对应的发言人相关的文本；
178.真实时长计算单元13，用于基于所述待回听文本的文本长度l1，及所述发言人的发言速度，计算待回听音频的真实时长；
179.候选文本段筛选单元14，用于在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段；
180.匹配度计算单元15，用于确定每一候选文本段与所述待回听文本的文本匹配度，并基于文本匹配度筛选满足匹配度要求的目标文本段；
181.回听音频获取单元16，用于获取所述目标文本段对应的原始音频段，作为回听音频。
182.可选的，本技术的装置还可以包括：
183.回听关键字位置确定单元，用于在筛选候选文本段之前，获取用户输入的回听关键字；在所述待回听文本及所述筛选文本中分别定位所述回听关键字所在位置；进一步，所述候选文本段筛选单元在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段的过程，包括：
184.在所述筛选文本中筛选时长等于所述待回听音频的真实时长，且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段。
185.可选的，上述有效性判断单元判断是否存在与所述待回听文本对应的有效音频时间信息的过程，可以包括：
186.获取待回听文本所在的第一容器；
187.判断所述第一容器中是否包含有音频时间信息，若没有，则确定不存在与所述待回听文本对应的有效音频时间信息。
188.可选的，上述有效性判断单元判断是否存在与所述待回听文本对应的有效音频时间信息的过程，还可以包括：
189.若确定所述第一容器中包含有音频时间信息，则基于所述音频时间信息确定时长δt1，以及基于所述第一容器的容器标识，获取预先存储的与所述第一容器的容器标识相同标识的第二容器，所述第二容器中存储有所述原始音频中与所述音频时间信息对应音频的转写文本；
190.获取所述第二容器中包含的转写文本的文本长度l2；
191.判断所述文本长度l1与所述文本长度l2的差值，是否超过所述时长δt1与预设偏差阈值a的乘积，所述预设偏差阈值a表示单位时间内说话字数和实际的偏差阈值；
192.若超过，则确定不存在与所述待回听文本对应的有效音频时间信息。
193.可选的，上述筛选文本获取单元获取所述待回听文本对应的筛选文本的过程，可以包括：
194.判断预设的声纹库中是否存在所述发言人的声纹；
195.若存在，则获取所述发言人的声纹，并基于所述发言人的声纹在所述原始音频中查找所述发言人的音频及其转写文本，作为所述筛选文本；
196.若不存在，则将所述原始音频对应的转写文本作为所述筛选文本。
197.可选的，上述真实时长计算单元基于所述待回听文本的文本长度l1，及所述发言人的发言速度，计算待回听音频的真实时长的过程，可以包括：
198.按照下述计算待回听音频的真实时长δt2：
199.l1/(v-a)《δt2《l1/(v a)
200.其中，v表示发言人的发言速度，a表示预设的单位时间内说话字数和实际的偏差阈值。
201.可选的，上述回听关键字位置确定单元在所述待回听文本定位所述回听关键字所在位置的过程，可以包括：
202.在所述待回听文本中查找每一所述回听关键字距离待回听文本起始字符的长度l3；
203.基于长度l3，及所述发言人的发言速度，计算每一所述回听关键字距离待回听文本起始字符的时长δt3。基于此，候选文本段筛选单元在所述筛选文本中筛选时长等于所述待回听音频的真实时长，且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段的过程，可以包括：
204.对于筛选文本中每个回听关键字：
205.在回听关键字位置开始，向前查找时长等于所述δt3的文本，以及，向后查找时长等于δt2-δt3的文本，由向前、向后查找到的文本组成一条候选文本段，其中δt2为待回听音频的真实时长。
206.可选的，上述回听关键字位置确定单元在所述待回听文本定位所述回听关键字所在位置的过程，可以包括：
207.在所述待回听文本中查找每一所述回听关键字距离待回听文本末尾字符的长度l4；
208.基于长度l4，及所述发言人的发言速度，计算每一所述回听关键字距离待回听文
本末尾字符的时长δt4。基于此，候选文本段筛选单元在所述筛选文本中筛选时长等于所述待回听音频的真实时长，且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段的过程，可以包括：
209.对于筛选文本中每个回听关键字：
210.在回听关键字位置开始，向后查找时长等于所述δt4的文本，以及，向前查找时长等于δt2-δt4的文本，由向前、向后查找到的文本组成一条候选文本段，其中δt2为待回听音频的真实时长。
211.可选的，本技术的装置还可以包括：
212.有效音频时间对应单元，用于在确定存在与所述待回听文本对应的有效音频时间信息时，在所述原始音频中获取与所述有效音频时间信息对应的音频段，作为回听音频。
213.可选的，上述回听音频获取单元获取所述目标文本段对应的原始音频段，作为回听音频的过程，可以包括：
214.将各个所述目标文本段按照文本匹配度由高至低的顺序进行排序，并向用户展示；
215.响应用户从各目标文本段中选择的目标文本段，并获取用户所选择的目标文本段对应的原始音频段，作为回听音频。
216.本技术实施例提供的获取回听音频的装置可应用于获取回听音频的设备，如终端：手机、电脑等。可选的，图4示出了获取回听音频的设备的硬件结构框图，参照图4，获取回听音频的设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；
217.在本技术实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；
218.处理器1可能是一个中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；
219.存储器3可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；
220.其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：
221.获取待回听文本及其文本长度l1，判断是否存在与所述待回听文本对应的有效音频时间信息；
222.若不存在，则获取所述待回听文本对应的筛选文本，所述筛选文本为，从原始音频的转写文本中筛选出的与所述待回听文本对应的发言人相关的文本；
223.基于所述待回听文本的文本长度l1，及所述发言人的发言速度，计算待回听音频的真实时长；
224.在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段；
225.确定每一候选文本段与所述待回听文本的文本匹配度，并基于文本匹配度筛选满足匹配度要求的目标文本段；
226.获取所述目标文本段对应的原始音频段，作为回听音频。
227.可选的，所述程序的细化功能和扩展功能可参照上文描述。
228.本技术实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：
229.获取待回听文本及其文本长度l1，判断是否存在与所述待回听文本对应的有效音频时间信息；
230.若不存在，则获取所述待回听文本对应的筛选文本，所述筛选文本为，从原始音频的转写文本中筛选出的与所述待回听文本对应的发言人相关的文本；
231.基于所述待回听文本的文本长度l1，及所述发言人的发言速度，计算待回听音频的真实时长；
232.在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段；
233.确定每一候选文本段与所述待回听文本的文本匹配度，并基于文本匹配度筛选满足匹配度要求的目标文本段；
234.获取所述目标文本段对应的原始音频段，作为回听音频。
235.可选的，所述程序的细化功能和扩展功能可参照上文描述。
236.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
237.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。
238.对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

获取回听音频的方法、装置、设备及存储介质与流程

相关文献

最热文献