语音端点检测方法、装置、电子设备和存储介质与流程

2021-09-04 08:43:00 来源：中国专利 TAG：语音电子设备交互检测方法装置

1.本发明涉及语音交互技术领域，尤其涉及一种语音端点检测方法、装置、电子设备和存储介质。

背景技术：

2.为了实现基于语音的人机交互功能，通常会通过语音端点检测(voice activity detection，vad)技术识别一段语音中的语音端点，由此得到有效语音段以执行后续操作。
3.相较于传统vad技术，人机对话场景下的vad难点在于不仅需要更准确地过滤掉人声无关的噪声，还需要根据用户回答的语义内容过滤掉没有明确语义信息或者和当前场景内容无关的回答内容，对其不做响应。
4.目前的vad技术仅能够对于人声/非人声进行检测，并不能分析语音中包含的语义信息，在复杂场景下可能会将环境噪声或者认为噪声错误判断为正常人声，由此得到的有效语音段中包含大量无意义的内容，导致人机交互过程提前中断。此外，在后续语音处理中引入大量无意义的内容，会增加系统运行延时和不必要的功耗，影响交互体验。

技术实现要素：

5.本发明提供一种语音端点检测方法、装置、电子设备和存储介质，用以解决现有技术中语音端点检测仅能够对于人声/非人声进行检测，导致运行延时、功耗增加和交互提前中断的问题。
6.本发明提供一种语音端点检测方法，包括：
7.获取语音数据流的实时转写文本，以及所述语音数据流的语音段；
8.基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音；
9.基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测。
10.根据本发明提供的一种语音端点检测方法，所述基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，包括：
11.对所述语音段的内容特征进行字符解码，将字符解码结果确定为所述静音检测序列；
12.所述内容特征是融合所述实时转写文本的语义特征和所述语音段的语音特征得到的。
13.根据本发明提供的一种语音端点检测方法，所述对所述语音段的内容特征进行字符解码，包括：
14.基于所述语义特征和当前解码时刻的解码状态，对所述语音特征进行注意力转换，得到所述当前解码时刻的语音上下文特征；
15.基于所述当前解码时刻的语音上下文特征，确定所述当前解码时刻的内容特征；
16.基于所述当前解码时刻的内容特征进行字符解码，得到所述当前解码时刻的解码结果；
17.其中，所述当前解码时刻的解码状态是基于上一解码时刻的解码状态和解码结果确定的，所述字符解码结果为最终解码时刻的解码结果。
18.根据本发明提供的一种语音端点检测方法，所述基于所述语义特征和当前解码时刻的解码状态，对所述语音特征进行注意力转换，得到所述当前解码时刻的语音上下文特征，包括：
19.基于所述语义特征和当前解码时刻的解码状态，确定所述语音特征中每一帧特征的注意力权重；
20.基于每一帧特征的注意力权重，对每一帧特征进行加权融合，得到所述当前解码时刻的语音上下文特征。
21.根据本发明提供的一种语音端点检测方法，所述基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测，包括：
22.基于所述语音段的时长和所述静音检测序列的长度，确定所述语音段中各片段的时间边界；
23.基于所述语音数据流中各语音段的静音检测序列和各片段的时间边界，对所述语音数据流进行语音端点检测。
24.根据本发明提供的一种语音端点检测方法，所述获取语音数据流的实时转写文本，包括：
25.基于所述语音数据流中各语音帧的音频能量，对所述语音数据流进行静音片段过滤；
26.对静音片段过滤后的语音数据流进行实时转写，得到所述实时转写文本。
27.根据本发明提供的一种语音端点检测方法，所述语音数据流的起始点为上一有效语音片段的尾端点。
28.本发明还提供一种语音端点检测装置，包括：
29.数据获取单元，用于获取语音数据流的实时转写文本，以及所述语音数据流的语音段；
30.静音检测单元，用于基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音；
31.端点检测单元，用于基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测。
32.本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语音端点检测方法的步骤。
33.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音端点检测方法的步骤。
34.本发明提供的语音端点检测方法、装置、电子设备和存储介质，通过实时语音识别
获取语音数据流的实时转写文本，在为静音检测提供语义特征作为参考的同时，兼顾了语音端点检测的运行效率，有助于实时的、低功耗的语音端点检测的实现。静音检测结合了语音特征和语义特征，能够大大提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。以静音检测序列整体表示语音段中各片段的静音检测结果，相较于语音帧级别的静音检测，能够进一步应对噪音干扰，保证语音端点检测的可靠性。
附图说明
35.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图简要地说明，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1是本发明提供的语音端点检测方法的流程示意图；
37.图2是本发明提供的语音端点检测方法中步骤120的流程示意图；
38.图3是本发明提供的语音端点检测方法中步骤130的流程示意图；
39.图4是本发明提供的语音端点检测方法中步骤110实时语音识别的流程示意图；
40.图5是本发明提供的语音端点检测方法的流程示意图；
41.图6是本发明提供的语音端点检测装置的结构示意图；
42.图7是本发明提供的电子设备的结构示意图。
具体实施方式
43.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
44.目前基于语音的人机交互，通常是先进行语音片段检测再进行语义理解，具体可以划分为三个步骤，即：检测用户发言的有效语音片段，从有效语音片段中提取用户发言内容的语义信息，根据语义信息编辑回答内容。
45.其中第一个步骤，检测用户发言的有效语音片段，目前均是通过通用的vad技术实现的，通用的vad技术可以筛选出语音数据中用户实际发言的部分，滤除掉环境噪声等杂音。用户每说一句，会话系统就会提取一块有效语音片段。此外，vad技术还可以实现会话切割的功能，由于会话系统自身无法判断用户何时结束发言，何时调用回答语音，会话系统目前设置的交互逻辑是，一旦检测到有效语音片段的尾端点，则确定用户当前发言结束，进入语义理解和后续回答过程。
46.但是由于通用的vad技术仅能够对于人声/非人声进行检测，并不能分析语音中包含的语义信息，抗环境噪声干扰能力弱，当出现环境噪声(如敲打桌子的声音和电流声等)或者旁边人说话(侧信道人声)时，vad检测结果可能发生异常，具体的原因有二，一是将没有人声的环境噪声或者是人为噪声(如哄笑声和咳嗽声)错误判断为正常的人声语音内容，从而提前中断交互过程，返回没有实际内容的语音片段；二是截取返回长停顿的无意义语
音，如一连串的语气词、停顿词以及和回答内容不相关的无意义内容等，上述无意义语音不仅不能为会话系统以供有效的语义信息，反而会提前中断交互过程，导致会话系统难以得到真实的用户发言内容。由于通用的vad技术很大可能发生异常，上述交互逻辑在会话系统中发生误触发的概率很高，导致会话系统极其不稳定，用户体验很差。
47.为了降低误触发的概率，可以考虑在上述交互逻辑中引入语义理解技术。但是在交互逻辑中引入语义理解会导致会话系统延迟的增加，用户发言结束后可能停顿很久才能得到响应，受到会话系统实时性需求的限制，如何改进更加适应人机对话场景的vad技术，从而在保证实时性的同时避免误触发导致人机交互过程提前中断，仍然人机交互领域亟待解决的问题。
48.图1是本发明提供的语音端点检测方法的流程示意图，如图1所示，本发明提供的语音端点检测方法可以应用在常见的各种语音识别场景，例如会议转写、智能客服场景，也可以应用在需要实时理解语义且对噪声误触发要求严格的对话场景。该方法包括：
49.步骤110，获取语音数据流的实时转写文本，以及语音数据流的语音段。
50.此处，语音数据流即实时录制得到的数据流，实时录制可以是语音录制，也可以是视频录制，本发明实施例对此不做具体限定。
51.在实时录制语音数据流的同时，可以实时对录制所得的语音数据流进行语音识别，从而得到语音数据流的实时转写文本。实时转写文本直接反映了语音数据流中的用户发言内容，且在录制的语音数据流的同时进行语音数据流的实时语音识别，不另外占用处理时间，高效简便。
52.语音数据流中的语音段即对实时录制的语音数据流进行截取后得到的一段数据，语音段的时长是已知的，语音端点检测方法在运行过程中针对实时录制的语音数据流截取的各个语音段的时长可以是相同的，也可以是不同的。例如，可以预先设定语音段的时长，在实时录制的过程中，每隔预设时长对语音数据流进行一次截取，从而得到最新录制的一段预设时长的语音段。
53.步骤120，基于实时转写文本的语义特征，以及语音段的语音特征，对语音段进行静音检测，得到语音段的静音检测序列，静音检测序列表示语音段中若干个连续片段为活动语音或静音。
54.具体地，实时转写文本来源于实时录制的语音数据流，而语音段同样来源于实时录制的语音数据流，因而实时转写文本中包含的用户发言内容必然覆盖了语音数据流中一段语音段内的用户发言内容。
55.不同于通用vad技术在针对一段语音段进行静音检测时仅从语音特征的角度考虑，本发明实施例在针对一段语音段进行静音检测时，不仅考虑了该段语音段的语音特征，还考虑了能够覆盖该段语音段的用户发言内容的实时转写文本的语义特征。语音特征和语义特征相结合的静音检测方式，使得在判断语音段中各时间是否为静音还是活动语音时，不单依赖语音特征所体现的声学方面的信息，例如声强、响度、音高等，还参考了语义特征所体现的语义方面的信息，例如是否存在语义内容、存在的语义内容与会话主题是否有关等，由此实现的静音检测，不仅可以对抗噪声干扰，还可以进一步过滤掉与需求的语义无关或者无具体语义的语音片段。
56.由此得到的静音检测结果表示为静音检测序列的形式，静音检测序列天然地将语
音段划分成为了若干个连续的片段，并且顺序标识了每个片段为活动语音或者静音。需要说明的是，针对将语音段划分为若干个片段的情况，本发明实施例中默认在单一语音段中划分所得的每个片段的时长相等。
57.进一步地，结合语义特征和语音特征的静音检测，可以通过预先训练好的神经网络模型实现，例如可以将语义特征和语音特征一并输入到预先训练好的神经网络模型进行静音检测，也可以现将语义特征和语音特征进行融合，再将融合后的特征输入到预先训练好的神经网络模型中进行静音检测。用于静音检测的神经网络模型可以是编码器解码器的结构，通过编码器进行语义特征和语音特征的编码融合，通过解码器对融合后的特征进行解码以输出静音检测序列，神经网络模型还可以是解码器，在解码过程中边融合特征边进行解码，本发明实施例对此不作具体限定。
58.步骤130，基于语音段的静音检测序列，对语音数据流进行语音端点检测。
59.具体地，由于语音段自身的时长是已知的，在得到语音段的静音检测序列之后，即可得到语音段中各片段的时长，进而确定出语音段中活动语音或者静音的持续时间。语音段的应用，弥补了静音检测输出序列无法表征准确的时间边界的问题，使得静音检测序列能够与时间轴对齐。
60.在此基础上，结合语音数据流中连续的语音段的活动语音或者静音的持续时间，即可实现语音数据流的语音端点检测，从而确定出语音数据流中可能包含的有效语音片段的首端点和尾端点，以便于输出有效语音片段用于后续会话。
61.本发明实施例提供的方法，通过实时语音识别获取语音数据流的实时转写文本，在为静音检测提供语义特征作为参考的同时，兼顾了语音端点检测的运行效率，有助于实时的、低功耗的语音端点检测的实现。静音检测结合了语音特征和语义特征，能够大大提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。以静音检测序列整体表示语音段中各片段的静音检测结果，相较于语音帧级别的静音检测，能够进一步应对噪音干扰，保证语音端点检测的可靠性。
62.基于上述实施例，步骤120包括：
63.对语音段的内容特征进行字符解码，将语音段的字符解码结果确定为静音检测序列；内容特征是融合实时转写文本的语义特征和语音段的语音特征得到的。
64.具体地，由于语音段本身具备时序性，其静音检测过程同样是序列化输出的过程。本发明实施例中，对语音段进行静音检测的过程可以对融合了实时转写文本的语义特征和语音段的语音特征的内容特征进行字符解码实现。此处进行字符解码的方式可以参考通用的文本生成任务中的解码器实现，例如文本翻译、摘要生成等，均涉及到基于编码所得的特征进行字符解码以生成目标文本的方案，例如可以通过编码器解码器的结构中的解码器实现针对内容特征的字符解码。
65.此处用于字符解码的内容特征，可以是在字符解码之前，对实时转写文本的语义特征和语音段的语音特征进行特征的编码融合得到的，例如可以直接将语义特征和语音特征相加作为内容特征，或者可以将语义特征和语音特征进行拼接作为内容特征；也可以是在字符解码的过程中，将语义特征融入到解码过程中的注意力机制中进行加成，从而在每个字符的解码过程中均将当前解码所需的语音特征，与实时转写文本的语义特征进行融
合，并对融合所得的当前解码所需的内容特征进行解码。
66.通过字符解码得到的字符解码结果中，每个字符均对应语音段中的一个片段，每个字符均用于表示对应片段为活动语音或者静音。例如一段语音段的字符解码结果可以是“语|静|语”，表示该语音段可均匀划分为三个片段，其中第一个片段为活动语音片段，第二个片段为静音片段，第三个片段为活动语音片段。
67.基于上述任一实施例，图2是本发明提供的语音端点检测方法中步骤120的流程示意图，如图2所示，步骤120包括：
68.步骤121，基于语义特征和当前解码时刻的解码状态，对语音特征进行注意力转换，得到当前解码时刻的语音上下文特征；
69.步骤122，基于当前解码时刻的语音上下文特征，确定当前解码时刻的内容特征；
70.步骤123，基于当前解码时刻的内容特征进行字符解码，得到当前解码时刻的解码结果；
71.其中，当前解码时刻的解码状态是基于上一解码时刻的解码状态和解码结果确定的，字符解码结果为最终解码时刻的解码结果。
72.具体地，考虑到语音段是语音数据流中的一段语音，而实时转写文本则是覆盖了语音数据流的整体语义，因此实时转写文本的语义特征不仅反映了该语音段中包含的语义信息，还反映了语音数据流中在该语音段之前的语音数据中包含的语义信息。如果仅仅是对实时转写文本的语义特征和语音段的语音特征进行相加或者拼接，并不能够区别语音段中包含的语义信息和该语音段之前的语音数据中包含的语义信息，由此得到的内容特征并不合理。因此，本发明实施例中，在字符解码的过程中，将语义特征融入到解码过程中的注意力机制中进行加成，从而在每个字符的解码过程中均将当前解码所需的语音特征，与实时转写文本的语义特征进行融合，以提高融合所得的内容特征在语音和语义两个层面上的表征能力。
73.进一步地，在字符解码的过程中，针对当前解码时刻，可以基于当前解码时刻的解码状态，结合实时转写文本的语义特征，对语音段的语音特征进行注意力转换，从而得到针对于当前解码时刻结合语义信息和解码状态进行注意力调整之后的语音特征，即语音上下文特征。其中，任一解码时刻的解码状态包含了在该解码时刻之前的解码过程中所产生的历史信息。
74.此处，语音上下文特征中的各个特征基于语义信息和解码过程中的历史状态进行了强弱调整，调整所得的语音上下文特征中，与会话相关的语义信息对应的语音特征得到的增强，与会话无关的语义信息或者无具体语义信息对应的语音特征被削弱，从而使得在后续应用语音上下文特征进行字符解码时，能够更加容易分辨出活动语音的部分和静音的部分，从而提高字符解码的准确性和可靠性。
75.在得到当前解码时刻的语音上下文特征之后，可以直接将语音上下文特征作为当前解码时刻的内容特征进行解码，也可以将语音上下文特征与基于上一解码状态和解码结果确定的当前解码时刻的待解码语音特征进行融合作为内容特征进行解码，本发明实施例不对此作具体限定。
76.在得到当前解码时刻的内容特征之后，即可基于当前解码时刻的内容特征进行字符解码，例如可以结合当前解码时刻的内容特征和解码状态，以及上一解码时刻的解码结
果进行解码，以提高字符解码的可靠性。在完成当前解码时刻的字符解码之后，即可得到当前解码时刻解码输出的字符，将当前解码时刻解码输出的字符拼接在上一解码时刻的解码结果之后，即可得到当前解码时刻的解码结果。例如，上一解码时刻的解码结果为“静语”，当前解码时刻解码输出的字符为“静”，则可以将“静”拼接在“静语”之后，得到当前解码时刻的解码结果“静语静”。
77.本发明实施例提供的方法，在解码过程中融合语义信息，提高了静音检测的准确性，从而提高了语音端点检测的准确性。
78.基于上述任一实施例，步骤121包括：
79.基于语义特征和当前解码时刻的解码状态，确定语音特征中每一帧特征的注意力权重；
80.基于每一帧特征的注意力权重，对每一帧特征进行加权融合，得到当前解码时刻的语音上下文特征。
81.具体地，针对当前解码时刻，可以通过注意力机制，对实时转写文本的语义特征和当前解码时刻的解码状态进行注意力交互，从而得到语音特征中每帧语音的帧特征的注意力权重，例如可以表示为如下形式：
82.α
′
t
＝softmax(v
t
*tanh(q
t
k))
83.式中，t表示当前解码时刻，α
′
t
为当前解码时刻下语音特征中每一帧特征的注意力权重，q
t
为当前解码时刻的解码状态，k为语义特征。v
t
为预设权重矩阵。
84.在得到语音特征中每一帧特征的注意力权重之后，即可通过注意力权重对每一帧特征进行加权融合，从而调整语音特征中每一帧特征的强弱，由此得到当前解码时刻的语音上下文特征，例如可以表示为如下形式：
85.c
′
t
＝∑α
′
t
*h
t
86.式中，c
′
t
即当前解码时刻的语音上下文特征，h
t
为当前解码时刻下语音特征中的各帧特征。
87.基于上述任一实施例，步骤122包括：
88.结合当前解码时刻的语音上下文特征，以及当前解码时刻的语音解码特征，确定当前解码时刻的内容特征。
89.此处，当前解码时刻的语音解码特征可以是在忽略语义特征的情况下进行字符解码的情况下，当前解码时刻待解码的语音特征。当前解码时刻的语音解码特征可以是基于上一解码时刻的解码状态和解码结果，对语音段的语音特征进行调整得到的。
90.例如，可以将当前解码时刻的语音上下文特征和当前解码时刻的语音解码特征拼接后作为当前解码时刻的内容特征，也可以将此两者相加作为当前解码时刻的内容特征，还可以将此两者拼接后做进一步的特征提取得到当前解码时刻的内容特征，本发明实施例对此不作具体限定。
91.其中，针对相加得到内容特征的方式，可以表示为如下形式：
92.c
new
＝c
t
c
′
t
93.式中，c
new
为当前解码时刻的内容特征，c
t
为当前解码时刻的语音解码特征。
94.基于上述任一实施例，图3是本发明提供的语音端点检测方法中步骤130的流程示意图，如图3所示，步骤130包括：
95.步骤131，基于语音段的时长和静音检测序列的长度，确定语音段中各片段的时间边界。
96.具体地，考虑到步骤120中得到的静音检测序列本身仅体现语音段中各片段为活动语音或静音，并不能体现语音段中各片段在时间轴上的对应位置，因此需要求解语音段中各片段的时间边界。
97.针对将语音段划分为若干个片段的情况，本发明实施例中默认在单一语音段中划分所得的每个片段的时长相等。由于语音段自身的时长是已知的，在得到语音段的静音检测序列之后，即可基于语音段的时长以及静音检测序列的长度，确定出每个片段的时长，再根据每个片段在语音段中所处的位置，确定出每个片段的时间边界。
98.例如，假设语音段的时长均为40帧，连续三个语音段的静音检测序列拼接在一起是“语|静|语|语|语|语|静|静|静|静”，其中第一个语音段解码得到4个字“语|静|语|语”，所以第一个语音段中每个片段的时长为40/4＝10帧，4个片段的时间边界分别为：0
‑
10帧，10
‑
20帧，20
‑
30帧，30
‑
40帧。第二个语音段只解码出两个字“语|语”，则第二个语音段中每个片段的时长为40/2＝20帧，两个片段的时间边界分别为：40
‑
60帧，60
‑
80帧。
99.步骤132，基于语音数据流中各语音段的静音检测序列和各片段的时间边界，对语音数据流进行语音端点检测。
100.具体地，在得到各个语音段中各个片段的时间边界之后，即可基于各个语音段的静音检测序列所表示的对应片段为活动语音或静音，以及各个语音段中各片段的时间边界，进行语音端点检测。此处语音端点检测可以基于预先设置好的首尾端点的检测规则实现，具体的检测规则可以根据语音端点检测所应用的具体场合进行调整，本发明实施例对此不作具体限定。
101.基于上述任一实施例，步骤132中对语音数据流进行语音端点检测，可以具体划分为进行首端点检测和尾端点检测两部分执行：
102.在进行检测之前，可以整合相邻且相同类型的片段，整合之后得到语音数据流中各片段的时间边界和各片段的类型。此处片段的类型为活动语音或者静音。
103.针对于首端点检测，可以将检测到连续起始时长的活动语音，确定为活动语音的开始，由此定位首端点。此处，起始时长可以是预先设定好的，例如20帧，又例如15帧。以起始时长为20帧为例，假设0
‑
10帧为活动语音片段，10
‑
20帧为静音片段，由于0
‑
10帧的帧长小于20帧，所以0
‑
20帧是属于非语音段。从第20帧开始，持续60帧均为活动语音，帧长60超过20帧，因此到第20帧，即第一个40帧结束时就可以判断检测出有效语音片段的前端点，20
‑
80帧的片段为有效语音片段。
104.此外，针对于有效语音片段的检测，还可以设置一些辅助手段，例如可以设置30帧静音保护帧策略，例如在检测到20帧活动语音片段之后，如果连接的静音语音片段时长不超过30帧，则可以认为有效语音片段仍然持续，由此保证在用户说完一两个字后发生停顿再说下个字时，不会发生误触发。
105.针对于尾端点检测，在已经检测到首端点的基础上，如果检测到连续终结时长的静音，则确定活动语音结束，由此定位尾端点。此处，终结时长可以是预先设定好的，例如30帧，又例如40帧。以终结时长为30帧为例，假设从第80帧开始，有连续的四个10帧长度的静音片段，总持续时间为40帧，则在第三个静音片段时就可以判断出尾端点，并由此确定第
80
‑
120帧为静音片段。
106.基于上述任一实施例，图4是本发明提供的语音端点检测方法中步骤110实时语音识别的流程示意图，如图4所示，步骤110中，获取语音数据流的实时转写文本，包括：
107.步骤111，基于语音数据流中各语音帧的音频能量，对语音数据流进行静音片段过滤；
108.步骤112，对静音片段过滤后的语音数据流进行实时转写，得到实时转写文本。
109.具体地，考虑到对实时录制的语音数据流进行语音识别需要耗费较多计算资源，可以在进行语音识别之前增加一个过滤步骤，通过获取实时录制的语音数据流中各语音帧的音频能量，以音频能量的大小为依据，判断各语音帧是否可能属于静音片段，进而过滤掉语音数据流中可能属于静音片段的语音帧，仅对过滤之后剩余的语音帧进行实时转写，从而降低实时转写的数据量，进而减轻实时转写对于计算资源的要求。例如，可以预先设定一个能量阈值和一个预设帧数，若音频能量持续低于该能量阈值的语音帧数量超过预设帧数，则确定上述语音帧所处的片段为静音片段进行过滤。
110.在此之后对于语音数据流进行实时转写，可以先提取语音数据流中各语音帧的声学特征，再基于实时声学模型进行解码，从而得到对应的解码文本作为实时转写文本。具体转写过程中，考虑到文本语义的连贯性需求，将过短的滑窗音频解码得到的文本中的语义信息可能会丢失严重，作为优选，在对语音数据流进行声学特征提取时，可以采取非滑窗的方式累计提取声学特征，例如可以应用filter bank滤波器组或者mfcc(mel
‑
scale frequency cepstral coefficients，梅尔倒谱系数)特征等，确定每一语音帧的声学特征。
111.本发明实施例提供的方法，通过音频能量进行静音片段过滤，节省大量的语音解码计算量。
112.基于上述任一实施例，步骤111可以通过如下形式实现：
113.预先设置两个能量阈值，包括较低的能量阈值p
low
和较高的能量阈值p
hig
。
114.当目前处于静音片段或者开始进行静音检测时：
115.如果当前语音帧的音频能量p<p
low
，则可以直接跳转到静音片段；
116.如果当前语音帧的音频能量p≥p
low
且p<p
high
时，则可以跳转到过渡片段。
117.当目前处于过渡片段时：
118.如果当前语音帧的音频能量p回落到p
low
以下，则可以跳转到静音片段；
119.如果当前语音帧的音频能量p≥p
high
，则可以跳转到语音片段，语音片段开始。
120.当目前处于语音片段时：
121.如果当前语音帧的音频能量p回落到p
low
以下并且持续超过m帧时，则可以跳转到静音片段，结束语音片段；
122.如果前语音帧的音频能量p回落到p
low
以下但是没有持续超过m帧时，则可以维持在语音片段，继续监测。
123.基于上述任一实施例，语音数据流的起始点为上一有效语音片段的尾端点。
124.具体地，语音数据流的实时录制过程并不是始终持续没有间断的。相反，考虑到有效语音片段之间表示的发言内容相对独立，在语音端点检测的过程中，可以在检测到一个尾端点之后，认为一个有效语音片段结束，之后录制的语音数据流中包含的内容和此前录制结束的有效语音片段包含的内容无关，因而将上一有效语音片段的尾端点作为重启录制
的语音数据流的起始点。
125.由此得到的语音数据流中，并不包含之前录制的有效语音片段中的内容，因此在对语音段进行静音检测时所参考的语义特征，同样不会涉及之前录制的有效语音片段中的内容。通过将上一有效语音片段的尾端点作为重启录制的语音数据流的起始点，过滤了与当前的语音数据流无关的内容，有助于提高静音检测的可靠性。
126.基于上述任一实施例，图5是本发明提供的语音端点检测方法的流程示意图，如图5所示，针对实时录制的语音数据流，可以划分为两条支路分别处理。
127.其中一路，自上个有效语音片段后累计音频送入解码，换而言之以上个有效语音片段的尾端点作为语音数据流的起始点，将实时录制的语音数据流送入解码，从而实现实时语音转写。在此过程中，可以首先提取语音数据流中每一语音帧的声学特征，此后，基于各语音帧的音频能量，对语音数据流进行静音片段过滤，并将静音片段过滤后的语音数据流中各语音帧的声学特征输入到实时声学模型中进行解码，从而得到语音数据流的实时转写文本。
128.在此基础上，可以对实时转写文本进行语义提取，从而得到实时转写文本的语义特征，也就是将实时转写文本转换为高维向量表达。具体提取方式可以先将实时转写文本中的各个字映射为embedding向量，再通过长短时记忆网络、循环神经网络等结构提取每个字的隐层向量并拼接得到语义特征。
129.另一路，可以累计一段语音段后送入解码，例如可以如图5所示每累计40帧截取一段语音段送入解码，并结合语义特征进行静音检测。在此过程中，可以首先提取语音段的语音特征，并可以在此基础上对语音特征做进一步的编码处理，例如通过encode部分进行编码得到高维特征向量encode向量。此处的encode部分可以是长短时记忆网络、循环神经网络等结构。在此之后，可以在decode部分，结合语义特征和对语音特征进行进一步编码处理所得的encode向量，对语音段进行静音检测，从而输出语音段的静音检测序列。
130.在得到静音检测序列后，可以结合语音段的时长和静音检测序列的长度，确定语音段中各片段的时间边界，进而进行语音端点检测。例如图5中三个语音段的拼接静音检测序列为“语|静|语|语|语|语|静|静|静|静”，其中第一个语音段解码得到4个字“语|静|语|语”，第一个语音段中每个片段的时长为40/4＝10帧，4个片段的时间边界分别为：0
‑
10帧，10
‑
20帧，20
‑
30帧，30
‑
40帧。第二个语音段解码出两个字“语|语”，第二个语音段中每个片段的时长为40/2＝20帧，两个片段的时间边界分别为：40
‑
60帧，60
‑
80帧。第三个语音段解码得到4个字“静|静|静|静”，第三个语音段中每个片段的时长为40/4＝10帧，4个片段的时间边界分别为：80
‑
90帧，90
‑
100帧，100
‑
110帧，110
‑
120帧。对应到图5中，斜线填充的方块表示“语”，空白无填充的方块表示“静”。在此基础上，结合预先设定好的端点检测规则，即可检测出语音数据流中的语音端点。
131.基于上述任一实施例，图6是本发明提供的语音端点检测装置的结构示意图，如图6所示，该装置包括：
132.数据获取单元610，用于获取语音数据流的实时转写文本，以及所述语音数据流的语音段；
133.静音检测单元620，用于基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，所述静音检测序列
表示所述语音段中若干个连续片段为活动语音或静音；
134.端点检测单元630，用于基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测。
135.本发明实施例提供的装置，通过实时语音识别获取语音数据流的实时转写文本，在为静音检测提供语义特征作为参考的同时，兼顾了语音端点检测的运行效率，有助于实时的、低功耗的语音端点检测的实现。静音检测结合了语音特征和语义特征，能够大大提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。以静音检测序列整体表示语音段中各片段的静音检测结果，相较于语音帧级别的静音检测，能够进一步应对噪音干扰，保证语音端点检测的可靠性。
136.基于上述任一实施例，静音检测单元620用于：
137.对所述语音段的内容特征进行字符解码，将字符解码结果确定为所述静音检测序列；
138.所述内容特征是融合所述实时转写文本的语义特征和所述语音段的语音特征得到的。
139.基于上述任一实施例，静音检测单元620用于：
140.基于所述语义特征和当前解码时刻的解码状态，对所述语音特征进行注意力转换，得到所述当前解码时刻的语音上下文特征；
141.基于所述当前解码时刻的语音上下文特征，确定所述当前解码时刻的内容特征；
142.基于所述当前解码时刻的内容特征进行字符解码，得到所述当前解码时刻的解码结果；
143.其中，所述当前解码时刻的解码状态是基于上一解码时刻的解码状态和解码结果确定的，所述字符解码结果为最终解码时刻的解码结果。
144.基于上述任一实施例，静音检测单元620用于：
145.基于所述语义特征和当前解码时刻的解码状态，确定所述语音特征中每一帧特征的注意力权重；
146.基于每一帧特征的注意力权重，对每一帧特征进行加权融合，得到所述当前解码时刻的语音上下文特征。
147.基于上述任一实施例，端点检测单元630用于：
148.基于所述语音段的时长和所述静音检测序列的长度，确定所述语音段中各片段的时间边界；
149.基于所述语音数据流中各语音段的静音检测序列和各片段的时间边界，对所述语音数据流进行语音端点检测。
150.基于上述任一实施例，数据获取单元610用于：
151.基于所述语音数据流中各语音帧的音频能量，对所述语音数据流进行静音片段过滤；
152.对静音片段过滤后的语音数据流进行实时转写，得到所述实时转写文本。
153.基于上述任一实施例，所述语音数据流的起始点为上一有效语音片段的尾端点。
154.图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处
理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行语音端点检测方法，该方法包括：获取语音数据流的实时转写文本，以及所述语音数据流的语音段；基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音；基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测。
155.此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
156.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音端点检测方法，该方法包括：获取语音数据流的实时转写文本，以及所述语音数据流的语音段；基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音；基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测。
157.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音端点检测方法，该方法包括：获取语音数据流的实时转写文本，以及所述语音数据流的语音段；基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音；基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测。
158.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
159.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
160.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种口语发音评测方法、装置、介质以及设备与流程

语音端点检测方法、装置、电子设备和存储介质与流程

相关文章

最热文献