音频数据增强方法、装置、电子设备及存储介质与流程

2022-07-16 23:52:20 来源：中国专利 TAG：

1.本公开涉及计算机领域，特别涉及一种音频数据增强方法、装置、电子设备及存储介质。

背景技术：

2.当前，关键词检测（kws，key word spotting）和声音事件检测（sed，sound event detection）是边缘智能语音设备的两种常用的语音任务。
3.关键词检测任务需要在保证检测率的同时降低误唤醒率，声音事件检测任务需要尽量短暂的检测延迟，即检测时间点距离声音事件发生时间点越近越好。
4.现有的关键词检测任务和/或声音事件检测任务通常都是采用深度学习的方法实现。数据增强是针对关键词检测任务和/或声音事件检测任务的深度学习方法中所采用的一种重要的语音数据处理方式。目前针对关键词检测任务和/或声音事件检测任务的数据增强方式主要包括加噪、调整音频速度、调整音频基频、时域移动、调整音量等。
5.对于关键词检测任务，这些数据增强方式会出现由于发音相近、切词等原因造成的不完整关键词的误唤醒情况。举例来说，如果唤醒词为“小微小微”，则会存在因为其中的“微小”的切词并且与之发音相近的“微笑”的语音而导致设备唤醒的发生，这种情况下，用户在日常说话时，当说到“微笑”类似的语音时可能导致设备唤醒的误触发，降低语音识别的准确性，影响用户体验。
6.对于声音事件检测任务，会存在检测响应时间过长的情况。举例来说，针对婴儿啼哭的事件检测，边缘智能语音设备和婴儿处于一个房间内，用户因为某些原因处于另一个房间内，并且需要通过边缘智能语音设备检测婴儿是否啼哭以及时进入婴儿所在房间对婴儿进行照顾，在这种情况下，如果在婴儿啼哭开始后的过长时间才检测出婴儿的啼哭声音，可能会导致用户无法及时获知婴儿的啼哭并及时采取相应的措施。
7.因此，对于音频数据增强方式还有待进一步提升和发展。

技术实现要素：

8.有鉴于此，本公开提供一种音频数据增强方法、装置、电子设备及存储介质，以提升关键词检测任务的语音识别的准确性并缩短声音事件检测任务的检测响应时长，改善关键词检测任务和/或声音事件检测任务的用户体验。
9.本公开的技术方案是这样实现的：一种音频数据增强方法，包括：确定音频识别任务，其中，所述音频识别任务为关键词检测任务和/或声音事件检测任务；接收关联于所述音频识别任务的音频数据；根据所述音频识别任务，对所述音频数据进行拆分重组，获得针对所述音频识别任务的增强样本数据；
根据所述增强样本数据和所述音频识别任务，得到针对所述音频识别任务的音频训练样本。
10.进一步，在所述音频识别任务为关键词检测任务的情况下，所述根据所述音频识别任务，对所述音频数据进行拆分重组，获得针对所述音频识别任务的增强样本数据，包括：切除所述音频数据中的非语音数据；根据所述音频数据中的语音时长和关联于所述关键词检测任务的关键词的字数，将所述音频数据进行切分获得至少两段音频子数据；根据所述至少两段音频子数据，得到初始音频样本数据；将干扰音频数据拼接在所述初始音频样本数据的两端，获得针对所述关键词检测任务的增强样本数据，其中，所述干扰音频数据来源于关联于所述关键词检测任务的训练数据中的非触发音频数据。
11.进一步，所述切除所述音频数据中的非语音数据，采用活动语音检测vad方法实现。
12.进一步，所述根据所述至少两段音频子数据，得到初始音频样本数据，包括：将所述至少两段音频子数据中的每一段音频子数据，确定为所述初始音频样本数据；将所述至少两段音频子数据中任意大于或等于两段数量的所述音频子数据，进行随机排列并拼接，得到所述初始音频样本数据。
13.进一步，在所述音频识别任务为关键词检测任务的情况下，所述根据所述增强样本数据和所述音频识别任务，得到针对所述音频识别任务的音频训练样本，包括：在所述增强样本数据中的音频内容与所述关键词检测任务的关键词不一致的情况下，将与所述增强样本数据相关联的标注信息确定为非触发类别，并将所述增强样本数据和与其相关联的标注信息确定为针对所述关键词检测任务的非触发类别音频训练样本。
14.进一步，在所述音频识别任务为关键词检测任务的情况下，所述根据所述增强样本数据和所述音频识别任务，得到针对所述音频识别任务的音频训练样本，包括：在所述增强样本数据中的音频内容与所述关键词检测任务的关键词一致的情况下，将与所述增强样本数据相关联的标注信息确定为触发类别，并将所述增强样本数据和与其相关联的标注信息确定为针对所述关键词检测任务的触发类别音频训练样本。
15.进一步，在所述音频识别任务为声音事件检测任务的情况下，所述根据所述音频识别任务，对所述音频数据进行拆分重组，获得针对所述音频识别任务的增强样本数据，包括：在所述音频数据的时间长度位于预设的时间长度阈值范围内的情况下，从所述音频数据中获取满足预设时间长度条件的子音频段数据，并将所述子音频段数据确定为初始音频样本数据；将干扰音频数据拼接在所述初始音频样本数据的两端，获得针对所述声音事件检测任务的增强样本数据，其中，所述干扰音频数据来源于关联于所述声音事件检测任务的训练数据中的非触发音频数据。
16.进一步，所述音频数据增强方法还包括：
在所述音频数据的时间长度位于所述时间长度阈值范围以外的情况下，舍弃所述音频数据。
17.进一步，所述时间长度阈值范围大于或等于所述增强样本数据的时间长度的一半；所述预设时间长度条件为大于或等于所述增强样本数据的时间长度的一半并且小于所述增强样本数据的时间长度。
18.进一步，在所述音频识别任务为声音事件检测任务的情况下，所述根据所述增强样本数据和所述音频识别任务，得到针对所述音频识别任务的音频训练样本，包括：将所述增强样本数据相关联的标注信息确定为触发类别，并将所述增强样本数据和与其相关联的标注信息确定为针对所述声音事件检测任务的触发类别音频训练样本。
19.进一步，在得到针对所述音频识别任务的音频训练样本之后，所述音频数据增强方法进一步包括：基于所述音频训练样本，对执行所述关键词检测任务和/或所述声音事件检测任务的联合网络模型进行训练；利用完成训练的所述联合网络模型执行所述关键词检测任务和所述声音事件检测任务的至少其中之一。
20.一种音频数据增强装置，包括：任务确定模块，被配置为执行确定音频识别任务，其中，所述音频识别任务为关键词检测任务和/或声音事件检测任务；数据接收模块，被配置为执行接收关联于所述音频识别任务的音频数据；拼接重组模块，被配置为执行根据所述音频识别任务，对所述音频数据进行拆分重组，获得针对所述音频识别任务的增强样本数据；样本获取模块，被配置为执行根据所述增强样本数据和所述音频识别任务，得到针对所述音频识别任务的音频训练样本。
21.一种电子设备，包括：处理器；用于存储所述处理器的可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以实现如上任一项所述的音频数据增强方法。
22.一种计算机可读存储介质，当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时，使得所述电子设备能够实现如上任一项所述的音频数据增强方法。
23.从上述方案可以看出，本公开的音频数据增强方法、装置、电子设备及存储介质，根据音频识别任务，对接收的音频数据进行拆分重组，得到针对音频识别任务的增强样本数据，进而获得针对音频识别任务的音频训练样本，本公开的技术方案中，对所接收的音频数据进行拆分重组，实现了音频识别任务的训练样本的针对性的重新组织，所得到的训练样本具有针对关键词检测任务的更加突出的关键词特征或者针对声音事件检测任务的更加突出的声音特征，从而利用本公开技术方案所获得的训练样本训练后的用于执行关键词检测任务和/或声音事件检测任务的联合网络模型能够提升关键词检测任务的语音识别的准确性并缩短声音事件检测任务的检测响应时长，从而可改善关键词检测任务和/或声音
事件检测任务的用户体验。
附图说明
24.图1是根据一示例性实施例示出的一种音频数据增强方法的流程图；图2是根据一示例性实施例示出的针对音频识别任务的音频数据拆分重组过程的流程图；图3是根据一示例性实施例示出的对音频数据进行切分的示意图；图4是根据一示例性实施例示出的针对声音事件检测任务的音频数据拆分重组过程的流程图；图5是根据一示例性实施例示出的增强样本数据长度关系的示意图；图6是根据一示例性实施例示出的联合网络模型的示意图；图7是根据一示例性实施例示出的一种音频数据增强方法的应用场景流程图；图8是根据一示例性实施例示出的一种音频数据增强装置的结构示意图；图9是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
25.为了使本公开的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本公开作进一步详细说明。
26.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
27.图1是根据一示例性实施例示出的一种音频数据增强方法的流程图，如图1所示，本公开实施例的音频数据增强方法主要包括以下步骤：步骤101、确定音频识别任务，其中，音频识别任务为关键词检测任务和/或者声音事件检测任务；步骤102、接收关联于音频识别任务的音频数据；步骤103、根据音频识别任务，对音频数据进行拆分重组，获得针对音频识别任务的增强样本数据；步骤104、根据增强样本数据和音频识别任务，得到针对音频识别任务的音频训练样本，其中，训练样本用于对执行关键词检测任务和/或声音事件检测任务的联合网络模型进行训练。
28.本公开实施例的音频数据增强方法，根据音频识别任务，对接收的音频数据进行拆分重组，得到针对音频识别任务的增强样本数据，进而获得针对音频识别任务的音频训练样本，本公开实施例的技术方案中，对所接收的音频数据进行拆分重组，实现了音频识别任务的训练样本的针对性的重新组织，所得到的训练样本具有针对关键词检测任务的更加突出的关键词特征或者针对声音事件检测任务的更加突出的声音特征，从而利用本公开技
术方案所获得的训练样本训练后的用于执行关键词检测任务和/或声音事件检测任务的联合网络模型能够提升关键词检测任务的语音识别的准确性并缩短声音事件检测任务的检测响应时长，从而可改善关键词检测任务和/或声音事件检测任务的用户体验。
29.图2是根据一示例性实施例示出的针对音频识别任务的音频数据拆分重组过程的流程图，如图2所示，在一些实施例中，在音频识别任务为关键词检测任务的情况下，步骤103包括：步骤10311、切除音频数据中的非语音数据；步骤10312、根据音频数据中的语音时长和关联于关键词检测任务的关键词的字数，将音频数据进行切分获得至少两段音频子数据；步骤10313、根据至少两段音频子数据，得到初始音频样本数据；步骤10314、将干扰音频数据拼接在初始音频样本数据的两端，获得针对关键词检测任务的增强样本数据，其中，干扰音频数据来源于关联于关键词检测任务的训练数据中的非触发音频数据。
30.在采集音频数据的过程中，语音陈述者往往并非是在完全安静的环境中发出语音，并且，通常情况下的音频数据中也会存在除语音数据段以外的音频数据内容，例如背景声音数据段、安静的空白数据段等。本公开实施例中，通过步骤10311将音频数据中的非语音数据切除后，保留了音频数据中的语音数据，使得音频数据中的语音内容占比达到最大，在这种情况下，利用仅保留的语音数据所得到的音频训练样本具有最为突出的语音特点，基于该音频训练样本训练得到的用于执行关键词检测任务的网络模型对关键词检测任务的识别准确率能够得到极大的提升。
31.在一些实施例中，步骤10311可采用活动语音检测（vad，voice activity detection）方法实现。
32.通常情况下，采用活动语音检测方法对音频数据中的非语音数据进行切除后，会得到若干段独立的仅包含语音内容的片段数据，因此，在一些实施例中，在采用活动语音检测方法切除非语音数据而得到多段片段数据后，步骤10311中还包括将多段片段数据按照时间先后顺序进行拼接以获得仅包含完整语音内容的音频数据。
33.对于关键词检测任务而言，出现误识别、误触发的情况往往是检测的语音内容与关键词相近似所导致的，例如唤醒词即关键词为“小微小微”并且在语音内容为“微笑”、“微小”、“卫校”、“小微小”、“微小微”等类似发音的情况下，都会出现误唤醒的情况。因此，为了能够得到针对关键词中每一个字的准确识别，避免这种误唤醒的情况的发生，本公开的一些实施例中，利用步骤10312和步骤10313切分出音频子数据中的每一个字，并根据切分出的每一个字，得到与关键词相近似的所有可能的非关键词组合形式，并在后续步骤中（参见后续说明），基于这些可能的非关键词组合形式的初始音频样本数据得到非触发类别音频训练样本，确保了与唤醒词的语音相近似的其它非唤醒词的语音不会被识别为关键词，从而能够避免误唤醒的情况，提升语音识别的准确性。基于此，在优选实施例中，关联于关键词检测任务的音频数据中包含的语音内容为关键词，例如若关键词为“小微小微”则音频数据中包含的语音内容为“小微小微”。
34.在一些实施例中，若切除非语音数据后得到的音频数据中的语音时长为s，关键词字数为n，则在步骤10312中，将音频数据进行切分获得至少两段音频子数据，可以包括将语
音时长s以n份进行平均，每一份的时长为s/n，这样切分后，每一份时长的音频子数据均能够基本包含关键词中的一个字。在一些实施例中n≥2，即关键词的字数至少为两个，对于关键词检测任务而言，如果关键词的字数只有一个，那么日常交流的语言或环境声音中极易出现与关键词发音相近或相同的声音出现唤醒的误触发，因此，关键词的字数不宜设置为一个。另外，针对诸如唤醒一类的关键词检测任务，过长的关键词还会因为冗长的语音而降低使用者的体验，所以关键词不宜过长，例如在可选实施例中，可将关键词的字数限制在10个字以内，进一步地，在可选实施例中，可将关键词的字数限制为不超过6个字或者不超过5个字。
35.图3是根据一示例性实施例示出的对音频数据进行切分的示意图，如图3所示，音频数据包括4个字组成的关键词，4个字分别表示为a1、a2、a3和a4，该音频数据的语音时长表示为s，该音频数据的语音时长s以4份进行平均（份数根据字数确定，图3所示实施例中的字数为4，因此份数为4）得到n1、n2、n3和n4四段音频子数据，四段音频子数据的时长相等，均为s/4，在语音陈述者对关键词的语音表达过程中，通常各个字之间的语音时长存在差异，因此，各段音频子数据中可能还会包含与本段音频子数据中的文字语音相邻的其它文字语音残段，例如图3所示中，音频子数据n1部分除了包含字a1以外还包含很小一部分字a2的文字语音残段，由于音频子数据n1部分是以字a1的语音为主，所以字a2的文字语音残段不会影响到音频子数据n1部分对字a1的语音特征的表达，同样地，音频子数据n2部分除了包含字a2以外还包含很小一部分字a3的文字语音残段，由于音频子数据n2部分是以字a2的语音为主，所以字a3的文字语音残段不会影响到音频子数据n2部分对字a2的语音特征的表达，音频子数据n3部分除了包含字a4以外还包含很小一部分字a4的文字语音残段，由于音频子数据n3部分是以字a3的语音为主，所以字a4的文字语音残段不会影响到音频子数据n3部分对字a3的语音特征的表达。其中，文字语音残段是指只包含完整文字语音发音中的一小部分语音发音的片段。
36.以“小微小微”这种abab结构关键词为例，图3所示中，字a1对应于abab结构中的第一个a，字a2对应于abab结构中的第一个b，字a3对应于abab结构中的第二个a，字a4对应于abab结构中的第二个b。
37.对于abab结构关键词的音频数据，经过步骤10312后，切分获得4段音频子数据。
38.在一些实施例中，步骤10313可以包括：将至少两段音频子数据中的每一段音频子数据，确定为初始音频样本数据；将至少两段音频子数据中任意大于或等于两段数量的音频子数据，进行随机排列并拼接，得到初始音频样本数据。
39.以图3示出的对音频数据进行切分的实施例为例，在步骤10313中，根据4段音频子数据（即音频子数据n1、音频子数据n2、音频子数据n3、音频子数据n4），得到初始音频样本数据，可以包括：（1）各个音频子数据独自作为初始音频样本数据，例如：将音频子数据n1独自作为初始音频样本数据（abab结构中的第一个a），将音频子数据n2独自作为初始音频样本数据（abab结构中的第一个b）、将音频子数据n3独自作为初始音频样本数据（abab结构中的第二个a）、将音频子数据n4独自作为初始音频样本数据（abab结构中的第二个b）；其中，虽然音频子数据n1和音频子数据n3分别对应于abab结构中的第一个a和第三个a，但是这两个a的
发音相同，所以可以只取其中一个a（音频子数据n1或者音频子数据n3）作为初始音频样本数据；同样地，对于音频子数据n2和音频子数据n4，也可以只取其中一个b（音频子数据n2或者音频子数据n4）作为初始音频样本数据；也就是说，在一些实施例中，可以将得到的语音内容相同的初始音频样本数据进行去重处理；（2）将任意两段音频子数据进行随机排列并拼接得到初始音频样本数据，例如：将音频子数据n1和音频子数据n2进行拼接（音频子数据n1在前并且音频子数据n2在后）得到ab结构的初始音频样本数据，将音频子数据n1和音频子数据n3进行拼接（音频子数据n1在前并且音频子数据n3在后）得到aa结构的初始音频样本数据，将音频子数据n1和音频子数据n4进行拼接（音频子数据n1在前并且音频子数据n4在后）得到ab结构初始音频样本数据，其中，音频子数据n1在前并且音频子数据n2在后的ab结构的初始音频样本数据和音频子数据n1在前并且音频子数据n4在后的ab结构初始音频样本数据，是语音内容相同的初始音频样本数据，可以进行去重处理；（3）将任意三段音频子数据进行随机排列并拼接得到初始音频样本数据，例如，将音频子数据n1、音频子数据n2、音频子数据n3、音频子数据n4中的任意三个音频子数据进行拼接，组成aba结构、aab结构、abb结构、bba结构、bab结构的初始音频样本数据，在出现语音内容相同的初始音频样本数据的情况下，可以进行去重处理；（4）将四段音频子数据进行随机排列并拼接得到初始音频样本数据，例如：将音频子数据n1、音频子数据n2、音频子数据n3和音频子数据n4在一起进行各种组合形式的拼接，组成aabb结构、bbaa结构、baba结构的初始音频样本数据，在出现语音内容相同的初始音频样本数据的情况下，可以进行去重处理。
40.其中，上述（2）、（3）、（4）属于大于或等于两段数量的音频子数据的情况。
41.本公开实施例中，针对关键词检测任务，通过步骤10314的拼接得到的增强样本数据包括了初始音频样本数据和拼接在初始音频样本数据两端的干扰音频数据，使得增强样本数据中既含有关联于关键词检测任务的音频数据的特征又含有干扰音频数据的特征。由于干扰音频数据来源于非触发音频数据，非触发音频数据本身的特征决定了干扰音频数据不触发后续操作的执行（如不触发唤醒），从而可以利用包含干扰音频数据的增强样本数据对用于执行关键词检测任务的网络模型进行训练，并根据训练的目的，使得用于执行关键词检测任务的网络模型获得针对与特定关键词相近似发音的其它关键词（例如上述说明中的除“小微小微”以外的其它结构关键词）不触发后续操作的能力，从而可以极大降低实际应用场景中不完整关键词的误唤醒率。并且，采用该方法还可以根据训练的目的，使得用于执行关键词检测任务的网络模型获得仅针对特定关键词（例如上述说明中的“小微小微”）触发后续操作的能力。
42.对于关键词检测任务来说，需要确保只有当检测到语音与关键词完全匹配的情况下才会检测通过，其它任何情况都不应当检测通过，例如上述“小微小微”的abab结构类型，只有当检测到语音为“小微小微”时才会检测通过触发后续操作的执行（例如唤醒），除“小微小微”以外的其它任何语音都不应当触发后续操作的执行。在这种情况下，得到的所有初始音频样本数据中，除abab结构关键词以外的任何语音均应当不触发后续操作的执行，也就是说，除abab结构关键词以外的任何语音均需要确定为非触发类别的语音以避免误触发的情况。进而，在音频识别任务为关键词检测任务的情况下，步骤104包括：
步骤1041、在增强样本数据中的音频内容与关键词检测任务的关键词不一致的情况下，将与增强样本数据相关联的标注信息确定为非触发类别，并将增强样本数据和与其相关联的标注信息确定为针对关键词检测任务的非触发类别音频训练样本。
43.在一些实施例中，为了增强音频识别任务只有abab结构关键词的语音才触发后续操作的能力，步骤104还可以进一步包括：步骤1042、在增强样本数据中的音频内容与关键词检测任务的关键词一致的情况下，将与增强样本数据相关联的标注信息确定为触发类别，并将增强样本数据和与其相关联的标注信息确定为针对关键词检测任务的触发类别音频训练样本。
44.在一些实施例中，在音频识别任务为关键词检测任务的情况下，增强样本数据的长度大于能够触发后续操作的关键词音频的长度。
45.对于关键词检测任务来说，关键词是已确定好的，并且只有具有关键词的语音特征的语音信息才能够触发后续操作的执行（如触发唤醒），因此，本公开实施例的音频数据增强方法中针对关键词检测任务的增强样本数据，所接收的关联于关键词检测任务的音频数据的内容通常并非必须包含关键词内容，其它音频数据也是可以的，并且其它音频数据中的所涉及的语音文本的字数也可以是任意的数量，只需要最后所得到的增强样本数据如果是非关键词的内容则将增强样本数据相关联的标注信息确定为非触发类别，并且如果是关键词的内容则将增强样本数据相关联的标注信息确定为触发类别即可。而优选地，本公开实施例为了实现避免因为发音相近导致的误触发的目的，所接收的关联于关键词检测任务的音频数据的内容优选必须包含关键词内容。
46.图4是根据一示例性实施例示出的针对声音事件检测任务的音频数据拆分重组过程的流程图，如图4所示，在音频识别任务为声音事件检测任务的情况下，步骤103包括：步骤10321、在音频数据的时间长度位于预设的时间长度阈值范围内的情况下，从音频数据中获取满足预设时间长度条件的子音频段数据，并将子音频段数据确定为初始音频样本数据；步骤10322、将干扰音频数据拼接在初始音频样本数据的两端，获得针对声音事件检测任务的增强样本数据，其中，干扰音频数据来源于关联于声音事件检测任务的训练数据中的非触发音频数据。
47.其中，预设的时间长度阈值范围是为了确保音频数据能够满足训练的要求。如果音频数据足够长，则可以通过截取其中的片段的方式得到符合长度要求的音频数据，但如果音频数据过短，则音频数据中所包含的特征信息过少，即使将过短的音频数据重复拼接也无法得到更多的特征信息，从而由过短的音频数据得到的增强样本数据也并不包含足够的特征，由此所训练的网络模型的是不能满足声音事件检测任务的目的的。基于此，在一些实施例中，本公开的音频数据增强方法还进一步包括：在音频数据的时间长度位于预设的时间长度阈值范围外的情况下，舍弃音频数据。
48.并且，在一些实施例中，时间长度阈值范围大于或等于增强样本数据的时间长度的一半；预设时间长度条件为大于或等于增强样本数据的时间长度的一半并且小于增强样本数据的时间长度。
49.以设定的训练样本的时间长度来设置增强样本数据的时间长度。例如，若设定的
训练样本的时间长度为3秒，那么，增强样本数据的时间长度为3秒，则时间长度阈值范围大于或等于1.5秒，预设时间长度条件为大于或等于3秒的一半，并且小于3秒，即预设时间长度条件为1.5秒（包含1.5秒）至3秒（不包含3秒）。也就是说，音频数据的时间长度至少为1.5秒的情况下，从音频数据中获取的子音频段数据的长度在1.5秒（包含1.5秒）至3秒（不包含3秒）之间。
50.本公开实施例中，针对声音事件检测任务，通过步骤10322的拼接得到的增强样本数据包括了关联于声音事件检测任务的音频数据和拼接在关联于声音事件检测任务的音频数据两端的干扰音频数据，使得增强样本数据中既含有关联于声音事件检测任务的音频数据的特征又含有干扰音频数据的特征。由于干扰音频数据来源于非触发音频数据，非触发音频数据本身的特征决定了干扰音频数据不触发后续操作的执行（如不触发唤醒），同时，在音频数据的时间长度位于预设的时间长度阈值范围外的情况下舍弃音频数据，并且时间长度阈值范围大于或等于增强样本数据的时间长度的一半，预设时间长度条件为大于或等于增强样本数据的时间长度的一半并且小于增强样本数据的时间长度，从而所得到的增强样本数据中的含有关联于声音事件检测任务的音频数据占到增强样本数据的至少一半，从而增强样本数据中包含了至少一半关联于声音事件检测任务的音频数据的特征，利用该增强样本数据对用于执行声音事件检测任务的网络模型进行训练，能够使得用于执行声音事件检测任务的网络模型获得针对特定声音（例如儿童的啼哭声等）实现快速检测并触发后续操作的能力，从而可以极大缩短针对特定声音的响应时间。
51.因为网络模型对训练样本具有长度的要求，所以在一些实施例中，增强样本数据的长度为预设的固定长度。图5是根据一示例性实施例示出的增强样本数据长度关系的示意图，如图5所示，增强样本数据501的预设的固定长度为m，若初始音频样本数据502的长度为t，并且t小于m，则在初始音频样本数据502的首尾两端拼接随机长度的干扰音频数据503，并且所拼接的干扰音频数据503的总长度为m-t，以确保最终得到的增强样本数据501的总长度为m。
52.在一些实施例中，在音频识别任务为声音事件检测任务的情况下，步骤104包括：将增强样本数据相关联的标注信息确定为触发类别，并将增强样本数据和与其相关联的标注信息确定为针对声音事件检测任务的触发类别音频训练样本。
53.对于声音事件检测任务，在实际应用场景中，需要对声音实现快速的检测识别，检测的延时需要尽可能的短，只有这样才能够满足快速响应的需求。利用本公开实施例得到的针对声音事件检测任务的增强样本数据，可以使得执行声音事件检测任务的网络模型学习到在检测的音频信息长度小于增强样本数据长度的情况下就能够成功检测的能力，从而缩短了声音检测反应的时长。
54.在得到针对音频识别任务的音频训练样本之后，本公开实施例的音频数据增强方法还进一步包括：基于音频训练样本，对执行关键词检测任务和/或声音事件检测任务的联合网络模型进行训练；利用完成训练的联合网络模型执行关键词检测任务和声音事件检测任务的至少其中之一。
55.其中，进行训练的具体过程可以包括：
获取训练样本集，其中，训练样本集中包括多个增强样本数据和与每个增强样本数据相关联的标注信息；其中，增强样本数据包括针对关键词检测任务的增强样本数据和/或针对声音事件检测任务的增强样本数据；在训练样本集中，针对关键词检测任务的增强样本数据进一步包括非触发类别的增强样本数据，与非触发类别的增强样本数据相关联的标注信息为非触发类别标注信息；针对声音事件检测任务的增强样本数据相关联的标注信息为触发类别标注信息；在一些实施例中，在训练样本集中，针对关键词检测任务的增强样本数据还可以包括触发类别的增强样本数据，与触发类别的增强样本数据相关联的标注信息为触发类别标注信息；将增强样本数据输入联合网络模型，得到对应于增强样本数据的结果，其中，联合网络模型用于执行关键词检测任务和/或声音事件检测任务，图6是根据一示例性实施例示出的联合网络模型的示意图，如图6所示，该联合网络模型用于执行关键词检测任务和声音事件检测任务时，包括编码层、关键词检测任务解码层和声音事件检测任务解码层，其中，针对关键词检测任务和声音事件检测任务的音频数据处理共用同一个编码层，并且基于关键词检测任务和声音事件检测任务中的不同任务，分别采用关键词检测任务解码层和声音事件检测任务解码层两种不同的解码层，本公开实施例中的联合网络模型所输入的增强样本数据以及在执行关键词检测任务和声音事件检测任务时输入的音频数据，均先进入编码层，由编码层执行编码，之后，编码层输出的编码数据根据不同的检测任务而输入关键词检测任务解码层或者声音事件检测任务解码层，针对关键词检测任务由关键词检测任务解码层输出结果，针对声音事件检测任务由声音事件检测任务解码层输出结果，其中结果可以是触发后续操作（如触发唤醒）的执行概率；基于对应于增强样本数据的结果和关联于增强样本数据的标注信息，获得目标损失函数的值；通过根据目标损失函数的值调整联合网络模型的参数，对联合网络模型进行训练，得到训练完成的联合网络模型。
56.图7是根据一示例性实施例示出的一种音频数据增强方法的应用场景流程图，如图7所示，该应用场景主要包括以下步骤。
57.步骤701、确定音频识别任务，若音频识别任务为关键词检测任务则执行步骤711，若音频识别任务为声音事件检测任务则执行步骤721。
58.步骤711、接收音频数据，之后执行步骤712。
59.其中，步骤711中所接收的音频数据是关联于关键词检测任务的音频数据。
60.步骤712、切除音频数据中的非语音数据，之后执行步骤713。
61.在一些实施例中，采用活动语音检测方法对音频数据中的非语音数据进行切除得到多段片段数据，将多段片段数据按照时间先后顺序进行拼接以获得仅包含完整语音内容的音频数据。
62.步骤713、根据音频数据中的语音时长和关联于关键词检测任务的关键词的字数，将音频数据进行切分获得至少两段音频子数据，之后执行步骤714。
63.以关键词为abab结构为例，参见图3所示，音频数据包括4个字组成的关键词，4个字分别表示为a1、a2、a3和a4，在abab结构中，a1表示abab结构中的第一个a，a2表示abab结构中的第一个b，a3表示abab结构中的第二个a，a4表示abab结构中的第二个b，在一些实施
例中，可以按照图3所示根据关键词的字数将音频数据进行均分，例如关键词的字数为四个，则将音频数据进行四等分，得到四段音频子数据。
64.步骤714、根据至少两段音频子数据，得到初始音频样本数据，之后执行步骤715。
65.其中，步骤714可以是将至少两段音频子数据中的每一段音频子数据，确定为初始音频样本数据；将至少两段音频子数据中任意大于或等于两段数量的音频子数据，进行随机排列后进行拼接，得到初始音频样本数据。
66.以关键词为abab结构为例，步骤714中，拼接包括四种方式：（1）将一段音频子数据独立作为初始音频样本数据；（2）将任意两段音频子数据以所有可能的顺序进行排列得到初始音频样本数据；（3）将任意三段音频子数据以所有可能的顺序进行排列得到初始音频样本数据；（4）将四段音频子数据以所有可能的顺序进行排列得到初始音频样本数据。
67.其中，对于第（1）种方式，参见图3所示，会得到分别为[a1]、[a2]、[a3]和[a4]内容的四段音频子数据，其中，[a1]内容的音频子数据和[a3]内容的音频子数据中对应的关键词中的字为a，[a2]内容的音频子数据和[a4]内容的音频子数据中对应的关键词中的字为b。
[0068]
在一些实施例中，将[a1]、[a2]、[a3]和[a4]内容的每一段音频子数据均确定为初始音频样本数据；在另一些实施例中，将[a1]、[a2]、[a3]和[a4]根据内容进行去重后获得初始音频样本数据，例如，基于[a1]内容的音频子数据和[a3]内容的音频子数据中对应的关键词中的字为a的原因，对[a1]内容的音频子数据和[a3]内容的音频子数据进行去重，只保留[a1]内容的音频子数据和[a3]内容的音频子数据中的一个，同样地，只保留[a2]内容的音频子数据和[a4]内容的音频子数据中的一个。
[0069]
其中，对于第（2）种方式，参见图3所示，会得到分别为[a1,a2]、[a1,a3]、[a1,a4]、[a2,a1]、[a2,a3]、[a2,a4]、[a3,a1]、[a3,a2]、[a3,a4]、[a4,a1]、[a4,a2]、[a4,a3]内容的多段初始音频样本数据，其中，[a1,a2]、[a1,a4]、[a3,a2]和[a3,a4]内容的初始音频样本数据中对应的关键词中的字为ab，[a1,a3]和[a3,a1]内容的初始音频样本数据中对应的关键词中的字为aa，[a2,a1]、[a2,a3]、[a4,a1]和[a4,a3]内容的初始音频样本数据中对应的关键词中的字为ba，[a2,a4]和[a4,a2]内容的初始音频样本数据中对应的关键词中的字为bb。
[0070]
在一些实施例中，保留所有组合形式内容的初始音频样本数据以获得后续的增强样本数据；在另一些实施例中，将所有组合形式内容的初始音频样本数据根据内容进行去重后获得后续的增强样本数据，例如，基于[a1,a2]、[a1,a4]、[a3,a2]和[a3,a4]内容的初始音频样本数据中对应的关键词中的字均为ab的原因，对[a1,a2]、[a1,a4]、[a3,a2]和[a3,a4]内容的初始音频样本数据进行去重，只保留[a1,a2]、[a1,a4]、[a3,a2]和[a3,a4]内容的初始音频样本数据中的一个，同样地，只保留[a1,a3]和[a3,a1]内容的初始音频样本数据中的一个，只保留[a2,a1]、[a2,a3]、[a4,a1]和[a4,a3]内容的初始音频样本数据中的一个，只保留[a2,a4]和[a4,a2]内容的初始音频样本数据中的一个。
[0071]
其中，对于第（3）种方式，参见图3所示，会得到分别为以下各种内容的多段初始音频样本数据：[a1,a2,a3]、[a1,a3,a2]、[a2,a1,a3]、[a2,a3,a1]、[a3,a1,a2]、[a3,a2,a1][a1,a2,a4]、[a1,a4,a2]、[a2,a1,a4]、[a2,a4,a1]、[a4,a1,a2]、[a4,a2,a1]
[a1,a3,a4]、[a1,a4,a3]、[a3,a1,a4]、[a3,a4,a1]、[a4,a1,a3]、[a4,a3,a1][a2,a3,a4]、[a2,a4,a3]、[a3,a2,a4]、[a3,a4,a2]、[a4,a2,a3]、[a4,a3,a2]在一些实施例中，保留所有组合形式内容的初始音频样本数据以获得后续的增强样本数据；在另一些实施例中，将所有组合形式内容的初始音频样本数据根据内容进行去重后获得后续的增强样本数据，例如，基于[a1,a2,a3]、[a3,a2,a1]、[a1,a4,a3]和[a3,a4,a1]内容的初始音频样本数据中对应的关键词中的字均为aba的原因，对[a1,a2,a3]、[a3,a2,a1]、[a1,a4,a3]和[a3,a4,a1]内容的初始音频样本数据进行去重，只保留[a1,a2,a3]、[a3,a2,a1]、[a1,a4,a3]和[a3,a4,a1]内容的初始音频样本数据中的一个。
[0072]
其中，对于第（4）种方式，参见图3所示，会得到分别为以下各种内容的多段初始音频样本数据：[a1,a2,a3,a4]、[a1,a2,a4,a3]、[a1,a3,a2,a4]、[a1,a3,a4,a2][a1,a4,a2,a3]、[a1,a4,a3,a2]、[a2,a1,a3,a4]、[a2,a1,a4,a3][a2,a3,a1,a4]、[a2,a3,a4,a1]、[a2,a4,a1,a3]、[a2,a4,a3,a1][a3,a1,a2,a4]、[a3,a1,a4,a2]、[a3,a2,a1,a4]、[a3,a2,a4,a1][a3,a4,a1,a2]、[a3,a4,a2,a1]、[a4,a1,a2,a3]、[a4,a1,a3,a2][a4,a2,a1,a3]、[a4,a2,a3,a1]、[a4,a3,a1,a2]、[a4,a3,a2,a1]在一些实施例中，保留所有组合形式内容的初始音频样本数据以获得后续的增强样本数据；在另一些实施例中，将所有组合形式内容的初始音频样本数据根据内容进行去重后获得后续的增强样本数据，例如，基于[a1,a3,a2,a4]、[a3,a1,a2,a4]、[a1,a3,a4,a2]、[a3,a1,a4,a2]内容的初始音频样本数据中对应的关键词中的字均为aabb的原因，对[a1,a3,a2,a4]、[a3,a1,a2,a4]、[a1,a3,a4,a2]、[a3,a1,a4,a2]内容的初始音频样本数据进行去重，只保留[a1,a3,a2,a4]、[a3,a1,a2,a4]、[a1,a3,a4,a2]、[a3,a1,a4,a2]内容的初始音频样本数据中的一个。
[0073]
步骤715、将干扰音频数据拼接在初始音频样本数据的两端，获得针对关键词检测任务的增强样本数据，之后执行步骤716。
[0074]
其中，干扰音频数据来源于关联于关键词检测任务的训练数据中的非触发音频数据，在关键词检测任务的网络模型基于非触发音频数据得到的结果不触发后续操作（如触发唤醒）。
[0075]
其中，以设定的训练样本的时间长度来设置增强样本数据的时间长度。
[0076]
一般来说，关键词的每个字的音频时间长度在0.2至0.4秒之间，abab结构的关键词的音频时间长度为0.8至1.6秒，因此，在一些实施例中，训练样本的音频时间长度应大于1.6秒，例如，训练样本的音频时间长度可以是2至3秒，其中的初始音频样本数据的音频时间长度不大于1.6秒，增强样本数据中除关键词的音频（初始音频样本数据）以外的部分为干扰音频数据。
[0077]
步骤716、基于增强样本数据中的音频内容和关键词检测任务的关键词内容，得到关联于增强样本数据的标注信息，将增强样本数据和与其相关联的标注信息确定为针对关键词检测任务的触发类别音频训练样本。
[0078]
对于关键词检测任务的增强样本数据的标注信息有两种情况：情况一、增强样本数据中的音频内容与关键词检测任务的关键词不一致的情况；情况二、增强样本数据中的
音频内容与关键词检测任务的关键词一致的情况。
[0079]
在情况一下，步骤716中，将与增强样本数据相关联的标注信息确定为非触发类别，并将增强样本数据和与其相关联的标注信息确定为针对关键词检测任务的非触发类别音频训练样本。基于本公开实施例为了实现避免因为发音相近导致的误触发的目的，针对情况一的非触发类别音频训练样本的确定为本实施例中的必选步骤。
[0080]
在情况二下，步骤716中，将与增强样本数据相关联的标注信息确定为触发类别，并将增强样本数据和与其相关联的标注信息确定为针对关键词检测任务的触发类别音频训练样本。针对情况二的触发类别音频训练样本的确定为本实施例中的可选步骤。
[0081]
步骤721、接收音频数据，之后执行步骤722。
[0082]
其中，步骤721中所接收的音频数据是关联于声音事件检测任务的音频数据。
[0083]
步骤722、判断音频数据的时间长度是否符合要求，如果是则执行步骤723，否则舍弃该音频数据。
[0084]
由于过短的音频数据中包含的音频特征较少，识别错误的概率大，如果作为训练样本则会导致网络模型出错概率的增加，因此只有最短时间长度达到一定的要求，才能够确保包含足够的音频特征，以利于提升识别的准确率。在一些实施例中，步骤722的判断音频数据的时间长度是否符合要求，可以具体包括：判断音频数据的时间长度是否位于预设的时间长度阈值范围内。其中，预设的时间长度阈值范围为大于或等于增强样本数据的时间长度的一半，这样可以确保所得到的增强样本数据中至少能够包含一半的关于声音事件检测的音频特征。
[0085]
步骤723、从音频数据中获取满足预设时间长度条件的子音频段数据，并将子音频段数据确定为初始音频样本数据，之后执行步骤724。
[0086]
为了确保所得到的增强样本数据中至少能够包含一半的关于声音事件检测的音频特征，子音频段数据的长度至少为增强样本数据的一半，从而预设时间长度条件可以是大于或等于增强样本数据的时间长度的一半并且小于增强样本数据的时间长度。采用这种方式，所得到的增强样本数据中至少能够包含一半的关于声音事件检测的音频特征，并且至多能够包含全部的关于声音事件检测的音频特征，利用这种增强样本数据对网络模型进行训练能够提升网络模型对声音事件检测的准确率和相应的及时性。
[0087]
在一些实施例中，步骤723中可以采用随机的方式从音频数据中截取任意一段满足预设时间长度条件的音频段作为子音频段数据。
[0088]
步骤724、将干扰音频数据拼接在初始音频样本数据的两端，获得针对声音事件检测任务的增强样本数据，之后执行步骤725。
[0089]
其中，干扰音频数据来源于关联于声音事件检测任务的训练数据中的非触发音频数据，增强样本数据的时间长度为针对声音事件检测任务所设置的时间长度。
[0090]
步骤725、将增强样本数据相关联的标注信息确定为触发类别，并将增强样本数据和与其相关联的标注信息确定为针对声音事件检测任务的触发类别音频训练样本。
[0091]
图8是根据一示例性实施例示出的一种音频数据增强装置的结构示意图，如图8所示，该音频数据增强装置包括任务确定模块801、数据接收模块802、拼接重组模块803和样本获取模块804。
[0092]
其中，任务确定模块801，被配置为执行确定音频识别任务，其中，音频识别任务为
关键词检测任务和/或者声音事件检测任务。
[0093]
数据接收模块802，被配置为执行接收关联于音频识别任务的音频数据。
[0094]
拼接重组模块803，被配置为执行根据音频识别任务，对音频数据进行拆分重组，获得针对音频识别任务的增强样本数据。
[0095]
样本获取模块804，被配置为执行根据增强样本数据和音频识别任务，得到针对音频识别任务的音频训练样本，其中，训练样本用于对执行关键词检测任务和/或声音事件检测任务的联合网络模型进行训练。
[0096]
在一些实施例中，在音频识别任务为关键词检测任务的情况下，拼接重组模块803包括：非语音切除子模块，被配置为执行切除音频数据中的非语音数据；音频切分子模块，被配置为执行根据音频数据中的语音时长和关联于关键词检测任务的关键词的字数，将音频数据进行切分获得至少两段音频子数据；第一初始音频获取子模块，被配置为执行根据至少两段音频子数据，得到初始音频样本数据；第一音频拼接子模块，被配置为执行将干扰音频数据拼接在初始音频样本数据的两端，获得针对关键词检测任务的增强样本数据，其中，干扰音频数据来源于关联于关键词检测任务的训练数据中的非触发音频数据。
[0097]
在一些实施例中，非语音切除子模块采用vad方法实现音频数据中的非语音数据的切除。
[0098]
在一些实施例中，非语音切除子模块进一步被配置为执行在采用活动语音检测方法切除非语音数据而得到多段片段数据后，将多段片段数据按照时间先后顺序进行拼接以获得仅包含完整语音内容的音频数据。
[0099]
在一些实施例中，第一初始音频获取子模块进一步被配置为执行：将至少两段音频子数据中的每一段音频子数据，确定为初始音频样本数据；将至少两段音频子数据中任意大于或等于两段数量的所述音频子数据，进行随机排列并拼接，得到初始音频样本数据。
[0100]
在一些实施例中，在音频识别任务为关键词检测任务的情况下，样本获取模块804进一步包括：非触发样本获取子模块，被配置为执行在增强样本数据中的音频内容与关键词检测任务的关键词不一致的情况下，将与增强样本数据相关联的标注信息确定为非触发类别，并将增强样本数据和与其相关联的标注信息确定为针对关键词检测任务的非触发类别音频训练样本。
[0101]
在一些实施例中，在音频识别任务为关键词检测任务的情况下，样本获取模块804进一步包括：触发样本获取子模块，被配置为执行在增强样本数据中的音频内容与关键词检测任务的关键词一致的情况下，将与增强样本数据相关联的标注信息确定为触发类别，并将增强样本数据和与其相关联的标注信息确定为针对关键词检测任务的触发类别音频训练样本。
[0102]
在一些实施例中，在音频识别任务为声音事件检测任务的情况下，拼接重组模块
803，包括：第二初始音频获取子模块，被配置为执行在音频数据的时间长度位于预设的时间长度阈值范围内的情况下，从音频数据中获取满足预设时间长度条件的子音频段数据，并将子音频段数据确定为初始音频样本数据；第二音频拼接子模块，被配置为执行将干扰音频数据拼接在初始音频样本数据的两端，获得针对声音事件检测任务的增强样本数据，其中，干扰音频数据来源于关联于声音事件检测任务的训练数据中的非触发音频数据，增强样本数据的时间长度为针对声音事件检测任务所设置的时间长度。
[0103]
在一些实施例中，第二初始音频获取子模块进一步被配置为执行：在音频数据的时间长度位于时间长度阈值范围以外的情况下，舍弃音频数据。
[0104]
在一些实施例中，时间长度阈值范围大于或等于增强样本数据的时间长度的一半；预设时间长度条件为大于或等于增强样本数据的时间长度的一半并且小于增强样本数据的时间长度。
[0105]
在一些实施例中，在音频识别任务为声音事件检测任务的情况下，样本获取模块804进一步被配置为执行：将增强样本数据相关联的标注信息确定为触发类别，并将增强样本数据和与其相关联的标注信息确定为针对声音事件检测任务的触发类别音频训练样本。
[0106]
在一些实施例中，本公开的音频数据增强装置进一步包括：模型训练模块，被配置为执行基于音频训练样本，对执行关键词检测任务和/或声音事件检测任务的联合网络模型进行训练；任务执行模块，被配置为执行利用完成训练的联合网络模型执行关键词检测任务和声音事件检测任务的至少其中之一。
[0107]
本公开实施例的音频数据增强装置，根据音频识别任务，对接收的音频数据进行拆分重组，得到针对音频识别任务的增强样本数据，进而获得针对音频识别任务的音频训练样本，本公开实施例的技术方案中，对所接收的音频数据进行拆分重组，实现了音频识别任务的训练样本的针对性的重新组织，所得到的训练样本具有针对关键词检测任务的更加突出的关键词特征或者针对声音事件检测任务的更加突出的声音特征，从而利用本公开技术方案所获得的训练样本训练后的用于执行关键词检测任务和/或声音事件检测任务的联合网络模型能够提升关键词检测任务的语音识别的准确性、缩短声音事件检测任务的检测响应时长，从而可改善关键词检测任务和/或声音事件检测任务的用户体验。
[0108]
图9是本公开实施例提供的一种电子设备的结构示意图，如图9所示，该电子设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，cpu）901和一个或一个以上的存储器902，其中，该存储器902中存储有至少一条程序代码，该至少一条程序代码由该处理器901加载并执行以实现上述各个实施例提供的音频数据增强方法。当然，该电子设备900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备900还可以包括其他用于实现设备功能的部件，在此不做赘述。
[0109]
本公开实施例还提供了一种包括至少一条指令的计算机可读存储介质，例如包括至少一条指令的存储器，该至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的音频数据增强方法。可选地，该计算机可读存储介质可以是非临时性计算机可读存
储介质，例如，该非临时性计算机可读存储介质可以包括rom（read-only memory，只读存储器）、ram（random-access memory，随机存取存储器）、cd-rom（compact disc read-only memory，只读光盘）、磁带、软盘和光数据存储设备等。
[0110]
以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于识别由乐器演奏的音符的系统的制作方法

音频数据增强方法、装置、电子设备及存储介质与流程

相关文献

最热文献