数据处理方法、装置、电子设备及计算机可读存储介质与流程

2022-02-19 03:44:25 来源：中国专利 TAG：

1.本公开实施例涉及数据处理技术领域，具体涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.随着网络科学技术和数据处理技术的发展，人工智能的应用越来越广泛，智能语音助手作为人工智能产品之一，在日常生活中得到普及应用，比如智能手机助手、智能音箱、智能电视、智能车载助手、智能同声翻译等等。现有技术在进行智能语音处理时，通常先将输入的语音信号经过声学模型转换为声音频谱信号、音素、字、字片段、拼音等语音中间结果，再将得到的语音中间结果应用到不同的下游语音处理任务中，比如语音识别(asr)，端到端口语理解(e2e slu)、语音增强、语音唤醒、端到端语音转译、声纹识别等等。但是，现有技术中为了得到良好的泛化性能，需要大量的语音训练数据，而且还需要对于大量的语音训练数据进行标注，而语音训练数据的标注不仅会耗费大量的人力和财力，而且也无法实现实际应用中数据的全面覆盖，进而导致语音处理准确性低下，使得语音处理任务性能受损，不利于推广。

技术实现要素：

3.本公开实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质。
4.第一方面，本公开实施例中提供了一种数据处理方法。
5.具体的，所述数据处理方法，包括：
6.获取数字语音数据，其中，所述数字语音数据为无标注数据；
7.基于所述数据语音数据进行双重训练，得到语音数据处理模型；
8.获取待处理语音数据，利用所述语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果。
9.结合第一方面，本公开实施例在第一方面的第一种实现方式中，所述获取数字语音数据，包括：
10.接收模拟语音数据；
11.对于所述模拟语音数据进行数字化语音处理，得到所述数字语音数据。
12.结合第一方面和第一方面的第一种实现方式，本公开实施例在第一方面的第二种实现方式中，所述获取数字语音数据之后，还包括：
13.展示所述数字语音数据。
14.结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述基于所述数据语音数据进行双重训练，得到语音数据处理模型，包括：
15.基于所述数字语音数据训练得到预训练模型；
16.基于所述数字语音数据和预训练模型训练得到所述语音数据处理模型。
17.结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述基于所述数字语音数据训练得到预训练模型，被实施为：
18.确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型。
19.结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，所述基于所述数字语音数据和预训练模型训练得到所述语音数据处理模型，被实施为：
20.确定数据处理初始模型，利用所述预训练模型对于所述数据处理初始模型进行初始化，基于所述数字语音数据对于初始化后的数据处理初始模型进行训练，得到所述语音数据处理模型。
21.结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式，本公开在第一方面的第六种实现方式中，所述确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型，被实施为：
22.确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型和所述数字语音数据对应的语义数据。
23.结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式，本公开在第一方面的第七种实现方式中，所述基于所述数据语音数据进行双重训练，得到语音数据处理模型之后，还包括：
24.基于所述语义数据对于所述语音数据处理模型进行调整；
25.所述获取待处理语音数据，利用所述语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果，被实施为：
26.获取待处理语音数据，利用调整后的语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果。
27.结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和第一方面的第七种实现方式，本公开在第一方面的第八种实现方式中，所述基于所述语义数据对于所述语音数据处理模型进行调整，被实施为：
28.利用所述语义数据对于所述数字语音数据进行标注，得到所述数字语音数据对应的标注数据；
29.将所述数字语音数据作为所述语音数据处理模型的输入，将所述标注数据作为所述语音数据处理模型的输出，对于所述语音数据处理模型进行训练，得到调整后的语音数据处理模型。
30.结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式、第一方面的第七种实现方式和第一方面的第八种实现方式，本公开在第一方面的第九种实现方式中，所述数字语音数据的内容与所述数字语音数据的类别相
关。
31.第二方面，本公开实施例中提供了一种数据处理装置。
32.具体的，所述数据处理装置，包括：
33.获取模块，被配置为获取数字语音数据，其中，所述数字语音数据为无标注数据；
34.训练模块，被配置为基于所述数据语音数据进行双重训练，得到语音数据处理模型；
35.处理模块，被配置为获取待处理语音数据，利用所述语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果。
36.结合第二方面，本公开实施例在第二方面的第一种实现方式中，所述获取模块被配置为：
37.接收模拟语音数据；
38.对于所述模拟语音数据进行数字化语音处理，得到所述数字语音数据。
39.结合第二方面和第二方面的第一种实现方式，本公开实施例在第二方面的第二种实现方式中，还包括：
40.展示模块，被配置为展示所述数字语音数据。
41.结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述训练模块被配置为：
42.基于所述数字语音数据训练得到预训练模型；
43.基于所述数字语音数据和预训练模型训练得到所述语音数据处理模型。
44.结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中，所述基于所述数字语音数据训练得到预训练模型，被配置为：
45.确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型。
46.结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式，本公开在第二方面的第五种实现方式中，所述基于所述数字语音数据和预训练模型训练得到所述语音数据处理模型，被配置为：
47.确定数据处理初始模型，利用所述预训练模型对于所述数据处理初始模型进行初始化，基于所述数字语音数据对于初始化后的数据处理初始模型进行训练，得到所述语音数据处理模型。
48.结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式和第二方面的第五种实现方式，本公开在第二方面的第六种实现方式中，所述确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型，被配置为：
49.确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型和所述数字语音数据对应的语义数据。
50.结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式和第二方面的第六种实现方式，本公开在第二方面的第七种实现方式中，所述训练模块之后，还包
括：
51.调整模块，被配置为基于所述语义数据对于所述语音数据处理模型进行调整；
52.所述处理模块被配置为：
53.获取待处理语音数据，利用调整后的语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果。
54.结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式、第二方面的第六种实现方式和第二方面的第七种实现方式，本公开在第二方面的第八种实现方式中，所述调整模块被配置为：
55.利用所述语义数据对于所述数字语音数据进行标注，得到所述数字语音数据对应的标注数据；
56.将所述数字语音数据作为所述语音数据处理模型的输入，将所述标注数据作为所述语音数据处理模型的输出，对于所述语音数据处理模型进行训练，得到调整后的语音数据处理模型。
57.结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式、第二方面的第六种实现方式、第二方面的第七种实现方式和第二方面的第八种实现方式，本公开在第二方面的第九种实现方式中，所述数字语音数据的内容与所述数字语音数据的类别相关。
58.第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条支持数据处理装置执行上述数据处理方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述数据处理装置还可以包括通信接口，用于数据处理装置与其他设备或通信网络通信。
59.第四方面，本公开实施例提供了一种计算机可读存储介质，用于存储数据处理装置所用的计算机指令，其包含用于执行上述数据处理方法为数据处理装置所涉及的计算机指令。
60.本公开实施例提供的技术方案可包括以下有益效果：
61.上述技术方案使用无标注的语音数据进行双重训练，得到语音数据处理模型，进而实现对于待处理语音数据的有效处理。该技术方案无需对于语音训练数据进行标注，也无需考虑数据标注所花费的人力成本，因此可大幅度扩充语音训练数据数量，同时结合上述双重训练机制即可得到相对完备的语音数据处理模型，从而在节省数据标注所需的大量人力和财力的情况下，能够有效实现数据的全面覆盖，进而有效提高语音处理准确性，提升语音处理任务性能，有利于推广。
62.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开实施例。
附图说明
63.结合附图，通过以下非限制性实施方式的详细描述，本公开实施例的其它特征、目的和优点将变得更加明显。在附图中：
64.图1示出根据本公开一实施方式的数据处理方法的流程图；
65.图2示出根据本公开一实施方式的使用自回归或者自编码的方式进行训练得到预训练模型的示意图；
66.图3示出根据本公开一实施方式的数据处理方法的整体流程图；
67.图4示出根据本公开一实施方式的数据处理装置的结构框图；
68.图5是适于用来实现根据本公开一实施方式的数据处理方法的计算机系统的结构示意图。
具体实施方式
69.下文中，将参考附图详细描述本公开实施例的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。
70.在本公开实施例中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
71.另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开实施例。
72.本公开实施例提供的技术方案使用无标注的语音数据进行双重训练，得到语音数据处理模型，进而实现对于待处理语音数据的有效处理。该技术方案无需对于语音训练数据进行标注，也无需考虑数据标注所花费的人力成本，因此可大幅度扩充语音训练数据数量，同时结合上述双重训练机制即可得到相对完备的语音数据处理模型，从而在节省数据标注所需的大量人力和财力的情况下，能够有效实现数据的全面覆盖，进而有效提高语音处理准确性，提升语音处理任务性能，有利于推广。
73.图1示出根据本公开一实施方式的数据处理方法的流程图，如图1所示，所述数据处理方法包括以下步骤s101-s103：
74.在步骤s101中，获取数字语音数据，其中，所述数字语音数据为无标注数据；
75.在步骤s102中，基于所述数据语音数据进行双重训练，得到语音数据处理模型；
76.在步骤s103中，获取待处理语音数据，利用所述语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果。
77.上文提及，随着网络科学技术和数据处理技术的发展，人工智能的应用越来越广泛，智能语音助手作为人工智能产品之一，在日常生活中得到普及应用，比如智能手机助手、智能音箱、智能电视、智能车载助手、智能同声翻译等等。现有技术在进行智能语音处理时，通常先将输入的语音信号经过声学模型转换为声音频谱信号、音素、字、字片段、拼音等语音中间结果，再将得到的语音中间结果应用到不同的下游语音处理任务中，比如语音识别(asr)，端到端口语理解(e2e slu)、语音增强、语音唤醒、端到端语音转译、声纹识别等等。但是，现有技术中为了得到良好的泛化性能，需要大量的语音训练数据，而且还需要对于大量的语音训练数据进行标注，而语音训练数据的标注不仅会耗费大量的人力和财力，而且也无法实现实际应用中数据的全面覆盖，进而导致语音处理准确性低下，使得语音处理任务性能受损，不利于推广。
78.比如对于场景1，用户a使用智能带屏设备观看视频，但由于训练数据不足，目前的语音处理产品对于不常见的视频名称理解效果不佳。比如用户a发出指令“烈火如歌”，由于训练数据中不包含该条目信息，也不包含存在“歌”字的条目，智能带屏设备将指令错误地下发至音乐点播场景中，但实际上“烈火如歌”是一个视频的名称，应该将指令下发至视频点播场景中。
79.再比如对于场景2，用户b使用智能手机语音助手进行家具及家电的控制，但给定的训练数据中只包括常见的iot设备，比如空调，日光灯，卧室灯，客厅灯，空气净化器等，若用户b发出指令“打开小夜灯”，由于“小夜灯”超出了给定的训练数据范围，智能手机语音助手无法理解，继而错误地识别成错误文本“打开小燕子”，导致智能手机错误响应，开始播放“小燕子”歌曲。
80.考虑到上述问题，在该实施方式中，提出一种数据处理方法，该方法使用无标注的语音数据进行双重训练，得到语音数据处理模型，进而实现对于待处理语音数据的有效处理。该技术方案无需对于语音训练数据进行标注，也无需考虑数据标注所花费的人力成本，因此可大幅度扩充语音训练数据数量，同时结合上述双重训练机制即可得到相对完备的语音数据处理模型，从而在节省数据标注所需的大量人力和财力的情况下，能够有效实现数据的全面覆盖，进而有效提高语音处理准确性，提升语音处理任务性能，有利于推广。
81.在本公开一实施方式中，所述数据处理方法可适用于对于对象进行处理的计算机、计算设备、电子设备、服务器、服务集群等。
82.在本公开一实施方式中，所述数字语音数据指的是数字格式的语音数据，在该实施方式中，所述数字语音数据为无标注数据，即所述数字语音数据中仅包括语音数据，不包括对于所述语音数据进行人工标注或者自动标注的标注数据，其中，所述标注数据指的是用于表征所述语音数据的类别、属性等特征信息的标注数据，在数据处理模型训练时，通常用作模型的训练输出数据。在该实施方式中，正因为所述数字语音数据为无标注数据，不需要花费过多的人力成本对其进行标注，因此所述数字语音数据的数据量可大幅增加，可覆盖更多领域、更多种类、更多场景、更多环境的语音数据，从而使得后续模型的训练更为充分，语音处理的结果更为准确，能够有效避免上文提及的两种场景中所遇到的语音指令内容超出训练数据范围的问题。
83.考虑到能够、需要使用语音数据处理模型的领域众多，比如家居领域、工业领域、管理领域、办公领域、教育领域、医疗领域、商业领域等等，因此，为了避免数字语音数据的数据量过大，为后续语音数据处理模型的训练带来沉重的负担，产生不必要的算力支出，在本公开一实施方式中，可以将所述数字语音数据的内容设置为与所述数字语音数据的类别相关，如果所述数字语音数据的类别还包括一些子类别，那么所述数字语音数据的内容也可以与所述数字语音数据的子类别相关。比如，在家居领域，所涉及的家居产品包括电视、音响、照明设备、空调、冰箱、热水器、烹饪设备、对话设备、文娱设备、教育设备管理设备、等多个子类别产品，对于不同子类别产品，可根据该子类别产品的特点以及经常出现的语音指令内容确定所述数字语音数据的内容。比如，对于电视，所述数字语音数据的内容可包括开关指令、换台指令、频道名称、音量控制指令、色彩控制指令、亮度控制指令、播放时间等数据以及上述数据所对应的方言、口音、发音错误等有可能出现的与电视控制相关的数据。再比如，对于照明设备，所述数字语音数据的内容可包括开关指令、照明设备名称、亮度控
制指令、色彩控制指令、照明时间等数据以及上述数据所对应的方言、口音、发音错误等有可能出现的与照明设备控制相关的数据。
84.在本公开一实施方式中，所述双重训练指的是对于所述数据语音数据进行两次模型训练，以得到最终用于处理待处理语音数据的数据处理模型，对于上述双重训练机制，下文中将会详细描述。
85.在本公开一实施方式中，所述步骤s101，即获取数字语音数据的步骤，包括以下步骤：
86.接收模拟语音数据；
87.对于所述模拟语音数据进行数字化语音处理，得到所述数字语音数据。
88.考虑到通常获取得到的语音数据均为模拟格式的，因此，在该实施方式中，为了方便后续模型训练等处理，需要将其转换为数字格式，即对于接收到的模拟语音数据进行数字化语音处理，得到数字语音数据。其中，经过所述数字化语音处理后得到的数字语音数据可包括以下数据中的一种或多种：声音频谱信号、音素、字、字片段、拼音等等。
89.在本公开一实施方式中，所述步骤s101，即获取数字语音数据之后，还包括以下步骤：
90.展示所述数字语音数据。
91.在该实施方式中，为了使用户或其他数据处理方能够及时地了解或查看数字语音数据内容，在该实施方式中，在获取得到数字语音数据之后，还对于所述数字语音数据进行展示或显示。
92.在本公开一实施方式中，所述步骤s102，即基于所述数据语音数据进行双重训练，得到语音数据处理模型的步骤，包括以下步骤：
93.基于所述数字语音数据训练得到预训练模型；
94.基于所述数字语音数据和预训练模型训练得到所述语音数据处理模型。
95.在该实施方式中，采用双重训练机制来获取最终用于处理待处理语音数据的语音数据处理模型。具体地，首先基于所述数字语音数据训练得到预训练模型，其中，所述预训练模型为对于所述数字语音数据进行初次训练得到的模型，上述预训练处理的目的是为了获取最终得到的所述语音数据处理模型的初始化参数，从而减少所述语音数据处理模型的训练时间，提高所述语音数据处理模型的准确性，提升所述语音数据处理模型的处理性能；然后基于所述数字语音数据和预训练模型进行训练，得到所述语音数据处理模型。
96.在本公开一实施方式中，所述基于所述数字语音数据训练得到预训练模型，可被实施为：
97.确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型。
98.在该实施方式中，在进行预训练时，可首先确定一个预训练使用的预训练初始模型，然后将所述数字语音数据作为所述预训练初始模型的输入，对于所述预训练初始模型进行训练，得到预训练模型。其中，由于所述数字语音数据为无标注数据，因此，在训练所述预训练模型时，使用自回归或者自编码的方式进行训练，得到所述预训练模型。使用自回归或者自编码的方式进行训练得到所述预训练模型的示意图如图2所示，如图2所示，自回归方式是通过上文信息来预测下文信息，比如使用(x1,x2,x3)来预测得到(x2,x3,x4)，其中，x
可以为标量也可以为向量；而自编码方式是基于自身信息来进行预测，比如利用待求信息x3的周围信息(x1,x2,x4)来预测x3，图2中，f
θ
代表所述预训练模型，θ为训练参数。
99.其中，所述预训练初始模型和预训练模型既可以为通常使用的数学模型，也可以为深度神经网络模型、贝叶斯模型等机器学习模型，或者启发式模型等非机器学习模型，再或者也可以为上述模型的组合模型。
100.在本公开一实施方式中，所述基于所述数字语音数据和预训练模型训练得到所述语音数据处理模型的步骤，可被实施为：
101.确定数据处理初始模型，利用所述预训练模型对于所述数据处理初始模型进行初始化，基于所述数字语音数据对于初始化后的数据处理初始模型进行训练，得到所述语音数据处理模型。
102.上文提及，所述预训练处理的目的是为了获取最终得到的所述语音数据处理模型的初始化参数，从而减少所述语音数据处理模型的训练时间，提高所述语音数据处理模型的准确性，提升所述语音数据处理模型的处理性能。因此，在该实施方式中，在训练所述语音数据处理模型时，首先确定一个数据处理初始模型，然后利用之前训练得到的所述预训练模型对于所述数据处理初始模型进行初始化，具体地，利用所述预训练模型的模型参数对于所述数据处理初始模型的模型参数进行初始化，即将所述预训练模型的模型参数值作为所述数据处理初始模型的模型参数值；然后基于所述数字语音数据对于初始化后的数据处理初始模型进行训练，最终得到所述语音数据处理模型。
103.在本公开一实施方式中，为了对于所述数据处理初始模型进行有效初始化，所述数据处理初始模型与预训练初始模型相同，模型参数相对应，以使用所述预训练模型的模型参数值为所述数据处理初始模型的模型参数值进行赋值。
104.在本公开另一实施方式中，所述确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型，还可被实施为：
105.确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型和所述数字语音数据对应的语义数据。
106.为了获取对于所述数字语音数据的分析结果，以作为对于所述数字语音数据的自动标注数据，后续用于对于所述语音数据处理模型的调整，在该实施方式中，在对于所述预训练初始模型进行训练时，除了得到所述预训练模型，还学习得到所述数字语音数据对应的语义数据。其中，所述语义数据可包括所述数字语音数据的类别、属性、特征、所属领域、是否与某个词属于同义词、是否与某个词具有相似读音，与某个词尤其是上下文词语之间是否存在关联关系等等。所述语义数据可实现对于所述数字语音数据的自动标注，得到的标注数据可为后续语音数据处理模型的调整提供数据基础，同时还能够避免人工标注所需要的人工成本。
107.在该实施方式中，所述步骤s102，即基于所述数据语音数据进行双重训练，得到语音数据处理模型之后，还包括以下步骤：
108.基于所述语义数据对于所述语音数据处理模型进行调整。
109.此时，所述步骤s103，即获取待处理语音数据，利用所述语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果的步骤，可被实施为：
110.获取待处理语音数据，利用调整后的语音数据处理模型对于所述待处理语音数据
进行处理，得到数据处理结果。
111.上文提及，所述语义数据可用于对于所述数字语音数据进行自动标注，得到的标注数据可为后续语音数据处理模型的调整提供数据基础，因此，在该实施方式中，在得到所述语音数据处理模型之后，还基于所述语义数据对于所述语音数据处理模型进行调整，后续就可利用调整后的语音数据处理模型对于待处理语音数据进行处理，得到数据处理结果。
112.在该实施方式中，所述基于所述语义数据对于所述语音数据处理模型进行调整的步骤，可被实施为：
113.利用所述语义数据对于所述数字语音数据进行标注，得到所述数字语音数据对应的标注数据；
114.将所述数字语音数据作为所述语音数据处理模型的输入，将所述标注数据作为所述语音数据处理模型的输出，对于所述语音数据处理模型进行训练，得到调整后的语音数据处理模型。
115.上文提及，所述语义数据可用于对于所述数字语音数据进行自动标注，得到的标注数据可为后续语音数据处理模型的调整提供数据基础，因此，在该实施方式中，在基于所述语义数据对于所述语音数据处理模型进行调整时，首先利用所述语义数据对于所述数字语音数据进行标注，得到所述数字语音数据对应的标注数据；然后将所述数字语音数据作为所述语音数据处理模型的输入，将所述标注数据作为所述语音数据处理模型的输出，对于所述语音数据处理模型进行再次训练，得到的语音数据处理模型即为调整后的语音数据处理模型。
116.由于所述语义数据包括所述数字语音数据的类别、属性、特征、所属领域、是否与某个词属于同义词、是否与某个词具有相似读音，与某个词尤其是上下文词语之间是否存在关联关系等数据，因此，将所述语义数据作为所述数字语音数据的标注数据对于所述语音数据处理模型进行再次训练，可消除待处理语音数据中方言、口音、发音错误等情况导致的语音误判，帮助下游语音处理任务进行语义理解，提高下游语音处理任务的泛化性，提高用于完成所述下游语音处理任务的语音数据处理模型的准确性，提升所述语音数据处理模型的处理性能。
117.需要说明的是，所述语音数据处理模型可用于多种下游任务，也就是说，所述语音数据处理模型根据实际应用的需要而不同，比如借助对应不同下游任务的损失函数，所述语音数据处理模型可实现为语音识别模型、语音语义理解模型、语音转译模型、语音唤醒模型、声纹识别模型等等，此时，所述预训练初始模型和数据处理初始模型均可根据最终下游任务实现的目的来确定。
118.图3示出根据本公开一实施方式的数据处理方法的整体流程图，如图3所示，首先基于获取的无标注数字语音数据进行训练得到预训练模型和所述数字语音数据对应的语义数据；然后基于预训练模型进行模型初始化，基于所述无标注数字语音数据训练得到所述语音数据处理模型；同时利用语义数据对于所述数字语音数据进行标注，得到对应的标注数据，即有标注数字语音数据，最后利用所述有标注数字语音数据对于所述语音数据处理模型进行调整，调整后的语音数据处理模型就可作为最终语音数据处理模型来对待处理语音数据进行处理，得到数据处理结果，其中，所述语音数据处理模型可根据实际应用的需
要而不同，比如所述语音数据处理模型可实现为语音识别模型、语音语义理解模型、语音转译模型、语音唤醒模型、声纹识别模型等等。
119.下述为本公开装置实施例，可以用于执行本公开方法实施例。
120.图4示出根据本公开一实施方式的数据处理装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示，所述数据处理装置包括：
121.获取模块401，被配置为获取数字语音数据，其中，所述数字语音数据为无标注数据；
122.训练模块402，被配置为基于所述数据语音数据进行双重训练，得到语音数据处理模型；
123.处理模块403，被配置为获取待处理语音数据，利用所述语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果。
124.上文提及，随着网络科学技术和数据处理技术的发展，人工智能的应用越来越广泛，智能语音助手作为人工智能产品之一，在日常生活中得到普及应用，比如智能手机助手、智能音箱、智能电视、智能车载助手、智能同声翻译等等。现有技术在进行智能语音处理时，通常先将输入的语音信号经过声学模型转换为声音频谱信号、音素、字、字片段、拼音等语音中间结果，再将得到的语音中间结果应用到不同的下游语音处理任务中，比如语音识别，端到端口语理解、语音增强、语音唤醒、端到端语音转译、声纹识别等等。但是，现有技术中为了得到良好的泛化性能，需要大量的语音训练数据，而且还需要对于大量的语音训练数据进行标注，而语音训练数据的标注不仅会耗费大量的人力和财力，而且也无法实现实际应用中数据的全面覆盖，进而导致语音处理准确性低下，使得语音处理任务性能受损，不利于推广。
125.比如对于场景1，用户a使用智能带屏设备观看视频，但由于训练数据不足，目前的语音处理产品对于不常见的视频名称理解效果不佳。比如用户a发出指令“烈火如歌”，由于训练数据中不包含该条目信息，也不包含存在“歌”字的条目，智能带屏设备将指令错误地下发至音乐点播场景中，但实际上“烈火如歌”是一个视频的名称，应该将指令下发至视频点播场景中。
126.再比如对于场景2，用户b使用智能手机语音助手进行家具及家电的控制，但给定的训练数据中只包括常见的iot设备，比如空调，日光灯，卧室灯，客厅灯，空气净化器等，若用户b发出指令“打开小夜灯”，由于“小夜灯”超出了给定的训练数据范围，智能手机语音助手无法理解，继而错误地识别成错误文本“打开小燕子”，导致智能手机错误响应，开始播放“小燕子”歌曲。
127.考虑到上述问题，在该实施方式中，提出一种数据处理装置，该装置使用无标注的语音数据进行双重训练，得到语音数据处理模型，进而实现对于待处理语音数据的有效处理。该技术方案无需对于语音训练数据进行标注，也无需考虑数据标注所花费的人力成本，因此可大幅度扩充语音训练数据数量，同时结合上述双重训练机制即可得到相对完备的语音数据处理模型，从而在节省数据标注所需的大量人力和财力的情况下，能够有效实现数据的全面覆盖，进而有效提高语音处理准确性，提升语音处理任务性能，有利于推广。
128.在本公开一实施方式中，所述数据处理装置可实现为对于对象进行处理的计算
机、计算设备、电子设备、服务器、服务集群等。
129.在本公开一实施方式中，所述数字语音数据指的是数字格式的语音数据，在该实施方式中，所述数字语音数据为无标注数据，即所述数字语音数据中仅包括语音数据，不包括对于所述语音数据进行人工标注或者自动标注的标注数据，其中，所述标注数据指的是用于表征所述语音数据的类别、属性等特征信息的标注数据，在数据处理模型训练时，通常用作模型的训练输出数据。在该实施方式中，正因为所述数字语音数据为无标注数据，不需要花费过多的人力成本对其进行标注，因此所述数字语音数据的数据量可大幅增加，可覆盖更多领域、更多种类、更多场景、更多环境的语音数据，从而使得后续模型的训练更为充分，语音处理的结果更为准确，能够有效避免上文提及的两种场景中所遇到的语音指令内容超出训练数据范围的问题。
130.考虑到能够、需要使用语音数据处理模型的领域众多，比如家居领域、工业领域、管理领域、办公领域、教育领域、医疗领域、商业领域等等，因此，为了避免数字语音数据的数据量过大，为后续语音数据处理模型的训练带来沉重的负担，产生不必要的算力支出，在本公开一实施方式中，可以将所述数字语音数据的内容设置为与所述数字语音数据的类别相关，如果所述数字语音数据的类别还包括一些子类别，那么所述数字语音数据的内容也可以与所述数字语音数据的子类别相关。比如，在家居领域，所涉及的家居产品包括电视、音响、照明设备、空调、冰箱、热水器、烹饪设备、对话设备、文娱设备、教育设备管理设备、等多个子类别产品，对于不同子类别产品，可根据该子类别产品的特点以及经常出现的语音指令内容确定所述数字语音数据的内容。比如，对于电视，所述数字语音数据的内容可包括开关指令、换台指令、频道名称、音量控制指令、色彩控制指令、亮度控制指令、播放时间等数据以及上述数据所对应的方言、口音、发音错误等有可能出现的与电视控制相关的数据。再比如，对于照明设备，所述数字语音数据的内容可包括开关指令、照明设备名称、亮度控制指令、色彩控制指令、照明时间等数据以及上述数据所对应的方言、口音、发音错误等有可能出现的与照明设备控制相关的数据。
131.在本公开一实施方式中，所述双重训练指的是对于所述数据语音数据进行两次模型训练，以得到最终用于处理待处理语音数据的数据处理模型，对于上述双重训练机制，下文中将会详细描述。
132.在本公开一实施方式中，所述获取模块401可被配置为：
133.接收模拟语音数据；
134.对于所述模拟语音数据进行数字化语音处理，得到所述数字语音数据。
135.考虑到通常获取得到的语音数据均为模拟格式的，因此，在该实施方式中，为了方便后续模型训练等处理，需要将其转换为数字格式，即对于接收到的模拟语音数据进行数字化语音处理，得到数字语音数据。其中，经过所述数字化语音处理后得到的数字语音数据可包括以下数据中的一种或多种：声音频谱信号、音素、字、字片段、拼音等等。
136.在本公开一实施方式中，所述获取模块401之后，还包括：
137.展示模块，被配置为展示所述数字语音数据。
138.在该实施方式中，为了使用户或其他数据处理方能够及时地了解或查看数字语音数据内容，在该实施方式中，在获取得到数字语音数据之后，还对于所述数字语音数据进行展示或显示。
139.在本公开一实施方式中，所述训练模块402可被配置为：
140.基于所述数字语音数据训练得到预训练模型；
141.基于所述数字语音数据和预训练模型训练得到所述语音数据处理模型。
142.在该实施方式中，采用双重训练机制来获取最终用于处理待处理语音数据的语音数据处理模型。具体地，首先基于所述数字语音数据训练得到预训练模型，其中，所述预训练模型为对于所述数字语音数据进行初次训练得到的模型，上述预训练处理的目的是为了获取最终得到的所述语音数据处理模型的初始化参数，从而减少所述语音数据处理模型的训练时间，提高所述语音数据处理模型的准确性，提升所述语音数据处理模型的处理性能；然后基于所述数字语音数据和预训练模型进行训练，得到所述语音数据处理模型。
143.在本公开一实施方式中，所述基于所述数字语音数据训练得到预训练模型的部分，可被配置为：
144.确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型。
145.在该实施方式中，在进行预训练时，可首先确定一个预训练使用的预训练初始模型，然后将所述数字语音数据作为所述预训练初始模型的输入，对于所述预训练初始模型进行训练，得到预训练模型。其中，由于所述数字语音数据为无标注数据，因此，在训练所述预训练模型时，使用自回归或者自编码的方式进行训练，得到所述预训练模型。使用自回归或者自编码的方式进行训练得到所述预训练模型的示意图如图2所示，如图2所示，自回归方式是通过上文信息来预测下文信息，比如使用(x1,x2,x3)来预测得到(x2,x3,x4)，其中，x可以为标量也可以为向量；而自编码方式是基于自身信息来进行预测，比如利用待求信息x3的周围信息(x1,x2,x4)来预测x3，图2中，f
θ
代表所述预训练模型，θ为训练参数。
146.其中，所述预训练初始模型和预训练模型既可以为通常使用的数学模型，也可以为深度神经网络模型、贝叶斯模型等机器学习模型，或者启发式模型等非机器学习模型，再或者也可以为上述模型的组合模型。
147.在本公开一实施方式中，所述基于所述数字语音数据和预训练模型训练得到所述语音数据处理模型的部分，可被配置为：
148.确定数据处理初始模型，利用所述预训练模型对于所述数据处理初始模型进行初始化，基于所述数字语音数据对于初始化后的数据处理初始模型进行训练，得到所述语音数据处理模型。
149.上文提及，所述预训练处理的目的是为了获取最终得到的所述语音数据处理模型的初始化参数，从而减少所述语音数据处理模型的训练时间，提高所述语音数据处理模型的准确性，提升所述语音数据处理模型的处理性能。因此，在该实施方式中，在训练所述语音数据处理模型时，首先确定一个数据处理初始模型，然后利用之前训练得到的所述预训练模型对于所述数据处理初始模型进行初始化，具体地，利用所述预训练模型的模型参数对于所述数据处理初始模型的模型参数进行初始化，即将所述预训练模型的模型参数值作为所述数据处理初始模型的模型参数值；然后基于所述数字语音数据对于初始化后的数据处理初始模型进行训练，最终得到所述语音数据处理模型。
150.在本公开一实施方式中，为了对于所述数据处理初始模型进行有效初始化，所述数据处理初始模型与预训练初始模型相同，模型参数相对应，以使用所述预训练模型的模
型参数值为所述数据处理初始模型的模型参数值进行赋值。
151.在本公开另一实施方式中，所述确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型的部分，还可被配置为：
152.确定预训练初始模型，将所述数字语音数据作为输入对于所述预训练初始模型进行训练，得到预训练模型和所述数字语音数据对应的语义数据。
153.为了获取对于所述数字语音数据的分析结果，以作为对于所述数字语音数据的自动标注数据，后续用于对于所述语音数据处理模型的调整，在该实施方式中，在对于所述预训练初始模型进行训练时，除了得到所述预训练模型，还学习得到所述数字语音数据对应的语义数据。其中，所述语义数据可包括所述数字语音数据的类别、属性、特征、所属领域、是否与某个词属于同义词、是否与某个词具有相似读音，与某个词尤其是上下文词语之间是否存在关联关系等等。所述语义数据可实现对于所述数字语音数据的自动标注，得到的标注数据可为后续语音数据处理模型的调整提供数据基础，同时还能够避免人工标注所需要的人工成本。
154.在该实施方式中，所述训练模块402之后，还可包括：
155.调整模块，被配置为基于所述语义数据对于所述语音数据处理模型进行调整。
156.此时，所述处理模块403可被配置为：
157.获取待处理语音数据，利用调整后的语音数据处理模型对于所述待处理语音数据进行处理，得到数据处理结果。
158.上文提及，所述语义数据可用于对于所述数字语音数据进行自动标注，得到的标注数据可为后续语音数据处理模型的调整提供数据基础，因此，在该实施方式中，在得到所述语音数据处理模型之后，还基于所述语义数据对于所述语音数据处理模型进行调整，后续就可利用调整后的语音数据处理模型对于待处理语音数据进行处理，得到数据处理结果。
159.在该实施方式中，所述调整模块可被配置为：
160.利用所述语义数据对于所述数字语音数据进行标注，得到所述数字语音数据对应的标注数据；
161.将所述数字语音数据作为所述语音数据处理模型的输入，将所述标注数据作为所述语音数据处理模型的输出，对于所述语音数据处理模型进行训练，得到调整后的语音数据处理模型。
162.上文提及，所述语义数据可用于对于所述数字语音数据进行自动标注，得到的标注数据可为后续语音数据处理模型的调整提供数据基础，因此，在该实施方式中，在基于所述语义数据对于所述语音数据处理模型进行调整时，首先利用所述语义数据对于所述数字语音数据进行标注，得到所述数字语音数据对应的标注数据；然后将所述数字语音数据作为所述语音数据处理模型的输入，将所述标注数据作为所述语音数据处理模型的输出，对于所述语音数据处理模型进行再次训练，得到的语音数据处理模型即为调整后的语音数据处理模型。
163.由于所述语义数据包括所述数字语音数据的类别、属性、特征、所属领域、是否与某个词属于同义词、是否与某个词具有相似读音，与某个词尤其是上下文词语之间是否存在关联关系等数据，因此，将所述语义数据作为所述数字语音数据的标注数据对于所述语
音数据处理模型进行再次训练，可消除待处理语音数据中方言、口音、发音错误等情况导致的语音误判，帮助下游语音处理任务进行语义理解，提高下游语音处理任务的泛化性，提高用于完成所述下游语音处理任务的语音数据处理模型的准确性，提升所述语音数据处理模型的处理性能。
164.需要说明的是，所述语音数据处理模型可用于多种下游任务，也就是说，所述语音数据处理模型根据实际应用的需要而不同，比如借助对应不同下游任务的损失函数，所述语音数据处理模型可实现为语音识别模型、语音语义理解模型、语音转译模型、语音唤醒模型、声纹识别模型等等，此时，所述预训练初始模型和数据处理初始模型均可根据最终下游任务实现的目的来确定。
165.本公开实施例还公开了一种电子设备，所述电子设备包括存储器和处理器；其中，
166.所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方法步骤。
167.图5是适于用来实现根据本公开一实施方式的数据处理方法的计算机系统的结构示意图。
168.如图5所示，计算机系统500包括处理单元501，其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行上述实施方式中的各种处理。在ram503中，还存储有系统500操作所需的各种程序和数据。处理单元501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
169.以下部件连接至i/o接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。其中，所述处理单元501可实现为cpu、gpu、tpu、fpga、npu等处理单元。
170.特别地，根据本公开的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行所述数据处理方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。
171.附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指
令的组合来实现。
172.描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
173.作为另一方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开实施例的方法。
174.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种从机的编码方法、装置及电子设备与流程

数据处理方法、装置、电子设备及计算机可读存储介质与流程

相关文献

最热文献