一种基于私有参数的语音识别联邦学习方法和系统

2022-07-22 21:58:06 来源：中国专利 TAG：

1.本技术实施例涉及语音识别领域，具体涉及一种基于私有参数的语音识别联邦学习方法和系统。

背景技术：

2.语音识别模型可以实现将语音转化为文本的功能，传统的中心式智能语音系统需要将所有客户端语音样本汇总到中心端进行中心化训练。然而，在中心化训练范式中，由于需要将客户语音样本外传至中心端，这一过程中有可能造成数据的泄漏从而导致对数据信息安全的威胁。
3.联邦学习方法通过在客户端和中心端间传递非原始数据的方法可以实现在语音样本不外传至中心端的前提下利用所有客户端语音样本进行联邦学习。在现实场景中，通常每个客户端的语音数据分布存在差异，但现有的用于语音识别的联邦学习方法通常没有考虑每个客户端的分布差异问题。

技术实现要素：

4.本技术实施例的目的是根据每个客户端的分布差异有效提升语音识别模型性能以降低错误识别率。
5.为实现上述目的，第一方面，本技术实施例提供了一种基于私有参数的语音识别联邦学习方法，应用于中心端，所述方法包括：利用本地有标注语音样本进行有监督地训练语音识别模型，获得所述语音识别模型的种子模型；根据所述种子模型确定第一私有参数与第一共享参数；根据多个第二共享参数更新所述第一共享参数；所述多个第二共享参数由多个客户端上传得到；将更新后的所述第一共享参数传递至所述多个客户端中每个客户端。
6.作为一个可行的实施方式，所述利用本地有标注语音样本进行有监督地训练语音识别模型，包括：以有标注语音样本为输入，以第一损失函数为学习目标，对所述语音识别模型进行有监督训练，所述第一损失函数为：
[0007][0008]
其中，x为所述有标注语音样本，y为所述有标注语音样本对应的文本标注，p(x)为所述有标注语音样本的分布函数，θ
t
为第t次训练迭代时的模型参数，分为第一私有参数与第一共享参数；a(
·
)为频谱数据增强函数。
[0009]
作为一个可行的实施方式，所述根据所述种子模型确定第一私有参数与第一共享参数，包括：将所述种子模型中的所有归一化层的参数作为第一私有参数，其它层的参数作为第一共享参数；或将所述种子模型中的部分底层参数作为第一私有参数，其它参数作为第一共享参数。
[0010]
作为一个可行的实施方式，所述根据多个第二共享参数更新所述第一共享参数，包括：根据多个客户端中每个客户端上传的参数确定平均参数值；根据所述平均参数值更
新所述第一共享参数。
[0011]
本技术实施例提供了一种基于私有参数的语音识别联邦学习方法，应用于客户端，所述方法包括：获得语音识别模型的种子模型；所述种子模型是由中心端下传的训练好的种子模型；使用本地的语音样本对所述种子模型进行半监督训练，确定第二私有参数与第二共享参数；将所述第二私有参数保留在客户端本地，将所述第二共享参数上传至所述中心端；根据第一共享参数更新所述语音识别模型的模型参数，得到训练好的语音识别模型，所述第一共享参数为所述中心端下传的、根据多个客户端中每个客户端的第二共享参数更新的参数。
[0012]
作为一个可行的实施方式，所述使用本地的语音样本对所述种子模型进行半监督训练，包括：以所述本地的语音样本为输入，以第二损失函数为学习目标，对所述语音识别模型进行半监督训练，所述第二损失函数为：
[0013][0014]
其中，x1为所述本地的语音样本，y1为伪标签。
[0015]
作为一个可行的实施方式，所述伪标签为：
[0016][0017]
其中，为第t次训练迭代时的教师模型参数，第二私有参数和第二共享参数。
[0018]
作为一个可行的实施方式，所述教师模型参数的取值为第t次迭代次的学生模型参数和前一次教师模型参数的指数滑动平均值：
[0019][0020]
其中，模型参数为第t次训练迭代时的学生模型参数，α为衰减系数。
[0021]
第二方面，本技术实施例提供了一种基于私有参数的语音识别联邦学习系统，其特征在于，所述系统包括：中心端，用于利用本地有标注语音样本进行有监督地训练语音识别模型，获得所述语音识别模型的种子模型；根据所述种子模型确定第一私有参数与第一共享参数；根据多个第二共享参数更新所述第一共享参数；所述多个第二共享参数由多个客户端上传得到；将更新后的所述第一共享参数传递至所述多个客户端中每个客户端；多个客户端，所述多个客户端中的每一个客户端用于获得语音识别模型的种子模型；所述种子模型是由中心端下传的训练好的种子模型；使用本地的语音样本对所述种子模型进行半监督训练，确定第二私有参数与第二共享参数；将所述第二私有参数保留在客户端本地，将所述第二共享参数上传至所述中心端；根据第一共享参数更新所述语音识别模型的模型参数，得到训练好的语音识别模型，所述第一共享参数为所述中心端下传的、根据多个客户端中每个客户端的第二共享参数更新的参数。
[0022]
本技术实施例利用模型中的私有参数实现对每个客户端的个性化建模，从而可以通过一次训练产生针对多个客户端的个性化语音识别模型，有效提升语音识别模型在每个客户端的性能。
附图说明
[0023]
为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0024]
图1为本技术实施例提出的语音识别模型示意图；
[0025]
图2为本技术实施例的基于私有参数的语音识别联邦学习系统的架构图；
[0026]
图3为本技术实施例提出的基于私有参数的语音识别联邦学习方法的学习场景示意图；
[0027]
图4为本技术实施例提出的基于私有参数的语音识别联邦学习方法流程图。
具体实施方式
[0028]
为了使本技术实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本技术实施例中的技术方案进行描述。
[0029]
在本技术实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
[0030]
在本技术实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，单独存在b，同时存在a和b这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个终端是指两个或两个以上的终端。
[0031]
此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0032]
在以下的描述中，所涉及的表示步骤的标号，如s110、s120
……
等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。
[0033]
除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
[0034]
本技术实施例提出一种基于私有参数的语音识别联邦学习方法，通过在中心端利用中心端的有标注语音样本有监督训练一个语音识别模型；将语音识别模型的参数划分为私有参数与共享参数；在每个客户端使用该客户端的语音样本对语音识别模型进行一轮半监督训练；在每个客户端完成一轮半监督训练后，将私有参数保留在客户端本地，将共享参数上传至中心端进行参数汇聚后再返还客户端；在客户端更新共享参数，得到个性化语音识别模型10。
[0035]
图1为本技术实施例提出的基于私有参数的语音识别模型10示意图。如图1所示，该语音识别模型10包括私有参数和共享参数。
[0036]
本技术实施例提出的语音识别模型可应用于客户端，该客户端可以是智能终端、智能家居、智能安防、自动驾驶等领域智能设备，在智能手机、音箱、智能车载终端(electronic control unit,ecu)等客户端上提供语音用户界面(vui)，并将用户输入的语音信息转化为文本。
[0037]
示例性地，智能设备包括智能电视、智能音箱、机器人、智能空调、智能烟雾警报器、智能灭火器、智能车载终端、手机、平板、笔记本电脑、台式电脑、一体机等。
[0038]
图2为本技术实施例的基于私有参数的语音识别个性化联邦学习方法的系统的架构图。如图2所示，该系统包括一个中心端21和多个客户端22，通过一个中心端21和多个客户端22的联邦学习产生针对多个客户端中每一个客户端的个性化的语音识别模型，有效提升语音识别模型性能。
[0039]
图3为本技术实施例提出的基于私有参数的语音识别联邦学习方法的学习场景示意图。如图3所示，在该学习场景中，包括中心端21和客户端22。
[0040]
中心端21利用本地有标注语音样本进行有监督地训练语音识别模型，获得语音识别模型的种子模型；根据种子模型确定第一私有参数与第一共享参数；根据多个第二共享参数更新第一共享参数；多个第二共享参数由多个客户端上传得到；将更新后的第一共享参数传递至多个客户端中每个客户端22。
[0041]
多个客户端中每个客户端22获得语音识别模型的种子模型；种子模型是由中心端21下传的训练好的种子模型；使用本地的语音样本对种子模型进行半监督训练，确定第二私有参数与第二共享参数；将第二私有参数保留在客户端本地，将第二共享参数上传至中心端21；根据第一共享参数更新语音识别模型的模型参数，得到训练好的语音识别模型，第一共享参数为中心端21下传的、根据多个客户端中每个客户端22的第二共享参数更新的参数。
[0042]
图4为本技术实施例提出的基于私有参数的语音识别联邦学习方法流程图。如图4所示，该流程包括以下步骤101-107。
[0043]
步骤101：中心端利用本地的有标注语音样本有监督训练语音识别模型，获得该语音识别模型的种子模型。
[0044]
在一个可以实现的实施方式中，中心端可以将本地训练集中任意一个或多个有标注语音样本输入语音识别模型10进行有监督训练，计算连接主义时间分类损失的值：
[0045][0046]
其中，x为本地有标注的语音样本，y为对应的文本标注，p(x)为该语音样本的分布函数，θ
t
为第t次训练迭代时的模型参数，a(
·
)为频谱数据增强方法。可以将记为第一损失函数值。
[0047]
当第一损失函数值达到或小于设定的阈值时，或达到设定的迭代次数t时，结束训练，获得该语音识别模型10的种子模型，该种子模型的模型参数为θ
t
。
[0048]
步骤102：根据该种子模型确定私有参数和共享参数可以将私有参数记为第一私有参数，将共享参数记为第一共享参数。
[0049]
在一个可以实现的实施方式中，可以将语音识别模型的种子模型的模型参数θ
t
划分为私有参数和共享参数
[0050]
在一个可以实现的实施方式中，可以将种子模型中的所有归一化层划为第一私有参数，其它层参数划为第一共享参数。
[0051]
在一个可以实现的实施方式中，可以将种子模型中的部分底层参数作为第一私有参数，其它参数作为第一共享参数。
[0052]
步骤103：中心端将训练好的种子模型下传至多个客户端中的每个客户端。
[0053]
在一个可以实现的实施方式中，多个客户端中的每个客户端获得语音识别模型的种子模型；该种子模型是由中心端下传的训练好的种子模型。
[0054]
步骤104：多个客户端22中的每个客户端使用本地个性化训练集中的语音样本对语音识别模型的种子模型进行半监督训练，确定语音识别模型的第二私有参数和第二共享参数。
[0055]
在一个可以实现的实施方式中，客户端22可以将本地个性化训练集中任意语音样本x1输入语音识别模型10的种子模型，输出伪标签y1，在此过程中计算连接主义时间分类损失的值：
[0056][0057]
与步骤101不同的是，式(2)中，语音样本x1对应的文本标注y不可得，因此，使用伪标签作为替代，该伪标签的生成方式为：
[0058][0059]
式(3)中，为第t次训练迭代时的教师模型参数，其取值为第t次迭代次的学生模型参数和前一次教师模型参数的指数滑动平均值：
[0060][0061]
式(4)中，模型参数θ
t
为第t次训练迭代时的学生模型参数，包括第二私有参数和第二共享参数；α为衰减系数，在本专利中取常数0.99。可以将记为第二损失函数值。
[0062]
步骤105，在每个客户端22完成一轮半监督训练后，将第二私有参数保留在客户端本地，将第二共享参数上传至中心端21。
[0063]
可以理解的是，一轮包含多次迭代，每次迭代是从训练集中挑选一些样本进行训练，这个挑选是不重复的，一轮训练指的是将整个训练集都利用了一次。
[0064]
步骤106，中心端21根据多个第二共享参数更新第一共享参数；其中多个第二共享参数由多个客户端上传得到；将更新后的第一共享参数发送至多个客户端中每个客户端。
[0065]
在一个可以实现的实施方式中，中心端21将多个客户端22提供的多个第二共享参数汇聚更新第一共享参数，将更新后的第一共享参数下传至每个客户端22。
[0066]
在一个可以实现的实施方式中，中心端21可以通过计算获得每个客户端22的第二共享参数的平均值，使用第二共享参数的平均值更新第一共享参数。
[0067]
将上述步骤103-步骤106迭代重复训练多次，使用训练好的语音识别模型的参数
更新第一共享参数。
[0068]
步骤107，多个客户端中每个客户端根据第一共享参数更新语音识别模型的模型参数，得到训练好的语音识别模型，其中第一共享参数为中心端下传的、根据多个客户端中每个客户端的第二共享参数更新的参数。
[0069]
基于本技术实施例的语音识别系统的合理性和有效性已经在实际系统上得到了验证，在实验验证中，中心端有标注语音样本包括不同风格的共计6919小时英语语音，共有三个客户端，每个客户端包含100小时额外的口音英语语音，三个客户端的口音分别为澳大利亚口音、英国口音和印度口音。实验平台采用显卡v100，核心频率5012mhz，显存3*32gb，主机配备440gb内存，cpu采用2.70ghz。
[0070]
由于在步骤102中，划分私有参数的方法包含两种：一、将模型中的所有归一化层作为私有参数；二、将模型中的部分底层参数作为私有参数。因此，在下边将这两种方法分别称为“本技术实施例一”和“本技术实施例二”。如表1所示。
[0071]
表1
[0072][0073]
实验结果见表1，可以看出，本技术实施例的方法能够有效降低错误识别率。
[0074]
本技术实施例利用模型中的私有参数实现对每个客户端的个性化建模，从而可以通过一次训练产生针对多个客户端的个性化语音识别模型，有效提升语音识别模型在每个客户端的性能。
[0075]
本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0076]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0077]
以上所述的具体实施方式，对本技术实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本技术实施例的具体实施方式而已，并不用于限定本技术实施例的保护范围，凡在本技术实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术实施例的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：检测采集的声音一致性的方法、系统、设备和存储介质与流程

一种基于私有参数的语音识别联邦学习方法和系统

相关文献

最热文献