一种模型迁移方法及装置与流程

2022-11-30 10:05:42 来源：中国专利 TAG：

1.本技术涉及语言处理的技术领域，特别是涉及一种模型迁移方法及装置。

背景技术：

2.多任务学习可以通过挖掘多个目标任务之间存在的关联关系，使不同任务相互辅助学习，从而得到效果更好、更鲁棒的模型。而小样本学习可以应用在一些数据和标注资源受限的场景下，对模型进行性能优化。近年来，随着预训练模型的发展，基于统一范式的多任务小样本学习任务逐渐兴起，主要解决任务之间共同训练时存在的妥协问题，以及在下游小样本任务迁移时存在的共享模型参数部分迁移问题。
3.现有多任务小样本学习任务中，不同任务之间只能共享一部分模型参数，对于每个任务完成相应目标的任务特定模块是无法共享的。在零样本迁移过程中，无法共享的数据很难完成迁移；在小样本迁移中，需要重新训练需要共享的数据，迁移效果差。
4.因此，如何提供一种提高模型小样本迁移和零样本迁移效果的方法，是本领域技术人员亟需解决的技术问题。

技术实现要素：

5.有鉴于此，本技术实施例提供了一种模型迁移方法及装置，旨在提高模型小样本迁移和零样本迁移的效果。
6.第一方面，本技术实施例提供了一种模型迁移方法，包括：
7.将语言处理任务集合转换为预设格式，所述语言处理任务集合包括多个语言处理任务，所述语言处理任务包括输入内容和输出内容；
8.对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型；
9.将待处理任务转换为预设格式，所述待处理任务包括待处理输入内容和待处理输出内容；
10.将所述统一生成式模型迁移至所述待处理任务，得到可处理模型。
11.可选的，所述语言处理任务包括文本分类任务、意图识别任务、情感分析任务、文本相似度任务、自然语言推断任务、命名实体识别任务、关键词抽取任务、抽取式机器阅读理解任务、多选型阅读理解任务和指代消解任务。
12.可选的，所述将语言处理任务集合转换为预设格式，包括：
13.将所述语言处理任务集合中每一个语言处理任务的输入内容转换为指令格式；
14.将所述语言处理任务集合中每一个语言处理任务的输出内容转换为指令结果格式。
15.可选的，所述对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型，包括：
16.基于序列到序列模型，对所述转换为预设格式的语言处理任务集合进行大任务预
训练，得到所述语言处理任务的统一生成式模型。
17.可选的，所述将待处理任务转换为预设格式，包括：
18.将所述待处理输入内容转换为所述指令格式；
19.将所述待处理输出内容转换为所述指令结果格式。
20.可选的，所述将所述统一生成式模型迁移至所述待处理任务，得到可处理模型包括：
21.基于所述统一生成式模型训练所述待处理任务，得到可处理模型。
22.第二方面，本技术实施例提供了一种模型迁移装置，包括：
23.第一转换模块，用于将语言处理任务集合转换为预设格式，所述语言处理任务集合包括多个语言处理任务，所述语言处理任务包括输入内容和输出内容；
24.大任务预训练模块，用于对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型；
25.第二转换模块，用于将待处理任务转换为预设格式，所述待处理任务包括待处理输入内容和待处理输出内容；
26.迁移模块，用于将所述统一生成式模型迁移至所述待处理任务，得到可处理模型。
27.可选的，所述第一转换模块，包括：
28.第一转换单元，用于将所述语言处理任务集合中每一个语言处理任务的输入内容转换为指令格式；
29.第二转换单元，用于将所述语言处理任务集合中每一个语言处理任务的输出内容转换为指令结果格式。
30.第三方面，本技术实施例提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行前述第一方面任一项所述的模型迁移方法。
31.第四方面，本技术实施例提供了一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面任一项所述的模型迁移方法。
32.本技术实施例提供了一种模型迁移方法及装置，在执行所述方法时，先将语言处理任务集合转换为预设格式，后对所述转换为预设格式的语言处理任务集合进行大任务预训练，再将待处理任务转换为预设格式，最后将所述统一生成式模型迁移至所述待处理任务，得到可处理模型，以提高模型小样本迁移和零样本迁移效果。这样，将任务信息转化为预设格式，使所有的任务信息都可以共享，有效地解决了多任务学习过程中相互妥协的问题，可以使多个任务结果同时达到最优效果。再采用大任务预训练的模式，在小样本迁移过程中无需引入新的参数，通过设置相同的预设格式，将待处理任务转换为模型可以直接处理的格式进行小样本迁移，优化待处理任务的冷启动，可以在下游小样本迁移任务上取得更好的效果。
附图说明
33.为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的
一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
34.图1为本技术实施例提供的模型迁移方法的一种方法流程图；
35.图2为本技术实施例提供的模型迁移方法的另一种方法流程图；
36.图3为本技术实施例提供的模型迁移装置的一种结构示意图。
具体实施方式
37.多任务小样本学习任务中，不同任务之间只能共享一部分模型参数，对于每个任务完成相应目标的任务特定模块是无法共享的。在零样本迁移过程中，无法共享的数据很难完成迁移。在小样本迁移中，需要重新训练需要共享的数据，迁移效果差。
38.本技术实施例提供的方法由计算机设备执行，用于提高模型小样本迁移和零样本迁移效果。
39.显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
40.参见图1，图1为本技术实施例提供的模型迁移方法的一种方法流程图，包括：
41.步骤s101：将语言处理任务集合转换为预设格式。
42.语言处理任务集合包括多个语言处理任务，每个语言处理任务都是包括输入内容和输出内容语句分析任务。将语言处理任务转换为预设格式，可以便于对所有任务进行同时建模，使所有的任务信息转化为都可以共享的格式，有效地解决了多任务学习过程中相互妥协的问题，可以使多个任务结果同时达到最优效果。
43.步骤s102：对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型。
44.大任务预训练是一种迁移学习的应用，利用几乎无限的文本，学习输入句子的每一个成员的上下文相关的表示，隐式地学习到通用的语法语义知识，可以将从开放领域学到的知识迁移到下游任务，以改善低资源任务，便于低资源语言处理。
45.生成式大任务预训练的核心想法是学习如何产生数据。生成式大任务预训练的目标是学到高维数据的在低维空间的一个有效表示。因此这个过程通常会约束模型将数据映射到一个低维的特征空间。
46.因此，对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型，可以得到每个语言处理任务输入内容到输出内容的有效表示。具体的，可以通过输出内容对预测输出内容进行多次训练，直至预测输出内容的准确程度达到理想状态。
47.步骤s103：将待处理任务转换为预设格式。
48.待处理任务也是包括待处理输入内容和待处理输出内容的语句分析任务。将待处理任务转换为预设格式，即将待处理任务中的待处理输入内容转换为和步骤s101相同预设格式，使得迁移过程中无需引入新的参数，通过设置相同的预设格式，将待处理任务转换为模型可以直接处理的格式进行小样本迁移，优化待处理任务的冷启动，可以在下游小样本迁移任务上取得更好的效果。
49.步骤s104：将所述统一生成式模型迁移至所述待处理任务，得到可处理模型。
50.统一生成式模型包括与待处理任务匹配的模型。例如，若待处理任务为保险场景意图识别，则与意图识别任务匹配。因为统一生成式模型是已经经过训练的模型，根据输入内容可以得到准确率较高的输出内容，而待处理任务的格式与统一生成式模型中与待处理任务匹配的模型的输入格式相同，所以，在样本迁移时，可以将统一生成式模型迁移至所述待处理任务，得到较为准确的可处理模型。
51.综上所述，本实施例通过将任务信息转化为预设格式，使所有的任务信息都可以共享，有效地解决了多任务学习过程中相互妥协的问题，可以使多个任务结果同时达到最优效果。再采用大任务预训练的模式，在小样本迁移过程中无需引入新的参数，通过设置相同的预设格式，将待处理任务转换为模型可以直接处理的格式进行小样本迁移，优化待处理任务的冷启动，可以在下游小样本迁移任务上取得更好的效果。
52.在本技术实施例中，上述图1所述的步骤存在多种可能的实现方式，下面分别进行介绍。需要说明的是，下文介绍中给出的实现方式仅作为示例性的说明，并不代表本技术实施例的全部实现方式。
53.参见图2，该图为本技术实施例提供的模型迁移方法的另一种方法流程图，包括：
54.步骤s201：将语言处理任务集合转换为预设格式。
55.作为一种可能的实施方式，语言处理任务包括文本分类任务、意图识别任务、情感分析任务、文本相似度任务、自然语言推断任务、命名实体识别任务、关键词抽取任务、抽取式机器阅读理解任务、多选型阅读理解任务和指代消解任务。
56.作为优选，将所述语言处理任务集合中每一个语言处理任务的输入内容转换为指令格式；将所述语言处理任务集合中每一个语言处理任务的输出内容转换为指令结果格式。
57.下面针对不同的语言处理任务的格式转换进行举例：
58.例一：某一语言处理任务为文本分类任务，输入内容为“俄罗斯的工程兵建造能力真心不弱：从北极到海外座座基地拔地而起”，输出内容为“军事”。将其转换为预设格式后，输入内容为“指令－【俄罗斯的工程兵建造能力真心不弱：从北极到海外座座基地拔地而起】这段文本描述的是关于什么的内容？餐饮、军事、娱乐、金融还是科技？”，输出内容为“军事”。
59.例二：某一语言处理任务为意图识别任务，输入内容为“给我导航云南省昆明市黄土坡”，输出内容为“地图导航”。将其转换为预设格式后，输入内容为“指令－【给我导航云南省昆明市黄土坡】这段文本想要传达什么样的意图？地图导航、播放音乐、播放视频还是咨询天气？”，输出内容为“地图导航”。
60.例三：某一语言处理任务为情感分析任务，输入内容为“物流小哥超快，还没有用，给个好评”，输出内容为“正面评价”。将其转换为预设格式后，输入内容为“指令－【物流小哥超快，还没有用，给个好评】这篇文章的情感态度是什么？正面评价还是负面评价？”，输出内容为“正面评价”。
61.例四：某一语言处理任务为文本相似度任务，输入内容为“句子1：您留下联系电话和姓名，稍后我们的工作人员会预计20分钟左右与您联系、句子2：我们的工作人员会在您与小二的对话结束后的一般会在20分钟左右联系您的”，输出内容为“相似”。将其转换为预
设格式后，输入内容为“指令－【您留下联系电话和姓名，稍后我们的工作人员会预计20分钟左右与您联系】和【我们的工作人员会在您与小二的对话结束后的一般会在20分钟左右联系您的】表达的意思是否相似？相似还是不相似？”，输出内容为“相似”。
62.例五：某一语言处理任务为自然语言推断任务，输入内容为“句子1：仅一上午，他这儿就有10多台大彩电被顾客高高兴兴地抱走了、句子2：他下午也营业了”，输出内容为“无关”。将其转换为预设格式后，输入内容为“指令－根据【仅一上午，他这儿就有10多台大彩电被顾客高高兴兴地抱走了】，是否可以推断出【他下午也营业了】？可以、不可以还是无法确定？”，输出内容为“无法确定”。
63.例六：某一语言处理任务为命名实体识别任务，输入内容为“温格的球队终于又踢了一场经典的比赛，2比1战胜曼联之后枪手仍然留在了夺冠集团之内”，输出内容为“{组织：曼联；人名：温格}”。将其转换为预设格式后，输入内容一为“【温格的球队终于又踢了一场经典的比赛，2比1战胜曼联之后枪手仍然留在了夺冠集团之内】这段文本中所有【组织】类型的实体有哪些？”，输出内容一为“曼联”；输入内容二为“【温格的球队终于又踢了一场经典的比赛，2比1战胜曼联之后枪手仍然留在了夺冠集团之内】这段文本中所有【人名】类型的实体有哪些？”，输出内容二为“温格”。
64.例七：某一语言处理任务为关键词抽取任务，输入内容为“只能说是聚餐圣地外婆家一个需要提前来取号的地方。”，输出内容为“外婆家”。将其转换为预设格式后，输入内容为“指令－【只能说是聚餐圣地外婆家一个需要提前来取号的地方】这段文本围绕什么方面进行了介绍？”，输出内容为“外婆家”。
65.例八：某一语言处理任务为抽取式机器阅读理解任务，输入内容为“文章：刘兴()，汉元帝第三子，昭仪冯媛所生。建昭二年(前37年)六月，汉元帝立刘兴为信都王。阳朔二年(前23年)，改封信都王刘兴为中山王。汉成帝无子，议立太子，御史大夫孔光以为《尚书》说商朝兄终弟及，中山王是元帝之子，宜为储君。汉成帝认为中山王没有才干，又是兄弟，中山王即位后，他就不能入太庙。外戚王氏与昭仪赵合德都支持定陶王刘欣为太子，故遂立刘欣。汉成帝封刘兴的舅舅冯参为宜乡侯，增加中山王万户的食邑，来安慰他。绥和元年(前8年)八月初九，中山王刘兴去世，谥号孝，子刘箕子嗣位。汉哀帝死后无子，王莽拥立刘箕子即位，是为汉平帝。太皇太后王政君立东平思王孙、桃乡顷侯子刘成都为中山王，奉孝王祭祀。问题：外戚王氏与昭仪赵合德都支持立谁为太子？”，输出内容为“陶王刘欣”。将其转换为预设格式后，输入内容为“指令－阅读文章【刘兴()，汉元帝第三子，昭仪冯媛所生。建昭二年(前37年)六月，汉元帝立刘兴为信都王。阳朔二年(前23年)，改封信都王刘兴为中山王。汉成帝无子，议立太子，御史大夫孔光以为《尚书》说商朝兄终弟及，中山王是元帝之子，宜为储君。汉成帝认为中山王没有才干，又是兄弟，中山王即位后，他就不能入太庙。外戚王氏与昭仪赵合德都支持定陶王刘欣为太子，故遂立刘欣。汉成帝封刘兴的舅舅冯参为宜乡侯，增加中山王万户的食邑，来安慰他。绥和元年(前8年)八月初九，中山王刘兴去世，谥号孝，子刘箕子嗣位。汉哀帝死后无子，王莽拥立刘箕子即位，是为汉平帝。太皇太后王政君立东平思王孙、桃乡顷侯子刘成都为中山王，奉孝王祭祀。】回答问题【外戚王氏与昭仪赵合德都支持立谁为太子？】”，输出内容为“陶王刘欣”。
66.例九：某一语言处理任务为多选型阅读理解任务，输入内容为“文章：小红，你先不要看电视了，快点儿帮妈妈到楼下的超市去买斤米，我在厨房做菜走不开，你坐电梯下去的
时候小心点儿。问题：根据这段话，妈妈。选项：[“在看电视”,“要去超市”,“正在做饭”]”，输出内容为“正在做饭”。将其转换为预设格式后，输入内容为“指令－根据文章【小红，你先不要看电视了，快点儿帮妈妈到楼下的超市去买斤米，我在厨房做菜走不开，你坐电梯下去的时候小心点儿】，请从这些选项【在看电视、要去超市、正在做饭】中选择一个作为问题【根据这段话，妈妈：】的答案”，输出内容为“正在做饭”。
[0067]
例十：某一语言处理任务为指代消解任务，输入内容为“文章：听见徐大夫声音很大地喊着说：“爸，你怎不穿棉衣？小心感冒！”又听见一个老人瓮声瓮气地回答说：“我不冷
……”
少平估计这就是他刚才在院子花坛边看见的那个翻土的老头。目标：{"span1_text":"少平","span2_text":"他"},”，输出内容为“是”。将其转换为预设格式后，输入内容为“指令－文章【听见徐大夫声音很大地喊着说：“爸，你怎不穿棉衣？小心感冒！”又听见一个老人瓮声瓮气地回答说：“我不冷
……”
少平估计这就是他刚才在院子花坛边看见的那个翻土的老头。】中【他】指的是【少平】吗？是还是不是？”，输出内容为“是”。
[0068]
步骤s202：对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型。
[0069]
作为一种可能的实施方式，可以基于序列到序列模型，对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型。
[0070]
具体的，可以先选用多语言的mt5作为模型参数初始化；再基于mt5的编码器对转为格式后的输入内容编码；继而基于mt5的解码器对输入编码结果进行解码生成解码输出；最后计算解码输出的交叉熵损失，作为损失函数重复执行此训练过程，直至所述损失函数满足预设条件。
[0071]
步骤s203：将待处理任务转换为预设格式。
[0072]
作为一种可能的实施方式，所述待处理任务可以是针对保险领域的语言处理任务。
[0073]
例如：保险场景意图候选集为{客户信息变更，投保人变更，变更车辆信息，报案信息修改，续期缴费方式变更}；待处理输入内容为“原来是按月的保险现在想变成按年的”；待处理输出内容为“续期缴费方式变更”。此时，将待处理任务转换为预设格式，可以按照步骤s201中的意图识别任务对应的预设格式对其待处理输入内容调整为“【原来是按月的保险现在想变成按年的】这段文本想要传达什么样的意图？客户信息变更、投保人变更、变更车辆信息、报案信息修改还是续期缴费方式变更？”。
[0074]
步骤s204：基于所述统一生成式模型训练所述待处理任务，得到可处理模型。
[0075]
作为一种可能的实施方式，在小样本迁移时，可以将统一生成式模型代替的mt5作为模型参数初始化，再基于序列到序列模型，训练所述待处理任务，以减少训练所需的时间，提升小样本迁移的效率和效果。
[0076]
综上所述，本实施例进一步解释了本实施例通过将任务信息转化为预设格式，大任务预训练的方法以及在小样本迁移时具体的迁移方法，不仅可以使所有的任务信息都可以共享，可以使多个任务结果同时达到最优效果，而且可以优化待处理任务的冷启动，在下游小样本迁移任务上取得更好的效果。
[0077]
以上为本技术实施例提供违约预测模型生成方法的一些具体实现方式，基于此，本技术还提供了对应的装置。下面将从功能模块化的角度对本技术实施例提供的装置进行
介绍。
[0078]
参见图3所示的模型迁移装置300的结构示意图，该装置300包括第一转换模块301、大任务预训练模块302、第二转换模块303和迁移模块304。
[0079]
第一转换模块301，用于将语言处理任务集合转换为预设格式，所述语言处理任务集合包括多个语言处理任务，所述语言处理任务包括输入内容和输出内容；
[0080]
大任务预训练模块302，用于对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型；
[0081]
第二转换模块303，用于将待处理任务转换为预设格式，所述待处理任务包括待处理输入内容和待处理输出内容；
[0082]
迁移模块304，用于将所述统一生成式模型迁移至所述待处理任务，得到可处理模型。
[0083]
作为一种可能的实施方式，所述语言处理任务包括文本分类任务、意图识别任务、情感分析任务、文本相似度任务、自然语言推断任务、命名实体识别任务、关键词抽取任务、抽取式机器阅读理解任务、多选型阅读理解任务和指代消解任务。
[0084]
作为一种可能的实施方式，所述第一转换模块301，包括：
[0085]
第一转换单元，用于将所述语言处理任务集合中每一个语言处理任务的输入内容转换为指令格式；
[0086]
第二转换单元，用于将所述语言处理任务集合中每一个语言处理任务的输出内容转换为指令结果格式。
[0087]
作为一种可能的实施方式，所述大任务预训练模块302，包括：
[0088]
序列到序列单元，用于基于序列到序列模型，对所述转换为预设格式的语言处理任务集合进行大任务预训练，得到所述语言处理任务的统一生成式模型。
[0089]
作为一种可能的实施方式，所述第二转换模块303，包括：
[0090]
第三转换单元，用于将所述待处理输入内容转换为所述指令格式；
[0091]
第四转换单元，用于将所述待处理输出内容转换为所述指令结果格式。
[0092]
作为一种可能的实施方式，所述迁移模块304，包括：
[0093]
训练单元，用于基于所述统一生成式模型训练所述待处理任务，得到可处理模型。
[0094]
本技术实施例还提供了对应的设备以及计算机存储介质，用于实现本技术实施例提供的方案。
[0095]
其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本技术任一实施例所述的模型迁移方法。
[0096]
所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本技术任一实施例所述的模型迁移方法。
[0097]
本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。
[0098]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，rom)/ram、磁碟、光盘等，包括若干指令用以
使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0099]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0100]
以上所述仅是本技术示例性的实施方式，并非用于限定本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种车辆OTA软件包的下载方法、装置、设备及介质与流程

一种模型迁移方法及装置与流程

相关文献

最热文献