一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

阅读理解候选选项个数不确定时的训练方法、装置及系统与流程

2022-03-05 02:12:35 来源:中国专利 TAG:


1.本发明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种阅读理解候选选项个数不确定时的训练方法、装置及系统。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
3.在医疗场景下,我们需要根据特定文书回答不同问题,而不同问题对应着若干个候选选项,这是一种典型的选择题阅读理解任务。在该任务中,我们需要根据一篇参考文章和一个相关问题,从若干个选项中,选择一个作为正确答案,如图1所示。
4.上述情况是,现有的选择题类型阅读理解模型能够处理固定选项个数的问题。而在实际应用场景中,一个问题的选项个数可能不一样,则原有模型只能在选项个数相同的一类数据上训练。如图2所示,在第一个问题训练的模型,无法将第二个问题加入训练。
5.基于上述问题,我们亟需一种新的训练方式,用于解决选项个数不一致场景下的选择题型阅读理解模型训练。


技术实现要素:

6.本说明书一个或多个实施例描述了一种基于多任务的医疗阅读理解候选选项个数不确定时的训练方法、装置及系统,解决医疗阅读理解场景下候选选项个数不确定时的阅读理解模型训练。
7.本说明书一个或多个实施例提供的技术方案如下:
8.第一方面,本发明提供了一种阅读理解候选选项个数不确定时的训练方法,所述方法包括:
9.将至少一篇阅读理解样本作为训练集,并将所述训练集划分为至少一个子任务,将答案候选选项个数相同的问题划分到同一子任务中,组成新训练集;
10.从新训练集中选取任一子任务中的一批次阅读理解的问题样本,作为模型训练的输入数据;
11.对输入的输入数据进行多次训练,直至模型收敛。
12.优选地,所述选取新训练集中任一子任务中的一批次问题,作为模型训练的输入数据,具体为:
13.从新任务集中,选取任一子任务;
14.从选取的子任务中选择一批次问题样本,作为模型训练的输入数据。
15.优选地,所述对输入的输入数据进行多次训练,直至模型收敛,具体为:
16.将输入数据,输入到共享层,进行语义编码,生成该批次问题样本的表示;
17.基于生成的问题样本表示,激活子任务层,并前向计算损失;其中,激活的子任务层为输入数据所属的子任务中的答案候选选项个数对应的子任务层;
18.基于损失,反向传播,并更新对应的子任务层和共享层的参数值;
19.重复上述过程,直至模型收敛。
20.进一步优选地,所述共享层为阅读理解中使用预训练语言训练号的编码器。
21.第二方面,本发明提供了阅读理解候选选项个数不确定时的训练装置,所述装置包括:
22.任务分组器,用于将训练集划分为至少一个子任务,并将答案候选选项个数相同的问题划分到同一个子任务中,组成新训练集;其中,所述训练集由至少一个阅读理解样本组成;
23.多任务采样器,用于在所述子任务集中选择任一子任务,并从该子任务中选择一批阅读理解的问题样本作为模型训练的输入数据;
24.模型训练模块,用于对输入的输入数据进行多次训练,直至模型收敛。
25.优选地,所述多任务采样器包括:
26.第一采样器,用于在所述子任务集中选择任一子任务;
27.第二采样器,用于在选择的子任务中选择一批阅读理解的问题样本作为模型训练的输入数据。
28.进一步优选地,所述模型训练模块包括:
29.编码单元,用于将输入数据,输入到共享层,进行语义编码,生成该批次问题样本的表示;
30.计算单元,用于基于生成的问题样本表示,激活子任务层,并前向计算损失;其中,激活的子任务层为输入数据所属的子任务中的答案候选选项个数对应的子任务层;
31.反向传播单元,用于基于所述损失,反向传播,并更新对应的子任务层和共享层的参数值。
32.第三方面,本发明提供了阅读理解候选选项个数不确定时的训练系统,该系统包括至少一个处理器和存储器;
33.所述存储器,用于存储一个或多个程序指令;
34.所述处理器,用于运行一个或多个程序指令,用以执行如第一方面中一个或多个所述的方法。
35.第四方面,本发明提供了一种芯片,所述芯片与系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如第一方面中一个或多个所述的方法。
36.第五方面,本发明 提供了一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如第三方面所述的系统执行,以实现如第一方面中一个或多个所述的方法。
37.本发明实施例提供的技术方案,可以解决现有技术存在的问题:
38.1、本系统提出了使用多任务视角在一个模型中解决选择题阅读理解任务中选项个数不同的问题。
39.2、在不影响性能的情况下,将m个模型变为单个模型,并且单个模型的大小远小于
m个模型。
40.3、不同选项个数的数据可以在一个模型中互相学习,从而降低整体数据的标注量。
附图说明
41.图1为问题和候选答案对应情况示意图一;
42.图2为问题和候选答案对应情况示意图二;
43.图3为阅读理解候选选项个数不确定时的训练方法流程示意图;
44.图4为多任务采样的流程示意图;
45.图5为模型收敛流程示意图;
46.图6为本发明实施例提供的训练方式架构示意图;
47.图7阅读理解候选选项个数不确定时的训练装置结构示意图;
48.图8为多任务采样器结构示意图;
49.图9为模型训练模块结构示意图;
50.图10为阅读理解候选选项个数不确定时的训练系统结构示意图。
具体实施方式
51.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
52.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
53.为解决医疗阅读理解场景下候选选项个数不确定时的阅读理解模型训练,本发明提出了使用多任务视角在一个模型中解决选择题阅读理解任务中选项个数不同的问题,具体实施步骤如下:
54.图3示出了阅读理解候选选项个数不确定时的训练方法流程示意图,如图3所示,本发明提供的方法包括以下步骤:
55.步骤s10,将至少一篇阅读理解样本作为训练集,并将所述训练集划分为至少一个子任务,将答案候选选项个数相同的问题划分到同一子任务中,组成新训练集。
56.步骤s20,从新训练集中选取任一子任务中的一批次阅读理解的问题样本,作为模型训练的输入数据。
57.在一个示例中,在该过程中,采取的是多任务采样的方式,如图4所示,主要包括以下步骤s201-s202:
58.步骤s201,从新任务集中,选取任一子任务。
59.步骤s202,从选取的子任务中选择一批次问题样本,作为模型训练的输入数据。
60.步骤s30,对输入的输入数据进行多次训练,直至模型收敛。
61.在另一个示例中,如图5所示,在该过程中,通过以下步骤实现的:
62.步骤s301,将输入数据,输入到共享层,进行语义编码,生成该批次问题样本的表示。
63.优选地,所述共享层为阅读理解中使用预训练语言训练号的编码器。
64.步骤s302,基于生成的问题样本表示,激活子任务层,并前向计算损失;其中,激活的子任务层为输入数据所属的子任务中的答案候选选项个数对应的子任务层。
65.步骤s303,基于损失,反向传播,并更新对应的子任务层和共享层的参数值。
66.步骤s304,重复步骤s301-s303,直至模型收敛。
67.图6是架构示意图,下面结合图6来详细说明本发明技术方案的具体流程,如图6所示,本发明阅读理解候选选项个数不确定时的训练方法主要包括三个步骤:
68.(一)任务分组:
69.设计一个任务分组器,假设训练集为d={d1,d2...dn},其中,di={p,q,ok}为第i个样本,p为篇章,q为对应问题,ok是第k个选项。在这一步,我们要将训练集划分为m个子任务,将选项个数相同的数据划分到同一个子任务中,则组成新训练集d={t1,t2,...,tm}。
70.(二)多任务采样:
71.在原来的训练方式中,每次采样一批次数据输入模型,而在当前模型,我们采用了多任务采样的方式,设计一个多任务采样器,将采样分为两个子步骤:
72.(1)先从一个任务集d中,随机选择一个子任务tc:
73.tc=random_pick_one(d)
74.(2)从子任务中选择一批次数据,作为当前模型的输入b:
75.b={d1,...db},di∈tc76.其中,b为批次个数。
77.(三)模型训练:
78.该模型是一个多任务阅读理解模型,多个子任务共享一个共享层生成编码,而每个子任务独享一个输出层用来拟合当前子任务的信息。
79.(1)将当前子任务的输入数据b,输入到共享层,进行语义编码,生成该批次样本的表示,在阅读理解中一般使用预训练语言训练好的编码器作为共享层:
80.ec=share_layer(b)
81.(2)假设当前输入数据b所属的子任务的选项个数为s个,那则激活第s个子任务层,前向计算损失。
82.ls=output_layer(e
83.(3)最后,反向传播,更新对应第s个子任务层的参数和共享层的参数值。
84.(4)依次循环,直至模型收敛。
85.本发明提供的方法,使用多任务视角在一个模型中解决选择题阅读理解任务中选项个数不同的问题。在不影响性能的情况下,将多个模型变为单个模型,并且单个模型的大小远小于多个模型,并且不同选项个数的数据可以在一个模型中互相学习,从而降低整体数据的标注量。
86.与上述实施例方法对应的,本发明还提供了阅读理解候选选项个数不确定时的训练装置,如图7所示,该装置包括:
87.任务分组器1,用于将训练集划分为至少一个子任务,并将答案候选选项个数相同的问题划分到同一个子任务中,组成新训练集;其中,所述训练集由至少一个阅读理解样本组成;
88.多任务采样器2,用于在所述子任务集中选择任一子任务,并从该子任务中选择一批阅读理解的问题样本作为模型训练的输入数据。
89.在一个示例中,如果8所示,多任务采样器2包括第一采样器21和第二采样器22,具体的:
90.所述第一采样器21,用于在所述子任务集中选择任一子任务。
91.第二采样器22,用于在选择的子任务中选择一批阅读理解的问题样本作为模型训练的输入数据。
92.模型训练模块3,用于对输入的输入数据进行多次训练,直至模型收敛。
93.在另一个示例中,如图9所示,模型训练模块3包括:编辑单元31、计算单元32、反向传播单元33和收敛单元34,具体的:
94.编码单元31,用于将输入数据,输入到共享层,进行语义编码,生成该批次问题样本的表示。
95.计算单元32,用于基于生成的问题样本表示,激活子任务层,并前向计算损失;其中,激活的子任务层为输入数据所属的子任务中的答案候选选项个数对应的子任务层。
96.反向传播单元33,用于基于所述损失,反向传播,并更新对应的子任务层和共享层的参数值。
97.收敛单元34,用于重复训练,直至模型收敛。
98.本发明实施例提供的装置中各部件所执行的功能均已在上述方法中做了详细介绍,因此这里不做过多赘述。
99.与上述实施例相对应的,本发明实施例还提供了一种阅读理解候选选项个数不确定时的训练系统,具体如图10所示,该系统包括至少一个处理器101和存储器102;
100.存储器101,用于存储一个或多个程序指令;
101.处理器102,用于运行一个或多个程序指令,执行如上述实施例所介绍的一种人脸图像质量评分标注方法中的任一方法步骤。
102.与上述实施例相对应的,本发明实施例还提供了一种芯片,该芯片与上述系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如上述实施例所介绍的阅读理解候选选项个数不确定时的训练方法。
103.与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包括一个或多个程序,其中,一个或多个程序指令用于被阅读理解候选选项个数不确定时的训练系统执行如上介绍的阅读理解候选选项个数不确定时的训练方法。
104.本技术提供的方案,使用多任务视角在一个模型中解决了选择题阅读理解任务中选项个数不同的问题。
105.专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
106.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的
软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
107.以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献