一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种端到端模型训练方法、装置、计算机设备及存储介质与流程

2022-12-07 03:28:04 来源:中国专利 TAG:


1.本技术涉及人工智能的自然语言处理技术领域,尤其涉及一种适用于多中文医疗语言处理任务的端到端模型训练方法、装置、计算机设备及存储介质。


背景技术:

2.对于医疗知识的不同nlp任务,现有的训练方案都是针对不同的任务分别训练,如nlu任务利用bert类模型进行训练,文本生成任务利用gpt进行训练,ner任务基于lstm相关模型,进行训练。
3.然而,申请人发现传统的训练方式无法利用同领域内其他任务的信息,无法学习到隐藏于其他任务的医疗知识,部分样本量较少的任务如果利用bert等大模型容易造成过拟合,使得传统的多中文医疗语言处理模型的预测准确性较低。


技术实现要素:

4.本技术实施例的目的在于提出一种适用于多中文医疗语言处理任务的端到端模型训练方法、装置、计算机设备及存储介质,以解决传统的多中文医疗语言处理模型的预测准确性较低的问题。
5.为了解决上述技术问题,本技术实施例提供一种适用于多中文医疗语言处理任务的端到端模型训练方法,采用了如下所述的技术方案:
6.获取与医疗领域相对应的医疗语料数据;
7.对所述医疗语料数据进行预处理操作,得到训练语料数据;
8.对所述训练语料数据进行实体匹配操作,得到训练语料实体,其中,所述训练语料实体包括头部实体、实体关系以及尾部实体;
9.根据seq2seq框架的mt5-small模型创建初始序列模型;
10.根据所述训练语料数据、实体识别软提示以及实体识别硬提示构建实体识别训练数据;
11.将所述实体识别训练数据作为输入数据、所述训练语料实体作为标签信息对所述初始序列模型进行实体识别训练操作;
12.将所述头部实体、所述实体关系、尾部实体预测软提示以及尾部实体预测硬提示构建尾部预测训练数据;
13.将所述尾部预测训练数据作为输入数据、所述尾部实体作为标签信息对所述初始序列模型进行尾部预测训练操作;
14.将完成所述实体识别训练操作以及所述尾部预测训练操作后的原始序列模型作为目标序列模型。
15.为了解决上述技术问题,本技术实施例还提供一种适用于多中文医疗语言处理任务的端到端模型训练装置,采用了如下所述的技术方案:
16.数据获取模块,用于获取与医疗领域相对应的医疗语料数据;
17.预处理模块,用于对所述医疗语料数据进行预处理操作,得到训练语料数据;
18.实体匹配模块,用于对所述训练语料数据进行实体匹配操作,得到训练语料实体,其中,所述训练语料实体包括头部实体、实体关系以及尾部实体;
19.模型创建模块,用于根据seq2seq框架的mt5-small模型创建初始序列模型;
20.实体识别数据构建模块,用于根据所述训练语料数据、实体识别软提示以及实体识别硬提示构建实体识别训练数据;
21.实体识别训练模块,用于将所述实体识别训练数据作为输入数据、所述训练语料实体作为标签信息对所述初始序列模型进行实体识别训练操作;
22.尾部预测数据构建模块,用于将所述头部实体、所述实体关系、尾部实体预测软提示以及尾部实体预测硬提示构建尾部预测训练数据;
23.尾部预测训练模块,用于将所述尾部预测训练数据作为输入数据、所述尾部实体作为标签信息对所述初始序列模型进行尾部预测训练操作;
24.模型确认模块,用于将完成所述实体识别训练操作以及所述尾部预测训练操作后的原始序列模型作为目标序列模型。
25.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
26.包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的适用于多中文医疗语言处理任务的端到端模型训练方法的步骤。
27.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
28.所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的适用于多中文医疗语言处理任务的端到端模型训练方法的步骤。
29.本技术提供了一种适用于多中文医疗语言处理任务的端到端模型训练方法,包括:获取与医疗领域相对应的医疗语料数据;对所述医疗语料数据进行预处理操作,得到训练语料数据;对所述训练语料数据进行实体匹配操作,得到训练语料实体,其中,所述训练语料实体包括头部实体、实体关系以及尾部实体;根据seq2seq框架的mt5-small模型创建初始序列模型;根据所述训练语料数据、实体识别软提示以及实体识别硬提示构建实体识别训练数据;将所述实体识别训练数据作为输入数据、所述训练语料实体作为标签信息对所述初始序列模型进行实体识别训练操作;将所述头部实体、所述实体关系、尾部实体预测软提示以及尾部实体预测硬提示构建尾部预测训练数据;将所述尾部预测训练数据作为输入数据、所述尾部实体作为标签信息对所述初始序列模型进行尾部预测训练操作;将完成所述实体识别训练操作以及所述尾部预测训练操作后的原始序列模型作为目标序列模型。与现有技术相比,本技术根据seq2seq框架的mt5-small模型创建初始序列模型,并通过大量的医疗语料数据针对实体识别任务以及尾部预测任务进行预训练,使得预训练后的序列模型可以学习到隐藏于其他任务的医疗知识,有效提高多中文医疗语言处理任务的准确性。
附图说明
30.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
31.图1是本技术可以应用于其中的示例性系统架构图;
32.图2是本技术实施例一提供的适用于多中文医疗语言处理任务的端到端模型训练方法的实现流程图;
33.图3是本技术实施例一提供的端到端模型训练方法的另一种具体实施方式的流程图;
34.图4是图2中步骤s202的一种具体实施方式的流程图;
35.图5是本技术实施例一提供的端到端模型训练方法的再一种具体实施方式的流程图;
36.图6是图5中步骤s202的一种具体实施方式的流程图;
37.图7是本技术实施例一提供的获取语义分析模型的一种具体实施方式的流程图;
38.图8是本技术实施例二提供的适用于多中文医疗语言处理任务的端到端模型训练装置的结构示意图;
39.图9是本技术实施例二提供的适用于多中文医疗语言处理任务的端到端模型训练装置的另一种具体实施方式的结构示意图;
40.图10是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
41.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
42.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
43.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
44.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
45.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
46.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
47.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
48.需要说明的是,本技术实施例所提供的适用于多中文医疗语言处理任务的端到端模型训练方法一般由服务器/终端设备执行,相应地,适用于多中文医疗语言处理任务的端到端模型训练装置一般设置于服务器/终端设备中。
49.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
50.实施例一
51.继续参考图2,示出了本技术实施例一提供的适用于多中文医疗语言处理任务的端到端模型训练方法的实现流程图,为了便于说明,仅示出与本技术相关的部分。
52.上述的适用于多中文医疗语言处理任务的端到端模型训练方法,包括以下步骤:
53.步骤s201:获取与医疗领域相对应的医疗语料数据;
54.步骤s202:对医疗语料数据进行预处理操作,得到训练语料数据;
55.步骤s203:对训练语料数据进行实体匹配操作,得到训练语料实体,其中,训练语料实体包括头部实体、实体关系以及尾部实体;
56.步骤s204:根据seq2seq框架的mt5-small模型创建初始序列模型;
57.步骤s205:根据训练语料数据、实体识别软提示以及实体识别硬提示构建实体识别训练数据;
58.在本技术实施例中,利用一个特殊token作为soft prompt(即软提示),利用任务描述作为hard prompt(就是由具体的中文或英文词汇组成提示,它是人工可读的硬提示)的方法进行上述训练数据的创建。
59.步骤s206:将实体识别训练数据作为输入数据、训练语料实体作为标签信息对初始序列模型进行实体识别训练操作;
60.步骤s207:将头部实体、实体关系、尾部实体预测软提示以及尾部实体预测硬提示构建尾部预测训练数据;
61.步骤s208:将尾部预测训练数据作为输入数据、尾部实体作为标签信息对初始序列模型进行尾部预测训练操作;
62.步骤s209:将完成实体识别训练操作以及尾部预测训练操作后的原始序列模型作为目标序列模型。
63.在本实施例的一些可选的实现方式中,为了增强模型在生成医疗文本的准确性,我们引入了外部知识,我们为模型设计了两个步骤来增强模型对于知识的利用能力。1:知识选择(knowledge selection)训练模型,输入为文本,输出为知识图谱(kg)中与文本相关的三元组;2:知识灌输(knowledge indorsation),将从知识图谱中得到的相关知识与对话拼接共同作为模型的输入共同生成回复。
64.在本技术实施例中,提供了一种适用于多中文医疗语言处理任务的端到端模型训练方法,包括:获取与医疗领域相对应的医疗语料数据;对医疗语料数据进行预处理操作,得到训练语料数据;对训练语料数据进行实体匹配操作,得到训练语料实体,其中,训练语料实体包括头部实体、实体关系以及尾部实体;根据seq2seq框架的mt5-small模型创建初始序列模型;根据训练语料数据、实体识别软提示以及实体识别硬提示构建实体识别训练数据;将实体识别训练数据作为输入数据、训练语料实体作为标签信息对初始序列模型进行实体识别训练操作;将头部实体、实体关系、尾部实体预测软提示以及尾部实体预测硬提示构建尾部预测训练数据;将尾部预测训练数据作为输入数据、尾部实体作为标签信息对初始序列模型进行尾部预测训练操作;将完成实体识别训练操作以及尾部预测训练操作后的原始序列模型作为目标序列模型。与现有技术相比,本技术根据seq2seq框架的mt5-small模型创建初始序列模型,并通过大量的医疗语料数据针对实体识别任务以及尾部预测任务进行预训练,使得预训练后的序列模型可以学习到隐藏于其他任务的医疗知识,有效提高多中文医疗语言处理任务的准确性。
65.继续参阅图3,示出了本技术实施例一提供的端到端模型训练方法的另一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
66.在本实施例的一些可选的实现方式中,在步骤s204之后,步骤s209之前,还包括:步骤s301和步骤s302,步骤s209包括:步骤s303。
67.步骤s301:根据文章内容、文章总结软提示以及文章总结硬提示构建文章总结训练数据。
68.步骤s302:将文章总结训练数据作为输入数据、文章标题作为标签信息对初始序列模型进行文章总结训练操作。
69.步骤s303:将完成实体识别训练操作、尾部预测训练操作以及文章总结训练操作后的原始序列模型作为目标序列模型。
70.继续参阅图4,示出了图2中步骤s202的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
71.在本实施例的一些可选的实现方式中,步骤s202具体包括:步骤s401和/或步骤s402,其中:
72.步骤s401:根据jaccard相似度算法对医疗语料数据进行相似文本去重操作。
73.在本技术实施例中,jaccard相似度算法用于比较有限样本集之间的相似性与差异性。jaccard系数值越大,样本相似度越高。
74.步骤s402:根据正则匹配算法对医疗语料数据中噪声较大的文本进行删除操作,得到训练语料数据。
75.继续参阅图5,示出了本技术实施例一提供的端到端模型训练方法的再一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
76.在本实施例的一些可选的实现方式中,医疗语料数据包括携带有医疗提问信息以及医疗回答信息的医疗问答信息,在步骤s204之后,步骤s209之前,还包括:步骤s501和步骤s502,步骤s209包括:步骤s503。
77.步骤s501:根据医疗提问信息、医疗问答软提示以及医疗问答硬提示构建医疗问答训练数据。
78.步骤s502:将医疗问答训练数据作为输入数据、医疗回答信息作为标签信息对初始序列模型进行医疗问答训练操作。
79.步骤s503:将完成实体识别训练操作、尾部预测训练操作以及医疗问答训练操作后的原始序列模型作为目标序列模型。
80.继续参阅图6,示出了图5中步骤s202的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
81.在本实施例的一些可选的实现方式中,步骤s202具体包括:步骤s601、步骤s602、步骤s603、步骤s604和步骤s605,其中:
82.步骤s601:判断医疗问答信息是否存在歧义词汇;
83.步骤s602:若不存在歧义词汇,则将医疗语料数据作为训练语料数据;
84.步骤s603:若存在歧义词汇,则获取与歧义词汇上下文相关联的关联文本信息;
85.步骤s604:将关联文本信息输入至语义分析模型进行词义识别操作,得到歧义词汇的真实词义信息;
86.步骤s605:将医疗问答信息中的歧义词汇替换成真实词义信息,得到训练语料数据。
87.继续参阅图7,示出了本技术实施例一提供的获取语义分析模型的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
88.在本实施例的一些可选的实现方式中,在步骤s604之前,还包括:步骤s701、步骤s702、步骤s703、步骤s704、步骤s705和步骤s706,其中:
89.步骤s701:在本地数据库中获取样本文本,并确定样本文本中包含的每个分词。
90.在本技术实施例中,可以先从上述本地数据库中获取多个文本,确定由获取的多个文本所构成的训练集,则,针对训练集中的每个文本,可将该文本作为样本文本。
91.在本技术实施例中,确定该样本文本中包含的分词时,可先对该样本文本进行分词处理,以得到该样本文本中包含的每个分词。在对样本文本进行分词处理时,可采用任何分词方法,当然,也可将该样本文本中的每个字符都作为一个分词进行处理,应当理解,此处对分词处理的举例仅为方便理解,不用于限定本技术。
92.步骤s702:基于待训练的语义分析模型确定每个分词对应的词向量。
93.在本技术实施例中,语义分析模型可至少包括四层,分别是:语义表征层、属性表征层、属性相关性表示层、分类层。
94.在本技术实施例中,语义表征层中至少包括用于输出双向语义表示向量的子模型,如bert(bidirectional encoder representations from transformers)模型等。可将每个分词输入语义分析模型中的语义表征层,得到语义表征层输出的每个分词分别对应的双向语义表示向量,作为每个分词对应的词向量。应当理解,用于输出双向语义表示向量的模型除了上述的bert模型以外,还包括其他模型,此处对用于输出双向语义表示向量的模型的举例仅为方便理解,不用于限定本技术。
95.步骤s703:在本地数据库中获取语义属性,根据待训练的语义分析模型中包含语义属性对应的注意力矩阵,以及每个分词对应的词向量,确定样本文本涉及语义属性的第一特征表示向量。
96.在本技术实施例中,可将每个分词对应的词向量输入语义分析模型中的属性表征
层,通过属性表征层中包含的该语义属性对应的注意力矩阵,对每个分词对应的词向量进行注意力加权,根据注意力加权后的每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。
97.步骤s704:根据待训练的语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及第一特征表示向量,确定样本文本涉及语义属性的第二特征表示向量。
98.在本技术实施例中,可将样本文本涉及每个语义属性的第一特征表示向量输入语音分析模型中的属性相关性表示层,通过属性相关性表示层中包含的上述自注意力矩阵,对样本文本涉及每个语义属性的第一特征表示向量进行自注意力加权,根据自注意力加权后的各第一特征表示向量,确定样本文本涉及每个语义属性的第二特征表示向量。
99.步骤s705:根据待训练的语义分析模型以及第二特征表示向量,确定待训练的语义训练模型输出的分类结果,分类结果包括样本文本所属的语义属性以及样本文本所属的语义属性对应的情感极性。
100.在本技术实施例中,分类层至少包括隐层、全连接层和softmax层。
101.在本技术实施例中,可将样本文本涉及每个语义属性的第二特征表示向量依次输入分类层中的隐层、全连接层和softmax层,根据每个第二特征表示向量以及分类层的隐层、全连接层和softmax层中包含的与每个语义属性对应的分类参数,对样本文本进行分类,得到分类层输出的分类结果。
102.在本技术实施例中,的分类结果至少包括样本文本所属的语义属性以及样本文本在其所属的语义属性上对应的情感极性。
103.在本技术实施例中,该情感极性可以采用数值进行量化,例如,数值越接近于1,则表示情感极性越倾向于正面,数值越接近于-1,则表示情感极性越倾向于负面,数值接近于0,则表示情感极性倾向于中性。
104.步骤s706:根据分类结果和样本文本预设的标注,对语义分析模型中的模型参数进行调整,得到语义分析模型。
105.在本技术实施例中,需要调整的模型参数至少包括上述的分类参数,还可包括上述的注意力矩阵和自注意力矩阵。可采用传统的训练方法对语义分析模型中的模型参数进行调整。即,直接根据步骤s108得到的分类结果和针对样本文本预设的标注,确定分类结果对应的损失(以下将其称之为第一损失),并以该第一损失最小化为训练目标对语义分析模型中的模型参数进行调整,以完成对语义分析模型的训练。
106.在本技术实施例中,由于上述语义分析模型中已经加入了用于表示不同语义属性之间相关性的自注意力矩阵,因此,采用上述传统的训练方法训练得到的语义分析模型可更加准确的对待分析文本的语义进行分析。
107.需要强调的是,为进一步保证上述目标序列模型的私密和安全性,上述目标序列模型还可以存储于一区块链的节点中。
108.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品
服务层以及应用服务层等。
109.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
110.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
111.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
112.实施例二
113.进一步参考图8,作为对上述图2所示方法的实现,本技术提供了一种适用于多中文医疗语言处理任务的端到端模型训练装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
114.如图8所示,本实施例的适用于多中文医疗语言处理任务的端到端模型训练装置200包括:数据获取模块201、预处理模块202、实体匹配模块203、模型创建模块204、实体识别数据构建模块205、实体识别训练模块206、尾部预测数据构建模块207、尾部预测训练模块208以及模型确认模块209。其中:
115.数据获取模块201,用于获取与医疗领域相对应的医疗语料数据;
116.预处理模块202,用于对医疗语料数据进行预处理操作,得到训练语料数据;
117.实体匹配模块203,用于对训练语料数据进行实体匹配操作,得到训练语料实体,其中,训练语料实体包括头部实体、实体关系以及尾部实体;
118.模型创建模块204,用于根据seq2seq框架的mt5-small模型创建初始序列模型;
119.实体识别数据构建模块205,用于根据训练语料数据、实体识别软提示以及实体识别硬提示构建实体识别训练数据;
120.实体识别训练模块206,用于将实体识别训练数据作为输入数据、训练语料实体作为标签信息对初始序列模型进行实体识别训练操作;
121.尾部预测数据构建模块207,用于将头部实体、实体关系、尾部实体预测软提示以及尾部实体预测硬提示构建尾部预测训练数据;
122.尾部预测训练模块208,用于将尾部预测训练数据作为输入数据、尾部实体作为标签信息对初始序列模型进行尾部预测训练操作;
123.模型确认模块209,用于将完成实体识别训练操作以及尾部预测训练操作后的原始序列模型作为目标序列模型。
124.在本技术实施例中,利用一个特殊token作为soft prompt(即软提示),利用任务描述作为hard prompt(就是由具体的中文或英文词汇组成提示,它是人工可读的硬提示)的方法进行上述训练数据的创建。
125.在本实施例的一些可选的实现方式中,为了增强模型在生成医疗文本的准确性,我们引入了外部知识,我们为模型设计了两个步骤来增强模型对于知识的利用能力。1:知识选择(knowledge selection)训练模型,输入为文本,输出为知识图谱(kg)中与文本相关的三元组;2:知识灌输(knowledge indorsation),将从知识图谱中得到的相关知识与对话拼接共同作为模型的输入共同生成回复。
126.在本技术实施例中,提供了一种适用于多中文医疗语言处理任务的端到端模型训练装置200,包括:数据获取模块201,用于获取与医疗领域相对应的医疗语料数据;预处理模块202,用于对医疗语料数据进行预处理操作,得到训练语料数据;实体匹配模块203,用于对训练语料数据进行实体匹配操作,得到训练语料实体,其中,训练语料实体包括头部实体、实体关系以及尾部实体;模型创建模块204,用于根据seq2seq框架的mt5-small模型创建初始序列模型;实体识别数据构建模块205,用于根据训练语料数据、实体识别软提示以及实体识别硬提示构建实体识别训练数据;实体识别训练模块206,用于将实体识别训练数据作为输入数据、训练语料实体作为标签信息对初始序列模型进行实体识别训练操作;尾部预测数据构建模块207,用于将头部实体、实体关系、尾部实体预测软提示以及尾部实体预测硬提示构建尾部预测训练数据;尾部预测训练模块208,用于将尾部预测训练数据作为输入数据、尾部实体作为标签信息对初始序列模型进行尾部预测训练操作;模型确认模块209,用于将完成实体识别训练操作以及尾部预测训练操作后的原始序列模型作为目标序列模型。与现有技术相比,本技术根据seq2seq框架的mt5-small模型创建初始序列模型,并通过大量的医疗语料数据针对实体识别任务以及尾部预测任务进行预训练,使得预训练后的序列模型可以学习到隐藏于其他任务的医疗知识,有效提高多中文医疗语言处理任务的准确性。
127.继续参阅图9,示出了本技术实施例二提供的适用于多中文医疗语言处理任务的端到端模型训练装置的另一种具体实施方式的结构示意图,为了便于说明,仅示出与本技术相关的部分。
128.在本实施例的一些可选的实现方式中,上述适用于多中文医疗语言处理任务的端到端模型训练装置200还包括:文章总结数据构建模块210以及文章总结训练模块211,模型确认模块209包括:第一模型确认子模块2091,其中:
129.文章总结数据构建模块210,用于根据文章内容、文章总结软提示以及文章总结硬提示构建文章总结训练数据;
130.文章总结训练模块211,用于将文章总结训练数据作为输入数据、文章标题作为标签信息对初始序列模型进行文章总结训练操作;
131.第一模型确认子模块2091,用于将完成实体识别训练操作、尾部预测训练操作以
及文章总结训练操作后的原始序列模型作为目标序列模型。
132.在本实施例的一些可选的实现方式中,上述预处理模块202包括:去重子模块以及删除子模块,其中:
133.去重子模块,用于根据jaccard相似度算法对所述医疗语料数据进行相似文本去重操作;
134.删除子模块,用于根据正则匹配算法对所述医疗语料数据中噪声较大的文本进行删除操作,得到所述训练语料数据。
135.在本实施例的一些可选的实现方式中,上述适用于多中文医疗语言处理任务的端到端模型训练装置200还包括:医疗问答数据构建模块和医疗问答训练模块,上述模型确认模块209包括:第二模型确定子模块,其中:
136.医疗问答数据构建模块,用于根据所述医疗提问信息、医疗问答软提示以及医疗问答硬提示构建医疗问答训练数据;
137.医疗问答训练模块,用于将所述医疗问答训练数据作为输入数据、所述医疗回答信息作为标签信息对所述初始序列模型进行医疗问答训练操作;
138.第二模型确定子模块,用于将完成所述实体识别训练操作、所述尾部预测训练操作以及所述医疗问答训练操作后的原始序列模型作为所述目标序列模型。
139.在本实施例的一些可选的实现方式中,上述预处理模块202包括:歧义词汇判断子模块、歧义否认子模块、歧义确认子模块、真实词义获取子模块以及词汇替换子模块,其中:
140.歧义词汇判断子模块,用于判断所述医疗问答信息是否存在歧义词汇;
141.歧义否认子模块,用于若不存在所述歧义词汇,则将所述医疗语料数据作为所述训练语料数据;
142.歧义确认子模块,用于若存在所述歧义词汇,则获取与所述歧义词汇上下文相关联的关联文本信息;
143.真实词义获取子模块,用于将所述关联文本信息输入至语义分析模型进行词义识别操作,得到所述歧义词汇的真实词义信息;
144.词汇替换子模块,用于将所述医疗问答信息中的所述歧义词汇替换成所述真实词义信息,得到所述训练语料数据。
145.在本实施例的一些可选的实现方式中,上述预处理模块202还包括:分词确定模块、词向量确定模块、第一特征表示向量确定模块、第二特征表示向量确定模块、分类结果确定模块以及模型获取模块。其中:
146.分词确定模块,用于在本地数据库中获取样本文本,并确定样本文本中包含的每个分词;
147.词向量确定模块,用于基于待训练的语义分析模型确定每个分词对应的词向量;
148.第一特征表示向量确定模块,用于在本地数据库中获取语义属性,根据待训练的语义分析模型中包含语义属性对应的注意力矩阵,以及每个分词对应的词向量,确定样本文本涉及语义属性的第一特征表示向量;
149.第二特征表示向量确定模块,用于根据待训练的语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及第一特征表示向量,确定样本文本涉及语义属性的第二特征表示向量;
150.分类结果确定模块,用于根据待训练的语义分析模型以及第二特征表示向量,确定待训练的语义训练模型输出的分类结果,分类结果包括样本文本所属的语义属性以及样本文本所属的语义属性对应的情感极性;
151.模型获取模块,用于根据分类结果和样本文本预设的标注,对语义分析模型中的模型参数进行调整,得到语义分析模型。
152.为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
153.所述计算机设备300包括通过系统总线相互通信连接存储器310、处理器320、网络接口330。需要指出的是,图中仅示出了具有组件310-330的计算机设备300,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
154.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
155.所述存储器310至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器310可以是所述计算机设备300的内部存储单元,例如该计算机设备300的硬盘或内存。在另一些实施例中,所述存储器310也可以是所述计算机设备300的外部存储设备,例如该计算机设备300上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器310还可以既包括所述计算机设备300的内部存储单元也包括其外部存储设备。本实施例中,所述存储器310通常用于存储安装于所述计算机设备300的操作系统和各类应用软件,例如适用于多中文医疗语言处理任务的端到端模型训练方法的计算机可读指令等。此外,所述存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。
156.所述处理器320在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器320通常用于控制所述计算机设备300的总体操作。本实施例中,所述处理器320用于运行所述存储器310中存储的计算机可读指令或者处理数据,例如运行所述适用于多中文医疗语言处理任务的端到端模型训练方法的计算机可读指令。
157.所述网络接口330可包括无线网络接口或有线网络接口,该网络接口330通常用于在所述计算机设备300与其他电子设备之间建立通信连接。
158.本技术提供的计算机设备,根据seq2seq框架的mt5-small模型创建初始序列模型,并通过大量的医疗语料数据针对实体识别任务以及尾部预测任务进行预训练,使得预
训练后的序列模型可以学习到隐藏于其他任务的医疗知识,有效提高多中文医疗语言处理任务的准确性。
159.本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的适用于多中文医疗语言处理任务的端到端模型训练方法的步骤。
160.本技术提供的计算机可读存储介质,根据seq2seq框架的mt5-small模型创建初始序列模型,并通过大量的医疗语料数据针对实体识别任务以及尾部预测任务进行预训练,使得预训练后的序列模型可以学习到隐藏于其他任务的医疗知识,有效提高多中文医疗语言处理任务的准确性。
161.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
162.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献