一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种临床实体映射的数据增强方法、装置及设备与流程

2022-04-27 07:00:25 来源:中国专利 TAG:


1.本公开涉及人工智能技术领域,尤其涉及一种临床实体映射的数据增强方法、装置及设备。


背景技术:

2.医生在临床科研过程中,需要对临床病例信息做统计分析,但是很多电子病历的数据来源不一,每个医院甚至科室都有一套独立的临床数据记录规范或者模式,导致在统计分析一些关键数据时(比如疾病、药物、手术、症状等临床实体信息),无法从数据库中查询到科研需要关注的记录,经常需要手工的审核和实体映射,最终导致统计信息不准确、不全面,医生工作量大,效率低等问题。
3.另外,因为目前国内在一些关键临床实体信息方面存在多个标准,导致在开发自动映射算法时,多个实体标准需要独立标注,更加剧了数据标注的生产成本和质量问题,所以目前的这些算法准确率较低,泛化能力很差,无法在临床科研中实际应用。


技术实现要素:

4.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种临床实体映射的数据增强方法、装置及设备。
5.本公开提供了一种临床实体映射的数据增强方法,所述方法包括:
6.获取临床实体词语集合和人工标注语料库;其中,所述临床实体词语集合包括:内部标准的临床实体词语,所述人工标注语料库包括:非内部标准的原始实体词语及其标注的第一内部标准实体词语;
7.对所述人工标注语料库进行采样,得到的采样结果包括:第一训练集和开发集;
8.根据预设的字索引模型和词索引模型,生成与所述采样结果中的原始实体词语对应的第一实体词语列表;其中,所述第一实体词语列表中的词语为满足字语义相似、词语义相似,且符合内部标准的词语;
9.根据字嵌入模型和词嵌入模型,计算所述原始实体词语与所述第一实体词语列表中各词语之间的第一语义关系权重得分;
10.根据所述第一语义关系权重得分从所述第一实体词语列表中选取语义相似最高的前多个词语,得到第二内部标准实体词语,基于选取的第二内部标准实体词语和所述原始实体词语得到所述第二训练集;
11.从所述第二训练集的第二内部标准实体词语中选取第一类负样本;从所述临床实体词语集合中选取第二类负样本;从所述人工标注语料库的第一内部标准实体词语中选取正样本;
12.通过随机抽样和插入,将所述正样本与所述第一类负样本、所述第二类负样本组成三元组,得到数据增强的训练数据集。
13.本公开提供了一种临床实体映射的数据增强装置,所述装置包括:
14.语料获取模块,用于获取临床实体词语集合和人工标注语料库;其中,所述临床实体词语集合包括:内部标准的临床实体词语,所述人工标注语料库包括:非内部标准的原始实体词语及其标注的第一内部标准实体词语;
15.采样模块,用于对所述人工标注语料库进行采样,得到的采样结果包括:第一训练集和开发集;
16.列表生成模块,用于根据预设的字索引模型和词索引模型,生成与所述采样结果中的原始实体词语对应的第一实体词语列表;其中,所述第一实体词语列表中的词语为满足字语义相似、词语义相似,且符合内部标准的词语;
17.权重计算模块,用于根据字嵌入模型和词嵌入模型,计算所述原始实体词语与所述第一实体词语列表中各词语之间的第一语义关系权重得分;
18.数据选取模块,用于根据所述第一语义关系权重得分从所述第一实体词语列表中选取语义相似最高的前多个词语,得到第二内部标准实体词语,基于选取的第二内部标准实体词语和所述原始实体词语得到所述第二训练集;
19.样本选取模块,用于从所述第二训练集的第二内部标准实体词语中选取第一类负样本;从所述临床实体词语集合中选取第二类负样本;从所述人工标注语料库的第一内部标准实体词语中选取正样本;
20.数据增强模块,用于通过随机抽样和插入,将所述正样本与所述第一类负样本、所述第二类负样本组成三元组,得到数据增强的训练数据集。
21.本公开提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;
22.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述方法。
23.本公开提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述方法。
24.本公开实施例提供的技术方案与现有技术相比具有如下优点:
25.本公开实施例提供了一种临床实体映射的数据增强方法、装置及设备,可以更高效地挖掘临床实体词语集合和利用小规模的人工标注语料库,有效降低人工标注数据的需求量,在少量的原始实体词语上做数据增强处理,即根据临床实体词语之间的字索引模型、词索引模型、字嵌入模型和词嵌入模型等综合计算出的语义关系,挖掘出大量的正负样本,并使之符合一定的出现概率和先后次序,由此构成数据增强的训练数据集。本公开实施例能够降低数据标注的人工成本,提升训练数据的数量和质量。
附图说明
26.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
27.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
28.图1为本公开实施例所述临床实体映射的数据增强方法流程图;
29.图2为本公开实施例所述字嵌入模型和词嵌入模型的模型架构示意图;
30.图3为本公开实施例所述临床实体映射的数据增强装置结构框图;
31.图4为本公开实施例所述电子设备的结构示意图。
具体实施方式
32.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
33.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
34.本本公开实施例提供一种临床实体映射的数据增强方法、装置及设备,该技术方案可以有效降低人工标注数据的需求量,降低数据标注的生产成本,在少量的标注样本上做数据增强处理,增加训练数据的数量和质量。为便于理解,以下对本公开实施例展开描述。
35.图1为本公开实施例提供的临床实体映射的数据增强方法流程图,本实施例提供的方法包括如下步骤:
36.步骤s1,获取临床实体词语集合和人工标注语料库。其中,临床实体词语集合包括:内部标准的临床实体词语,人工标注语料库包括:非内部标准的原始实体词语及其标注的第一内部标准实体词语。
37.本实施例获取临床实体词语集合的方式包括,将某种临床实体(比如手术)的多个特定标准数据库做语义整合,形成一套统一的内部标准。将这些不同的版本标准通过语义聚类算法和人工审核,能够实现多个特定标准(也即非内部标准)和内部标准的准确映射,并形成一套完整的内部标准的临床实体词语集合,以及非内部标准和内部标准之间的词语映射集合。上述语义聚类算法,是指通过引入外部互联网大数据统计学习得到的词向量语言模型,对不同标准的实体词语进行语义表征,并计算任意两个实体词语之间的语义距离,选择语义相似度得分超过预设阈值的词语对作为候选的聚类结果,然后通过人工审核等方式,使用最佳的词语作为标准词语,其他原始的词语作为相应标准的映射词语。
38.本实施例获取人工标注语料库的过程包括:
39.步骤s1.1,从用户的历史标注数据中获取非内部标准的第一原始实体词语。医生专家等相关工作人员在实际临床科研中,会针对某一个特定标准进行少量的手工标注和映射,以减少医生的数据工作量;该标注能够提供电子病历中的原始临床实体词语向某一个特定标准的人工转换。在此情况下,本实施例可以从已记录的历史标注数据中获取非内部标准的第一原始实体词语。
40.步骤s1.2,根据预设的非内部标准和内部标准之间的词语映射集合,将第一原始实体词语映射为符合内部标准的内部标准实体词语。上述非内部标准和内部标准之间的词语映射集合,是在获取临床实体词语集合过程中得到的。
41.步骤s1.3,从预设的数据中,统计出现频次高于预设频次阈值的第二原始实体词语。对第二原始实体词语进行数据标注,得到符合内部标准的内部标准实体词语。
42.预设的数据库一般为原始的海量医疗信息数据库,本实施例从数据库中统计挖掘出较高频次的临床实体词语,将其作为第二原始实体词语。对第二原始实体词语进行数据标注,将第二原始实体词语映射到符合内部标准的实体词语上,得到内部标准实体词语,该方式避免了多个不同标准的重复标注问题。
43.步骤s1.4,将第一原始实体词语及其标注的内部标准实体词语,第二原始实体词语及其标注的内部标准实体词语,作为人工标注语料库。人工标注语料库包括:由第一原始实体词语、第二原始实体词语组成的非内部标准的原始实体词语,由第一原始实体词语、第二原始实体词语各自标注的内部标准实体词语组成的内部标准的第一内部标准实体词语;可以理解,人工标注语料库中的原始实体词语和第一内部标准实体词语之间是具有一一对应的标注关系的。
44.在本实施例中的标注数据,包括历史标注数据和数据库中高频出现的实体词语两部分数据,其数量无需过多,明显降低人工标注的压力,同时质量较高,由此构成的高质量的人工标注语料库可以作为后续的数据挖掘和算法训练数据源。
45.步骤s2,对所述人工标注语料库进行采样,得到的采样结果包括:第一训练集和开发集。
46.对人工标注语料库随机采样,采样结果可以包括第一训练集、开发集,此外为了应用于实际模型训练,采样结果还可以包括测试集;例如,第一训练集的语料记录条数占总语料记录条数的70%,开发集占15%,测试集占15%,每一个记录由原始实体词语及其对应的第一内部标准实体词语组成。
47.步骤s3,将临床实体词语集合,构建为字索引模型和词索引模型。
48.在本实施例中,针对人工标注语料库中每一个原始实体词语,为了产生一个同时满足字索引模型和词索引模型的双重语义相似的内部标准的实体词语列表,可以先将临床实体词语集合,分别构建字索引模型和词索引模型。其中,字索引模型用于采用稀疏的字的向量来表征实体词语,词索引模型用于采用稀疏的词的向量来表征实体词语;字和词的向量值分别根据该字和词在大规模语料库中统计挖掘来计算产生。
49.具体的,字索引模型的具体计算方法为:
[0050]vti
=a1·
l
ti
a2·mti
a3·nti
ꢀꢀꢀꢀ
(1)
[0051]
其中,v
ti
是字索引模型中每一个字的逆向文档频率综合权重值,l
ti
、m
ti
、n
ti
分别是该字在大规模互联网语料数据库和海量的医疗信息化数据库以及各种临床实体词语集合中出现的频率的倒数,而a1、a2、a3分别是他们对应的权重值系数。
[0052]
词索引模型的具体计算方法为:
[0053]wqi
=b1·
l
qi
b2·mqi
b3·nqi
ꢀꢀꢀꢀ
(2)
[0054]
其中,w
qi
是词索引模型中每一个词的逆向文档频率综合权重值,l
qi
、m
qi
、n
qi
分别是该词在大规模互联网语料数据库和海量的医疗信息化数据库以及各种临床实体词语集合中出现的频率的倒数,而b1、b2、b3分别是他们对应的权重值系数。
[0055]
针对采样结果执行如下步骤s4-s6所示的数据选取操作,得到第二训练集:
[0056]
步骤s4,根据预设的字索引模型和词索引模型,生成与采样结果中的原始实体词语对应的第一实体词语列表;其中,第一实体词语列表中的词语为满足字语义相似、词语义相似,且符合内部标准的词语。
[0057]
具体实施例包括:步骤s4.1,根据字索引模型,生成与人工标注语料库中原始实体词语对应的第二实体词语列表;其中,第二实体词语列表中的词语符合内部标准,且与原始实体词语之间的语义关系权重得分满足字语义相似。
[0058]
本实施例生成第二实体词语列表的过程包括:首先按照上述公式(1)计算所述字索引模型中每个字的逆向文档频率综合权重值,而后按照如下方式分别得到原始实体词语和各内部标准的临床实体词语的字索引模型向量表征:根据每个字的所述逆向文档频率综合权重值和该字在当前临床实体词语中出现的频率值权重,得到当前词语的字索引模型向量表征,参照如下公式(3):
[0059]
sz=[k1·vt1
,k2·vt2
,k3·vt3
,

,ki·vti
,

,kn·vtn
]
ꢀꢀ
(3)
[0060]
其中,sz是当前临床实体词语z的字索引模型向量表征,v
t1
,v
t2
,v
t3
,...,v
ti
,...,v
tn
是根据上述公式(1)中计算出来的相应的字索引模型中每一个字的逆向文档频率综合权重值,k1,k2,k3,...,ki,...,kn是对应的该字在当前词语中出现的频率值权重。
[0061]
如公式(4),计算原始实体词语a与任一内部标准的临床实体词语b之间的基于字索引模型向量表征的语义关系权重得分d(a,b):
[0062][0063]
其中,其中sa和sb均是根据上述公式(1)和公式(3)计算得出的字索引模型向量表征,v
ai
和v
bi
分别是原始实体词语a和内部标准的临床实体词语b对应的一系列字索引的权重值参数,来源于上述公式(3)中的ki·vti

[0064]
选取所述基于字索引模型向量表征的语义关系权重得分高于预设得分值的多个内部标准的临床实体词语,得到第二实体词语列表。具体的,通过上述公式(4)计算得到任意两个临床实体词语之间的语义关系权重得分后,选取语义关系权重得分高于预设得分值的多个实体词语,选取出的词语与原始实体词语满足字语义相似,选取出的多个词语构成第二实体词语列表。
[0065]
步骤s4.2,根据词索引模型,生成与人工标注语料库中原始实体词语对应的第三实体词语列表;其中,第三实体词语列表中的词语符合内部标准,且与原始实体词语之间的语义关系权重得分满足词语义相似。
[0066]
本实施例生成第三实体词语列表的方式与上述生成第二实体词语列表的方式原理基本相同,该过程中涉及到的一些具体计算方法参照如下所示。
[0067]
实现两个实体词语基于词索引模型的语义关系的具体计算方法为:
[0068]
tz=[k1·wq1
,k2·wq2
,k3·wq3
,

,ki·wqi
,

,kn·wqn
]
ꢀꢀ
(5)
[0069]
其中,tz是当前临床实体词语z的词索引模型向量表征,w
q1
,w
q2
,w
q3
,...,w
qi
,...,w
qn
是根据上述公式(2)中计算出来的相应的词索引模型中每一个词的逆向文档频率综合权重值,k1,k2,k3,...,ki,...,kn是对应的该词在当前词语中出现的频率值权重。
[0070][0071]
其中,e(a,b)是原始实体词语a和任一内部标准的临床实体词语b的基于词索引模型向量表征的语义关系权重得分,其中ta和tb均是根据上述公式(2)和公式(5)计算得出,wai
和w
bi
分别是原始实体词语a和内部标准的临床实体词语b对应的一系列词索引的权重值参数,来源于上述公式(5)中的ki·wqi

[0072]
步骤s4.3,根据第二实体词语列表和第三实体词语列表,得到同时满足字语义相似、词语义相似的第一实体词语列表。
[0073]
本实施例根据第二实体词语列表和第三实体词语列表,参照如下公式(7)合并计算权重,得到每一个原始实体词语对应的,同时满足字语义相似、词语义相似的双重语义相似的内部标准的第一实体词语列表:
[0074]
f(a,b)=p1·
d(a,b) p2·
e(a,b)
ꢀꢀ
(7)
[0075]
其中,f(a,b)是上述实体词语a和b的双重语义相似召回的语义关系权重得分,d(a,b)和e(a,b)分别由上述公式(4)和公式(6)计算得出,p1和p2分别是字索引模型和词索引模型的语义权重影响因子。
[0076]
步骤s5,根据字嵌入模型和词嵌入模型,计算原始实体词语与第一实体词语列表中各词语之间的第一语义关系权重得分。
[0077]
在上述步骤s4中的第一、第二、第三实体词语列表以及相应的语义关系权重得分,是在字索引模型和词索引模型的基础上根据向量索引和检索的方式进行召回并打分,评估的是一个临床实体词语的文字浅层的语义关系;相比于此,当前阶段能够利用字嵌入模型和词嵌入模型的隐含语义关系并计算对应的隐含语义距离。
[0078]
在本实施例中,使用字嵌入模型和词嵌入模型评估最佳的权重分配,同时合并计算到步骤s4中的语义关系权重得分之中,得到满足字索引模型、词索引模型、字嵌入模型和词嵌入模型共四种语义关系的临床实体词语,进而对临床实体词语进行排序,选取语义相似的前多个(如前1000个)词语作为后续进一步训练的数据集。
[0079]
对于字嵌入模型和词嵌入模型,采用两种相似的上下文预测模型架构,如图2所示,综合使用外部的大规模互联网语料数据库和海量的医疗信息化数据库记录,以及各种临床实体词语集合挖掘得出,通过一个字或者词语的上下文向量表征作为输入层,经过隐藏层的非线性变换和语义信息,计算输出层中未知词语的每一种情况概率结果,或者通过一个字或者词语的向量表征作为输入层,经过隐藏层的非线性变换和语义信息,计算输出层中其他上下文词语的每一种情况概率结果。
[0080]
根据上述字嵌入模型和词嵌入模型,计算原始实体词语与第一实体词语列表中各词语之间的第一语义关系权重得分的具体实施例参照如下所示。
[0081]
步骤s5.1,参照如下公式(8)-(11),基于字嵌入模型,计算原始实体词语与第一实体词语列表中各词语之间基于字的第一隐含语义距离。第一隐含语义距离可以表征第一实体词语列表中每一个实体词语的一个新的语义权重。
[0082]
产生基于字嵌入模型的第一隐含语义距离的具体计算方法如下:
[0083]
ma=[m1,m2,m3,

,mi,

,m
300
]
ꢀꢀ
(8)
[0084]
其中,ma是字嵌入模型中某一个字a的隐含语义向量表征,向量维度是300,m1,m2,m3,...,mi,...,m
300
是对应的该字a在这300个隐含语义空间中的概率值。
[0085]
pz=[p1,p2,p3,

,pi,

,p
300
]
ꢀꢀ
(9)
[0086]
[0087]
其中,pz是当前临床实体词语z基于字嵌入模型的隐含语义向量表征,向量维度是300,p1,p2,p3,...,pi,...,p
300
是对应的该词语z在这300个隐含语义空间中的概率值,该词语z中包含有n个字,每个字的隐含语义向量在这300个隐含语义空间中的概率值m
ij
由上述公式(8)计算得出,kj则是对应的一个字j在当前词语z中体现的影响因子。
[0088][0089]
其中,g(a,b)是原始实体词语a与内部标准的临床实体词语b之间的基于字嵌入模型表征的第一隐含语义距离,其中pa和pb分别由上述公式(9)和公式(10)计算得出,p
ai
和p
bi
分别是两个临床实体词语a和b对应的隐含语义向量表征在300个隐含语义空间中的概率值,来源于上述公式(10)中的pi。
[0090]
步骤s5.2,基于词嵌入模型,计算原始实体词语与第一实体词语列表中各词语之间基于词的第二隐含语义距离。
[0091]
在本实施例中,第二隐含语义距离的计算方法与上述第一隐含语义距离的计算远离相同。产生基于词嵌入模型的第二隐含语义距离的具体计算方法如下:
[0092]
nb=[n1,n2,n3,

,ni,

,n
600
]
ꢀꢀ
(12)
[0093]
其中,nb是词嵌入模型中某一个词b的隐含语义向量表征,向量维度是600,n1,n2,n3,...,ni,...,n
600
是对应的该词b在这600个隐含语义空间中的概率值。
[0094]
qz=[q1,q2,q3,

,qi,

,q
600
]
ꢀꢀ
(13)
[0095][0096]
其中,qz是当前临床实体词语z基于词嵌入模型的隐含语义向量表征,向量维度是600,q1,q2,q3,...,qi,...,q
600
是对应的该词语z在这600个隐含语义空间中的概率值,该词语z中包含有n个词,每个词的隐含语义向量在这600个隐含语义空间中的概率值n
ij
由上述公式(12)计算得出,kj则是对应的一个词j在当前词语z中体现的影响因子。
[0097][0098]
其中,h(a,b)是原始实体词语a与内部标准的临床实体词语b之间的基于词嵌入模型表征的第二隐含语义距离,其中qa和qb分别由上述公式(13)和公式(14)计算得出,q
ai
和q
bi
分别是上述实体词语a和b对应的隐含语义向量表征在600个隐含语义空间中的概率值,来源于上述公式(14)中的qi。
[0099]
步骤s5.3,根据第一隐含语义距离和第二隐含语义距离,计算原始实体词语与第一实体词语列表中各词语之间的第一语义关系权重得分t(a,b)。
[0100]
参照如下公式(16),根据第一隐含语义距离和第二隐含语义距离,合并对第一实体词语列表进行打分,由此得到满足字索引模型、词索引模型、字嵌入模型和词嵌入模型共四种语义关系的实体词语:
[0101]
t(a,b)=q1·
g(a,b) q2·
h(a,b) q3·
f(a,b)
ꢀꢀ
(16)
[0102]
其中,t(a,b)是经过四种语义模型综合计算后的,原始实体词语a与内部标准的临
床实体词语b之间的语义关系权重得分,g(a,b)、h(a,b)和f(a,b)分别由上述公式(11)、公式(15)和公式(7)计算得出,q1、q2和q3分别是字嵌入模型和词嵌入模型以及步骤(10)中的双重语义关系的语义影响因子。
[0103]
步骤s6,根据第一语义关系权重得分从第一实体词语列表中选取语义相似最高的前多个词语,得到第二内部标准实体词语,基于选取的第二内部标准实体词语和原始实体词语得到第二训练集。
[0104]
具体的,按照第一语义关系权重得分t(a,b)由高到低,对第一实体词语列表中的词语进行排序,根据排序结果选取前1000个词语作为第二内部标准实体词语,并将其与原始实体词语组成第二训练集。
[0105]
接下来,本实施例基于第二训练集执行如下步骤s7和s8所示的数据增强操作,得到数据增强的训练数据集。
[0106]
步骤s7,从第二训练集的第二内部标准实体词语中选取第一类负样本;从临床实体词语集合中选取第二类负样本;从人工标注语料库的第一内部标准实体词语中选取正样本。
[0107]
具体的,从第二训练集的第二内部标准实体词语中随机选取出一定数量(比如50个)第一类负样本;第一类负样本和原始实体词语具有较高的语义相似性,是比较难以区分的词语。排除掉第一训练集和开发集中人工标注的内部标准实体词语,最终每一个原始实体词语均得到第一类负样本挖掘结果,具体内容是一个内部标准的临床实体词语序列以及相应的语义关系权重得分,该序列u的元素组成如下:
[0108]
u={[w
a1
,k
a1
],[w
a2
,k
a2
],[w
a3
,k
a3
],

,[w
a50
,k
a50
]}
ꢀꢀ
(17)
[0109]
其中,u是指当前的第一类负样本的词语序列,w
a1
,w
a2
,w
a3
,...,w
a50
是随机选取出的50个第一类负样本,k
a1
,k
a2
,k
a3
,...,k
a50
是参照公式(16)中计算的两个实体词语之间的综合语义关系权重得分t(a,b)。
[0110]
从临床实体词语集合中随机选取同样数量的第二类负样本。容易理解,第二类负样本和原始实体词语则几乎没有语义相似性,是比较容易区分的词语。排除掉第一训练集和开发集中人工标注的内部标准实体词语,以及排除掉第二训练集,最终每一个原始实体词语均得到第二类负样本挖掘结果,具体内容是一个内部标准的临床实体词语序列以及相应的语义关系权重得分,该序列v的元素组成如下:
[0111]
v={[s
b1
,k
b1
],[s
b2
,k
b2
],[s
b3
,k
b3
],

,[s
b50
,k
b50
]}
ꢀꢀ
(18)
[0112]
其中,v是指当前的第二类负样本的词语序列,s
b1
,s
b2
,s
b3
,...,s
b50
是从步骤s1的临床实体词语集合随机抽取产生,k
b1
,k
b2
,k
b3
,...,k
b50
是参照公式(16)中计算的两个实体词语之间的综合语义关系权重得分t(a,b)。
[0113]
从人工标注语料库的第一内部标准实体词语中选取正样本。
[0114]
步骤s8,通过随机抽样和插入,将正样本与第一类负样本、第二类负样本组成三元组,得到数据增强的训练数据集。
[0115]
将正样本多次随机的插入到第一类负样本、第二类负样本之中,使之满足一个正样本、一个第一类负样本和一个第二类负样本组成的三元组。当前插入的正样本及其位置序列,即为正样本挖掘结果,具体内容是一个内部标准的临床实体词语序列以及相应的语义关系权重得分。这个序列w的元素组成如下:
[0116]
w={[t
c1
,k
c1
],[t
c2
,k
c2
],[t
c3
,k
c3
],

,[t
c50
,k
c50
]}
ꢀꢀ
(19)
[0117]
其中,w是指当前的正样本词语序列,t
c1
,t
c2
,t
c3
,...,t
c50
是随机插入产生的正样本,k
c1
,k
c2
,k
c3
,...,k
c50
是两个实体词语之间的综合语义关系权重得分,正样本默认为1。
[0118]
本实施例将正样本、第一类负样本和第二类负样本合并制作出一个经过多次有效处理后完备的数据增强过的新训练数据集,该训练数据集能够包含原始实体词语和内部标准实体词语集合的真实匹配语义,以及容易区分和难以区分的复杂语义关系。该训练数据集z由一系列三元组构成:
[0119]
z={z1,z2,z3,

,zn,

,z
50
}
ꢀꢀ
(20)
[0120]
其中,每一个三元组,是根据正样本随机抽样和插入至第一类负样本和第二类负样本中产生的,具体构成是:
[0121]
zi={[w
ai
,k
ai
],[s
bi
,k
bi
],[t
ci
,k
ci
]}
ꢀꢀ
(21)
[0122]
其中,[w
ai
,k
ai
],[s
bi
,k
bi
],[t
ci
,k
ci
]分别是第一类负样本、第二类负样本和正样本。
[0123]
根据以上实施例得到的第二训练集和数据增强的训练数据集,可应用于模型的训练过程。
[0124]
综上,本公开实施例提供的临床实体映射的数据增强方法,可以更高效地挖掘临床实体词语集合和利用小规模的人工标注语料库,有效降低人工标注数据的需求量,在少量的原始实体词语上做数据增强处理,即根据临床实体词语之间的字索引模型、词索引模型、字嵌入模型和词嵌入模型等综合计算出的语义关系,挖掘出大量的正负样本,并使之符合一定的出现概率和先后次序,由此构成数据增强的训练数据集。
[0125]
与传统的方式对比,本技术方案的数据增强方法只需要收集较少量的人工标注数据,同时只需要专家医生在自己临床科研中某一个特定标准上已做的历史标注,无需专家医生专门去做数据标注工作,这样将专家医生的工作量和复杂性降到最低;另外,外部标注人员在统一的内部标准上标注,不必在每一次不同的标准数据任务中重复标注,也极大的提高了工作效率。本数据增强方案,可以极大规模的将原有的人工标注数据进行扩充,并最大限度地挖掘出临床实体词语集合中语言本身的各种隐含语义关系。因此,本公开能够在降低人工标注成本的基础上,提升标注数据的数量和质量。
[0126]
参照图3,本公开实施例提供一种临床实体映射的数据增强装置,该装置包括:
[0127]
语料获取模块302,用于获取临床实体词语集合和人工标注语料库;其中,所述临床实体词语集合包括:内部标准的临床实体词语,所述人工标注语料库包括:非内部标准的原始实体词语及其标注的第一内部标准实体词语;
[0128]
采样模块304,用于对所述人工标注语料库进行采样,得到的采样结果包括:第一训练集和开发集;
[0129]
列表生成模块306,用于根据预设的字索引模型和词索引模型,生成与所述采样结果中的原始实体词语对应的第一实体词语列表;其中,所述第一实体词语列表中的词语为满足字语义相似、词语义相似,且符合内部标准的词语;
[0130]
权重计算模块308,用于根据字嵌入模型和词嵌入模型,计算所述原始实体词语与所述第一实体词语列表中各词语之间的第一语义关系权重得分;
[0131]
数据选取模块310,用于根据所述第一语义关系权重得分从所述第一实体词语列
表中选取语义相似最高的前多个词语,得到第二内部标准实体词语,基于选取的第二内部标准实体词语和所述原始实体词语得到所述第二训练集;
[0132]
样本选取模块312,用于从所述第二训练集的第二内部标准实体词语中选取第一类负样本;从所述临床实体词语集合中选取第二类负样本;从所述人工标注语料库的第一内部标准实体词语中选取正样本;
[0133]
数据增强模块314,用于通过随机抽样和插入,将所述正样本与所述第一类负样本、所述第二类负样本组成三元组,得到数据增强的训练数据集。
[0134]
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
[0135]
图4为本公开实施例提供的一种电子设备的结构示意图。如图4所示,电子设备400包括一个或多个处理器401和存储器402。
[0136]
处理器401可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备400中的其他组件以执行期望的功能。
[0137]
存储器402可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行所述程序指令,以实现上文所述的本公开的实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0138]
在一个示例中,电子设备400还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0139]
此外,该输入装置403还可以包括例如键盘、鼠标等等。
[0140]
该输出装置404可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0141]
当然,为了简化,图4中仅示出了该电子设备400中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备400还可以包括任何其他适当的组件。
[0142]
进一步,本实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述临床实体映射的数据增强方法。
[0143]
本公开实施例所提供的一种临床实体映射的数据增强方法、装置、电子设备及介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0144]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些
要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0145]
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献