一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

实体识别和关系抽取方法、装置、电子设备及存储介质与流程

2022-02-20 00:55:19 来源:中国专利 TAG:


1.本技术涉及自然语言处理和知识抽取技术领域,尤其涉及一种实体识别和关系抽取方法、装置、电子设备及存储介质。


背景技术:

2.在实体识别和关系抽取任务中,最常的方法是自然语言处理模型结合人工标注方法,即人工通过bioes标记方法进行数据标记,再通过自然语言处理模型对人工标注的数据进行训练,学习语句中单词之间关系的信息,从而实现实体识别和关系抽取任务。
3.因此,需要事先充分理解对应领域行业的知识体系,对所有可能存在的实体间关系进行合理的分类,此外,还需要通过bioes标记人工方法对样本语料的实体和关系进行正确的标注,人工标注的训练集数据越丰富,后面模型训练的效果越好。
4.综上分析可知,传统方法需要通过人工标注工作获取训练数据,因此需要耗费大量的人力和时间成本,降低了实体识别和关系抽取任务的效率。同时,由于领域文本存在的特殊性,对工作人员的专业水平和仔细程度要求也较高,人工标注数据过程中存在人为主观因素,从而使得数据标注存在不准确性,降低了实体识别和关系抽取任务的准确性。


技术实现要素:

5.本技术提供一种实体识别与关系抽取方法、装置、电子设备及存储介质,旨在解决现有技术中存在的问题缺陷。
6.第一方面,本技术提供一种实体识别与关系抽取方法,包括:构建包含领域名词的实体数据集合;将所述实体数据集合确定为训练集语料库,对预训练bert模型进行掩蔽训练,得到领域语言模型;通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系。
7.在一个实施例中,所述通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系,包括:通过所述领域语言模型识别出,各个所述标记词语中的头部实体和尾部实体;计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重;基于各个所述标记词语与其头部实体和尾部实体的注意力权重,抽取出各个头部实体和尾部实体之间的关系。
8.所述基于各个所述标记词语与其头部实体和尾部实体的注意力权重,抽取出各个头部实体和尾部实体之间的关系,包括:将各个所述标记词语与其头部实体和尾部实体的注意力权重进行归一化,得到各个所述标记词语与其头部实体之间的第一归一化关联程度,以及各个所述标记词语与其尾
部实体之间的第二归一化关联程度;根据各个所述标记词语的第一归一化关联程度和第二归一化关联程度,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的联合关联程度;根据各个所述标记词语的联合关联程度,确定头部实体和尾部实体之间的最终关系。
9.所述根据各个所述标记词语的联合关联程度,确定头部实体和尾部实体之间的最终关系,包括:根据各个所述标记词语的联合关联程度,确定各个所述标记词语中头部实体和尾部实体之间关系最紧密的关系词语;根据各个所述标记词语的关系词语,得到各个所述标记词语中头部实体和尾部实体之间的最终关系。
10.所述计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重,包括:确定各个所述标记词语经过所述领域语言模型抽取后,得到的加权关联程度;确定所述领域语言模型中transformer层的第一数量,以及各个transformer层中head的第二数量;结合预设计算公式,并基于各个所述标记词语的加权关联程度,以及所述第一数量和所述第二数量,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重。
11.所述构建包含领域名词的实体数据集合,包括:通过预设切词工具对原始文本数据进行切割,得到各个待处理实体数据;将各个所述待处理实体数据与领域名词集合进行融合,构建所述包含领域名词的实体数据集合。
12.所述通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系之后,还包括:根据各个标记词语中头部实体和尾部实体的实体关系,及其对应的头部实体和尾部实体,构建各个所述标记词语的实体三元组。
13.第二方面,本技术还提供一种实体识别和关系抽取装置,包括:构建模块,用于构建包含领域名词的实体数据集合;训练模块,用于将所述实体数据集合确定为训练集语料库,对预训练bert模型进行掩蔽训练,得到领域语言模型;抽取模块,用于通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系。
14.第三方面,本技术还提供一种电子设备的步骤包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述实体识别和关系抽取方法的步骤。
15.第四方面,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质包
括计算机程序,所述计算机程序被处理器执行时实现第一方面所述实体识别和关系抽取方法的步骤。
16.第五方面,本技术还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述实体识别和关系抽取方法的步骤。
17.本技术提供的实体识别和关系抽取方法、装置、电子设备及存储介质,在实体识别和关系抽取过程中,自动构建包含领域名词的实体数据集合,需要少量的人工标注工作,从而提升了该领域实体识别和关系抽取的效率。同时,根据自动构建包含领域名词的实体数据集合训练领域语言模型,使得通过领域语言模型能够精准地在该专业领域中完成实体识别与关系抽取任务。
附图说明
18.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术提供的实体识别与关系抽取方法的流程示意图之一;图2是本技术提供的实体识别与关系抽取方法的流程示意图之二;图3是本技术提供的实体识别与关系抽取方法的流程示意图之三;图4是本技术提供的实体识别与关系抽取装置的结构示意图;图5是本技术提供的电子设备的结构示意图。
具体实施方式
20.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
21.下面结合图1至图5描述本技术提供的实体识别和关系抽取方法、装置、电子设备及存储介质。
22.本技术提供一种实体识别和关系抽取方法,参照图1至图5,图1是本技术提供的实体识别与关系抽取方法的流程示意图之一;图2是本技术提供的实体识别与关系抽取方法的流程示意图之二;图3是本技术提供的实体识别与关系抽取方法的流程示意图之三;图4是本技术提供的实体识别与关系抽取装置的结构示意图;图5是本技术提供的电子设备的结构示意图。
23.本技术实施例提供了实体识别与关系抽取方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些数据下,可以不同于此处的顺序完成所示出或描述的步骤。
24.本技术实施例以电子设备作为执行主体进行举例,本技术实施例以数据管理系统为电子设备的形式之一,并不对电子设备限制。
25.具体地,参照图1,图1是本技术提供的实体识别与关系抽取方法的流程示意图之一,本技术实施例提供的实体识别与关系抽取方法包括:步骤s10,构建包含领域名词的实体数据集合。
26.需要说明的是,本技术提供的实体识别与关系抽取方法可应用于多个领域包括但不限制于煤矿领域、石油领域和天然气领域,为了能够清晰阐述本技术的各个实施例,以煤矿领域进行举例说明。
27.煤矿领域的文本数据具有鲜明的行业领域特色,使得其与常规的文本数据具有明显的不同之处。其中最重要的特征如下:(1)煤矿领域文本数据中存在大量专业行业术语。例如,煤矿企业在对矿区的工作地区命名时,常采用“数字编号 工作区类别名称”或者“海拔 高度单位 工作区类别名称”等形式,如“煤矿井下安排有110505采煤工作面”、“何某分别去了-50m水平二石门辅助下山、四石门11轨道下山掘进工作面”,语句中的“110505采煤工作面”和
“‑
50m水平二石门”是两个采矿工作区的名称,在一般的自然语言中并不会出现这种形式的表述。
28.(2)煤矿领域文本数据中包含大量专业词汇。煤矿生产工作中涉及很多领域内的专业词汇包括但不限于各种仪器设备、职位名除、工作方法,如“甲烷传感器”、“副矿长”、“施工钻孔”等。
29.(3)煤矿领域文本数据中存在一些特殊语句结构。在描述煤矿安全事故经过的文本中,经常会用长句尽可能详细的描述事故现场的场景,如“采煤机往工作面下出口方向割煤到52号综采液压支架处时(上滚筒位于64号综采液压支架处),综采液压支架护帮板已收起的采煤机上下滚筒两端间煤壁突然整体压出”;而在事故整改措施部分的文本数据中,常包含大量以命令或建议口吻的缺乏主语的句子,如“开展

打非治违’专项行动,严厉打击非法违法行为。 一是要举一反三,采取有力措施,严防隐蔽工程”。
30.因此,数据管理系统需要构建包含煤矿领域名词的实体数据集合,具体如步骤s101至步骤s102。
31.进一步地,步骤s101至步骤s102的描述如下:步骤s101,通过预设切词工具对原始文本数据进行切割,得到各个待处理实体数据;步骤s102,将各个所述待处理实体数据与领域名词集合进行融合,构建所述包含领域名词的实体数据集合。
32.需要说明的是,数据管理系统安装有预设切词工具,预设切词工具包括但不限制于paoding切词工具和ik切词工具。
33.具体地,数据管理系统获取原始文本数据,需要说明的是,原始文书数据中没有携带煤矿领域名词,因此需要在原始文本数据中增加煤矿领域名词。接着,数据管理系统通过预设切词工具对原始文本数据进行实体数据切割,得到原始文本数据中各个待处理实体数据。最后,数据管理系统将各个待处理实体数据与煤矿领域名词集合进行融合,构建包含煤矿领域名词的实体数据集合。
34.进一步地,数据管理系统还需要提取煤矿领域名词的实体数据集合中各个实体数据的字符级表达,具体地,数据管理系统通过cnn(convolutional neural networks,卷积神经网络)模型提取煤矿领域名词的实体数据集合中各个实体数据的字符级表达,也就是
训练模型使其能够学习到领域专业名词命名的规律,从而可以得到这些实词的字符级表达。本实施例中cnn模型可设置的相关参数为:filter大小为1
×
3,channel为1,步长为1,池化采用maxpooling方法。
35.进一步可以理解为,在构建包含煤矿领域名词的实体数据集合的过程中,同时需要构建煤矿领域名词的实体数据集合的字符级表达。
36.步骤s20,将所述实体数据集合确定为训练集语料库,对预训练bert模型进行掩蔽训练,得到领域语言模型。
37.在构建包含煤矿领域名词的实体数据集合以及领域名词的实体数据集合的字符级表达之后,数据管理系统需要训练构建煤矿领域语言模型,具体地,数据管理系统将实体数据集合确定为训练集语料库,并通过实体数据集合对预训练模型进行掩蔽预测(masked language model,mlm)训练,构建具有煤矿安全生产领域特色的语言模型,得到煤矿领域语言模型,进一步地,预训练语言模型为bert模型,因此可以理解为,数据管理系统通过实体数据集合对预训练bert模型进行掩蔽预测mlm训练,得到煤矿领域coal-bert模型。
38.需要说明的是,模型的输入包括词向量、字符向量和位置向量三部分的拼接,因此能够保证全面覆盖文本全部特征,执行mlm任务过程中,仅遮挡实体数据集合中的词,其他词汇不做遮挡,输出为被掩蔽的实体词向量。因此,煤矿领域coal-bert模型能够很好的学习到煤矿安全生产领域名词的文本表达方式。
39.在本实施例中,比如,输入的煤矿文本数据为“瓦斯抽采队副队长姜某组织召开班前会”,对煤矿文本数据进行拆分标记后,得到“瓦斯抽采队”、“副队长”、“姜某”、“组织”、“召开”和“班前会”,通过实体数据集合进行掩蔽处理,即将“姜某”和“班前会”进行掩蔽,得到“瓦斯抽采队”、“副队长”、“mask”、“组织”、“召开”和“mask”,然后将“瓦斯抽采队”、“副队长”、“mask”、“组织”、“召开”和“mask”对预训练bert模型进行训练,输入的预测结果为“姜某”和“班前会”。
40.步骤s30,通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系。
41.数据管理系统确定输入的待处理煤矿领域文本数据,以及待处理煤矿领域文本数据中的各个标记词语。接着,数据管理系统通过煤矿领域coal-bert模型识别出,待处理煤矿领域文本数据中各个标记词语的头部实体和尾部实体。最后,数据管理系统根据各个标记词语,与其对应的头部实体和尾部实体之间的关系,抽取出各个标记词语中头部实体和尾部实体之间的实体关系,具体如步骤s301至步骤s303所述。
42.进一步地,在抽取出各个标记词语中头部实体和尾部实体之间的实体关系后,数据管理系统需要根据各个标记词语中头部实体和尾部实体的实体关系,及其对应的头部实体和尾部实体,构建各个标记词语的实体三元组,实体三元组的结构为“头部实体-实体关系-尾部实体”,即实体三元组可表示为(entity
head
,r
word
,entity
tail
),其中,entity
head
表示头部实体,r
word
表示实体关系,entity
tail
表示尾部实体。
43.本技术实施例通过将各个标记词语的实体关系、头部实体和尾部实体构建为煤矿领域的实体三元组,从而将头部实体和尾部实体进行准确地关联。
44.进一步地,步骤s301至步骤s303的描述如下:
步骤s301,通过所述领域语言模型识别出,各个所述标记词语中的头部实体和尾部实体;步骤s302,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重;步骤s303,基于各个所述标记词语与其头部实体和尾部实体的注意力权重,抽取出各个头部实体和尾部实体之间的关系。
45.具体地,数据管理系统通过煤矿领域coal-bert模型识别出,各个标记词语中的头部实体和尾部实体,并将各个标记词语中的头部实体和尾部实体生成hrt(头部-关系-尾部)结构。接着,数据管理系统通过attention计算机制和hrt结构,计算各个标记词语,与其对应的头部实体和尾部实体之间的注意力权重,即各个标记词语中与头部实体和尾部实体有关系的词的权重,具体如步骤s3021至步骤s3023。最后,数据管理系统根据各个标记词语与其头部实体和尾部实体的注意力权重,抽取出各个标记词语中头部实体和尾部实体之间的实体关系,具体如步骤s3031至步骤s3033。
46.本技术实施例通过领域语言模型抽取出各个标记词语中的头部实体和尾部实体,结合attention计算机制和hrt结构抽取出各个标记词语中头部实体和尾部实体之间的实体关系,从而准确地抽取出各个标记词语地实体关系。
47.本实施例提供了实体识别和关系抽取方法,在实体识别和关系抽取过程中,自动构建包含领域名词的实体数据集合,只需要少量的人工标注工作,从而提升了各个领域实体识别和关系抽取的效率。同时,根据自动构建包含领域名词的实体数据集合训练领域语言模型,使得通过领域语言模型能够精准地在该专业领域中完成实体识别和关系抽取任务。此外,在整个实体识别和关系抽取过程中,不需要涉及到人工操作,从而实现了自动化地完成实体识别和关系抽取任务。
48.进一步地,参照图2,图2是本技术提供的实体识别和关系抽取方法的流程示意图之二,本技术实施例提供的实体识别和关系抽取方法包括:步骤s3021,确定各个所述标记词语经过所述领域语言模型抽取后,得到的加权关联程度;步骤s3022,确定所述领域语言模型中transformer层的第一数量,以及各个transformer层中head的第二数量;步骤s3023,结合预设计算公式,并基于各个所述标记词语的加权关联程度,以及所述第一数量和所述第二数量,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重。
49.需要说明的是,coal-bert模型中包含有多个transformer层,每个transformer层中包含有多个head,用以学习语句词语之间关系的注意力权重。
50.具体地,数据管理系统通过煤矿领域coal-bert模型对各个标记词语抽取的过程中,确定各个标记词语经过煤矿领域coal-bert模型抽取后,得到的各个标记词语的加权关联程度cor
m,n
,其中,m代表头部实体,n代表尾部实体。接着,数据管理系统确定煤矿领域coal-bert模型中transformer层的第一数量a,以及各个transformer层中head的第二数量h。最后,数据管理系统根据预设计算公式,预设计算公式如下:
以及结合各个标记词语的加权关联程度cor
m,n
,以及第一数量a和第二数量h,计算各个标记词语,与其对应的头部实体和尾部实体之间的注意力权重,加权关联程度cor
m,n
、第一数量a和第二数量h都是已知的,因此可以计算出atte
m,n
,atte
m,n
即为各个标记词语,与其对应的头部实体和尾部实体之间的注意力权重。
51.本技术实施例通过各个标记词语的加权关联程度,以及领域语言模型中transformer层的第一数量和各个transformer层中head的第二数量,准确地计算出各个标记词语,与其对应的头部实体和尾部实体之间的注意力权重。
52.进一步地,参照图3,图3是本技术提供的实体识别和关系抽取方法的流程示意图之三,本技术实施例提供的实体识别和关系抽取方法包括:步骤s3031,将各个所述标记词语与其头部实体和尾部实体的注意力权重进行归一化,得到各个所述标记词语与其头部实体之间的第一归一化关联程度,以及各个所述标记词语与其尾部实体之间的第二归一化关联程度;步骤s3032,根据各个所述标记词语的第一归一化关联程度和第二归一化关联程度,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的联合关联程度;步骤s3033,根据各个所述标记词语的联合关联程度,确定头部实体和尾部实体之间的最终关系。
53.具体地,数据管理系统将各个标记词语与其头部实体的注意力权重进行归一化,得到各个标记词语与其头部实体之间的第一归一化关联程度cor
h-e
(wi),其中,wi为标记词语,i=1-n,n为标记词语的数量。同时,数据管理系统将各个标记词语与其尾部实体的注意力权重进行归一化,得到各个标记词语与其尾部实体之间的第二归一化关联程度cor
t-e
(wi)。接着,数据管理系统将第一归一化关联程度和第二归一化关联程度相乘,再将乘积结果取对数,得到各个标记词语,与其对应的头部实体和尾部实体之间的联合关联程度r(wi),即联合关联程度r(wi)=-log{cor
h-e
(wi)* cor
t-e
(wi)}。最后,数据管理系统根据各个标记词语的联合关联程度,抽取各个标记词语中头部实体和尾部实体之间的最终实体关系,具体如步骤s30331至步骤s30332。
54.本技术实施例通过各个标记词语的第一归一化关联程度和第二归一化关联程度,计算各个标记词语,与其对应的头部实体和尾部实体之间的联合关联程度,再根据各个标记词语的联合关联程度抽取实体关系,从而能够准确地抽取出各个标记词语的实体关系。
55.进一步地,步骤s30331至步骤s30332的描述如下:步骤s30331,根据各个所述标记词语的联合关联程度,确定各个所述标记词语中头部实体和尾部实体之间关系最紧密的关系词语;步骤s30332,根据各个所述标记词语的关系词语,得到各个所述标记词语中头部实体和尾部实体之间的最终关系。
56.具体地,数据管理系统根据预设公式r
word
=arg min r(wi),以及结合各个标记词语的联合关联程度,确定各个标记词语中头部实体和尾部实体之间关系最紧密的关系词语,其中,头部实体、尾部实体、标点符号和语句特殊标记不可作为本实施例中的关系词语。接着,数据管理系统根据各个标记词语的关系词语,抽取各个标记词语中头部实体和尾部实
体之间的最终实体关系。
57.本技术实施例根据各个标记词语的联合关联程度,确定各个标记词语中关系词语,再根据关系词语准确地抽取出各个标记词语中头部实体和尾部实体之间的实体关系。
58.进一步地,下面对本技术提供的实体识别和关系抽取装置进行描述,下文描述的实体识别和关系抽取装置与上文描述的实体识别和关系抽取方法可相互对应参照。
59.如图4所示,图4是本技术提供的实体识别和关系抽取装置的结构示意图,实体识别和关系抽取装置包括:构建模块401,用于构建包含领域名词的实体数据集合;训练模块402,用于将所述实体数据集合确定为训练集语料库,对预训练bert模型进行掩蔽训练,得到领域语言模型;抽取模块403,用于通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系。
60.进一步地,所述抽取模块403还用于:通过所述领域语言模型识别出,各个所述标记词语中的头部实体和尾部实体;计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重;基于各个所述标记词语与其头部实体和尾部实体的注意力权重,抽取出各个头部实体和尾部实体之间的关系。
61.进一步地,所述抽取模块403还用于:将各个所述标记词语与其头部实体和尾部实体的注意力权重进行归一化,得到各个所述标记词语与其头部实体之间的第一归一化关联程度,以及各个所述标记词语与其尾部实体之间的第二归一化关联程度;根据各个所述标记词语的第一归一化关联程度和第二归一化关联程度,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的联合关联程度;根据各个所述标记词语的联合关联程度,确定头部实体和尾部实体之间的最终关系。
62.进一步地,所述抽取模块403还用于:根据各个所述标记词语的联合关联程度,确定各个所述标记词语中头部实体和尾部实体之间关系最紧密的关系词语;根据各个所述标记词语的关系词语,得到各个所述标记词语中头部实体和尾部实体之间的最终关系。
63.进一步地,所述抽取模块403还包括计算单元,用于:确定各个所述标记词语经过所述领域语言模型抽取后,得到的加权关联程度;确定所述领域语言模型中transformer层的第一数量,以及各个transformer层中head的第二数量;结合预设计算公式,并基于各个所述标记词语的加权关联程度,以及所述第一数量和所述第二数量,计算各个所述标记词语,与其对应的头部实体和尾部实体之间的注意力权重。
64.进一步地,所述构建模块401还用于:
通过预设切词工具对原始文本数据进行切割,得到各个待处理实体数据;将各个所述待处理实体数据与领域名词集合进行融合,构建所述包含领域名词的实体数据集合。
65.进一步地,所述构建模块401还用于:根据各个标记词语中头部实体和尾部实体的实体关系,及其对应的头部实体和尾部实体,构建各个所述标记词语的实体三元组。
66.本技术提供的实体识别和关系抽取装置的具体实施例与上述实体识别和关系抽取方法各实施例基本相同,在此不作赘述。
[0067] 图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行实体识别和关系抽取方法,该方法包括:构建包含领域名词的实体数据集合;将所述实体数据集合确定为训练集语料库,对预训练bert模型进行掩蔽训练,得到领域语言模型;通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系。
[0068]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0069]
另一方面,本技术还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的实体识别和关系抽取方法,该方法包括:构建包含领域名词的实体数据集合;将所述实体数据集合确定为训练集语料库,对预训练bert模型进行掩蔽训练,得到领域语言模型;通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系。
[0070]
又一方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的实体识别和关系抽取方法,该方法包括:构建包含领域名词的实体数据集合;
将所述实体数据集合确定为训练集语料库,对预训练bert模型进行掩蔽训练,得到领域语言模型;通过所述领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,以及抽取各个所述标记词语的头部实体和尾部实体之间的实体关系。
[0071]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0072]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0073]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献