一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于知识图谱的人体骨骼运动康复模型构建方法与流程

2022-06-30 02:31:35 来源:中国专利 TAG:


1.本发明涉及一种人体骨骼运动康复模型构建方法,尤其涉及一种基于知识图谱的 人体骨骼运动康复模型构建方法。


背景技术:

2.目前在运动康复领域,按照专业能力进行分类,可大致分为专业(职业)人群、 高水平爱好者、普通爱好者、普通人群按身体年龄状况可分为残疾人群、亚健康人 群、中老年人群等。在众多运动损伤和疾病中,仅非特异性腰痛(nonspecific low backpain,nlbp)这种病例在2016年因该病造成病人身体健康寿命受损达到了5760万人/ 年。而目前国内的专业康复师和医生的数量有限,但需求人群巨大。非医疗康复专 业人士在查询人体骨骼肌相关知识(主要是运动康复方面),如果不是在咨询专业医 生或者运动康复专业人士的情况下,将更多依赖于互联网搜索引擎去寻找相关知识, 需要在较多杂乱的信息中去筛选出有价值的信息,这样存在效率较低下且不准确的 问题。
3.目前已有的医疗康复方面的知识图谱,大都基于传统方法进行构建:比如2013 年dao等人尝试用语义匹配建立基于互联网的人体骨骼肌搜索引擎;2018年gyrard 等人提出基于个人的健康知识图谱;2018年马浩晨等基于规则的关系抽取建立了甲 状腺知识图谱;2020年付洋等建立了基于规则和相似度的心脏病病知识图谱;2020 翟兴等建立了基于模板匹配和相似度计算的智能养生的知识图谱;2020年尤欢欢等 人建立了基于骨科疾病的知识图谱;但是都存在效率较低、人工成本较高的问题。


技术实现要素:

4.本发明所要解决的技术问题是提供一种基于知识图谱的人体骨骼运动康复模型 构建方法,能够有效降低人工判断工作量,并提高知识图谱准确率,方便非医疗运 动康复专业人士查询并获得专业指导,实现不用去医院也能够获得良好的预诊断。
5.本发明为解决上述技术问题而采用的技术方案是提供一种基于知识图谱的人体 骨骼运动康复模型构建方法,包括如下步骤:s1、获取人体骨骼运动相关的结构化、 半结构化和非结构化数据;s2、利用预训练模型对获取数据中的词语进行分布式表 示;s3、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取,完成人体 骨骼运动知识图谱的搭建;s4、利用py2neo库将得到的实体、关系和属性自动构建 在neo4j数据库中并存于云端。
6.进一步地,所述步骤s1中人体骨骼运动相关的数据通过爬虫从互联网获取, 或者通过书籍和医生康复师人工获取结构化数据。
7.进一步地,所述步骤s1利用scrapy对网页进行爬取,返回json或者csv格 式的数据。
8.进一步地,所述步骤s2在对数据进行文本表示之前先进行如下数据预处理和 数据增强处理:s21、对于得到的非结构化数据中的文本信息,按照信息抽取模型的 标注模式进行标注,并将标注的文本作为训练集、验证集和测试集;s22、通过人工 构造的方式扩充
数据量进行数据增强,扩充方式包括:原文扩充、随机截断、字符替换、随机翻转、同性词替换以及预训练模型输出替换。
9.进一步地,所述步骤s3利用基于深度学习的端到端的joint模型对数据进行实体、关系和属性抽取,并在tplinker模型的基础上增加了属性识别,然后利用tplinker模型将joint实体关系提取任务转换为token对的连接关系。
10.进一步地,所述步骤s3通过token链接矩阵的标记方案来提取所有实体和重叠关系,具体包括:
11.设置实体头部-实体尾部链接eh-et:用于表示一个实体的开始和终止token;
12.设置主体头部-目标头部链接sh-oh:用于表示同一关系的两个实体的开始token;
13.设置主体尾部-目标尾部链接st-ot:用于表示同一关系的两个实体的结束token;
14.对每个关系进行一次标记,如果有n个关系则解析成2n 1的序列标记子任务了,每一个子任务的长度为n为输入的句子长度;
15.从实体头部-实体尾部链接eh-et中提取所有实体,并通过字典将每个头部位置映射到相应到实体;然后开始进行解码,对于每个关系st-ot确定头实体的尾部和尾实体的尾部,将其添加到集合e中;接着以sh-oh序列查找字典d中头部位置开始的所有可能实体;最后开始迭代检查所有候选实体是否在集合e中,如果在则直接提取三元组放入集合t中。
16.进一步地,所述token对的设置如下:一个长为n的句子[w1,w2,

,wn]将每个tokenwi通过编码映射到一个低维的上下文向量hi;然后生成[wi,wj]token对的对应表示向量h
i,j
计算公式为:
[0017]hi,j
=tanh(wh·
[hi;hj] bh),j≥i
[0018]
其中wh为参数矩阵,bh为偏移向量;
[0019]
对于eh-et,sh-oh和st-ot的标记在该模型中使用如下统一公式:
[0020]
p(yi,j)=softmax(wo·hi,j
bo)
[0021][0022]
其中p(yi,j)表示将(wi,wj)识别为l的概率密度,其损失函数为:
[0023][0024]
n为输入的句子长度,是真实的标签,e,h和t表示eh-et,sh-oh和st-ot的标签。
[0025]
进一步地,所述步骤s3还包括对实体进行属性抽取,并且对于属性的提取同样引入标记符号:实体属性头部-实体属性尾部eah-eat、实体头部-实体属性头部eh-eah、实体尾部-实体属性尾部et-eat;对于eh-eah和et-eat部分,属性在前实体在后,所以设置tag为2;属性在文本为顺序,所以设置tag为1;假如实体共有m种属性,那么子任务将由原模型中的2n 1变成了2m 2n 2,子任务的长度不变仍为属性tag的计算方法和原模型
关系和实体tag计算方式相同。
[0026]
进一步地,所述步骤s3使用基于关系门的信息抽取模型,通过使用关系注意 力机制使得通过关系门在一个文本中对不同关系进行提取;所述信息抽取模型的 embedding层使用词嵌入、词性嵌入和字符嵌入;通过将字符对应id、词对应id和 词性对应id,先转换为低维向量再通过一维卷积和全连接层获取输入的词向量。
[0027]
进一步地,所述步骤s3还包括将搭建的人体骨骼运动知识图谱的作一个知识库 进行实体链接;所述知识库包含一个实体集合e;每一个从互联网上获取的数据中 抽取出来的实体,均为实体集合e的潜在提及对象;所述步骤s2将每一个从互联网 上新获取的提及对象匹配对应到实体集合e中的目标实体;如果在实体集合e不包 含与新获取的提及对象相对应的目标实体,则将新获取的提及对象作为新的目标实 体补充到原有的实体库。
[0028]
本发明对比现有技术有如下的有益效果:本发明提供的基于知识图谱的人体骨 骼运动康复模型构建方法,相较于传统医疗知识图谱能够有效降低人工判断工作量 和提高知识图谱准确率,方便非医疗运动康复专业人士查询并获得专业指导,实现 不用去医院也能够获得良好的预诊断,也方便专业人士实现快速查询某块骨骼肌基 本信息和相应的测试或康复方案。
附图说明
[0029]
图1为信息抽取一般流程图;
[0030]
图2为传统实体连接一般方法流程图;
[0031]
图3为本发明使用的深度学习的命名实体识别流程图;
[0032]
图4为本发明使用的基于深度学习的端到端的joint模型;
[0033]
图5为本发明获取人体骨骼运动相关数据示意图;
[0034]
图6为本发明使用爬虫获取互联网数据示意图;
[0035]
图7为本发明采用bert_base_chinese、roberta-wwm-ext、ernie作为知识表 示的预训练模型;
[0036]
图8为本发明使用的握手标记方案示意图;
[0037]
图9为本发明使用的tplinker框架示意图;
[0038]
图10为本发明使用的tplinker新增属性提取框架示意图;
[0039]
图11为本发明使用的enconder结构示意图;
[0040]
图12为本发明使用的deconder结构示意图。
具体实施方式
[0041]
下面结合附图和实施例对本发明作进一步的描述。
[0042]
要构建知识图谱就首先需要将知识从原始数据包括结构化数据、非结构化数据 和半结构化数据中抽取出来。通过命名实体识别、命名实体链接和命名实体关系抽 取形成三元组关系构建知识图谱,其简易流程如图1所示。
[0043]
命名实体(name entity)是指在文本中具有特定含义或者指代性强的实体,通 常包含人名、组织机构名、专有名词等。第六届信息理解大会(the sixth messageunderstanding conference,muc-6)和muc-7将其分为三大类,七小类。之后又拓 展出了包
括、地理政治、设施、交通工具、武器、民族及政治团体、产品名、艺术 品名、法律、语言、序数词、基数词等。对于特定领域、比如生物:包括蛋白质、 核糖核苷酸、脱氧核糖核苷酸和基因等等。化学:化学物质和成分。医学:药品名 和疾病。电子商务:商品名、出产地、出产商。
[0044]
传统的实体命名方法一般分为三大类:基于词典与规则的方法、基于无监督的 方法和基于特征工程的有监督的机器学习方法。传统的命名实体链接方法一般根据 是否给定实体提及(entity mention)分为两类:1、没有给定实体提及的情况下一 般先做实体提及然后再做命名实体链接;或者将命名实体识别与链接联合求解。2、 在给定了实体体积的情况下可以直接进行联合求解;其框架基本如图2所示。自然 语言中存在一词多义、多词一意和别名的现象。在医学领域比如“足部旋后”和“跖 屈加内翻”是一个意思。命名实体链接是将文本中的命名实体提及链向某个知识库 中无歧义实体的过程。传统的非深度学习方法需要依赖大量人工并且移植性较差, 传统的命名实体关系抽取方法往往需要大量人工和人工设计特征或规则,会带来误 差累计传播问题,影响命名实体抽取的性能。
[0045]
由于基于深度学习的方法不需要进行人工特征的设计,为此,本发明使用基于 深度学习的方法进行命名实体识别、命名实体连接和命名实体关系抽取。基于深度 学习的命名实体识别方法一般包含三个步骤:输入的分布式表示、上下文编码和标 签解码,如图3所示。基于深度学习的实体链接方法主要有三个模块分别为候选实 体生成(candidate entity generation),候选实体排名(candidate entity ranking), 判定空链接(unlinkable mention prediction)。
[0046]
命名实体关系是指在实体之间的语义关系。两个实体之间的关系被称为二元关 系,三个及三个以上的实体之间的关系被称为多元关系或高阶关系(higher-orderrelation)。二元关系最为基础常见且多元关系往往可以转化为二元关系进行处理。
[0047]
为了能够减少各个模块在训练识别时的误差传播,本发明将利用基于深度学习 的端到端的joint模型,如图4所示。具体包括如下步骤:
[0048]
s1、获取人体骨骼运动相关的结构化、半结构化和非结构化数据;
[0049]
s2、利用预训练模型对获取数据中的词语进行分布式表示;
[0050]
s3、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取,完成人体 骨骼运动知识图谱的搭建;
[0051]
s4、利用py2neo库将得到的实体、关系和属性自动构建在neo4j数据库中并 存于云端。
[0052]
一、数据知识获取
[0053]
通过爬虫获取互联网海量结构化、半结构化和非结构化数据。通过书籍和医生 康复师等专业人士人工获取结构化数据,通过对数据进行预处理然后对数据进行标 注;如图5所示。
[0054]
本发明的数据可以大量来源于互联网资料,拟使用scrapy框架,利用该框架对 网页进行爬取,返回json或者csv格式的数据。scrapy框架基本结构如图6所示, 其包括引擎(scrapy engine)、调度器(scheduler)、下载器(downloader)、爬虫 (spider)、管道(item pipeline)、下载中间件(downloader middlewares)和爬 虫中间件(spider middlewares)。其工作流程为:
[0055]
1)引擎从爬虫获取初始需求。
[0056]
2)引擎将获取得到的需求发送给调度中心排队入队列。
[0057]
3)引擎获取调度中心的需求并将需求发送给下载器。
[0058]
4)需求在传送到下载器的过程中会经过下载器中间件,对需求进行处理。
[0059]
5)下载器根据需求从互联网下载内容,封装成响应对象传递给引擎。
[0060]
6)在响应传递给引擎的过程中也会经过下载器中间件,其会对响应进行处理。
[0061]
7)引擎将接收到的响应传递给爬虫进行处理。
[0062]
8)响应传递给引擎时会经过爬虫中间件并对响应进行处理。
[0063]
9)爬虫接收到响应并进行处理生成一个带爬取的网址的需求和一个项目对象组 成的结果并将结果传递给引擎。
[0064]
10)结果传递给引擎的过程中会经过爬虫中间器并对结果进行处理。
[0065]
11)引擎获取到爬虫传递的结果,将其中的项目对象发送给管道,将其中的需 求发给调度器排队入队列。
[0066]
12)管道会对数据进行进一步处理,包括数据整理和保存等。
[0067]
重复以上步骤直到完成需求。
[0068]
二、数据知识表示
[0069]
本发明利用预训练模型对词语进行分布式表示。优选采用bert_base_chinese、 roberta-wwm-ext、ernie作为知识表示的预训练模型。bert的框架如图7所示,其 采用双向transfomer的encoder结构,基于中文的维基百科作为相关语料进行预训 练。
[0070]
roberta-wwm-ext是由哈工大和讯飞联合发布的预训练模型、采用了动态mask 和更多的训练数据。
[0071]
ernie是由百度发布的基于百度贴吧等语料进行预训练的模型。采用了词语级别 的mask。
[0072]
在对数据进行文本表示之前先进性数据预处理和数据增强,具体步骤如下。
[0073]
1)对于得到的非结构化数据处理;
[0074]
2)对文本按照信息抽取模型的标注模式进行标注
[0075]
将标注的文本作为训练集、验证集和测试集。
[0076]
3)通过人工构造的方式扩充数据量达到数据增强的效果弥补标注数据量稀少问 题。
[0077]
常见的扩充方法如下标数据增强方法所示:
[0078]
扩充方法示例原文股直肌属于股四头肌随机截断股直肌与股四头肌[unk]字符替换股直肌属于[unk][unk][unk][unk]随机翻转股直肌属于股头肌四同性词替换股直肌属于臀大肌预训练模型输出替换股直肌属于大腿前侧肌肉
[0079]
三、知识图谱搭建
[0080]
1、实体、关系、属性抽取
[0081]
本发明通过实体关系联合抽取模型对数据进行实体、关系和属性抽取。
是图7中的“handshaking kernel”。对于eh-et,sh-oh和st-ot的标记在该模 型中使用的是一个统一框架。公式为:
[0091]
p(yi,j)=softmax(wo·hi,j
bo)
[0092][0093]
其中p(yi,j)表示将(wi,wj)识别为l的概率密度。其损失函数为:
[0094][0095]
n为输入的句子长度,是真实的标签,e,h和t表示eh-et,sh-oh和st-ot 的标签。
[0096]
(2)根据对模型结构调整提高模型识别实体和关系抽取准确率。
[0097]
除了对文本进行实体和关系的抽取还需要对实体进行属性抽取,对于不同类别 的实体具有不同的属性,并且属性的结构也不同,有的属性可能是词语级别,有的 可能是句子级别,有的可能是文档级别。那么对于属性的提取同样引入标记符号: 实体属性头部-实体属性尾部(entity attribute head to entity attribute tail,eah-eat)、 实体头部-实体属性头部(entity head to entity attribute head,eh-eah)、实体尾部
ꢀ‑
实体属性尾部(entity tail to entity attribute tail,et-eat)。对于eh-eah和et-eat 部分可以属性在前实体在后所以tag可以为2。属性在文本为顺序所以tag只能为1。 将其转化为tplinker框架如图9和图10所示,假如实体共有m种属性(属性可为 空值)那么子任务将由原模型中的2n 1,变成了2m 2n 2。子任务的长度不变仍为 属性tag的计算方法和原模型关系和实体tag计算方式相同。如果进行关系 属性提取定义关系属性类别为k类,任务变为2k 2m 2n 3个子任务。
[0098]
(3)通过基于关系注意力机制网络的实体关系抽取方案进行实体关系抽取
[0099]
使用基于关系门的信息抽取模型。该模型通过使用关系注意力机制使得能够通过 关系门在一个文本中对不同关系进行提取。该模型的embedding层使用词嵌入、词 性嵌入和字符嵌入。通过将字符对应id、词对应id和词性对应id,先转换为低维向 量再通过一维卷积和全连接层获取输入的词向量输入enconder,encoder结构如图 11所示。enconder层输入向量通过一个双向lstm输出的隐向量记为h1,h2,
…hn
,n 为输出隐向量个数。
[0100][0101]dhe
为bilstm的隐状态。
[0102]
sc={h1,...,hn}用来表示文本上下文句子特征。
[0103]
通过对隐向量取平均池化得到sg。
[0104]
sg=avg{h1,h2,

,hn}
[0105]
并定义关系向量rk。通过两个全连接层获得关系向量。
[0106]
计算sk,其计算公式为:
[0107]eik
=v
t
tanh(wrrk wgsg whhi)
[0108][0109][0110]
w1,w2,w3,b1,b2,b3为参数,theta为sigmoid函数。
[0111]
deconder结构如图12所示,其输入uk计算公式为:
[0112][0113][0114]
通过将encoder输入的隐向量和uk进行拼接输入双向lstm,然后通过softmax 输出。
[0115]
本发明通过对标注数据进行预处理,生成两种方案。
[0116]
方案一:按照原模型中构建对应的word2id和re2id的对应字典,并且通过lac 对文本进行词性标注获得其pos2id对应字典。按照该模型进行训练计算。lac词性 如下表所示。
[0117][0118][0119]
方案二:通过预训练模型获得相应词向量进行输入。在预训练模型选择上,选择 roberta_base还有bert。通过预训练模型获得词向量输入enconder和deconder进行训 练计算。
[0120]
通过以上三种方法:tplinker和基于关系注意力机制的实体关系抽取模型(分 布式表示用原模型方法和用预训练模型)可以获得实体和对应关系。因为在各个模 型中对于不同的实体类别抽取正确率不同:单个实体重复(singleentityoverlap,seo) 和实体对重复(entitypairoverlap,epo)。具体如下表所示。
[0121][0122]
2、实体链接
[0123]
将人工搭建的知识图谱当作一个知识库,该知识库包含一个实体集合e;本发 明从互联网上获取的大量数据并抽取出来的实体,本发明认为都是与实体集合e的 潜在提及对象,记该集合为m;任务目的是将每个实体提及m∈m到其对应的无歧 义的目标实体e∈e。如果在实际计算中集合e不包含m的目标实体,则将m链接 到一个新的实体(作为原有实体库的补充)。在具体模型选用上本发明采取基于图卷 积网络的模型,其利用图卷积网络来对局部上下文和全局一致性信息进行建模。通 过函数计算寻找为候选实体寻找一个最优分配。
[0124][0125]
为输出候选实体的变量;p()为概率函数,为拓扑图的归一化邻接矩阵,f为候选 尸体的特征表示。
[0126][0127]
f()是在参数ω下的一个映射函数。其利用编码器、子图卷积网络和解码器来获得该 映射函数。
[0128]
3、知识图谱的数据导入和储存
[0129]
本发明通过写好的python文档、利用py2neo库将3.4.1中得到的实体、关系、 属性自动构建在neo4j数据库中并存于云端。
[0130]
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域 技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发 明的保护范围当以权利要求书所界定的为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献