一种基于深度学习的食品及健康知识图谱构建方法与流程

2021-11-03 20:34:00 来源：中国专利 TAG：

技术特征：
1.一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：包括以下步骤：s1：从国家标准文件和网络提取源数据；s2：对源数据抽取信息，包括通过python脚本分别抽取结构化数据和半结构化数据，对非结构化数据采取字符级别的手动标注，且基于手动标注数据形成数据集，实现包括基于bilstm
‑
crf模型进行的实体识别和基于transformer模型进行的关系抽取；s3：分类整理提取的数据内容，设计知识图谱概念层，数据库建模，包括统一的实体、关系类别以及对应的字段名称，将多源异构数据融合在同一个知识图谱中；s4：选取四种kge模型transe、transh、transr、transd对(头实体，关系，尾实体)类型的三元组数据进行嵌入embedding，应用于实体相似度计算以及关系预测；s5：设计问题模板，搭建问答系统，查询整合结果。2.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：所述的步骤s1中，数据源是未三元组化的知识，包括食品类、农产品类、国家标准类、食品营养值类、食品添加剂类、农药类、兽药类、污染物类、疾病与症状类；食品类的实体属性包括食品名称和食品分类；农产品类的实体属性包括农产品名称和农产品分类；国家标准类的实体属性包括标准名称和标准内容；食品营养值类的实体属性包括营养名称和营养值；食品添加剂类的实体属性包括添加剂名称和添加剂值；农药类的实体属性包括农药名称、农药分类、农药限量值；兽药类的实体属性包括兽药名称、兽药分类、兽药限量值；污染物类的实体属性包括污染物名称和污染物限量值；疾病与症状类的实体属性包括疾病名称、症状名称、疾病就诊科室、治疗药物。3.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：所述的步骤s2中，具体步骤为：s21：通过bilstm
‑
crf模型进行实体识别，结合经典模型条件随机场crf与双向长短期记忆网络bilstm，通过命名实体识别ner提取文本中的包括专有名词和量词的事实信息；s22：通过transformer模型进行关系抽取re，从文本中抽取实体与实体之间或者实体与属性之间的语义关系；对输入的句子和实体计算既定的每种关系对于该实体在句子中的可能性，取最高的可能性作为目标关系；s23：将所有数据转换成rdf三元组形式的知识并保存为.csv格式。4.根据权利要求3所述的一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：所述的步骤s22中，transformer模型采用多层注意力机制，包括encoder内部和decoder内部的多头自注意力模块，以及encoder和decoder之间的多头注意力模块；encoder和decoder分别包括自注意力机制，decoder在自注意力机制的基础上加入encoder的反馈信息形成多头自注意力机制；transformer模型用于使输入的句子和实体经过嵌入层转换成对应向量，依次经过encoder、decoder、分类器得到实体关系。
5.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：所述的步骤s3中，具体步骤为：s31：采用嵌入embedding后的相似的向量对应的实体判断相似实体，将不同名称映射到同一实体上，解决同物异名的问题；s32：在图数据库中为同名实体设置分类标签，解决同名异物的问题。6.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：所述的步骤s3后，还包括以下步骤：通过图数据库存储方法存储基于rdf三元组的数据内容用于信息检索和查询；存储的rdf三元组包括(农产品，包含，农产品)、(食品，包含，食品)、(农药，包含，杀虫剂、杀菌剂、增效剂等)、(食品，含有，营养值、农药、添加剂等)、(农产品，含有，营养值、农药、添加剂等)、(食品、农产品，参考标准，国家标准)、(国家标准，检测项目，食品、农产品)、(国家标准，引用，国家标准)、(食品，限量，农药、添加剂、污染物、兽药)、(农产品，限量，农药、添加剂、污染物、兽药)、(食品，营养值，营养物质)、(疾病，症状，症状)、(食品，原料，食品、农产品)、(农产品，原料，食品、农产品)、(农药、添加剂等，导致，症状)、(疾病，治疗药物，药物)、(疾病，治疗方式，治疗方法)、(疾病，所属科室，科室)、(疾病，疾病检查项，医疗检查项目)；包含关系的关系内容为父子类关系，含有关系的关系内容为各种含有量或参考限量，参考标准关系的关系内容为参考标准和参考内容，检测项目关系的关系内容为某国标的检测项目，引用关系的关系内容为某国标引用某国标，限量关系的关系内容为具体限量值，营养值关系的关系内容为具体营养值，症状关系的关系内容为某疾病的症状，原料关系的关系内容为某食品、农产品的原料，导致关系的关系内容为某物质超标引发的症状，治疗药物关系的关系内容为某疾病的治疗药物，治疗方式关系的关系内容为某疾病的治疗方式，所属科室关系的关系内容为某基本所属科室，疾病检查项关系的关系内容为某疾病的医疗检查项目。7.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：所述的步骤s4中，具体步骤为：s41：设知识图谱为g＝(e，r，t)，其中所有实体的集合为e＝{e1，e2，...e
|e|
}，实体的个数为|e|；所有关系的集合为r＝{r1，r2，...r
|r|
}，关系的个数为|r|；三元组集合triplet为t＝e
×
r
×
e；单个三元组为(h，r，t)，其中三元组的头实体head为h，尾实体tail为t，头实体和尾实体的关系为r；嵌入embedding后的头实体向量为v
h
、关系向量为v
r
、尾实体向量为v
t
；v
h
、设正样本数据集合为：p＝{(h，r，t)}，负样本数据集合为：
n＝{(h
′
，r，t)|h
′
≠h∧(h，r，t)∈p}∪{(h，r，t
′
)|t
′
≠t∧(h，r，t)∈p}；transe模型将三元组(h，r，t)的r看作h到t的平移，通过transe模型得到关系：v
h
v
r
≈v
t
，设transe模型的损失函数为：v
h
v
r
与v
t
的l1或l2距离表示头实体关系到尾实体的距离，距离越近越好；向transe模型添加负样本数据后的得分函数为：其中：transh模型将v
h
和v
t
投影在关系v
r
的超平面上，使投影后的向量满足transe模型的假设：对于三元组(h，r，t)，定义w
r
为关系r所在超平面的与v
r
正交的法向量，把v
h
和v
t
投影在r所在的超平面得到和则：则：transh的损失函数为：transh的得分函数与transe一致，为：transr模型分别给实体和关系创建不同的语义空间，将实体翻译到关系所在的语义空间再计算得分；对三元组(h，r，t)的每一个关系创建翻译矩阵通过翻译矩阵m
r
将v
h
和v
t
分别翻译在关系语义空间得到和和和transr模型的损失函数、得分函数均与transh模型一致；
transd模型中设置翻译矩阵m
hr
和m
tr
分别用于将头实体h和尾实体t翻译至关系语义空间；设参数向量下标p表示该向量为参数向量；其中实体向量关系向量翻译矩阵m
hr
，则：则：将头实体和尾实体翻译后的向量记为和则：则：transd模型的损失函数和得分函数均与transr模型相同；s42：基于transr模型进行两两实体间的关系预测，在实验中采用预测关系的前两位作为结果计算准确度；s43：基于transr模型进行相似实体预测，使用嵌入embedding后的向量相似度预测实体相似度；采用被判断为相似的两个实体之间的公共路径条数作为判断相似实体预测结果的好坏指标。8.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：所述的步骤s5中，搭建问答系统的具体步骤为：s51：设变量x和cla为问题参数，根据收集到的数据类型设计问题模板包括：查询名叫x的食品含有哪些营养；查询名叫x的食品有什么食品添加剂；某查询名叫x的食品相关的国家标准；查询名叫x的国家标准中的抽检项目；查询name为x的节点；查询lable为x的节点；查询名叫x的食品、农产品中名叫cla的物质的最大残留量；查询名叫x节点的类别；查询名叫x的物质超量可能导致的症状和疾病；查询名叫x的疾病属于什么科室；查询名叫x的疾病的治疗药物；查询名叫x的疾病的治疗方法；查询名叫x的疾病的症状；查询名叫x的疾病的医疗检查项目；s52：采用jieba工具和自定义词典进行词性标注，提取问题参数；s53：对每个问题模板编写问题集，采用tfidf经典文本分类算法匹配问题模板；s54：通过py2neo工具封装cypher语句进行数据查询，通过python后台整合结果并返
回。9.根据权利要求1所述的一种基于深度学习的食品及健康知识图谱构建方法，其特征在于：所述的步骤s5中，还包括搭建web端应用，具体步骤为：使用python flask框架搭建web系统，采用neovis实现图数据可视化部分，采用bootstrap美化前端框架；采用ajax完成前后端信息交互；实现包括实体识别、关系抽取、智能问答、固定类型查询、路径查询的功能。10.一种基于深度学习的食品及健康知识图谱，其特征在于：包括数据层和模式层；数据层采用rdf三元组和图数据存储数据源；模式层采用本体库对实体构造规则和约束。

技术总结
本发明提供了一种基于深度学习的食品及健康知识图谱构建方法，从信息抽取、知识表示、知识融合、知识存储、知识推理和知识图谱应用六个方面构建和应用面向食品安全领域的知识图谱，实现了高效查询食品安全数据和科学分析食品安全问题的功能。本发明在信息抽取阶段，基于手动标注数据集应用的深度学习方法有：基于BiLSTM

技术研发人员：赵良廖子逸张赵玥董滨源牛恬瑾
受保护的技术使用者：华中农业大学
技术研发日：2021.07.29
技术公布日：2021/11/2

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于声谱图进行身份识别的方法及系统与流程

一种基于深度学习的食品及健康知识图谱构建方法与流程

相关文献

最热文献