一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种食品营养与健康领域知识图谱构建的实体识别方法

2022-09-02 18:49:58 来源:中国专利 TAG:


1.本发明属于知识工程领域,尤其是一种食品营养与健康领域知识图谱构建的实体识别方法。


背景技术:

2.食品营养与健康是全社会关注的热点问题,网络上关于食品营养与健康相关知识纷繁庞杂,知识图谱是知识工程中的新兴技术,能够有效的梳理相关领域知识,而实体识别方法是构建知识图谱的关键步骤。食品营养与健康领域相关实体往往由多个基础词汇复合而成,这导致传统方法构建的词频统计表中概率值分布不均,会造成语句分词无法准确切分,最终造成食品营养与健康领域实体识别准确度不高,这为食品营养与健康领域知识图谱的构建带来了极大的挑战。为解决该问题,首先建立食品营养与健康领域词频统计表,使用接续概率代替词汇概率完成数据平滑操作;接下来使用n-gram模型进行语句切分,并且使用最大概率匹配算法选择最优切分路径;最后根据构建的食品营养与健康领域字典进行实体识别。本方法降低了语句切分的错误率,提高了食品营养与健康领域知识图谱实体识别的准确率。
3.目前实体识别技术主要有三种实现方式:基于规则和特征模板的方法、基于统计的方法和基于统计与规则相结合的方法。基于规则和特征模板的方法需要语言学专家构造规则特征模板,以专家预先构建好的模式和字符串相匹配为主要手段。基于统计的方法对特征的选取具有较高的要求,需要从收集到的文本数据中选择对该领域有影响的各种不同的特征,并将找到的特征整合成一个特征向量。通过训练语料挖掘特征选择有效反映该类实体特性的特征集合。最大概率匹配法为基于统计方法中常用方法之一。基于统计与规则相结合的方法首先利用统计的方法进行实体的识别,然后利用一些简单的规则去过滤实体。
4.基于规则和特征模板的方法和基于统计与规则相结合的方法需要构建相关规则,存在系统建设周期长、代价大、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。因此,食品营养与健康领域知识图谱构建过程多使用基于统计的方法。最大概率匹配算法为基于统计方法中的常用实体识别算法,但由于食品营养与健康领域相关词汇复合名词较多,导致最大概率匹配法存在词频统计概率分布不均的问题,即某些特定领域专属词汇概率较低。若直接采用最大概率匹配算法,会出现过度切分问题,最终导致无法正确识别句子中的实体。
5.综上分析,实体识别技术是食品营养与健康领域知识图谱构建的关键技术之一,而食品营养与健康领域词频统计表的数据平滑操作,能有效的增加食品营养与健康领域实体识别的准确率。


技术实现要素:

6.本发明的目的在于克服现有实体识别方式的不足,综合最大概率匹配算法和数据
平滑算法的优点,利用数据平滑算法对食品营养与健康领域词频统计表进行数据平滑。然后利用最大概率匹配法对相关语句进行切分,并找到最优切分路径,根据食品营养与健康领域词典进行实体识别与标注。有效的提高了实体识别的准确率。
7.为实现上述目的,本发明的技术方案是:一种食品营养与健康领域知识图谱构建的实体识别方法,包括以下步骤:
8.步骤1:构建基于食品营养与健康领域词频统计表,构建基于食品营养与健康领域词典。
9.步骤2:数据平滑。首先,寻找词频统计表中的词汇中的前一个词,将词汇的前一个词考虑在内,使用接续概率代替词汇概率,将该词作为一个新的接续可能性。其次,计算食品营养与健康领域词频统计表中全部词汇的接续概率,接续概率与新的接续词汇构成的集合的势成正比,集合的势要求集合中的元素互不相同后,获取集合的大小,记为该词的接续概率。最后,将获取到的接续概率进行归一化处理。至此,根据数据平滑操作完成了食品营养与健康领域的数据平滑操作,解决了食品营养与健康领域较长词汇词频概率较低的问题,提高了食品营养与健康领域的实体识别的准确性。
10.步骤3:语句切分。首先,使用n-gram模型将待切分的句子进行切分。其次,将切分完成的句子中的切分词汇取出,在经过数据平滑的食品营养与健康词频统计表中进行词汇查找,取出其概率,找到概率最大的前趋词汇,作为切分词汇,不断重复最优前趋词汇的查找,直至完成全部切分路径的遍历。最后,保留概率最大的切分路径作为该句的最优切分路径。增加了食品营养与健康领域语句切分的准确性,提高了语句切分的计算效率。
11.步骤4:实体识别。首先,将切分好的语句中的词汇在食品营养与健康领域词典中进行查找。其次,根据食品营养与健康领域中的标签进行实体标注。最终完成食品营养与健康领域实体识别。降低了食品营养与健康领域实体识别的错误率,提高了实体识别结果的准确性。
12.本发明的优点和积极效果是:
13.相较于现有的实体识别算法技术,本发明的有益效果:构建食品营养与健康领域词频统计表;同时,使用接续概率代替词汇统计概率对构建完成的词频统计表进行概率修正;然后,通过最大概率匹配法对语句进行切分,找到该语句的最优切分路径;最后,通过构建完成的食品营养与健康领域词典对切分好的语句进行实体识别。通过构建专有领域词频统计表与数据平滑操作,使得实体识别的准确度有了很大的提高。
附图说明
14.图1为本发明所使用的食品营养与健康领域词频统计表。是为了根据词频统计表中的词汇统计概率进行最大概率匹配,找到最优的语句切分概率,该词频统计表是经过数据平滑后的食品营养与健康词频统计结果。
15.图2为本发明所使用到的食品营养与健康领域字典,是为了对经过最大概率匹配算法切分好的句子进行实体识别,并根据标签内容进行标注。
具体实施方式
16.以下结合附图对本发明实施例做进一步详述:
17.一种面向食品营养与健康领域知识图谱构建的实体识别方法,包括以下步骤:
18.相关定义:
19.(1)词频统计是对语篇或语料库中某一语词或短语出现的频数进行统计的过程或结果。
20.(2)集合的势是用来度量集合规模大小的属性的。对于有限集合,可用集合的元素个数来进行度量,对于无限集合这个办法就行不通了,为此我们需要采用一种新的方法来比较两个集合规模的大小,这种方法应该对有限集合和无限集合都适用。
21.(3)实体识别是2018年全国科学技术名词审定委员会公布的计算机科学技术名词,是一种信息提取技术。从文本数据中获取人名、地名等实体数据。
22.步骤1:构建基于食品营养与健康领域词频统计表,构建基于食品营养与健康领域词典。
23.首先采集互联网上关于食品营养与健康相关领域信息,并将这些信息进行词频统计,构建食品营养与健康领域词频统计表。其次,从食品营养与健康领域信息中获取相关实体名称,构建食品营养与健康领域词典。
24.步骤2:数据平滑。
25.首先,寻找词频统计表中的词汇中的前一个词,将词汇的前一个词考虑在内,使用接续概率代替词汇概率,将该词作为一个新的接续可能性。其次,计算食品营养与健康领域词频统计表中全部词汇的接续概率,接续概率与新的接续词汇构成的集合的势成正比,集合的势要求集合中的元素互不相同后,获取集合的大小,记为该词的接续概率。最后,将获取到的接续概率进行归一化处理。至此,根据数据平滑操作完成了食品营养与健康领域的数据平滑操作,解决了食品营养与健康领域较长词汇词频概率较低的问题,提高了食品营养与健康领域的实体识别的准确性。
26.本步骤的具体实现方法为:使用接续概率p
continuation
代替p(w),p
continuation
将词汇的前一个词也考虑在内,是将w作为一个新的接续的可能性。p
continuation
与新的接续构成的集合的势成比例。集合的势要求集合中的元素互不相同后,获取集合的大小,即在相关领域语料库中含有多少种不同的以w结尾的词汇。p
continuation
公式为:p
continuation
(wi)

|{w
i-1
:c(w
i-1
wi)>0}|,其中wi为当前词,w
i-1
wi为由当前词wi构成的不同类型的bi-gram,对其进行归一化处理可得:
[0027][0028]
使用平滑算法对构建好的食品营养与健康领域词频统计进行数据平滑操作。
[0029]
步骤3:语句切分。
[0030]
首先,将待切分的句子使用n-gram模型进行切分。其次,将切分好的句子中的切分词汇取出,在经过数据平滑的食品营养与健康词频统计表中进行词汇查找,取出其概率,找到概率最大的前趋词汇,作为切分词汇,不断重复最优前趋词汇的查找,直至完成全部切分路径的遍历。最后,保留概率最大的切分路径作为该句的最优切分路径。增加了食品营养与健康领域语句切分的准确性,提高了语句切分的计算效率。
[0031]
具体迭代方法如下:假设随机变量s为汉字字符串的输入序列,w是s上所有可能存
在的切分路径,对于分词而言,就是求解出切分路径w
*
使得条件概率p(w|s)最大的中文序列切分路径。即,
[0032][0033]
根据贝叶斯公式,可得
[0034][0035]
其中p(s)为归一化因子,p(s|w)为先验概率,在这里恒为1,因此只需要求解p(w)就可以将最优切分路径w
*
求解出。在此p(w)使用n-gram语言模型建模,对p(w)有如下定义:
[0036][0037]

[0038][0039]
至此衡量中文序列切分好坏程度的条件概率p(w|s)可以求解。找到每一句话中的p(w|s)最大的值即为该句的最优切分结果。
[0040]
步骤4:实体识别。
[0041]
首先,将切分好的语句中的词汇在食品营养与健康领域词典中进行查找。其次,根据食品营养与健康领域中的标签进行实体标注。最终完成食品营养与健康领域实体识别。降低了食品营养与健康领域实体识别的错误率,提高了实体识别结果的准确性。
[0042]
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献