一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于课程学习的文本实体识别方法

2022-06-08 08:16:09 来源:中国专利 TAG:

技术特征:
1.一种基于课程学习的文本实体识别方法,其特征在于,包括以下步骤:步骤一:对训练项目文本中的文本数据进行预处理,并对预处理后的文本数据进行标注,构建文本标注数据集;步骤二:将文本标注数据集划分为训练集、验证集和测试集;步骤三:将训练集中的文本数据按照从易到难的顺序进行排列,通过自然断点分类算法将排序后的训练集中的文本数据划分为n个区块;步骤四:使实体识别模型对训练集中n个区块的文本数据进行课程学习,直至模型收敛;学习训练过程中将实体识别模型在验证集上进行评估,获取最优模型参数设置;步骤五:将最优模型参数设置对应的实体识别模型在测试集上进行测试,将符合训练效果的实体识别模型应用于真实项目文本实体识别场景中。2.根据权利要求1所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤一中,采用bioes标注模式对预处理后的文本数据进行标注,并在标注符号后添加实体类别表征符号。3.根据权利要求2所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤一中,bioes标注模式中的b代表标注实体开始,i代表实体内部标注,e代表标注实体结尾,s代表单字符实体,o代表非实体;实体类别表征符号中,g代表项目申请单位,f代表设施设备,t代表技术术语。4.根据权利要求1至3任意一项所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤三中,对训练集的文本数据按照从易到难的顺序进行排序时,通过领域实体占比进行难度排序,领域实体占比数值越大则学习难度越大,每个文本数据的领域实体占比通过表达式1)计算:其中,s为训练集中的单个文本数据,n为文本数据s中实体词的总数,e
j
为s中的第j个需识别的实体词,d(s)为s的领域实体占比,len(s)为s的样本长度,len(e
j
)为e
j
的实体词长度。5.根据权利要求4所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤三中,当训练集中的文本数据样本量为5000个以下时,1<n≤3;当训练集中的文本数据样本量介于5000个至100000个时,4≤n≤9;当训练集中的文本数据样本量为100000个以上时,n≥10。6.根据权利要求5所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤三中,通过自然断点分类算法进行区块划分时,将训练集中排序后的各文本数据对应的领域实体占比依次放入领域实体占比集合中,选取领域实体占比集合中方差拟合优度gvf值最大的划分情形为最佳划分;方差拟合优度gvf通过表达式2)计算:
其中,sdam
z
是领域实体占比集合中所有领域实体占比值的偏差平方和,sdam1至sdam
n
分别为第1个区块至第n个区块对应的所有领域实体占比值的偏差平方和。7.根据权利要求1所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤四中,建立bert-bilstm-crf实体识别模型,对排序后的训练集中的文本数据进行课程学习。8.根据权利要求7所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤四中,实体识别模型先进行n个阶段的学习训练,在进行第i个阶段的学习训练时,将第1个区块至第i个区块的文本数据输入实体识别模型中进行学习训练,其中1≤i≤n;然后让实体识别模型反复学习整个训练集的文本数据,直到模型收敛即完成训练。9.根据权利要求1所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤四中,在实体识别模型学习训练过程中,设置若干个模型检查点;在每个检查点,都将实体识别模型在验证集上进行评估,对比每个检查点时实体识别模型的识别准确率和收敛情况,获取最优模型参数设置。10.根据权利要求1或9所述的一种基于课程学习的文本实体识别方法,其特征在于,所述步骤五中,将最优模型参数设置对应的实体识别模型在测试集上进行测试,评估该实体识别模型的泛化能力是否满足使用需求。

技术总结
本发明提供了一种基于课程学习的文本实体识别方法,包括将构建的文本标注数据集划分为训练集、验证集和测试集;将训练集中的文本数据按照从易到难的顺序进行排列,通过自然断点分类算法将排序后的训练集中的文本数据划分为n个区块;使实体识别模型对训练集中n个区块的文本数据进行课程学习,直至模型收敛;学习训练过程中将实体识别模型在验证集上进行评估,获取最优模型参数设置;将符合训练效果的实体识别模型应用于真实项目文本实体识别场景中。本发明通过使实体识别模型进行课程学习,训练时模型对局部极小值的跟踪会引导其走向更优的参数空间,更有可能逼近全局最小值,使其具有更好的泛化性,从而达到提升训练效率和识别准确度的效果。和识别准确度的效果。和识别准确度的效果。


技术研发人员:石路云 张祖平
受保护的技术使用者:中南大学
技术研发日:2022.03.04
技术公布日:2022/6/7
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献