一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种实体识别方法和装置与流程

2022-02-21 09:56:17 来源:中国专利 TAG:

技术特征:
1.一种实体识别方法,其中,包括:从对话文本中得到候选实体;将所述对话文本和所述候选实体输入选定的排序模型,得到候选实体与所述对话文本的匹配得分;确定匹配得分满足设定条件的候选实体为所述对话文本的匹配实体。2.如权利要求1所述的方法,其中,所述从对话文本中得到候选实体,具体包括执行下述至少一项:在预设的实体库中,查询与所述对话文本的部分或全部匹配的结果作为候选实体;基于正则识别规则,从所述对话文本中获得候选实体;将所述对话文本输入预设的神经网络模型,得到所述对话文本的候选实体。3.如权利要求2所述的方法,其中,所述在预设的实体库中,查询与所述对话文本的部分或全部匹配的结果作为候选实体,具体包括:将所述对话文本中的字符单元与预设的实体库中实体的字符串进行匹配;确定与至少一个字符单元相匹配的字符串对应的实体,作为所述对话文本的候选实体。4.如权利要求3所述的方法,其中,所述确定与至少一个字符单元相匹配的字符串对应的实体,作为所述对话文本的候选实体,具体包括:从所述字符单元划分的多个最小字符单元中,确定与字符串中最小字符单元匹配的最小字符单元;确定所述字符单元中每个最小字符单元的权重;根据所述字符单元中每个最小字符单元的权重和匹配的最小字符单元的个数,确定所述字符串与所述字符单元的相似度;若所述字符串与至少一个字符单元的相似度满足预设条件,将所述字符串对应的实体,作为所述对话文本的候选实体。5.如权利要求4所述的方法,其中,所述确定所述字符单元中每个最小字符单元的权重,具体包括:根据最小字符单元与权重的第一对应关系,确定所述字符单元中每个最小字符单元的权重,所述第一对应关系是根据词频-逆文档频率tf-idf方法预先确定的。6.如权利要求4所述的方法,其中,所述确定所述字符单元中每个最小字符单元的权重,具体包括:利用命名实体识别模型ner确定所述字符单元中最小字符单元的标签;根据最小字符单元的标签和预先建立的最小字符单元标签与权重的第二对应关系,确定最小字符单元的权重。7.如权利要求4所述的方法,其中,所述根据所述字符单元中每个最小字符单元的权重和匹配的最小字符单元的个数,确定所述字符串与所述字符单元的相似度,具体包括:将匹配的最小字符单元的个数与所述字符单元中每个最小字符单元的权重之和的比值,确定为所述字符串与所述字符单元的相似度,所述权重不大于1。8.如权利要求2所述的方法,其中,训练所述神经网络模型所用的样本集中的一条样本数据的获取,具体包括:
将获取的样本文本、所述样本文本的匹配实体、所述匹配实体的属性实体和所述匹配实体的约束实体,组成用于训练所述神经网络模型的一条样本数据,所述约束实体用于限定所述匹配实体。9.如权利要求2所述的方法,其中,训练所述神经网络模型所用的样本集中的一条样本数据的获取,具体包括:获取包括样本文本、所述样本文本的初始匹配实体、所述初始匹配实体的初始属性实体和所述初始匹配实体的初始约束实体的样本数据,所述初始约束实体用于限定所述初始匹配实体;通过实体库确定预先建立的知识库中的与所述初始匹配实体匹配的第一实体,所述第一实体的字符串与所述初始匹配实体的字符串在所述实体库中对应于同一实体,将所述第一实体作为样本匹配实体;通过所述实体库确定所述知识库中的与所述初始属性实体匹配的第二实体,所述第二实体的字符串与所述初始属性实体的字符串在所述实体库中对应于同一实体,所述第二实体在所述知识库中的对应节点为所述第一实体在所述知识库中的对应节点的子节点,将所述第二实体作为样本属性实体;通过所述实体库确定所述知识库中的与所述初始约束实体匹配的第三实体,所述第三实体的字符串与所述初始约束实体的字符串在所述实体库中对应于同一实体,所述第三实体在所述知识库中的对应节点为所述第一实体在所述知识库中的对应节点的子节点,将所述第三实体作为样本约束实体;所述样本文本、样本匹配实体、样本属性实体和样本约束实体组成用于训练所述神经网络模型的一条样本数据。10.如权利要求2所述的方法,其中,将所述对话文本输入预设的神经网络模型,得到所述对话文本的候选实体,具体包括:将所述对话文本输入预设的神经网络模型,确定所述对话文本的候选实体,及所述候选实体的属性实体和约束实体;相应的,所述确定匹配得分满足设定条件的候选实体为所述对话文本的匹配实体后,还包括:根据所述对话文本的匹配实体,及所述匹配实体的属性实体和约束实体,通过预先建立的知识库确定所述对话文本的答案。11.如权利要求1所述的方法,其中,所述将所述对话文本和所述候选实体输入选定的排序模型,具体包括:将所述对话文本和所述候选实体输入梯度提升模型xgboost。12.如权利要求11所述的方法,其中,预先训练所述梯度提升模型使用的样本集中的一条样本数据包括,样本文本、该样本文本对应的多个样本候选实体和每个样本候选实体与该样本文本的匹配得分,和至少一项下述样本候选实体的或该样本文本的属性特征:样本候选实体的长度,样本候选实体的同义词是否出现在该样本文本中,样本候选实体是否出现在该样本文本中,样本候选实体的频率,样本候选实体中与该样本文本中的相同的字符单元,样本候选实体中与该样本文本匹配的文本段是否包含数字,样本候选实体中与该样本文本匹配的文本段是否包含地理位置,样本候选实体中字符单元的词性标注和该样本文本中字符单元的词性标注。
13.如权利要求1所述的方法,其中,所述将所述对话文本和所述候选实体输入选定的排序模型,具体包括:将所述对话文本和所述候选实体输入深层分解因子机deepfm神经网络排序模型。14.如权利要求13所述的方法,其中,预先训练所述深层分解因子机使用的样本集中的一条样本数据包括:样本文本、该样本文本对应的多个样本候选实体和每个样本候选实体与该样本文本的匹配得分,至少一项下述样本候选实体的或该样本文本的属性特征和至少一项下述语义信息;所述属性特征包括,样本候选实体的长度,样本候选实体的同义词是否出现在该样本文本中,样本候选实体是否出现在该样本文本中,样本候选实体的频率,样本候选实体中与该样本文本中的相同的字符单元,样本候选实体中与该样本文本匹配的文本段是否包含数字,样本候选实体中与该样本文本匹配的文本段是否包含地理位置,样本候选实体中字符单元的词性标注和该样本文本中字符单元的词性标注;所述语义信息包括,样本候选实体的同义实体,样本候选实体的关键词,样本候选实体的摘要,样本候选实体的至少一个属性实体。15.一种实体识别装置,其中,包括:获取模块,用于从对话文本中得到候选实体;排序模块,用于将所述对话文本和所述获取模块得到的候选实体输入选定的排序模型,得到候选实体与所述对话文本的匹配得分;确定模块,用于确定所述排序模块得到的匹配得分满足设定条件的候选实体为所述对话文本的匹配实体。16.一种计算机可读存储介质,其上存储有计算机指令,其中,当该指令被处理器执行时实现权利要求1~14任一项所述的实体识别方法。

技术总结
本发明公开了一种实体识别方法和装置。所述方法包括:从对话文本中得到候选实体;将对话文本和候选实体输入选定的排序模型,得到候选实体与对话文本的匹配得分;确定匹配得分满足设定条件的候选实体为对话文本的匹配实体。能够合理有效的确定对话文本的匹配实体。能够合理有效的确定对话文本的匹配实体。能够合理有效的确定对话文本的匹配实体。


技术研发人员:余海洋
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2020.07.22
技术公布日:2022/1/25
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献