一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

构建医疗训练样本的方法及装置、医疗文本的检索方法与流程

2021-10-29 19:58:00 来源:中国专利 TAG:医疗 方法 人工智能 样本 装置

技术特征:
1.一种构建医疗训练样本的方法,其特征在于,包括:获取问答集合,所述问答集合包括针对目标医疗主题的若干问答语料,所述问答语料包括提问文本和回复文本;根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分数;根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选,并将筛选到的问答语料添加到候选问答集合中;将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章;将所述目标科普文章与目标问答语料进行关联,得到医疗训练样本,所述目标问答语料是从所述候选问答集合中获取的一问答语料;所述医疗训练样本用于对医疗问答模型进行训练,其中,所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分数,包括:获取所述回复文本的来源作者所属医疗机构的机构权威等级特征,并获取所述回复文本的来源作者对应的医疗职称特征;将所述机构权威等级特征所映射的数值与所述医疗职称特征所映射的数值进行加权,得到所述回复文本对应的权威度分数。3.根据权利要求2所述的方法,其特征在于,所述获取所述回复文本的来源作者所属医疗机构的机构权威等级特征,包括:获取所述回复文本对应的机构信息,所述机构信息指示了所述回复文本的来源作者所属的目标医疗机构;确定所述目标医疗机构在目标医疗机构排行榜中的排名;根据所述目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名,确定所述目标医疗机构对应的机构权威等级特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标医疗机构所在的目标医疗机构排行榜和所述目标医疗机构在所述目标医疗机构排行榜中的排名,确定所述目标医疗机构对应的机构权威等级特征,包括:获取所述目标医疗机构排行榜对应的权重系数;将所述目标医疗机构排行榜对应的权重系数与所述目标医疗机构在目标医疗机构排行榜中的排名相乘,得到目标数值;将所得到的目标数值作为所述目标医疗机构对应的机构权威等级特征。5.根据权利要求1所述的方法,其特征在于,所述将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章之前,所述方法还包括:计算所述候选问答集合中任意两个问答语料之间的语义相似度;根据所述语义相似度对所述候选问答集合中的问答语料进行过滤,将过滤后所述候选问答集合中问答语料中的回复文本作为进行组合的对象。
6.根据权利要求5所述的方法,其特征在于,所述计算所述候选问答集合中任意两个问答语料之间的语义相似度,包括:对于所述候选问答集合中需要进行相似度计算的第一问答语料和第二问答语料,计算所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度,并计算所述第一问答语料中的回复文本与所述第二问答语料中的回复文本之间的第二语义相似度;将所述第一语义相似度和所述第二语义相似度进行加权,得到所述第一问答语料与所述第二问答语料之间的语义相似度。7.根据权利要求6所述的方法,其特征在于,所述计算所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度,包括:获取所述第一问答语料的提问文本中各个分词对应的第一词向量;并获取所述第二问答语料的提问文本中各个分词对应的第二词向量;将对应于所述第一问答语料的第一词向量按位累加,得到所述第一问答语料中的提问文本对应的提问语义向量;并将对应于所述第二问答语料的第二词向量按位累加,得到所述第二问答语料中的提问文本对应的提问语义向量;计算所述第一问答语料中的提问文本对应的提问语义向量和所述第一问答语料中的提问文本对应的提问语义向量之间的距离,得到所述第一问答语料中的提问文本与所述第二问答语料中的提问文本之间的第一语义相似度。8.根据权利要求6所述的方法,其特征在于,所述计算所述第一问答语料中的回复文本与所述第二问答语料中的回复文本之间的第二语义相似度,包括:按照simhash算法分别计算所述第一问答语料中回复文本对应的二进制签名和计算所述第二问答语料中回复文本对应的二进制签名;计算所述第一问答语料中回复文本对应的二进制签名和所述第二问答语料中回复文本对应的二进制签名之间的海明距离;根据所计算得到的海明距离确定所述第一问答语料中的回复文本与所述第二问答语料中的回复文本之间的第二语义相似度。9.一种医疗文本的检索方法,其特征在于,包括:获取检索请求,所述检索请求指示了医疗提问文本;通过医疗问答模型从若干医疗科普文章中获取针对所述医疗提问文本的医疗答案文本;所述医疗问答模型是利用权利要求1

8中任一项所述的方法所构建的医疗训练样本进行训练的;以所述医疗答案文本作为对应于所述医疗答案文本所在医疗科普文章的文本摘要;向所述检索请求的发起方返回所述医疗答案文本所在医疗科普文章的地址信息和文本摘要。10.一种构建医疗训练样本的装置,其特征在于,包括:问答集合获取模块,用于获取问答集合,所述问答集合包括针对目标医疗主题的若干问答语料,所述问答语料包括提问文本和回复文本;权威度分数计算模块,用于根据所述回复文本的来源作者所属医疗机构的机构权威等级特征和所述回复文本的来源作者对应的医疗职称特征,计算所述回复文本的权威度分
数;筛选模块,用于根据所述回复文本的权威度分数在所述问答集合中进行问答语料筛选,并将筛选到的问答语料添加到候选问答集合中;组合模块,用于将所述候选问答集合中的回复文本进行组合,得到对应于所述目标医疗主题的目标科普文章;关联模块,用于将所述目标科普文章与目标问答语料进行关联,得到医疗训练样本,所述目标问答语料是从所述候选问答集合中获取的一问答语料;所述医疗训练样本用于对医疗问答模型进行训练,其中,所述医疗问答模型用于从若干医疗科普文章中获取针对所输入医疗提问文本的医疗答案文本。

技术总结
本申请涉及人工智能技术领域,具体提供了一种构建医疗训练样本的方法及装置、医疗文本的检索方法,构建医疗训练样本的方法包括:获取问答集合;根据回复文本的来源作者所属医疗机构的机构权威等级特征和回复文本的来源作者对应的医疗职称特征,计算回复文本的权威度分数;根据回复文本的权威度分数在问答集合中进行问答语料筛选,并将筛选到的问答语料添加到候选问答集合中;将候选问答集合中的回复文本进行组合,得到对应于目标医疗主题的目标科普文章;将目标科普文章与目标问答语料进行关联,得到医疗训练样本,目标问答语料是从候选问答集合中获取的一问答语料;本方案实现了自动构建医疗训练样本。动构建医疗训练样本。动构建医疗训练样本。


技术研发人员:康战辉
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2021.01.13
技术公布日:2021/10/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜