一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于框架重要度计算句子相似度的方法与流程

2021-10-24 06:48:00 来源:中国专利 TAG:自然语言

技术特征:
1.一种基于框架重要度计算句子相似度的方法,其特征在于,具体包括如下步骤:步骤1:提取英文句子s中所有的框架,并将该所有的框架构成框架语义信息集合e;步骤2:构建框架语义库framenet可视化工具gifn,通过gifn提取框架语义信息集合e中每个框架的核心框架元素;步骤3:基于每个框架中核心框架元素的个数计算每个框架的框架影响因子;根据框架影响因子建立框架重要度函数,得到框架语义信息集合e中第i个框架的重要度w(f
e,i
),f
e,i
表示框架语义信息集合e中第i个框架,i=1,2,...,frame_s,frame_s为框架语义信息集合e中框架的总个数;步骤4:根据步骤1~3将英文句子s’中所有的框架构成框架语义信息集合e’,并计算框架语义信息集合e’中每个框架的重要度;步骤5:将e和e’中相同的框架作为一组框架组,得到frame_same个框架组;比较第j个框架组中两个框架的重要度,选择最小的框架重要度作为第j个框架组的框架重要度min
j
,j=1,2,...,frame_same;将frame_same个框架组的框架重要度进行累加计算,并基于累加计算的值计算英文句子s和s’的相似度。2.根据权利要求1所述的一种基于框架重要度计算句子相似度的方法,其特征在于,所述步骤1中将英文句子s输入至开源语义框架抽取工具semafor中,所述semafor根据框架语义库framenet的结构解析输入的英文句子s,从而提取英文句子s中的框架。3.根据权利要求1所述的一种基于框架重要度计算句子相似度的方法,其特征在于,所述步骤2中构建框架语义库framenet可视化工具gifn的具体方法为:将framenet中所有框架当做结点,将框架之间的语义关系、词元与框架之间的语义关系当做边,将节点和边存储在图形数据库neo4j中。4.根据权利要求3所述的一种基于框架重要度计算句子相似度的方法,其特征在于,英文句子s和句子s’之间对应的相似度计算公式如下:其中similarity_score是英文句子s和句子s’之间相似度;frame_s'是框架语义信息集合e’中框架的总个数,maximum(.)是取最大值;其中path_score的表达如下:其中frame_rel为最短路径框架对的个数,具体得到最短路径框架对的方法为:在框架语义信息集合e中去除与框架语义信息集合e’中相同的框架,得到集合e1;在框架语义信息集合e’中去除与框架语义信息集合e中相同的框架,得到集合e’1;通过可视化工具gifn得到集合e1中每个框架到达集合e’1中任意一个框架所需边的个数;将所需边个数最少的两个框架作为最短路径框架对;path_value
i’的表达式如下:其中countpath为第i’个最短路径框架对中其中一个框架到达另外一个框架所需边的
个数;weight
t
为第t条边的权重。5.根据权利要求1所述的一种基于框架重要度计算句子相似度的方法,其特征在于,所述步骤3中框架影响因子为:其中,c
i
为f
e,i
中核心框架元素的总个数;n
i
为f
e,i
中框架元素的总个数,β
i
为f
e,i
的框架影响因子。6.根据权利要求5所述的一种基于框架重要度计算句子相似度的方法,其特征在于,所述步骤3中框架重要度函数为:其中为β
i
的指数化分值。

技术总结
本发明公开了一种基于框架重要度计算句子相似度的方法,具体为:步骤1:将英文句子S中所有的框构成框架语义信息集合E;步骤2:提取集合E中每个框架的核心框架元素;步骤3:根据集合E中每个框架中核心框架元素的个数计算该框架的重要度;步骤4:将英文句子S’中所有的框架构成框架语义信息集合E’,并计算集合E’中每个框架的重要度;步骤5:将集合E和集合E’中相同的框架作为一组框架组;在每个框架组中选择最小的框架重要度作为该框架组的框架的重要度;将所有框架组的框架重要度进行累加计算,并基于累加计算的值计算英文句子S和S’的相似度。本发明提出的方法可适用于文本蕴含识别、文本摘要等自然语言处理任务中。文本摘要等自然语言处理任务中。文本摘要等自然语言处理任务中。


技术研发人员:王铁鑫 史荟 刘文静 严欣华
受保护的技术使用者:南京航空航天大学
技术研发日:2021.07.09
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜