一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

在异构语义空间中基于假设检验的软件跨模态检索方法

2022-09-14 23:10:44 来源:中国专利 TAG:

技术特征:
1.一种在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述方法包括如下步骤:步骤1:对文本和代码数据进行预处理;步骤2:使用分布生成网络将文本表示为cfp相关分布;步骤3:使用样本生成网络将代码表示为cfp样本向量集合;步骤4:使用某种假设检验方法在异构语义空间中计算cfp样本向量集合和cfp相关分布的匹配分数;步骤5:通过三元组损失函数和随机梯度下降算法优化分布生成网络和样本生成网络;步骤6:使用步骤5训练好的分布生成网络和样本生成网络实现文本检索代码形式的软件跨模态检索任务;步骤7:使用步骤5训练好的分布生成网络和样本生成网络实现代码检索文本形式的软件跨模态检索任务。2.根据权利要求1所述的在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述步骤1的具体步骤如下:步骤11:文本预处理去除文本中的停用词、数字以及标点符号,拆分以驼峰命名法或下划线命名法出现的标识符,并对每一个词进行词性还原和小写化;步骤12:提取代码中的cfp对于文件粒度的搜索任务,首先基于下推自动机的函数文法分析器提取代码文件中的所有函数,随后对函数中的语句换行方式进行规范化,最后将每一个函数都转化为cfg,并通过深度优先搜索提取其中的每一条cfp;步骤13:cfp预处理对cfp中以驼峰命名法或下划线命名法命名的标识符进行拆分,并对拆分后的token进行词性还原和小写化。3.根据权利要求1所述的在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述步骤2中将cfp相关分布的协方差矩阵∑看作是一个对角线元素大于0而其他元素为0的对角阵,并将由其对角线元素构成的向量定义为σ2,由σ2中每个元素的平方根的倒数构成的向量定义为σ-1
,具体步骤如下:步骤21:将文本中的单词表示为独热编码,并使用词嵌入层将文本中的每个单词表示为词嵌入向量;步骤22:使用text-cnn网络提取文本的语义向量表示;步骤23:将该文本的语义向量表示送入激活函数为tanh的全连接层中生成期望向量μ并输出;步骤24:将该文本的语义向量表示送入激活函数为sigmoid的全连接层中生成标准差倒数向量σ-1
并输出,生成的μ和σ2可以唯一地表示一个cfp相关分布n(μ,σ2)。4.根据权利要求1所述的在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述步骤3的具体步骤如下:步骤31:将给定的cfp中每条语句中的token都表示为独热编码,使用词嵌入层将每个token表示为词嵌入向量;
步骤32:对于给定的cfp中的每条语句,使用多个不同卷积核大小的卷积神经网络分别提取语句在不同感受野下的向量表示,并将不同感受野下的向量表示拼接,得到语句的向量表示;步骤33:将cfp中语句的表示序列送入到长短期记忆网络中,使用每个时刻输出的平均作为cfp样本向量;步骤34:对代码中的所有cfp执行步骤31-步骤33,从而将代码表示为一个cfp样本向量集合。5.根据权利要求1所述的在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述步骤4的具体步骤如下:步骤41:做出零假设h0:e(x)=μ和另外一个可供选择的假设h1:e(x)=μ,其中x=[x1,x2,

,x
n
]为cfp样本向量集合,x
i
为第i个cfp样本向量,e(x)为x的均值,μ为cfp相关分布的期望向量;步骤42:选择统计量t2,有:其中,

表示哈达玛积;步骤43:当假设h0成立时,t2服从卡方分布,记作t2~χ2,采用左边检验,当显著性水平为α时有:α时有:是一个小概率事件,如果假设h0成立导致该小概率事件的发生,可以认为采样检验的结果与假设h0成立相矛盾,因此应该拒绝假设h0并接受假设h1,反之,当时则接受假设h0并拒绝假设h1。6.根据权利要求1所述的在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述步骤5的具体步骤如下:步骤51:从训练集中不重复地取出一个mini-batch的正样本对;步骤52:对mini-batch中的每个正样本对通过负采样构造负样本对;步骤53:使用三元组损失函数计算损失,并通过adam优化器反向更新网络参数;步骤54:重复步骤51-步骤53,直到遍历完训练集中的所有样本对,此时完成一个epoch的训练过程;步骤55:重复步骤54,直到达到预定的最大迭代次数,取在验证集上取得最佳性能的参数作为训练好的模型参数。7.根据权利要求6所述的在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述三元组损失函数为:
其中,n为mini-batch中样本的数量,为其中第i个正样本对的匹配分数,为其中第i个负样本对的匹配分数,c为阈值超参数。8.根据权利要求1所述的在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述步骤6的具体步骤如下:步骤61:使用样本生成网络将待检索的数据库中的每个代码都转化为cfp样本向量集合;步骤62:使用分布生成网络将文本查询转化为cfp相关分布;步骤63:使用假设检验计算cfp相关分布和每一个cfp样本向量集合的匹配分数;步骤64:将数据库中的所有代码按照匹配分数升序排序,并将排序列表的前n个结果返回给用户。9.根据权利要求1所述的在异构语义空间中基于假设检验的软件跨模态检索方法,其特征在于所述步骤7的具体步骤如下:步骤71:使用分布生成网络将待检索的数据库中的每个文本都转化为cfp相关分布;步骤72:使用样本生成网络将代码查询转化为cfp样本向量集合;步骤73:使用假设检验计算cfp样本向量集合和每一个cfp相关分布的匹配分数;步骤74:将数据库中的所有文本按照匹配分数升序排序,并将排序列表的前n个结果返回给用户。

技术总结
本发明公开了一种在异构语义空间中基于假设检验的软件跨模态检索方法,所述方法使用分布生成网络将文本投影到分布空间中的CFP相关分布;将代码表示为控制流图,并抽取其中所有的路径;利用样本生成网络将CFP映射为样本空间中的CFP样本向量,此时代码被表示为一个CFP样本向量集合;使用假设检验计算CFP样本向量集合对CFP相关分布的服从程度作为二者的匹配分数,并用于实现代码检索文本或文本检索代码形式的跨模态检索任务。本发明首次提出将代码和文本投影到异构语义空间中进行表示学习,即将文本投影到CFP相关分布空间并将代码投影到CFP样本空间,能够准确表征文本和代码各自的独特语义,提高跨模态检索的准确性。提高跨模态检索的准确性。提高跨模态检索的准确性。


技术研发人员:苏小红 魏宏巍 郑伟宁 陶文鑫 蒋远
受保护的技术使用者:哈尔滨工业大学
技术研发日:2022.06.18
技术公布日:2022/9/13
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献