基于TAN半朴素贝叶斯网络的软件缺陷预测方法和系统与流程

2022-02-20 04:29:40 来源：中国专利 TAG：

技术特征：
1.一种基于tan半朴素贝叶斯网络的软件缺陷预测方法，其特征在于，包括：步骤1：收集历史项目中由软件功能描述、缺陷描述和缺陷类型信息构成的软件缺陷记录，通过数据整理、清洗和优化后进行格式化存储，形成用于软件缺陷预测的训练数据集；步骤2：将训练数据集中历史项目的软件功能描述汇总后作为训练文本集，将训练数据集中所有缺陷类型汇总后作为预测分类集，同时将软件功能描述所关联的缺陷类型作为训练文本集中每个训练文本的分类标签；步骤3：通过分词工具，对待预测的软件功能描述文本进行分词，将分词与预设停用词集进行比较，去掉待预测文本中无意义的词语，得到去噪的允许分词重复的分词集合；步骤4：将分词集合中重复的分词进行归并处理，形成不允许分词重复的特征词集；步骤5：基于训练文本集，计算特征词集中任意两个特征词之间的条件互信息值；步骤6：以特征词集中每个特征词作为节点，任意两个特征词的互信息值为边构建无向图，通过最大带权生成树算法定义节点间的连接规则；步骤7：基于无向图，选择任意节点作为根节点，由根节点向外的方向为节点之间的流转方向，依次递归设置无向图中节点间的流转方向，最终形成一个有向无环图；步骤8：将分类标签作为有向无环图中所有节点的父节点，并设置由父节点向外方向作为节点之间的流转方向，最终构建出tan半朴素贝叶斯网络；步骤9：基于tan半朴素贝叶斯网络和分词集合，计算并比较预测分类集中每一个分类的后验概率值，将后验概率值最大的分类作为最终的软件缺陷预测结果。2.根据权利要求1所述的基于tan半朴素贝叶斯网络的软件缺陷预测方法，其特征在于，特征词集中任意两个特征词之间的条件互信息值的计算公式为：式中，c表示预测分类集y中的分类标签，后验概率p(w
i
,w
j
|c)、p(w
i
|c)和p(w
j
|c)的计算因子在常规的词频算子基础上，借鉴tf-idf关键词提取算法，增加逆分类频率算子，同时为了防止词频算子和拟分类频率算子出现0的情况，对这两个算子都进行拉普拉斯平滑变换处理，计算公式为：处理，计算公式为：处理，计算公式为：|d
c
|指训练文本集d中分类标签c下各文本的分词总数，如果某个分词重复出现则需要
进行叠加计算；指训练文本集d在分类标签c下的所有文本中，特征词w
i
出现的次数累加之和；指训练文本集d在分类标签c下的所有文本中，特征词w
j
出现的次数累加之和；指训练文本集d在分类标签c下的所有文本中，特征词w
i
出现的次数和w
j
出现的次数累加之和；|b|指训练文本集d中所有分词的个数，如果某个分词重复出现则只记录一次；|y|指预测分类集y的分类总数；指预测分类集y中包含特征词w
i
的分类数；指预测分类集y中包含特征词w
j
的分类数；指预测分类集y中既包含特征词w
i
又包含特征词w
j
的分类数。3.根据权利要求2所述的基于tan半朴素贝叶斯网络的软件缺陷预测方法，其特征在于，预测结果的判断准则为：基于贝叶斯定理和输入的分词集合x1,x2,...,x
n
，关于预测分类后验概率的计算公式为：式中，由于对所有c∈y的分类计算其后验概率p(c|x1,x2,...,x
n
)，其分母∑
k
p(x1,x2,...,x
n
|y＝y
k
)p(y
k
)均一致，则推导出p(c|x1,x2,...,x
n
)仅正相关于分子部分p(c)p(x1,x2,...,x
n
|c)，如下式所示：p(c|x1,x2,...,x
n
)
∝
p(c)p(x1,x2,...,x
n
|c)
…………
(7)。4.根据权利要求3所述的基于tan半朴素贝叶斯网络的软件缺陷预测方法，其特征在于，比较分类c的后验概率值简化为比较p(c)p(x1,x2,...,x
n
|c)的值，其中p(c)是分类c的先验概率；基于已训练生成的tan半朴素贝叶斯网络，依据马尔科夫链假设原理，贝叶斯网络中每一个节点在其父节点的值指定后，这个节点条件独立于其所有非父节点；同时依据head-to-head条件独立定理，节点值在未指定的情况下，其所有的父节点相互独立；对后验概率p(x1,x2,...,x
n
|c)的计算方法进行简化，简化后的计算公式如下所示：其中，px1,...,px
m
是x
i
的分词父节点，分类标签c是x
i
的分类父节点。5.根据权利要求4所述的基于tan半朴素贝叶斯网络的软件缺陷预测方法，其特征在于，后验概率p(x
i
|c,px1,...,px
m
)的计算因子在常规的词频算子基础上，借鉴tf-idf关键词提取算法，增加逆分类频率算子，同时为了防止词频算子和拟分类频率算子出现0的情况，对这两个算子都进行拉普拉斯平滑变换处理，后验概率p(x
i
|c,px1,...,px
m
)的计算公
式如下所示：式中，指挑选出训练文本集d分类标签c下，同时出现分词px1,...,px
m
的各个文本，计算这些文本中所有的分词总数，如果某个分词重复出现则需要进行叠加计算；指挑选出训练文本集d分类标签c下，同时出现分词px1,...,px
m
的各个文本，计算这些文本中分词x
i
出现的次数累加之和；|b|指训练文本集d中所有分词的个数，如果某个分词重复出现则只记录一次；|y|指预测分类集y的分类总数；指预测分类集y中包含分词x
i
的分类数。6.一种基于tan半朴素贝叶斯网络的软件缺陷预测系统，其特征在于，包括：模块m1：收集历史项目中由软件功能描述、缺陷描述和缺陷类型信息构成的软件缺陷记录，通过数据整理、清洗和优化后进行格式化存储，形成用于软件缺陷预测的训练数据集；模块m2：将训练数据集中历史项目的软件功能描述汇总后作为训练文本集，将训练数据集中所有缺陷类型汇总后作为预测分类集，同时将软件功能描述所关联的缺陷类型作为训练文本集中每个训练文本的分类标签；模块m3：通过分词工具，对待预测的软件功能描述文本进行分词，将分词与预设停用词集进行比较，去掉待预测文本中无意义的词语，得到去噪的允许分词重复的分词集合；模块m4：将分词集合中重复的分词进行归并处理，形成不允许分词重复的特征词集；模块m5：基于训练文本集，计算特征词集中任意两个特征词之间的条件互信息值；模块m6：以特征词集中每个特征词作为节点，任意两个特征词的互信息值为边构建无向图，通过最大带权生成树算法定义节点间的连接规则；模块m7：基于无向图，选择任意节点作为根节点，由根节点向外的方向为节点之间的流转方向，依次递归设置无向图中节点间的流转方向，最终形成一个有向无环图；模块m8：将分类标签作为有向无环图中所有节点的父节点，并设置由父节点向外方向作为节点之间的流转方向，最终构建出tan半朴素贝叶斯网络；模块m9：基于tan半朴素贝叶斯网络和分词集合，计算并比较预测分类集中每一个分类的后验概率值，将后验概率值最大的分类作为最终的软件缺陷预测结果。7.根据权利要求6所述的基于tan半朴素贝叶斯网络的软件缺陷预测系统，其特征在于，特征词集中任意两个特征词之间的条件互信息值的计算公式为：式中，c表示预测分类集y中的分类标签，后验概率p(w
i
,w
j
|c)、p(w
i
|c)和p(w
j
|c)的计算因子在常规的词频算子基础上，借鉴tf-idf关键词提取算法，增加逆分类频率算子，同时为
了防止词频算子和拟分类频率算子出现0的情况，对这两个算子都进行拉普拉斯平滑变换处理，计算公式为：处理，计算公式为：处理，计算公式为：|d
c
|指训练文本集d中分类标签c下各文本的分词总数，如果某个分词重复出现则需要进行叠加计算；指训练文本集d在分类标签c下的所有文本中，特征词w
i
出现的次数累加之和；指训练文本集d在分类标签c下的所有文本中，特征词w
j
出现的次数累加之和；指训练文本集d在分类标签c下的所有文本中，特征词w
i
出现的次数和w
j
出现的次数累加之和；|b|指训练文本集d中所有分词的个数，如果某个分词重复出现则只记录一次；|y|指预测分类集y的分类总数；指预测分类集y中包含特征词w
i
的分类数；指预测分类集y中包含特征词w
j
的分类数；指预测分类集y中既包含特征词w
i
又包含特征词w
j
的分类数。8.根据权利要求7所述的基于tan半朴素贝叶斯网络的软件缺陷预测系统，其特征在于，预测结果的判断准则为：基于贝叶斯定理和输入的分词集合x1,x2,...,x
n
，关于预测分类后验概率的计算公式为：式中，由于对所有c∈y的分类计算其后验概率p(c|x1,x2,...,x
n
)，其分母∑
k
p(x1,x2,...,x
n
|y＝y
k
)p(y
k
)均一致，则推导出p(c|x1,x2,...,x
n
)仅正相关于分子部分p(c)p(x1,x2,...,x
n
|c)，如下式所示：p(c|x1,x2,...,x
n
)
∝
p(c)p(x1,x2,...,x
n
|c)
…………
(7)。9.根据权利要求8所述的基于tan半朴素贝叶斯网络的软件缺陷预测系统，其特征在于，比较分类c的后验概率值简化为比较p(c)p(x1,x2,...,x
n
|c)的值，其中p(c)是分类c的
先验概率；基于已训练生成的tan半朴素贝叶斯网络，依据马尔科夫链假设原理，贝叶斯网络中每一个节点在其父节点的值指定后，这个节点条件独立于其所有非父节点；同时依据head-to-head条件独立定理，节点值在未指定的情况下，其所有的父节点相互独立；对后验概率p(x1,x2,...,x
n
|c)的计算方法进行简化，简化后的计算公式如下所示：其中，px1,...,px
m
是x
i
的分词父节点，分类标签c是x
i
的分类父节点。10.根据权利要求9所述的基于tan半朴素贝叶斯网络的软件缺陷预测系统，其特征在于，后验概率p(x
i
|c,px1,...,px
m
)的计算因子在常规的词频算子基础上，借鉴tf-idf关键词提取算法，增加逆分类频率算子，同时为了防止词频算子和拟分类频率算子出现0的情况，对这两个算子都进行拉普拉斯平滑变换处理，后验概率p(x
i
|c,px1,...,px
m
)的计算公式如下所示：式中，指挑选出训练文本集d分类标签c下，同时出现分词px1,...,px
m
的各个文本，计算这些文本中所有的分词总数，如果某个分词重复出现则需要进行叠加计算；指挑选出训练文本集d分类标签c下，同时出现分词px1,...,px
m
的各个文本，计算这些文本中分词x
i
出现的次数累加之和；|b|指训练文本集d中所有分词的个数，如果某个分词重复出现则只记录一次；|y|指预测分类集y的分类总数；指预测分类集y中包含分词x
i
的分类数。

技术总结
本发明提供了一种基于TAN半朴素贝叶斯网络的软件缺陷预测方法和系统，包括：收集历史缺陷记录形成训练数据集；将训练数据集中历史项目汇总；对待预测文本进行分词得到分词集合；将分词集合中重复的分词进行归并处理，形成特征词集；计算特征词集中任意两个特征词之间的条件互信息值；以特征词集中每个特征词作为节点，互信息值为边构建无向图；选择任意节点作为根节点，由根节点向外的方向为节点之间的流转方向，依次递归设置无向图中节点间的流转方向，形成有向无环图；构建TAN半朴素贝叶斯网络并基于分词集合，计算并比较预测分类集中每一个分类的后验概率值，将后验概率值最大的分类作为最终的软件缺陷预测结果。分类作为最终的软件缺陷预测结果。分类作为最终的软件缺陷预测结果。

技术研发人员：龙刚吴振宇孙佳美
受保护的技术使用者：华东计算技术研究所（中国电子科技集团公司第三十二研究所）
技术研发日：2021.09.06
技术公布日：2022/1/7

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：海量时序数据库节点之间历史数据同步处理方法和系统与流程

基于TAN半朴素贝叶斯网络的软件缺陷预测方法和系统与流程

相关文献

最热文献