一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多样本数据的因果关系预测方法与流程

2023-02-06 12:11:38 来源:中国专利 TAG:

技术特征:
1.一种基于多样本数据的因果关系预测方法,其特征在于:具体包括如下步骤:101)构建初始网络步骤:利用特定表象的表达数据作为初始输入数据,计算初始输入数据之间的相关系数并利用初始输入数据之间的相关系数构建初始网络;102)判断因果关系步骤:在初始相关性网络的基础上,对每一对边进行h0假设和h1假设;h0这个边代表因果关系不存在,h1这个边代表因果关系存在;在不同的假设基础上利用部分表达数据进行不同的回归得到每对边的线性回归方程;103)构建因果网络步骤:对于两边假设下不同的回归方程,带入相同的余下的表达数据得到两个回归的误差;通过比较两者之间的拟合误差的大小,即可判断该因果关系是否存在,从而构建整个因果网络。2.根据权利要求1所述的一种基于多样本数据的因果关系预测方法,其特征在于:步骤101)中利用皮尔逊相关系数或偏相关系数评估两个变量之间的相关性,构建相关性网络;其中,偏相关系数通过消除基因的间接影响,从而获取基因之间的直接相关性。3.根据权利要求2所述的一种基于多样本数据的因果关系预测方法,其特征在于:pearson相关系数的计算公式如下:式中x、y为两个变量;一阶偏相关系数的计算公式如下:式中r
12
表示变量1与变量2之间的相关系数,r
13
表示变量1与变量3之间的相关系数,r
23
表示变量2与变量3之间的相关系数。4.根据权利要求1所述的一种基于多样本数据的因果关系预测方法,其特征在于:步骤102)中h0假设中利用不包含因变量的协变量对果变量进行回归拟合;h1假设中利用因变量和其他变量对果变量进行回归拟合;具体的回归公式分别如下:h0:h1:其中,y代表果变量;x代表因变量;z为其它不包含x,y变量的协变量;ε和为噪音。5.根据权利要求1所述的一种基于多样本数据的因果关系预测方法,其特征在于:把特定表象的表达数据划分为训练集和测试集,训练集用作回归,测试集用作判断;划分方式包括k折交叉验证,留一法。6.根据权利要求5所述的一种基于多样本数据的因果关系预测方法,其特征在于:在不同的回归方程中,带入训练集数据,进行方程的拟合,得到总误差,具体方式如下:先通过拟合方程的输出与真实值的距离作为误差,多次交叉检验得到的多次误差进行加和得到总误差,公式如下:
其中e
i
表示第i次交叉检验中得到的误差,m代表交叉验证的总次数。7.根据权利要求1所述的一种基于多样本数据的因果关系预测方法,其特征在于:步骤103)中的误差可由距离度量手段计算;比较的具体方式由因果强度的比较实现;其中,因果强度的计算公式为:其中e代表h1假设中,包含因变量和其他协变量对果变量的回归,得到的交叉验证的测试集的平均残差平方和,代表h0假设中,包含除因变量外的所有随机变量对果变量的回归,得到的交叉验证的测试集的平均残差平方和。8.根据权利要求1至7中任何一项所述的一种基于多样本数据的因果关系预测方法,其特征在于:特定表象的表达数据包括基因表达数据、生物链数据、疾病传播模型数据。9.根据权利要求1至7中任何一项所述的一种基于多样本数据的因果关系预测方法,其特征在于:构建装置包括初始网络构建模块、数据切分模块、回归拟合模块、拟合误差模块、因果判断模块和网络判断模块;初始网络构建模块,利用特定表象的表达数据作为原始输入数据,计算输入数据之间的相关系数并利用数据之间的相关系数构建初始网络;数据切分模块,将原始输入数据切分为训练集和测试集;训练集用于回归拟合模块的训练,测试集用于拟合误差模块误差的计算;回归拟合模块,在初始相关性网络的基础上,对每一对边进行h0假设和h1假设;h0这个边代表因果关系不存在,h1这个边代表因果关系存在;在不同的假设基础上利用部分表达数据进行不同的回归得到每对边的线性回归方程;拟合误差模块,用测试集输入带入回归拟合模块得到的回归方程,计算得到的拟合误差;因果判断模块,根据数据切分模块得到多次数据集的切分后,在拟合误差模块得到的多次误差,利用多次误差对因果强度进行判断,得到真正的因果关系;网络判断模块,利用以上模块方式,对初始网络中边对应的不同结点对之间的遍历,最终得到真正的因果关系网络。

技术总结
本发明公开了一种基于多样本数据的因果关系预测方法,包括利用特定表象的表达数据作为初始输入数据,计算初始输入数据之间的相关系数并利用初始输入数据之间的相关系数构建初始网络,在初始相关性网络的基础上,对每一对边进行H0假设和H1假设,在不同的假设基础上利用部分表达数据进行不同的回归得到每对边的线性回归方程,对于两边假设下不同的回归方程,带入相同的余下的表达数据得到两个回归的误差,通过比较两者之间的拟合误差的大小,即可判断该因果关系是否存在,从而构建整个因果网络。本发明完全提出了一个新的因果概念和建立方法,简称为CVP方法,这是一个数据驱动的无模型算法,用于处理与时间无关的数据。用于处理与时间无关的数据。用于处理与时间无关的数据。


技术研发人员:刘小平 张月蕾 常啸 陈洛南
受保护的技术使用者:国科大杭州高等研究院
技术研发日:2022.11.17
技术公布日:2023/2/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献