一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于新型量子框架实现乳腺癌分类的方法

2022-06-25 14:01:44 来源:中国专利 TAG:
1.本发明属于乳腺癌分类与识别
技术领域
:,尤其涉及一种基于新型量子框架实现乳腺癌分类的方法。
背景技术
::2.已有基于量子机器学习实现乳腺癌分类问题的主要技术有基于量子核估计的方法及基于量子变分分类的方法。3.这些技术的主要缺点是:4.1、数据的预处理主要采用传统方法实现,尤其在数据降维处理时主要利用svd(奇异值分解)和pca(主成分分析),这两种方法存在比较明显的缺陷,一是实际数据间并不是呈现复杂的非线性关系,二是数据之间存在着一定量的冗余信息,这极可能过度强化某一属性的信息,而忽略某些有用的特征阻碍了寻找数据间真实的潜在结构。5.2、在模型参数优化环节主要采用传统的梯度下降算法,达到收敛耗时较长。6.机器学习与量子计算是两种不同的方法,均展现了在处理一些先前较难解决问题上的潜力[文献1:vojtěchantoniod.córcoles.supervisedlearningwithquantum-enhancedfeaturespaces.nature567,209-212,2019.]。许多针对有噪声的中尺度量子器件的实验建议都包括训练一个具有经典优化环路的参数化量子电路。这种混合量子经典算法在量子模拟、优化和机器学习中应用广泛。这些方法对某些类型的错误的弹性以及对相干时间和门需求的高灵活性使它们对运行在噪声中间尺度量子(nisq)体系的实现特别具有吸引力。由于其简单性和硬件效率,随机电路经常被提出作为探索量子态空间的初始猜测。其中分类问题属于有监督机器学习的范畴,根据给定的有标签的数据集从数据集中随机选择训练样本集t和测试样本集s,使得t∪s∈c,通过学习得到一个目标函数f,把每个属性集ci能正确的映射到一个预先定义的类别标号中,然后利用目标函数f对未知类别的样本进行分类。分类要求必须事先明确知道各类别的信息,并且是一种对离散型随机变量建模或预测的监督学习算法。量子机器学习就是用量子态表示分类问题的特征空间,利用量子希尔伯特空间的大维数得到增强解。其中文献1中最具代表性的提出了变分分类方法的理论及量子线路构造,量子变分分类器建立在[文献2:mitarai,k.,negoro,m.,kitagawa,m.&fujii,k.quantumcircuitlearning.arxivpreprintarxiv:1803.00745(2018).][文献3:farhi,e.&neven,h.classifificationwithquantumneuralnetworksonneartermprocessors.arxivpreprintarxiv:1802.06002(2018).]的基础上,并通过使用变分量子电路对训练集进行分类。但是在进行参数优化的时候依然采用传统的机器学习方法来寻找某些任务的最优参数,而使用基于梯度或无梯度的经典优化方法训练量子线路会受到成本景观中存在的贫瘠高原的严重影响。同时核主成分分析(kpca)通过积分算子和非线性核函数有效地计算高维特征空间中的主成分。与其他非线性主成分分析(pca)技术相比,kpca只需要一个特征值问题的解,而不需要任何非线性优化,但是kpca受限于数据集过大时,核估计成本显著提升的限制。技术实现要素:[0007]本发明针对已有基于量子机器学习实现乳腺癌分类方法存在的数据预处理主要采用传统方法实现,不能确保在降维的同时保持原有信息的有用特征;在模型优化环节主要采用传统的梯度下降算法,达到收敛耗时较长的问题,提出一种基于新型量子框架实现乳腺癌分类的方法,将需要传统方法求解的代价函数的相关参数通过转换编码到希尔伯特空间中叠加态的相对相位上,利用量子优化算法来寻找某些任务的最优参数,希望以此来缓解贫瘠的高原问题;同时利用量子核估计方法来实现核主成分分析(kpca)的优化与加速,达到快速进行主成分分析的目的;在数据集特征值较少,分类准确度不高的情况下,可以有效提高乳腺癌分类准确率。[0008]为了实现上述目的,本发明采用以下技术方案:[0009]一种基于新型量子框架实现乳腺癌分类的方法,包括:[0010]步骤1:根据乳腺癌数据特征进行量子编码,将样本特征编码到量子线路上;[0011]步骤2:结合量子核估计方法对乳腺癌数据进行量子核熵主成分分析,达到乳腺癌数据预处理的目的;[0012]步骤3:根据步骤2中得到的预处理后的乳腺癌数据逐次进行量子编码进入变分量子线路、即量子变分分类器;[0013]步骤4:对量子变分分类器的参数使用量子梯度下降算法实现参数优化;[0014]步骤5:判断量子变分分类器的损失函数是否达到实际要求,如果达到,则量子变分分类过程结束;如果未达到实际要求,则对下一条预处理后的乳腺癌数据进行量子编码,转至步骤3。[0015]进一步地,所述步骤1中量子编码的方式为将乳腺癌数据特征编码到态的相位上。[0016]进一步地,所述步骤2包括:[0017]步骤2.1:求核函数k的特征值和特征向量lam,vec;[0018][0019]另则[0020]其中φ(x)为映射函数,n为处理的乳腺癌数据总个数;[0021]步骤2.2:计算特征值和特征向量对应的熵entropy;[0022]步骤2.3:按照熵的大小重新排列特征值和特征向量;[0023]步骤2.4:选取熵最大的前n个特征值和特征向量λ,u;[0024]步骤2.5:将前n个特征值和特征向量按照合并为一个举证;[0025]步骤2.6:按照量子核估计方法计算k';[0026][0027]步骤2.7:计算得到降维数据其中λ,u分别为核函数k的按照熵的大小排列的特征值和特征向量。[0028]进一步地,在所述步骤3包括:[0029]将预处理后的乳腺癌数据xi编码到量子态|上,经过带参数的变分量子线路,其中的初始值为[0030]进一步地,所述步骤4包括:[0031]步骤4.1:设定xi被正确分类的比特串β对应的分类预测结果;[0032]步骤4.2:在z方向上进行测量,得到输出比特串α及其概率每次测量结束后,比较比特串α与β得到数据xi的分类预测结果yi;[0033]步骤4.3:将分类预测结果yi与训练集中给定的真实分类结果yi进行对比,并计算损失函数[0034]步骤4.4:返回步骤3,将剩余的预处理后的乳腺癌数据依次输入到量子线路中,得到对应的并计算总代价函数[0035]步骤4.5:选用量子梯度下降算法对总代价函数进行优化,重复更新量子线路中的参数i=0,1,......n,直到优化到截止条件。[0036]与现有技术相比,本发明具有的有益效果:[0037]1、本发明采用量子核熵主成分分析方法,该方法是一种实现先升维再降维的过程,通过该过程可以去除数据的冗余信息,获得更加紧凑和经济的数据表示形式,同时可以更加有效地表达数据的潜在结构。最后通过该方法将一个非线性可分的问题转变成一个线性可分的问题,在结构更为复杂的数据上也能获得较好地处理效果,真正达到数据预处理的目的。[0038]2、梯度下降法是一个最优化算法,通常也称最速下降法,常用于机器学习和人工智能中递归性逼近最小偏差模型,梯度下降的方向就是用负梯度方向为搜索方向,沿着梯度下降的方向求解极小值。在训练过程中,每次的正向传播都会得到输出值和真实值的损失值,这个损失值越小,代表模型越好,于是梯度下降的算法就用在这里,帮助寻找最小的那个损失值,从而可以反推出对应的学习参数b和w,达到优化模型的效果。但是在真正的采用传统的优化过程,需要耗费很多的计算资源和时间,本技术采用量子梯度下降算法,充分利用量子计算优势,可有效的降低计算资源和计算时间。[0039]3、本发明采用将预处理数据编码到量子线路,利用变分量子线路实现分类,能够有效提高在乳腺癌分类问题上的准确度和算力。附图说明[0040]图1为本发明实施例一种基于新型量子框架实现乳腺癌分类的方法的基本流程图;[0041]图2为本发明实施例线性分割示例图;[0042]图3为本发明实施例量子核估计方法总体流程图;[0043]图4为本发明实施例数据编码示意图;[0044]图5为本发明实施例数据编码表现形式;[0045]图6为本发明实施例量子核熵主成分分析方法的空间转化关系示意图;[0046]图7为本发明实施例量子变分分类方法总体流程图;[0047]图8为本发明实施例编码方式示例图之一;[0048]图9为本发明实施例编码方式示例图之二;[0049]图10为本发明实施例量子变分分类器线路示意图;[0050]图11为本发明实施例基于量子梯度下降算法优化后的量子线路示意图;[0051]图12为本发明实施例实验选用乳腺癌数据对应的样本特征相关性;[0052]图13为本发明实施例的实验结果。具体实施方式[0053]下面结合附图和具体的实施例对本发明做进一步的解释说明:[0054]如图1所示,一种基于新型量子框架实现乳腺癌分类的方法,包括:[0055]步骤1:根据乳腺癌数据特征进行量子编码,将样本特征编码到量子线路上;[0056]步骤2:结合量子核估计方法对乳腺癌数据进行量子核熵主成分分析,达到乳腺癌数据预处理的目的;[0057]步骤3:根据步骤2中得到的预处理后的乳腺癌数据逐次进行量子编码进入变分量子线路、即量子变分分类器;[0058]步骤4:对量子变分分类器的参数使用量子梯度下降算法实现参数优化;[0059]步骤5:判断量子变分分类器的损失函数是否达到实际要求,如果达到,则量子变分分类过程结束;如果未达到实际要求,则对下一条预处理后的乳腺癌数据进行量子编码,转至步骤3。[0060]值得说明的是,步骤1、步骤2具体属于量子核熵主成分分析方法的处理步骤;步骤3-步骤5具体属于量子变分分类方法的处理步骤。[0061]量子核熵主成分分析方法具体如下所示。[0062]在机器学习算法中,在面对非线性问题时,我们经常用到核函数,在[李航.统计学习方法.北京:清华大学出版社,2012.]中给出了核函数的定义:设为特征空间(希尔伯特空间),如果存在一个从到的映射φ(x):使得对所有的x,函数k(x,z)满足条件k(x,z)=φ(x)·φ(z),则称k(x,z)为核函数,φ(x)为映射函数,φ(x)·φ(z)为φ(x)和φ(z)的内积。[0063]如图2所示,对于训练集不是线性可分的问题,我们通常将训练集映射到高维空间中进行线性分割,我们就需要在高维空间中计算分类函数:这样我们就不需要知道在高维空间中的向量,只需知道高位空间中两个向量的点积,也就是核函数k(x,z)=φ(x)·φ(z),高维空间中的分类问题变成了计算核函数,相当于计算了高维空间中的点积,从而相当于在高维空间做了划分。[0064]当输入空间为欧式空间或者离散集合、特征空间为希尔伯特空间时,核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数可以学习非线性支持向量机,等价于在更高维的特征空间中进行线性支持向量机学习,这种方法称为核方法。量子核估计方法总体流程如图3所示。[0065]在此框架中,我们使用量子模拟器估计|t|×|t|的核矩阵对所有训练集中的样本点使用特征映射得到经典数据(本技术中为乳腺癌数据)向量到量子态|φ(x)》的转换,通过在初始状态|0》上作用酉变换实现数据的编码,即:[0066][0067]具体过程如图4所示。[0068]具体表现形式如图5所示。[0069]基于量子核估计的量子核熵主成分分析方法的空间转化关系如图6所示:[0070]首先将输入空间(inputspace)中的点通过非线性映射函数ψ将χ映射到特征空间(featurespace)中,再通过核(kernel)函数将featurespace中的点映射到核空间(kernelspace),接着通过一定的映射关系映射回featurespace。[0071]量子(线性)核估计方法描述如下:[0072][0073]核函数数学格式表示如下:[0074][0075]其中n为处理的乳腺癌数据总个数,则:[0076][0077]计算求出k的特征值λ和对应的特征向量u。[0078]求对应的特征值和特征向量的熵,按照熵的大小选取前κ个特征值λ和对应的特征向量u。[0079][0080]等上式两边同乘以得:[0081][0082]将单位化后得:[0083][0084]两边同乘以φ(xj)得:[0085][0086]其中[0087][0088]即为降维后的数据。[0089]量子核熵主成分分析方法算法描述如下:[0090][0091][0092]具体地,量子变分分类方法算法框架如图7所示。[0093]算法描述:[0094]1.将预处理后的乳腺癌数据xi编码到量子态上,经过带参数的量子线路,其中的初始值为设定正确分类的比特串β对应的分类预测结果;[0095]2.在z方向上进行测量,得到输出比特串α及其概率每次测量结束后,比较比特串α与β得到对数据xi被分类到某个结果的分类预测结果yi;[0096]3.将分类预测结果yi与训练集中给定的真实分类结果yi进行对比,并计算损失函数[0097]4.返回第一步,将剩余的测试数据xi依次输入到量子线路中,得到对应的并计算总代价函数[0098]5.选用量子梯度下降算法对总代价函数进行优化,重复更新量子线路中的参数直到优化到截止条件。[0099]具体地,量子编码方式如下:[0100]一般采用两种编码方式:将数据编码到线路参数和将数据编码到态的相位上。具体地,本实施例中,步骤1采用第二种编码方式,步骤3采用第一种编码方式。[0101]其中第一种编码方式如图8所示,对应代码为:[0102]cost_cir.rz(-2*math.pi*x[i][0],qubitlist[0])[0103]cost_cir.rz(-2*math.pi*x[i][1],qubitlist[1])[0104]cost_cir.rz(-2*math.pi*x[i][2],qubitlist[2])[0105]cost_cir.rz(-2*math.pi*x[i][3],qubitlist[3])[0106]第二种编码方式如图9所示,对应代码为:[0107]defconvertdatatoangles(data):[0108]prob1=data[2]**2 data[3]**2[0109]prob0=1-prob1[0110]angle1=2*np.arcsin(np.sqrt(prob1))[0111]prob1=data[3]**2/prob1[0112]angle2=2*np.arcsin(np.sqrt(prob1))[0113]prob1=data[1]**2/prob0[0114]angle3=2*np.arcsin(np.sqrt(prob1))[0115]returnnp.array([angle1,angle2,angle3])[0116]defencodedata(qc,qreg,angles):[0117]qc.ry(angles[0],qreg[1])[0118]qc.cry(angles[1],qreg[1],qreg[0])[0119]qc.x(qreg[1])[0120]qc.cry(angles[2],qreg[1],qreg[0])[0121]qc.x(qreg[1])[0122]具体地,本技术中量子变分分类器线路构造如图10所示。[0123]其中根据特征映射电路的结构,我们通过附加单量子位单元层和纠缠门图来构造变分算法的分类器部分。随后的每个层或深度都包含一组用于算法的所有量子位的额外纠缠。我们使用相干可控量子力学系统,例如具有n个透射量子位的超导芯片来制备短深度量子电路在这里的实验中,由n=2个量子位元组成,每个深度增加一个控制相位门。分类器中使用的单量子位单元被限制为y和z旋转,以简化经典优化器需要处理的参数的数量。我们使用的控制阶段,而不是cnot,门的纠缠是合理的,我们的目标是增加在我们的框架的普遍性。使用控制相位门不需要详细化针对不同的系统拓扑的这部分算法。然后,我们的编译器可以使用一个给定设备的特定纠缠图,将每个受控相位门转换为我们系统中可用的cnot。一般电路由以下单量子位和多量子位门组成:[0124]其中[0125]具体地,量子梯度下降算法原理如下:[0126]我们先定义损失函数[0127]损失函数对θi求偏导数,可以简化为对θi求偏导数,即:利用乘积法则,将展开,得到:[0128][0129]通过hermitian共轭,可以转化为下面的形式:[0130][0131]即:[0132][0133][0134]设置和的门线路如下:[0135]defgrygate(theta):[0136]u00=-1/2*math.cos(theta/2)[0137]u01=-1/2*math.sin(theta/2)[0138]u10=1/2*math.sin(theta/2)[0139]u11=-1/2*math.cos(theta/2)[0140]gatelabel="g({})".format(theta)[0141]grygate=unitarygate(np.array([[u00,u01],[u10,u11]]),label=gatelabel)[0142]returngrygate[0143]defgrzgate(theta):[0144]u00=-i/2*math.exp(-i*theta/2)[0145]u01=0[0146]u10=0[0147]u11=-i/2*math.exp(i*theta/2)[0148]gatelabel="g({})".format(theta)[0149]grzgate=unitarygate(np.array([[u00,u01],[u10,u11]]),label=gatelabel)[0150]returngrzgate[0151]具体地,按照如下方式基于量子梯度下降算法进行量子线路参数优化:[0152]下面我们来设计一个量子线路来求所需的内积形式:[0153][0154]我们利用hadamard方法来实现,首先,我们准备输入的量子态,并制备辅助态[0155]现在对应用ykw(θ)v(xk)在态|1》上,得到:[0156][0157]通过翻转操作辅助态,对应用在态|0》上得到:[0158][0159]对辅助门应用hadamard门操作,得到:[0160][0161]现在辅助位0的概率是:[0162][0163]最后利用辅助量子比特为0的概率,求出θi的梯度。[0164]更新(η为步长)。[0165]最终得出的量子线路示意图如图11所示。[0166]为验证本发明效果,进行如下实验:[0167]当前全球数据生产以每年约24%的爆发性态势保持增长,以机器学习为代表的计算技术得到快速发展,机器学习至今已发展出多个细分领域如无监督学习、监督学习、半监督学习、增强学习以及深度学习等。机器学习针对已有数据结合不同的学习策略,探索数据隐含的关联关系和结构,进而得到学习模型并依据模型进行分析和预测。本发明选用的乳腺癌数据集具体为scikit机器学习库乳腺癌诊断标准数据集(https://scikit-learn.org/stable/)。改数据集具体由569项样本构成,每个样本具有30个特征,描述了乳腺肿瘤的半径、纹理、周长、面积、平滑度等10个维度的平均值、标准差和最大值,其中恶性样本212例,良性样本357例。样本特征相关性如图12所示。按照本发明方法得出的分类结果具体如图13所示,由实验结果可知,本发明方法具有较高的分类预测准确率。[0168]综上,本发明提出一种新型量子框架、即用于解决分类问题的经典—量子混合求解框架,并应用于乳腺癌分类和识别,改进文献1中提出的量子变分分类方法的框架,将需要传统方法求解的代价函数的相关参数通过转换编码到希尔伯特空间中叠加态的相对相位上,利用量子优化算法来寻找某些任务的最优参数,希望以此来缓解贫瘠的高原问题。同时利用量子核估计方法来实现核主成分分析(kpca)的优化与加速,达到快速进行主成分分析的目的;在数据集特征值较少,分类准确度不高的情况下,利用该框架,可以有效提高分类准确率。[0169]具体地,本发明采用量子核熵主成分分析方法,该方法是一种实现先升维再降维的过程,通过该过程可以去除数据的冗余信息,获得更加紧凑和经济的数据表示形式,同时可以更加有效地表达数据的潜在结构。最后通过该方法将一个非线性可分的问题转变成一个线性可分的问题,在结构更为复杂的数据上也能获得较好地处理效果,真正达到数据预处理的目的。[0170]梯度下降法是一个最优化算法,通常也称最速下降法,常用于机器学习和人工智能中递归性逼近最小偏差模型,梯度下降的方向就是用负梯度方向为搜索方向,沿着梯度下降的方向求解极小值。在训练过程中,每次的正向传播都会得到输出值和真实值的损失值,这个损失值越小,代表模型越好,于是梯度下降的算法就用在这里,帮助寻找最小的那个损失值,从而可以反推出对应的学习参数b和w,达到优化模型的效果。但是在真正的采用传统的优化过程,需要耗费很多的计算资源和时间,本技术采用量子梯度下降算法,充分利用量子计算优势,可有效的降低计算资源和计算时间。[0171]本发明采用将预处理数据编码到量子线路,利用变分量子线路实现分类,能够有效提高在乳腺癌分类问题上的准确度和算力。[0172]以上所示仅是本发明的优选实施方式,应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献