一种乳腺癌特征信息识别方法

2022-06-05 11:26:54 来源：中国专利 TAG：

1.本发明属于乳腺癌识别分类方法，特别是涉及一种乳腺癌特征信息识别方法。

背景技术：

2.近年来，基于模式识别的疾病识别系统得到迅猛的发展，专家系统可以代替医生对采集到的数据进行分析并快速得到识别结果，具有广阔的应用前景。伴随着乳腺癌疾病识别系统的广泛应用，高效准确的乳腺癌分类器设计引起了众多研究者的关注，而乳腺癌分类器一般基于支持向量机算法以及相应的改进分类算法进行设计的(asri h,mousannif h,moatassime h a,et al.using machine learning algorithms for breast cancer risk prediction and diagnosis[j].procedia computer science,2016,83:1064-1069.)。由于支持向量机分类器设计简单，且已经具备较好的分类效果，在乳腺癌分类器设计上被广泛利用(krishna ja,mohan p.a comparison between knn and svm for breast cancer diagnosis using glcm shape and lbp features[c]2020third international conference on smart systems and inventive technology(icssit).2020.)。尽管支持向量机使用简便，但传统的参数求解方法是串行求解算法，求解速度慢，不适合大规模的数据应用。在这种基础上，需要设计求解性能更加良好的分类器，而基于神经动力学的递归神经网络具快速收敛特性和并行性，可以实现参数的快速求解，其快速的求解特性适合于乳腺癌分类器的设计与开发。同时，由于该神经网络具有较强的鲁棒性，所设计的分类器系统稳定且分类效果良好。

技术实现要素：

[0003]
本发明的目的在于克服现有技术的不足，提供一种乳腺癌特征信息识别方法。
[0004]
本发明至少通过如下技术方案之一实现。
[0005]
一种乳腺癌特征信息识别方法，包括如下步骤：
[0006]
1)获取到病人的特征信息，对特征信息数据进行预处理；
[0007]
2)根据支持向量机理论，基于预处理后的数据建立分类模型的标准矩阵型凸二次规划问题；
[0008]
3)根据递归神经动力学设计标准矩阵型凸二次规划问题的递归神经网络求解器；
[0009]
4)将步骤3)的求解结果传递给分类模型，得到分类决策函数；
[0010]
5)通过决策函数对病人的特征信息进行分类，将结果显示在屏幕上。
[0011]
进一步地，所述预处理包括：对数据进行预处理，包括对数据清洗、对采集到的病人对应的特征信息中的省缺值进行填补，填补方法为取整个特征数据集对应特征的平均值进行填补，然后对数据z-score归一化。
[0012]
进一步地，所述步骤2)具体包括：
[0013]
预处理完数据后，得到数据集t
[0014][0015]
其中yi∈{1,-1}代表第i个样本的标签，代表第i个样本的特征向量的第j个特征，向量的维度是n、m代表数据样本的个数，i＝1,2,
…
,m，j＝1,2,
…
,n；
[0016]
定义决策函数：
[0017]
f(x)＝sgn(w
t
x b)
ꢀꢀ
(2)
[0018]
其中w为权重向量，b为偏移量；sgn(
·
)是阶跃函数，当值小于0时输出-1，大于等于0时输出1，利用f(x)计算结果的正负值判断输入的数据样本是否为乳腺癌，x表示输入的特征信息；
[0019]
根据软间隔支持向量机理论，得到凸二次规划问题：
[0020][0021][0022]
0≤α1,α2,
…
,αm≤c
[0023]
其中αi和αj是对应第i个和第j个样本的拉格朗日乘子，yi、yj表示第i、j个样本对应的标签，g(xi,xj)代表第i个样本和第j个样本核函数计算的结果，c代表惩罚因子；表示频率带宽的大小，exp(
·
)表示指数函数；m代表数据样本的个数；
[0024]
求解公式(3)得到αi的解，根据软间隔支持向量机理论，得到决策函数的权重向量和偏移量，其中
[0025][0026][0027]
定义
[0028]
[0029][0030][0031][0032]
k＝[y
1 y2ꢀ…ꢀ
ym]
[0033]
h＝x
·y[0034]
把凸二次规划问题(3)写成
[0035][0036]
s.t.kα＝0
ꢀꢀ
(6)
[0037]
0≤α≤c
[0038]
定义
[0039][0040][0041]
e是m
×
m的单位矩阵，q表示m维的列向量，元素都是-1，y是由数据样本标签组成的矩阵，x是由数据样本组成的矩阵，k是等式约束的系数矩阵，h是由矩阵x和矩阵y组成的，j表示不等式约束的系数矩阵，d表示不等式约束的常数项向量，c表示惩罚因子；xi代表第i个样本的特征向量，α表示拉格朗日乘子向量；
[0042]
重写成标准的凸二次规划问题：
[0043][0044]
s.t.kα＝0
ꢀꢀ
(7)
[0045]
jα≤d
[0046]
得到分类模型的标准矩阵型凸二次规划问题。
[0047]
进一步地，所述步骤4)具体包括：
[0048]
凸二次规划问题用递归神经动力学求解器求解，首先定义惩罚函数
[0049][0050]
其中ni＝d
i-jiα，m(
·
)＝exp(-σni)，σ》0，p》0；惩罚函数满足
[0051][0052]
其中di表示不等式约束的常数项向量的第i项，ji表示不等式约束的系数矩阵的第i行，α表示拉格朗日乘子，ni表示第i个不等式约束对应罚函数的输入函数，m(
·
)表示第i个不等式约束对应罚函数,p和σ表示惩罚函数系数；
[0053]
将惩罚函数(8)代入原二次规划问题，得到
[0054][0055]
s.t.kα＝0
[0056]
其中h是由矩阵x和矩阵y组成的，y是由数据样本标签组成的矩阵，x是由数据样本组成的矩阵，q表示m维的列向量，k是等式约束的系数矩阵。
[0057]
进一步地，所述步骤4)具体包括：
[0058]
定义拉格朗日函数
[0059][0060]
其中λ表示等式约束的拉格朗日系数，分别对α、λ求导使其为0，求得式(10)的解，如下
[0061][0062]
将上式写为矩阵形式
[0063]
az＝g
ꢀꢀ
(12)
[0064]
其中
[0065][0066][0067][0068]
其中a、z、g为式(11)写成标准矩阵表达式后得到的，z为待求解参数的向量，a为系
数矩阵，g为常数项向量，α表示拉格朗日乘子，h是由矩阵x和矩阵y组成的，y是由数据样本标签组成的矩阵，x是由数据样本组成的矩阵，q表示m维的列向量，p和σ表示惩罚函数系数。
[0069]
进一步地，所述步骤5)具体包括：
[0070]
设z、g随时间t的变化而变化，定义
[0071]
ε(t)＝az(t)-g(t)
ꢀꢀ
(13)
[0072]
其中ε(t)表示误差向量，z(t)和g(t)表示向量z、g随时间t变化而变化，a为系数矩阵。
[0073]
进一步地，所述步骤6)具体包括：
[0074]
根据神经动力学理论和式(13)定义
[0075][0076]
代入
[0077][0078]
其中
[0079][0080]
表示对向量g(t)、z(t)、α(t)进行求导；
[0081]
将式(15)写成标准形式得到：
[0082][0083]
其中
[0084][0085]
其中y为神经网络收敛的放大系数。
[0086]
进一步地，基于公式(16)构建递归神经网络。
[0087]
进一步地，使用matlab自带的ode工具箱对递归支持向量神经网络络进行求解，求得系数向量α的值，再将其代入决策函数求得权重向量w以及偏移量b，得到决策函数f(x)。
[0088]
进一步地，所述步骤5)具体包括：在求得决策函数f(x)，用户通过电子病历传入新的特征向量，特征向量在经过步骤2)相同的预处理后，代入决策函数f(x)得到预测值，根据预测值是否为正数判断是否患有乳腺癌的特征信息，如果为正表示患有乳腺癌的特征信息，为负表示不患有乳腺癌的特征信息.
[0089]
与现有的技术相比，本发明的有益效果为：本发明所提出特征信息识别方法中不包含复杂的求逆过程，具有收敛速度快，鲁棒性强的特点，对比现有的其他乳腺癌分类算法，拥有分类准确率更高等特点。
附图说明
[0090]
图1为本发明实施例一种乳腺癌特征信息识别方法的流程图；
[0091]
图2为本发明所用的递归神经网络图；
[0092]
图3为本发明实施例的系统图。
具体实施方式
[0093]
下面结合附图对本发明做进一步的说明。
[0094]
实施例1
[0095]
图1为本发明一种乳腺癌特征信息识别方法，包括如下步骤：
[0096]
1)通过电子病历系统获取到病人的特征信息，选取6个特征，分别为半径平均值、纹理平均值、平滑程度平均值、紧密度平均值、对称性平均值、分形维度平均值，然后将数据传送数据分析的电脑上；
[0097]
2)对数据进行预处理，包括对数据清洗以及数据归一化；
[0098]
3)根据支持向量机理论，基于步骤2)数据建立分类模型的标准矩阵型凸二次规划问题；
[0099]
4)根据递归神经动力学设计方法，设计标准矩阵型凸二次规划问题的递归神经网络求解器；
[0100]
5)将步骤4)的求解结果传递给分类模型，可以得到分类决策函数；
[0101]
6)通过决策函数判断病人是否存在有乳腺癌的特征信息，将结果显示在屏幕上。
[0102]
通过电子病历系统获取到病人的相关信息，通过获取对应的病人对应的病理信息组成病人的特征向量，然后将数据传送数据分析的电脑上；
[0103]
对数据进行预处理，包括对数据清洗，对采集到的病人对应的特征信息中的省缺值进行填补，方法为取整个特征数据集对应特征的平均值进行填补，然后对数据z-score归一化，z-score归一化的具体方法为其中其中x表示输入的数据特征，μ表示特征向量对应特征的平均值，σ表示特征向量对应特征的标准差；
[0104]
预处理完数据后，将得到数据集t
[0105][0106]
其中yi∈{1,-1}代表第i个样本的标签，代表第i个样本的特征向量的第j个特征，向量的维度是n、m代表数据样本的个数，i＝1、2、
…
、m，j＝1、2、
…
、n。
[0107]
定义决策函数：
[0108]
f(x)＝sgn(w
t
x b)
ꢀꢀꢀꢀꢀꢀ
(2)
[0109]
其中w为权重向量，b为偏移量，sgn(
·
)是阶跃函数，当值小于0时输出-1，大于等于0时输出1，利用f(x)计算结果的正负值判断输入的数据样本属于哪一类。
[0110]
根据软间隔支持向量机理论，可以得到一个凸二次规划问题。
[0111][0112][0113]
0≤α1,α2,
…
,αm≤c
[0114]
其中αi和αj是对应第i个和第j个样本的拉格朗日乘子，g(xi,xj)代表第i个样本和第j个样本核函数计算的结果，c代表惩罚因子。在本发明中使用高斯核函数，σ表示带宽的大小，exp(
·
)表示指数函数，m代表数据样本的个数。
[0115]
求解凸二次规划问题(3)可以得到参数αi，i＝1,2,
…
,m的解，根据软间隔支持向量机理论，可以得到决策函数的权重向量和偏移量，其中
[0116][0117][0118]
定义
[0119][0120][0121][0122][0123]
k＝[y
1 y2ꢀ…ꢀ
ym]
[0124]
h＝x
·y[0125]
可以把凸二次规划问题(3)写成
[0126][0127]
s.t.kα＝0
ꢀꢀ
(6)
[0128]
0≤α≤c
[0129]
定义
[0130][0131][0132]
e是m
×
m的单位矩阵；q表示一个m维的列向量，元素都是-1，y是由数据样本标签组成的矩阵，x是由数据样本组成的矩阵，k是等式约束的系数矩阵，h是由矩阵x和矩阵y组成的，j表示不等式约束的系数矩阵，d表示不等式约束的常数项向量，c表示惩罚因子。
[0133]
重写成标准的凸二次规划问题(6)
[0134][0135]
s.t.kα＝0
ꢀꢀ
(7)
[0136]
jα≤d
[0137]
得到分类模型的标准矩阵型凸二次规划问题。
[0138]
凸二次规划问题(7)可以用递归神经动力学求解器求解，首先定义惩罚函数
[0139][0140]
其中ni＝d
i-jiα，m(
·
)＝exp(-σni)，σ》0，p》0。该惩罚函数是为了代替凸二次规划问题(7)的不等式约束。惩罚函数满足
[0141][0142]
其中di表示不等式约束的常数项向量的第i项，ji表示不等式约束的系数矩阵的第i行，α表示拉格朗日乘子，ni表示第i个不等式约束对应罚函数的输入函数，m(
·
)表示第i个不等式约束对应罚函数,p和σ表示惩罚函数系数。
[0143]
将惩罚函数(8)代入原二次规划问题，可以得到
[0144][0145]
s.t.kα＝0
[0146]
定义一个拉格朗日函数
[0147][0148]
其中λ表示等式约束的拉格朗日系数，分别对α,λ求导使其为0，可以求得式(10)的
解，如下
[0149][0150]
将上式写为矩阵形式
[0151]
az＝g
ꢀꢀ
(12)
[0152]
其中
[0153][0154][0155][0156]
其中a、z、g为式(11)写成标准矩阵表达式后得到的矩阵，z为待求解参数的向量，a为系数矩阵，g为常数项向量。
[0157]
设z,g随时间t的变化而变化，可以定义
[0158]
ε(t)＝az(t)-g(t)
ꢀꢀ
(13)
[0159]
其中ε(t)表示误差，z(t)和g(t)表示向量z、g随时间变化而变化。
[0160]
根据神经动力学，根据式(13)可以定义
[0161][0162]
其中y表示放大系数，代入
[0163][0164]
其中
[0165][0166]
表示对g(t),z(t),α(t)进行求导。
[0167]
将式(15)写成标准形式，可以得到
[0168][0169]
其中
[0170][0171]
构建出如公式(16)的变参递归支持向量神经网络，其中y为神经网络收敛的放大系数，一般设置为10，使用matlab自带的ode工具箱对构建网络进行求解，求得系数向量α的值，再将其代入式(2)求得权重向量w以及偏移量b，得到决策函数f(x)。
[0172]
在求得决策函数f(x)，用户可以通过电子病历传入新的特征向量，特征向量在经过步骤2)相同的预处理后，代入决策函数f(x)得到预测值，根据预测值是否为正数可以判断是否患有乳腺癌，如果为正表示患有乳腺癌，为负表示不患有乳腺癌，系统的结构框图如图3所示。
[0173]
实施例2
[0174]
一种乳腺癌特征信息识别方法，包括如下步骤：
[0175]
1)通过电子病历系统获取到病人的特征信息，选取6个特征，分别为肿瘤周长平均值、纹理平均值、平滑程度平均值、凹度平均值、对称性平均值、分形维度平均值，然后将数据传送数据分析的电脑上；
[0176]
对数据进行预处理，包括对数据清洗，对采集到的病人对应的特征信息中的省缺值进行填补，方法为取整个特征数据集对应特征的平均值进行填补，然后对数据z-score归一化，z-score归一化的具体方法为其中x表示输入的数据特征，μ表示特征向量对应特征的平均值，σ表示特征向量对应特征的标准差；
[0177]
预处理完数据后，将得到数据集t，然后定义如式(2)的决策函数f(x)，利用f(x)计算结果的正负值判断输入的数据样本属于哪一类。
[0178]
根据软间隔支持向量机理论，可以得到一个凸二次规划问题式(3)。
[0179]
求解凸二次规划问题(3)可以得到参数αi，i＝1,2,
…
,m的解，根据软间隔支持向量机理论，根据公式(4)和(5)得到决策函数的权重向量w和偏移量b。
[0180]
可以把凸二次规划问题(3)写成式(6)，然后重写成标准的凸二次规划问题(6)得到式(7)所示的分类模型的标准矩阵型凸二次规划问题。
[0181]
凸二次规划问题(7)可以用递归神经动力学求解器求解，首先定义惩罚函数式(8)。该惩罚函数是为了代替凸二次规划问题(7)的不等式约束。惩罚函数满足
[0182][0183]di
表示不等式约束的常数项向量的第i项，ji表示不等式约束的系数矩阵的第i行，α表示拉格朗日乘子，ni表示第i个不等式约束对应罚函数的输入函数，m(
·
)表示第i个不等式约束对应罚函数,p和σ表示惩罚函数系数。
[0184]
将惩罚函数(8)代入原二次规划问题，可以得到式(9)，然后定义一个如式(10)所示的拉格朗日函数，分别对α,λ求导使其为0，可以求得式(10)的解，如式(11)所示
[0185][0186]
将上式写为如式(12)表示的矩阵形式，设z,g随时间的变化而变化，可以得到式(13)的误差公式。根据神经动力学，得到式(16)构建出的变参递归神经网络，其中y为神经网络收敛的放大系数，设置为5，使用matlab自带的ode工具箱对构建网络进行求解，求得系数向量α的值，再将其代入式(2)求得权重向量w以及偏移量b，得到决策函数f(x)。
[0187]
在求得决策函数f(x)，用户可以通过电子病历传入新的特征向量，特征向量在经过相同的预处理后，代入决策函数f(x)得到预测值，根据预测值是否为正数可以判断是否患有乳腺癌，如果为正表示患有乳腺癌，为负表示不患有乳腺癌。
[0188]
实施例3
[0189]
一种乳腺癌特征信息识别方法，包括如下步骤：
[0190]
1)通过电子病历系统获取到病人的特征信息，选取6个特征，分别为肿瘤面积平均值、纹理平均值、平滑程度平均值、凹点平均值、对称性平均值、分形维度平均值，然后将数据传送数据分析的电脑上；
[0191]
对数据进行预处理，包括对数据清洗，对采集到的病人对应的特征信息中的省缺值进行填补，方法为取整个特征数据集对应特征的平均值进行填补，然后对数据z-score归一化，z-score归一化的具体方法为其中x表示输入的数据特征，μ表示特征向量对应特征的平均值，σ表示特征向量对应特征的标准差；
[0192]
预处理完数据后，将得到数据集t，然后定义如式(2)的决策函数f(x)，利用f(x)计算结果的正负值判断输入的数据样本属于哪一类。
[0193]
根据软间隔支持向量机理论，可以得到一个凸二次规划问题式(3)。
[0194]
求解凸二次规划问题(3)可以得到参数αi，i＝1,2,
…
,m的解，根据软间隔支持向量机理论，根据公式(4)和(5)得到决策函数的权重向量w和偏移量b。
[0195]
可以把凸二次规划问题(3)写成式(6)，然后重写成标准的凸二次规划问题(6)得到式(7)所示的分类模型的标准矩阵型凸二次规划问题。
[0196]
凸二次规划问题(7)可以用递归神经动力学求解器求解，首先定义惩罚函数式(8)。该惩罚函数是为了代替凸二次规划问题(7)的不等式约束。惩罚函数满足
[0197][0198]di
表示不等式约束的常数项向量的第i项，ji表示不等式约束的系数矩阵的第i行，α表示拉格朗日乘子，ni表示第i个不等式约束对应罚函数的输入函数，m(
·
)表示第i个不等式约束对应罚函数,p和σ表示惩罚函数系数。
[0199]
将惩罚函数(8)代入原二次规划问题，可以得到式(9)，然后定义一个如式(10)所示的拉格朗日函数，分别对α,λ求导使其为0，可以求得式(10)的解，如式(11)所示
[0200][0201]
将上式写为如式(12)表示的矩阵形式，设z,g随时间的变化而变化，可以得到式(13)的误差公式。根据神经动力学，得到式(16)构建出的变参递归神经网络，其中y为神经网络收敛的放大系数，设置为5，使用matlab自带的ode工具箱对构建网络进行求解，求得系数向量α的值，再将其代入式(2)求得权重向量w以及偏移量b，得到决策函数f(x)。
[0202]
在求得决策函数f(x)，用户可以通过电子病历传入新的特征向量，特征向量在经过相同的预处理后，代入决策函数f(x)得到预测值，根据预测值是否为正数可以判断是否患有乳腺癌的特征信息，如果为正表示患有乳腺癌的特征信息，为负表示不患有乳腺癌的特征信息。
[0203]
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种毫米波图像处理方法、装置及电子设备与流程

一种乳腺癌特征信息识别方法

相关文献

最热文献