一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型训练方法、特征分类方法、装置和计算机设备与流程

2022-03-14 01:56:53 来源:中国专利 TAG:


1.本技术涉及医疗技术领域,特别是涉及一种模型训练方法、特征分类方法、装置和计算机设备。


背景技术:

2.传统的科室分诊分为人工和专家系统两部分,人工的方式由于就诊人数过多,仅靠人工进行科室分诊难以在短时间内接待大量的就诊患者,易引起患者的不满;基于专家系统的方法,需要大量专业人士构建医疗知识库,制作成本高后期维护困难,而且现阶段没有一个包含全部疾病的医疗知识库,容易出现无法分诊的情况,导致患者的就医流程无法继续。
3.针对上述两种传统的科室分诊方法,提出通过网络模型来实现智能化的科室分诊。目前常用的训练网络模型的算法为boosting算法,boosting算法是通过迭代训练的方式,将弱学习器通过多次迭代训练,逐步训练成强学习器。在迭代训练的过程中,每个基分类器会根据上一次迭代训练结果中未正确分类的样本进行权值调整,使得基学习器更关注于分类错误的样本,通过不断地迭代训练,使得模型降低了训练结果的偏差。
4.但是,boosting算法在训练过程中容易过拟合,降低模型训练的效率。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够提高模型训练效率的模型训练方法、特征分类方法、装置和计算机设备。
6.第一方面,提供一种模型训练方法,该方法包括:
7.根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度;贡献度为病症特征针对于科室的出现频率;
8.根据历史病症特征的贡献度,确定样本数据集;
9.根据样本数据集对初始分类模型训练,得到目标分类模型;初始分类模型包括第一层分类模型和第二层分类模型,其中第二层分类模型为最小二乘双支持向量机元分类模型;目标分类模型用于根据用户的病症特征进行科室分类。
10.在其中一个可选的实施例中,根据样本数据集对初始分类模型训练,得到目标分类模型,包括:
11.将样本数据集输入至第一层分类模型中,得到样本数据集对应的第一分类结果;
12.根据第一分类结果、样本数据集,训练第二层分类模型,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型。
13.在其中一个可选的实施例中,第一分类结果包括第一训练结果和第一测试结果;将样本数据集输入至第一层分类模型中,得到样本数据集对应的第一分类结果,包括
14.根据预设的划分比例,确定样本数据集中的第一训练集和第一测试集;
15.将第一训练集输入至第一层分类模型中,得到第一训练结果;
16.将第一测试集输入至第一层分类模型中,得到第一测试结果。
17.在其中一个可选的实施例中,根据第一分类结果、样本数据集,训练第二层分类模型,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型,包括:
18.获取第二训练集和第二测试集;第二训练集包括第一训练结果和第一训练集;第二测试集包括第一测试结果和第一测试集;
19.根据第二训练集和第二测试集,对第二层分类模型进行训练,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型。
20.在其中一个可选的实施例中,根据第二训练集和第二测试集,对第二层分类模型进行训练,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型,包括:
21.根据第二训练集、第二测试集和预设的交叉验证算法,计算预设次数对应的第二层分类模型的第二分类结果;
22.根据各第二层分类模型的第二分类结果,确定各分类结果对应的分类识别率;
23.根据各分类结果对应的分类识别率和预设阈值,确定各分类结果的标准偏差;
24.确定标准偏差最小的分类结果所对应的候选模型参数,并根据候选模型参数对第二层分类模型进行配置,得到目标分类模型。
25.在其中一个可选的实施例中,根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度,包括:
26.根据各历史病症特征数据,确定各病症特征对应的词频-逆文件频率;
27.根据各病症特征的词频-逆文件频率,计算各病症特征对于各科室的贡献度。
28.在其中一个可选的实施例中,根据历史病症特征的贡献度,确定样本数据集,包括:
29.确定各病症特征对应的分类标签;
30.根据各病症特征的分类标签,采用布尔类型对各病症特征进行数值化处理,得到数值化处理后的病症特征集;
31.将数值化处理后的病症特征集和各病症特征的贡献度进行加权,得到样本数据集。
32.第二方面,提供一种特征分类方法,该方法包括:
33.获取用户的病症特征;
34.将用户的病症特征输入至目标分类模型中,确定用户的病症特征的科室分类;目标分类模型包括第一层分类模型和第二层分类模型,其中第二层分类模型为最小二乘双支持向量机元分类模型;
35.其中,目标分类模型为根据样本数据集对初始分类模型中进行训练得到的,样本数据集为根据用户的历史病症特征数据和各病症特征对于各科室的贡献度所确定的数据集,贡献度为病症特征针对于科室的出现频率。
36.第三方面,提供一种模型训练装置,该装置包括:
37.获取模块,用于根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度;贡献度为病症特征针对于科室的出现频率;
38.确定模块,用于根据历史病症特征的贡献度,确定样本数据集;
39.训练模块,用于根据样本数据集对初始分类模型训练,得到目标分类模型;初始分类模型包括第一层分类模型和第二层分类模型,其中第二层分类模型为最小二乘双支持向量机元分类模型;目标分类模型用于根据用户的病症特征进行科室分类。
40.第四方面,提供一种特征分类装置,该装置包括:
41.获取模块,用于获取用户的病症特征;
42.分类模块,用于将用户的病症特征输入至目标分类模型中,确定用户的病症特征的科室分类;目标分类模型包括第一层分类模型和第二层分类模型,其中第二层分类模型为最小二乘双支持向量机元分类模型;
43.其中,目标分类模型为根据样本数据集对初始分类模型中进行训练得到的,样本数据集为根据用户的历史病症特征数据和各病症特征对于各科室的贡献度所确定的数据集,贡献度为病症特征针对于科室的出现频率。
44.第五方面,提供一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现上述第一方面、第二方面任一所述的方法。
45.第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面、第二方面任一所述的方法。
46.上述模型训练方法、特征分类方法、装置和计算机设备,计算机设备根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度,根据历史病症特征的贡献度,确定样本数据集,根据样本数据集对初始分类模型训练,得到目标分类模型;其中,贡献度为病症特征针对于科室的出现频率,初始分类模型包括第一层分类模型和第二层分类模型,其中第二层分类模型为最小二乘双支持向量机元分类模型,目标分类模型用于根据用户的病症特征进行科室分类。在本方案中所涉及的目标分类模型,采用最小二乘双支持向量机作为stacking集成学习的第二层元分类器,降低了模型在训练过程中的学习难度,提高模型训练的求解效率,并且,减少了模型训练过程中对存储空间的要求,减少了模型训练时间,提高模型的分类速度,具有较好的自适应性。
附图说明
47.图1为一个实施例中模型训练方法的应用环境图;
48.图2为一个实施例中模型训练方法的流程示意图;
49.图3为一个实施例中模型训练方法的流程示意图;
50.图4为一个实施例中模型训练方法的流程示意图;
51.图5为一个实施例中模型训练方法的流程示意图;
52.图6为一个实施例中模型训练方法的流程示意图;
53.图7为一个实施例中模型训练方法的流程示意图;
54.图8为一个实施例中模型训练方法的流程示意图;
55.图9为一个实施例中特征分类方法的流程示意图;
56.图10为另一个实施例中模型的训练及应用方法的流程示意图;
57.图11为一个实施例中模型训练装置的结构框图;
58.图12为一个实施例中特征分类装置的结构框图。
具体实施方式
59.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
60.本技术提供的模型训练方法,可以应用于如图1所示的应用环境中。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
61.本领域技术人员可以理解,图1中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
62.下面将通过实施例并结合附图具体地对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是,本技术图2-图8实施例提供的模型训练方法,其执行主体为计算机设备,也可以是模型训练装置,该模型训练装置可以通过软件、硬件或者软硬件结合的方式成为计算机设备的部分或全部。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
63.在一个实施例中,如图2所示,提供了一种模型训练方法,包括以下步骤:
64.s201、根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度;贡献度为病症特征针对于科室的出现频率。
65.其中,历史病症特征数据指的是用户就诊所形成的病历信息中的病症特征数据。可选地,计算机设备可以从历史数据库中获取用户的病历信息,通过特征提取算法来获取用户的病症特征;或者,计算机设备还可以通过历史数据库中的历史医疗影像数据,基于图像识别算法来获取用户的病症特征。
66.在本实施例中,计算机设备在获取到历史病症特征数据之后,可以根据病症特征数据来提取病症特征,从而根据病症特征计算各个病症数据对于各个科室的贡献度,也即,确定各个病症特征数据与各个科室的相关度,其中病症特征可以包括“胸痛”、“心慌”、“头晕
”…“
腰疼”等,可选地,计算机设备可以通过计算各个病症特征在各个科室病历下出现的频率来确定各个病症特征数据对于各个科室的贡献度,本实施例对此不做限定。
67.s202、根据历史病症特征的贡献度,确定样本数据集。
68.其中,样本数据集指的是用于训练初始分类模型的数据集。在本实施例中,计算机设备在确定各个病症特征的贡献度之后,可以根据各个病症特征的贡献度以及病症特征数
据来确定样本数据集;该样本数据集中的数据应该具备训练模型的实用性,也即,根据各个病症特征的贡献度,可以将与分诊科室贡献度极小的数据可以做相应的剔除处理,贡献度极小的数据可能为错误数据,这里贡献度极小可以认为小于1%。可选地,计算机设备还可以先对病症特征数据进行数据预处理,例如,将字符串类型的病症特征数据处理为离散型数据,用于计算各个病症特征的贡献度,本实施例对此不做限定。
69.s203、根据样本数据集对初始分类模型训练,得到目标分类模型;初始分类模型包括第一层分类模型和第二层分类模型,其中第二层分类模型为最小二乘双支持向量机元分类模型;目标分类模型用于根据用户的病症特征进行科室分类。
70.其中,第一层分类模型可以为1个或多个异构的基分类器组成,示例性的,基分类器可以选用随机森林、k近邻、梯度提升决策树等分类器。
71.在本实施例中,计算机设备根据样本数据集训练初始分类模型,可选地,计算机设备可以先将样本数据集输入至第一层分类模型中,训练第一层分类模型,在训练好第一层分类模型之后,根据第一层分类模型所输出的分类结果,进一步地训练最小二乘双支持向量机元分类模型,在最小二乘双支持向量机元分类模型满足预设的条件之后,得到训练好的最小二乘双支持向量机元分类模型,进一步地,根据训练好的第一层分类模型和训练好的最小二乘双支持向量机元分类模型,得到目标分类模型。或者,计算机设备还可以将样本数据集分别输入至第一层分类模型和最小二乘双支持向量机元分类模型中,分别训练这两个模型,在这两个模型分别满足预设的条件之后,根据训练好的分类模型和训练好的最小二乘双支持向量机元分类模型,得到目标分类模型,本实施例对此不做限定。
72.上述模型训练方法中,计算机设备根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度,根据历史病症特征的贡献度,确定样本数据集,根据样本数据集对初始分类模型训练,得到目标分类模型;其中,贡献度为病症特征针对于科室的出现频率,初始分类模型包括分类模型和第二层分类模型,其中第二层分类模型为最小二乘双支持向量机元分类模型,目标分类模型用于根据用户的病症特征进行科室分类。在本方案中所涉及的目标分类模型,采用最小二乘双支持向量机作为stacking集成学习的第二层元分类器,降低了模型在训练过程中的学习难度,提高模型训练的求解效率,并且,减少了模型训练过程中对存储空间的要求,减少了模型训练时间,提高模型的分类速度,具有较好的自适应性。
73.在计算机设备进行分类模型的训练过程中,分为两个部分,在其中一个可选的实施例中,如图3所示,根据样本数据集对初始分类模型训练,得到目标分类模型,包括:
74.s301、将样本数据集输入至第一层分类模型中,得到样本数据集对应的第一分类结果。
75.在本实施例中,计算机设备根据样本数据集,首先训练初始分类模型中的第一层分类模型,将样本数据集输入至第一层分类模型中,得到样本数据集对应的第一分类结果。
76.s302、根据第一分类结果、样本数据集,训练第二层分类模型,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型。
77.在本实施例中,以第二层分类模型为最小二乘双支持向量机元分类模型例来说明,计算机设备在得到第一分类结果之后,根据第一分类结果和样本数据集确定初始分类模型中的第二层模型的输入数据集,也即,确定最小二乘双支持向量机元分类模型的输入
数据集,从而根据输入数据集训练最小二乘双支持向量机元分类模型,直到最小二乘双支持向量机元分类模型的模型参数满足预设的参数条件,得到目标分类模型,本实施例对此不做限定。
78.在本实施例中,在模型训练过程中,第一层基分类器训练的输出结果将作为第二层元分类器的训练数据,降低模型训练过程中可能出现的过拟合的问题,通过使用多个异构的基分类器提高模型整体的泛化性。
79.计算机设备确定第一分类结果的具体实施方法包括,在其中一个可选的实施例中,如图4所示,第一分类结果包括第一训练结果和第一测试结果;将样本数据集输入至第一层分类模型中,得到样本数据集对应的第一分类结果,包括:
80.s401、根据预设的划分比例,确定样本数据集中的第一训练集和第一测试集。
81.在本实施例中,预设的划分比例可以根据实际情况来确定,示例性的,可以将样本数据集l={xn,yn}按照2:1划分为第一训练集合第一测试集,其中xn代表第n个样本所含所有的症状属性,yn代表第n个样本的正确所属科室。本实施例对划分比例不做限定。
82.s402、将第一训练集输入至第一层分类模型中,得到第一训练结果。
83.在本实施例中,计算机设备将第一训练集输入至第一层分类模型中,得到对应的第一训练结果。可选地,计算机设备可以将第一训练集按照交叉验证的方法分成k份,用前k-1份数据来训练第一层中每一个基分类器,然后用训练后的基分类器对第k份数据进行预测,得到第一训练结果。
84.s403、将第一测试集输入至第一层分类模型中,得到第一测试结果。
85.在本实施例中,计算机设备将第一测试集输入训练好的第一层分类模型中,得到对应的第一测试结果。
86.在本实施例中,通过对样本数据集进行训练集和测试集的划分,采用交叉验证的方法根据训练集训练第一层分类模型,从而得到训练集的第一训练结果;基于训练好的分类模型得到测试集的第一测试结果,从而基于第一训练结果和第二测试结果训练第二层模型,也即,第一层基分类器训练的输出结果将作为第二层元分类器的训练数据,降低过拟合的问题。
87.在得到第一训练结果和第一测试结果之后,计算机设备训练第二层分类器,也即,根据第一训练结果和第二测试结果训练第二层分类模型,在其中一个可选的实施例中,如图5所示,根据第一分类结果、样本数据集,训练第二层分类模型,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型,包括:
88.s501、获取第二训练集和第二测试集;第二训练集包括第一训练结果和第一训练集;第二测试集包括第一测试结果和第一测试集。
89.在本实施例中,以第二层分类模型为最小二乘双支持向量机元分类模型例来说明,计算机设备将第一训练结果和第一训练集作为最小二乘双支持向量机元分类模型的第二训练集t={x'n,y'n}(其中,n》0),其中x'n代表第一训练集的症状属性集合,其中y'n代表第一训练结果。可选地,计算机设备将第一测试结果和第一测试集作为最小二乘双支持向量机元分类模型的第二测试集d={x'n,y'n},(其中,n》0)。
90.s502、根据第二训练集和第二测试集,对第二层分类模型进行训练,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型。
91.在本实施例中,分别使用第二训练集t和第二测试集d对最小二乘双支持向量机元分类模型进行训练和模型测试。
92.其中,基于双支持向量机twsvm通过求解两个较小规模的二次规划问题(qpp),使其训练速度更快的特性,本实施例采用最小二乘双支持向量机元分类模型(lstsvm)作为第二层分类模型。最小二乘双支持向量机(lstsvm)将孪生双子支持向量机(twsvm)中的不等式约束修改为最小二乘意义下的等式约束,从而降低学习难度,提高求解效率,减少了对存储空间的要求。其中,最小二乘双支持向量机元分类模型的原理公式如下:
[0093][0094]
s.t.-(k(x2,d
t
)μ1 eγ1)=e-ξ
[0095][0096]
s.t.-(k(x1,d
t
)μ2 eγ2)=e-η
[0097]
其中,k(x1,d
t
)、k(x2,d
t
)为引入的核函数,μ1、μ2∈rn、γ1、γ2∈rn,c1和c2为正则化参数,即惩罚参数;ξ和η为松弛变量,e为具有合适维数的单位向量;d=[x1,x2]。
[0098]
经过对上述求解,可得:
[0099][0100][0101]
其中,p=[k(x1,d),e],q=[k(x2,d
t
),e]在获得正确的权值和偏置后,可以得到两个非平行超平面,即:k(x
t
,d
t
)μ1 γ1=0,k(x
t
,d
t
)μ2 γ2=0。
[0102]
采用高斯核函数(rbf)其中σ为核参数。对于新的未知样本,计算出与这一对超平面的距离,距离样本近的超平面,则定义该样本为此超平面所属类,即:f(i)=arg min(j=1,2|x
t
μj γj|/||μj||)。
[0103]
在本实施例中,计算机设备根据第二训练集合第二测试集训练第二层分类模型,直到模型参数满足预设的参数条件,得到目标分类模型。可选地,如图6所示,根据第二训练集和第二测试集,对第二层分类模型进行训练,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型,包括:
[0104]
s601、根据第二训练集、第二测试集和预设的交叉验证算法,计算预设次数对应的第二层分类模型的第二分类结果。
[0105]
在本实施例中,以第二层分类模型为最小二乘双支持向量机元分类模型例来说明,根据第二训练集、第二测试集和预设的交叉验证算法,寻找最小二乘双支持向量机元分类模型的参数(c1,c2,σ)的最优解,其中,模型c1,c2,σ的初始值范围均为2-9
~29,公比为2。遍历搜寻网格中的每一对参数,对于每一对参数依次进行1/10法交叉验证,得到其对应的第二分类结果。
[0106]
s602、根据各第二层分类模型的第二分类结果,确定各分类结果对应的分类识别
率。
[0107]
在本实施例中,在计算机设备计算得到各最小二乘双支持向量机元分类模型的第二分类结果之后,根据第二分类结果,计算各个分类结果对应的分类识别率,其中,分类识别率可以根据分类结果和参考标准计算得到。
[0108]
s603、根据各分类结果对应的分类识别率和预设阈值,确定各分类结果的标准偏差。
[0109]
在本实施例中,计算机设备根据各个分类结果的分类识别率和预设的识别率阈值,确定各个分类结果的标准偏差,可选地,可以将分类识别率与识别率阈值之间的差值作为标准偏差,也可以将分类识别率与识别率阈值的比值作为标准偏差。
[0110]
s604、确定标准偏差最小的分类结果所对应的候选模型参数,并根据候选模型参数对第二层分类模型进行配置,得到目标分类模型。
[0111]
在本实施例中,计算机设备通过遍历参数和交叉验证,取交叉验证中分类识别率最高且10次交叉验证科室识别率标对应的标准偏差最小的候选模型参数(c1,c2,σ)作为最小二乘双支持向量机元分类模型的最优参数值,并根据候选模型参数(c1,c2,σ)对最小二乘双支持向量机元分类模型进行配置,从而得到训练好的目标分类模型。
[0112]
在本实施例中,,在模型训练过程中,第一层基分类器训练的输出结果将作为第二层元分类器的训练数据,采用交叉验证的方法来降低模型训练过程中可能出现的过拟合的问题。
[0113]
计算机设备可以从数据库中获取历史病症特征数据,来确定用于训练分类模型的训练数据集,其中,计算机设备需要确定各个病症特征对于各个科室的贡献度,在其中一个可选的实施例中,如图7所示,根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度,包括:
[0114]
s701、根据各历史病症特征数据,确定各病症特征对应的词频-逆文件频率。
[0115]
其中,词频指的是词条在文档中的出现的频率;逆文件频率指的是总文档数除以包含词条的文档数,逆文件频率往往用来度量词条的重要性。词频-逆文件频率为词频与逆文件频率的乘积。
[0116]
在本实施例中,应用至科室分类的场景中,词频指的是症状t在当前科室d就诊患者症状集合中出现的频率;逆文件频率指的是就诊科室的数量n除以包含症状t的所有科室个数。可选地,词频tf可以表示为:
[0117][0118]
其中,f(t,d)表示症状t在当前科室d就诊患者症状集合中出现的次数,n表示就诊科室的数量。
[0119]
逆文件频率idf可以表示为:
[0120][0121]
其中,n表示就诊科室的数量,cf
t
表示包含症状t的所有科室个数。
[0122]
计算机设备根据历史病症特征数据,分别计算各个病症特征多对应的词频tf和逆文档频率idf值。
[0123]
s702、根据各病症特征的词频-逆文件频率,计算各病症特征对于各科室的贡献度。
[0124]
在本实施例中,计算机设备在得到各个病症特征的词频-逆文件频率之后,基于病症特征词频tf和逆文档频率idf值,计算症状对于某科室的贡献度可表示如下:
[0125][0126]
对于一个症状在某个科室就诊患者的症状表现中经常出现,而包含该症状的科室数量很少或只有当前科室包含,说明该症状对于科室分诊的贡献度高,对于患者科室的分诊具有较高的区分度。
[0127]
在本实施例中,计算机设备根据各个病症特征的词频-逆文件频率,确定各病症特征对于各科室的贡献度,可以简单、准确地确定各个病症对于科室分诊的相关度。
[0128]
进而,根据各个病症特征对于各个科室的贡献度,来确定用户训练分类模型的数据集,在其中一个可选的实施例中,如图8所示,根据历史病症特征的贡献度,确定样本数据集,包括:
[0129]
s801、确定各病症特征对应的分类标签。
[0130]
其中,分类标签可以根据病症分类确定,例如,分类标签包括胸外科、神经内科、普通外科、心内科、肝脏科等。在本实施例中,计算机设备根据预设的标签类型,确定各个病症特征所对应的分类标签。
[0131]
s802、根据各病症特征的分类标签,采用布尔类型对各病症特征进行数值化处理,得到数值化处理后的病症特征集。
[0132]
其中,采用布尔类型对病症特征进行数值化处理,例如,针对某一个病症特征a,若当前用户表现出该症状,则确定该症状的标识位为1,若当前用户没有表现出该症状,则确定该症状的标识位为0。以心内科患者的数据为例,通过症状频率分析,一般心内科的患者表现有“胸痛”、“心慌”、“头晕
”…“
腰疼”等症状,通过使用布尔型标注后得到患者症状数据表。对其余科室患者的数据处理使用相同的方法,从而得到数值化处理后的病症特征集。
[0133]
s803、将数值化处理后的病症特征集和各病症特征的贡献度进行加权,得到样本数据集。
[0134]
在本实施例中,在上述步骤702计算得各个病症特征的贡献度之后,将各个病症特征的贡献度与数值化处理后的病症特征集进行加权操作,从而得到用于进行分类模型训练的样本数据集。
[0135]
在本实施例中,计算机设备根据各个病症特征的贡献度以及数值化处理之后的病症特征集来确定用于训练分类模型的样本数据集,该样本数据集经过数据处理之后,具有较小的数据误差,在训练分类模型的过程中,避免了由于训练样本数据集存在误差大而导致的训练效率降低的问题。
[0136]
下面将通过实施例并结合附图具体地对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是,本技术图9实施例提供的特征分类方法,其执行主体为计算机设备,也可以是特征分类装置,该特征分类装置可以通过软件、硬件或者软硬件结合的方式成为计算机设备的部分或全部。下述方法实施例
中,均以执行主体是计算机设备为例来进行说明。
[0137]
在一个实施例中,如图9所示,提供一种特征分类方法,该方法包括以下步骤:
[0138]
s901、获取用户的病症特征。
[0139]
在本实施例中,计算机设备可以根据用户的病历信息,通过特征提取算法来获取用户的病症特征;也可以基于用户交互界面,获取用户输入的病症特征;或者,还可以通过图像识别算法,根据用户的医疗影像来获取用户的病症特征,本实施例对此不做限定。
[0140]
s902、将用户的病症特征输入至目标分类模型中,确定用户的病症特征的科室分类;目标分类模型包括第一层分类模型和第二层分类模型,其中所述第二层分类模型为最小二乘双支持向量机元分类模型。
[0141]
其中,目标分类模型为根据样本数据集对初始分类模型中进行训练得到的,样本数据集为根据用户的历史病症特征数据和各病症特征对于各科室的贡献度所确定的数据集,贡献度为病症特征针对于科室的出现频率。
[0142]
在本实施例中,计算机设备在确定用户的病症特征之后,将该用户的病症特征输入至训练好的目标分类模型中,得到该用户大的病症特征对应的科室分类,也即,得到该用户的就诊科室分类结果,本实施例对此不做限定。其中,目标分类模型的训练方法可参考图2-图8实施例所提供的模型训练方法,本实施例中对此不做赘述。
[0143]
上述特征分类方法,计算机设备获取用户的病症特征,将用户的病症特征输入至目标分类模型中,确定用户的病症特征的科室分类;目标分类模型包括第一层分类模型和第二层分类模型,其中所述第二层分类模型为最小二乘双支持向量机元分类模型。其中,目标分类模型为根据样本数据集对初始分类模型中进行训练得到的,样本数据集为根据用户的历史病症特征数据和各病症特征对于各科室的贡献度所确定的数据集,贡献度为病症特征针对于科室的出现频率,在本方案中所涉及的目标分类模型,采用最小二乘双支持向量机作为stacking集成学习的第二层元分类器,降低了模型在训练过程中的学习难度,提高模型训练的求解效率,并且,减少了模型训练过程中对存储空间的要求,减少了模型训练时间,提高模型的分类速度,具有较好的自适应性。进一步地,基于目标分类模型进行病症特征的科室分类,提高了科室分类的速度,达到了很好的科室分诊的效果,优化了科室就诊的流程。
[0144]
为了更好的说明上述方法,如图10所示,本实施例提供一种模型的训练以及应用方法,具体包括:
[0145]
s101、根据各历史病症特征数据,确定各病症特征对应的词频-逆文件频率;
[0146]
s102、根据各病症特征的词频-逆文件频率,计算各病症特征对于各科室的贡献度;
[0147]
s103、确定各病症特征对应的分类标签;
[0148]
s104、根据各病症特征的分类标签,采用布尔类型对各病症特征进行数值化处理,得到数值化处理后的病症特征集;
[0149]
s105、将数值化处理后的病症特征集和各病症特征的贡献度进行加权,得到样本数据集;
[0150]
s106、将样本数据集输入至第一层分类模型中,得到样本数据集对应的第一分类结果;
[0151]
s107、根据第一分类结果、样本数据集,训练第二层分类模型,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型;
[0152]
s108、获取用户的病症特征;
[0153]
s109、将用户的病症特征输入至目标分类模型中,确定用户的病症特征的科室分类。
[0154]
在本实施例中,目标分类模型采用最小二乘双支持向量机作为stacking集成学习的第二层元分类器,降低了模型在训练过程中的学习难度,提高模型训练的求解效率,并且,减少了模型训练过程中对存储空间的要求,减少了模型训练时间,提高模型的分类速度,具有较好的自适应性。进一步地,基于目标分类模型进行病症特征的科室分类,提高了科室分类的速度,达到了很好的科室分诊的效果,优化了科室就诊的流程。
[0155]
上述实施例提供的模型的训练以及应用方法,其实现原理和技术效果与上述图2-图9提供的实施例类似,在此不再赘述。
[0156]
应该理解的是,虽然图2-10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0157]
在一个实施例中,如图11所示,提供了一种模型训练装置,包括:
[0158]
获取模块01,用于根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度;贡献度为病症特征针对于科室的出现频率;
[0159]
确定模块02,用于根据历史病症特征的贡献度,确定样本数据集;
[0160]
训练模块03,用于根据样本数据集对初始分类模型训练,得到目标分类模型;初始分类模型包括第一层分类模型和第二层分类模型,其中所述第二层分类模型为最小二乘双支持向量机元分类模型;目标分类模型用于根据用户的病症特征进行科室分类。
[0161]
在其中一个可选的实施例中,训练模块03,用于将样本数据集输入至第一层分类模型中,得到样本数据集对应的第一分类结果;根据第一分类结果、样本数据集,训练第二层分类模型,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型。
[0162]
在其中一个可选的实施例中,第一分类结果包括第一训练结果和第一测试结果;训练模块03,用于根据预设的划分比例,确定样本数据集中的第一训练集和第一测试集;将第一训练集输入至第一层分类模型中,得到第一训练结果;将第一测试集输入至第一层分类模型中,得到第一测试结果。
[0163]
在其中一个可选的实施例中,训练模块03,用于获取第二训练集和第二测试集;第二训练集包括第一训练结果和第一训练集;第二测试集包括第一测试结果和第一测试集;根据第二训练集和第二测试集,对第二层分类模型进行训练,直到第二层分类模型的模型参数满足预设的参数条件,得到目标分类模型。
[0164]
在其中一个可选的实施例中,训练模块03,用于根据第二训练集、第二测试集和预设的交叉验证算法,计算预设次数对应的第二层分类模型的第二分类结果;根据各第二层分类模型的第二分类结果,确定各分类结果对应的分类识别率;根据各分类结果对应的分
类识别率和预设阈值,确定各分类结果的标准偏差;确定标准偏差最小的分类结果所对应的候选模型参数,并根据候选模型参数对第二层分类模型进行配置,得到目标分类模型。
[0165]
在其中一个可选的实施例中,获取模块01,用于根据各历史病症特征数据,确定各病症特征对应的词频-逆文件频率;根据各病症特征的词频-逆文件频率,计算各病症特征对于各科室的贡献度。
[0166]
在其中一个可选的实施例中,确定模块02,用于确定各病症特征对应的分类标签;根据各病症特征的分类标签,采用布尔类型对各病症特征进行数值化处理,得到数值化处理后的病症特征集;将数值化处理后的病症特征集和各病症特征的贡献度进行加权,得到样本数据集。
[0167]
关于模型训练装置的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0168]
在一个实施例中,如图12所示,提供一种特征分类装置,该装置包括:
[0169]
获取模块11,用于获取用户的病症特征;
[0170]
分类模块12,用于将用户的病症特征输入至目标分类模型中,确定用户的病症特征的科室分类;目标分类模型包括第一层分类模型和第二层分类模型,其中所述第二层分类模型为最小二乘双支持向量机元分类模型;
[0171]
其中,目标分类模型为根据样本数据集对初始分类模型中进行训练得到的,样本数据集为根据用户的历史病症特征数据和各病症特征对于各科室的贡献度所确定的数据集,贡献度为病症特征针对于科室的出现频率。
[0172]
关于特征分类装置的具体限定可以参见上文中对于特征分类方法的限定,在此不再赘述。上述特征分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0173]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0174]
根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度;贡献度为病症特征针对于科室的出现频率;
[0175]
根据历史病症特征的贡献度,确定样本数据集;
[0176]
根据样本数据集对初始分类模型训练,得到目标分类模型;初始分类模型包括第一层分类模型和第二层分类模型,其中所述第二层分类模型为最小二乘双支持向量机元分类模型;目标分类模型用于根据用户的病症特征进行科室分类。
[0177]
上述实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
[0178]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0179]
获取用户的病症特征;
[0180]
将用户的病症特征输入至目标分类模型中,确定用户的病症特征的科室分类;目
标分类模型包括第一层分类模型和第二层分类模型,其中所述第二层分类模型为最小二乘双支持向量机元分类模型;
[0181]
其中,目标分类模型为根据样本数据集对初始分类模型中进行训练得到的,样本数据集为根据用户的历史病症特征数据和各病症特征对于各科室的贡献度所确定的数据集,贡献度为病症特征针对于科室的出现频率。
[0182]
上述实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
[0183]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0184]
根据多个用户的历史病症特征数据,确定各病症特征对于各科室的贡献度;贡献度为病症特征针对于科室的出现频率;
[0185]
根据历史病症特征的贡献度,确定样本数据集;
[0186]
根据样本数据集对初始分类模型训练,得到目标分类模型;初始分类模型包括第一层分类模型和第二层分类模型,其中所述第二层分类模型为最小二乘双支持向量机元分类模型;目标分类模型用于根据用户的病症特征进行科室分类。
[0187]
上述实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
[0188]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0189]
获取用户的病症特征;
[0190]
将用户的病症特征输入至目标分类模型中,确定用户的病症特征的科室分类;目标分类模型包括第一层分类模型和第二层分类模型,其中所述第二层分类模型为最小二乘双支持向量机元分类模型;
[0191]
其中,目标分类模型为根据样本数据集对初始分类模型中进行训练得到的,样本数据集为根据用户的历史病症特征数据和各病症特征对于各科室的贡献度所确定的数据集,贡献度为病症特征针对于科室的出现频率。
[0192]
上述实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
[0193]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0194]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛
盾,都应当认为是本说明书记载的范围。
[0195]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献