数据处理方法、装置、可读介质及电子设备与流程

2022-02-22 03:52:53 来源：中国专利 TAG：

1.本技术属于计算机及数据处理技术领域，具体涉及一种数据处理方法、装置、可读介质以及电子设备。

背景技术：

2.随着日常生活水平的提高，人们对身体健康也越来越重视。例如，gdm(gestational diabetes mellitus，妊娠期糖尿病)是仅限于妊娠期发生的糖尿病，分娩后大部分恢复正常，但也有很大概率再次复发。gdm虽然只是妊娠导致的暂时性病症，但由于血糖升高，容易使患者出现高血压的症状；此外，高浓度的血糖会影响孕妇羊水分泌过程，影响胎儿发育。因此，能及时的给妊娠期的产妇发出糖尿病预警，对胎儿和孕妇的安全有着十分重要的意义。传统的检测方法需要用户去指定的检测地点进行检测，然后由医生根据检测结果给出诊断结论，这种方式虽然较为准确，但是费时费力，效率低下。目前也有通过大数据进行糖尿病风险预测的，但是所需处理数据量大，通常预测精度不高。
3.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

4.本技术的目的在于提供一种数据处理方法、装置、可读介质以及电子设备，以实现对相关指标的风险预测，提高模型预测的准确性。
5.本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。
6.根据本技术实施例的一个方面，提供一种数据处理方法，包括：
7.获取由多个原始数据构成的原始数据集，每个所述原始数据包括多个用户特征；
8.对所述原始数据集进行特征筛选处理，得到目标数据集，所述目标数据集中的目标数据所包含的用户特征的数量小于所述原始数据所包含的用户特征的数量；
9.构建级联模型，基于所述目标数据集对所述级联模型进行训练，得到数据处理模型；所述级联模型包括第一模型和第二模型，所述第一模型的输出数据为所述第二模型的输入数据；
10.通过所述数据处理模型对待处理用户数据进行特征提取和映射处理，得到数据处理结果，所述数据处理结果用于进行风险提示。
11.根据本技术实施例的一个方面，提供一种数据处理装置，包括：
12.原始数据获取模块，用于获取由多个原始数据构成的原始数据集，每个所述原始数据包括多个用户特征；
13.特征筛选模块，用于对所述原始数据集进行特征筛选处理，得到目标数据集，所述目标数据集中的目标数据所包含的用户特征的数量小于所述原始数据所包含的用户特征的数量；
14.模型训练模块，用于构建级联模型，基于所述目标数据集对所述级联模型进行训练，得到数据处理模型；所述级联模型包括第一模型和第二模型，所述第一模型的输出数据为所述第二模型的输入数据；
15.数据处理模块，用于通过所述数据处理模型对待分析数据进行特征提取和映射处理，得到数据处理结果。
16.在本技术的一个实施例中，所述原始数据获取模块包括：
17.预处理单元，用于获取多个原始数据，并对所述多个原始数据进行预处理，以使所有的原始数据具备相同类型的用户特征；
18.标准化单元，用于对预处理后的多个原始数据进行标准化处理；
19.原始数据生成单元，用于根据标准化处理后的多个原始数据形成原始数据集。
20.在本技术的一个实施例中，所述预处理单元包括：
21.去重单元，用于去除所述多个原始数据中的重复数据；
22.特征缺失比例确定单元，用于基于去重后多个原始数据，确定每个用户特征所对应的特征缺失比例；
23.特征填充单元，用于根据所述特征缺失比例确定特征填充方法，并通过所述特征填充方法对所述特征缺失比例所对应的去重后的原始数据进行用户特征填充处理。
24.在本技术的一个实施例中，所述特征填充单元具体用于：
25.当所述特征缺失比例小于第一阈值时，确定所述特征填充方法为第一填充方法；
26.当所述特征缺失比例大于第一阈值且小于第二阈值时，确定所述特征填充方法为第二填充方法；
27.当所述特征缺失比例大于第二阈值时，确定所述特征填充方法为第三填充方法。
28.在本技术的一个实施例中，所述原始数据的用户特征包括离散用户特征和连续用户特征；所述标准化单元具体用于：
29.对预处理后的多个原始数据的离散用户特征进行编码处理，以及，对预处理后的多个原始数据的连续用户特征进行归一化处理。
30.在本技术的一个实施例中，所述特征筛选模块包括：
31.热度值筛选单元，用于生成所述原始数据集中原始数据的每个用户特征与指定指标的热度图，并将所述热度图中热度值低于预设热度阈值的用户特征从每个原始数据中删除，得到第一数据集；所述第一数据集中的每个第一数据包括第一数量的用户特征；
32.遗传算法筛选单元，用于通过遗传算法对所述第一数据集进行特征筛选处理，得到第二数据集，所述第二数据集中的每个第二数据包括第二数量的用户特征，所述第二数量小于所述第一数量；
33.特征库筛选单元，用于根据预设特征库对所述第二数据集进行特征筛选处理，得到目标数据集；所述目标数据集中的目标数据所包含的用户特征数量为指定数量，且小于所述第二数量。
34.在本技术的一个实施例中，所述模型训练模块包括：
35.数据划分单元，用于将所述目标数据集划分为训练样本集和测试样本集，其中，所述训练样本集的数据量大于所述测试样本集的数据量；
36.模型训练单元，用于基于所述训练样本集对所述级联模型进行训练，得到训练好
的级联模型；其中，在训练过程中，通过网格搜索法进行所述级联模型的参数调优；
37.模型测试单元，用于基于所述测试样本集对所述训练好的级联模型进行测试，当测试结果指示的模型准确率达到预设阈值，得到数据处理模型。
38.根据本技术实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的数据处理方法。
39.根据本技术实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的数据处理方法。
40.根据本技术实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的数据处理方法。
41.本技术提供的技术方案，通过对原始数据集进行特征筛选得到目标数据集，然后使用目标数据集对级联模型进行训练得到数据处理模型，最后使用数据处理模型对待处理用户数据进行处理，得到数据处理结果，使得进行模型训练的目标数据集与模型预测结果具有较大的相关性，从而提高了数据处理模型的预测准确性。例如，将数据处理模型用于孕妇糖尿病风险预测，能精准评估gdm风险，进而可以制定精准的预防方案，给医生在孕妇糖尿病相关病症的诊断提供参考和预警，达到保障产妇和胎儿安全的目的。
42.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
43.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
44.图1示意性地示出了应用本技术技术方案的示例性系统架构框图。
45.图2示意性地示出了本技术实施例提供的数据处理方法的流程图。
46.图3示意性地示出了本技术一个实施例提供的对多个原始数据进行预处理以及标准化处理的流程图。
47.图4示意性地示出了本技术一个实施例提供的特征筛选处理的流程图。
48.图5示意性地示出了本技术一个实施例提供的级联模型的训练过程的流程图。
49.图6示意性地示出了本技术实施例提供的数据处理装置的结构框图。
50.图7示意性示出了适于用来实现本技术实施例的电子设备的计算机系统结构框图。
具体实施方式
51.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本技术将更加
全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。
52.此外，所描述的用户特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本技术的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本技术的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
53.附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
54.附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。
55.图1示意性地示出了应用本技术技术方案的示例性系统架构框图。
56.如图1所示，系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。
57.根据实现需要，本技术实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本技术实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，本技术对此不做特殊限定。
58.举例而言，终端设备110采集多个原始数据形成原始数据集，每个原始数据包括多个用户特征，终端设备110将原始数据集发送至服务器130。服务器130获取原始数据集后，对原始数据集进行特征筛选处理，得到目标数据集，目标数据集中的目标数据所包含的用户特征的数量小于原始数据所包含的用户特征的数量；然后构建级联模型，基于目标数据集对级联模型进行训练，得到数据处理模型；级联模型包括第一模型和第二模型，第一模型的输出数据为第二模型的输入数据；最后通过数据处理模型对待处理用户数据进行特征提取和映射处理，得到数据处理结果，数据处理结果用于进行风险提示，例如，提示用户是否具有患有糖尿病的风险。
59.在本技术的一个实施例中，服务器130在得到数据处理结果之后，可以将数据处理结果通过网络120返回给终端设备110，进而终端设备110可以向用户展示数据处理结果。
60.在本技术的一个实施例中，本技术实施例提供的数据处理方法由服务器130执行，相应地，数据处理装置一般设置于服务器130中。但本领域技术人员容易理解的是，本技术实施例提供的数据处理方法也可以由终端设备110执行，相应地，数据处理装置也可以设置于终端设备110中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，终端设备110采集多个原始数据形成原始数据集，并对原始数据集进行特征筛选处理，得到目标数据集；然后构建级联模型，使用目标数据集进行训练，得到数据处理模型；最后通过数据处理模型对待处理用户数据进行特征提取和映射处理，得到数据处理结果。
61.下面结合具体实施方式对本技术提供的数据处理方法做出详细说明。
62.图2示意性地示出了本技术实施例提供的数据处理方法的流程图，该方法可以通过终端设备实施，如图1所示的终端设备110；该方法也可以通过服务器实施，如图1所示的服务器130。如图2所示，本技术实施例提供的数据处理方法包括步骤210至步骤240，具体如下：
63.步骤210、获取由多个原始数据构成的原始数据集，每个原始数据包括多个用户特征。
64.具体的，每个原始数据都包括多个用户特征，一个用户特征相当于一项用户参数，可以用户的基本信息，如用户年龄，也可以是用户的检查项目数据，如基因信息、胰岛素抵抗指数等。
65.在本技术的一个实施例中，本技术提供的数据处理方法用于进行孕妇糖尿病风险预测，一个原始数据包括一个孕妇的多个特征，如是否诊断为糖尿病、基因信息、胰岛素抵抗指数、是否流产过、孕前bmi(body mass index，身体质量指数)、年龄等。原始数据属于历史数据，可以从相关企业或单位的公开数据库中获取，或者从网上开源数据库中获取。
66.在本技术的一个实施例中，如图3所示，在获取多个原始数据之后，还包括对多个原始数据进行预处理以及标准化处理，具体为：
67.步骤310、获取多个原始数据，并对所述多个原始数据进行预处理，以使所有的原始数据具备相同类型的用户特征。
68.具体的，对于获取的多个原始数据，虽然每个原始数据都具备多个用户特征，但是每个原始数据所具备的用户特征的类型不一定相同，一种类型的用户特征相当于一个用户特征，因此，用户特征的类型也可以通过用户特征的数量来表示。例如，原始数据a具备用户特征a，原始数据b具备用户特征b，原始数据c具备用户特征a和用户特征b，这三个原始数据具备的用户特征的类型均不完全相同。为了使各个原始数据具备相同类型的用户特征，故而对获取的多个原始数据进行预处理。
69.对多个原始数据进行预处理，就是对缺失一些用户特征的原始数据进行特征填充处理，如前述示例，原始数据a缺失用户特征b，则原始数据a填充用户特征b；原始数据b缺失用户特征a，则原始数据b填充用户特征a；原始数据c是完整数据，不用进行填充处理。
70.在本技术的一个实施例中，对多个原始数据进行预处理的步骤具体包括：去除所述多个原始数据中的重复数据；基于去重后多个原始数据，确定每个用户特征所对应的特征缺失比例；根据所述特征缺失比例确定特征填充方法，并通过所述特征填充方法对所述特征缺失比例所对应的去重后的原始数据进行用户特征填充处理。
71.具体的，在获取的多个原始数据中，可能存在重复数据，故而首先对多个原始数据进行去重处理，去重处理后，再进行特征填充处理。在本技术的一个实施例中，在去除重复数据时，可以一并去除异常数据。
72.在进行特征填充处理时，首先确定每个用户特征所对应的特征缺失比例，然后根据特征缺失比例确定对应的特征填充方法。一个用户特征对应的特征缺失比例是指，缺失该用户特征的原始数据的数量在原始数据总量中所占的比例。如前述示例，对于用户特征a，其特征缺失比例为1/3；对于用户特征b，其特征缺失比例为1/3。
73.在本技术的一个实施例中，以原始数据为孕妇数据为例，不同的用户特征对应的
特征缺失比例是不同的，例如，对于“是否流产过”这一项特征，如非必要，大部分用户不愿意透露这项信息，那么该项特征所对应的特征缺失比例较大；对于一些检查项目数据，如“基因信息”这一项特征，可能由于统计失误造成缺失，对应的特征缺失比例可能在中等程度；对于用户基本信息类的特征，如“年龄”这一项特征，可能只有少量的原始数据缺失，对应的特征缺失比例较小。
74.在本技术实施例中，不同的特征缺失比例采用不同的特征填充方法。当特征缺失比例小于第一阈值，即特征缺失比例较小，确定特征填充方法为第一填充方法；当特征缺失比例大于第一阈值且小于第二阈值时，即特征缺失比例在中等程度，确定特征填充方法为第二填充方法；当特征缺失比例大于第二阈值时，即特征缺失比例较大，确定特征填充方法为第三填充方法。
75.在本技术的一个实施例中，第一填充方法为最近邻填充方法。最近邻填充方法是通过已知的最邻近的值来估计或逼近待填充的值，最近邻填充方法适用于缺失值较少的数据填充，因此将其作为特征缺失比例小于第一阈值时的特征填充方法。
76.在本技术的一个实施例中，第二填充方法为mice(multivariate imputation by chained equations，链式方程多重插补)填充方法。mice是r语言中的一种数据填充方法，其基本思想是：对于一个具有缺失特征的数据，用其他数据的特征对这个数据进行拟合，再用拟合的预测值对这个数据的缺失特征进行填补。mice填充方法适用于缺失值中等情况的数据填充，因此将其作为特征缺失比例在第一阈值和第二阈值之间时的特征填充方法。
77.在本技术的一个实施例中，第三填充方法为nuclear。
78.在本技术的一个实施例中，特征填充方法还可以是固定值填充法、均值填充法、众数填充法、随机森林(random forest，rf)填充法等。特征填充方法可以根据实际需要进行选择，本技术实施例对此不做限制。
79.在本技术的一个实施例中，在对原始数据进行预处理之前，还可以通过python的第三方包matplotlib、numpy、pandas等对原始数据中的各个特征分布进行可视化(例如体现各个用户特征的方差、均值、75％分位值、50％分位值等统计特征，以及散点图、箱型图、折线图等图形特征)，直观的体现原始数据中有哪些重要特征，可以通过可视化数据进行预筛选。
80.步骤320、对预处理后的多个原始数据进行标准化处理。
81.具体的，原始数据的用户特征类型多样，一般包括离散用户特征和连续用户特征。对预处理后的原始数据进行标准化处理，包括对离散用户特征进行标准化处理和对连续用户特征进行标准化处理。
82.在本技术的一个实施例中，对离散用户特征进行标准化处理，就是对离散用户特征进行编码处理，本技术实施例中，离散用户特征采用one-hot编码处理，one-hot编码可以将离散用户特征转换为二进制向量表示。
83.在本技术的一个实施例中，对连续用户特征进行标准化处理，就是对对连续用户特征进行归一化处理。归一化处理使得连续用户特征处于同一区间范围内，一般是处于[0，1]的区间内，同时使有量纲的用户特征转化为无量纲的用户特征，方便后续的数据处理。归一化处理的方法有：线性函数归一化(min-max scaling)、0均值标准化(z-score standardization)、对数函数转换法、反余切函数转换法等。
[0084]
步骤330、根据标准化处理后的多个原始数据形成原始数据集。
[0085]
具体的，标准化处理后，对原始数据的处理工作完毕，形成原始数据集。
[0086]
继续参考图2，步骤220、对原始数据集进行特征筛选处理，得到目标数据集，目标数据集中的目标数据所包含的用户特征的数量小于原始数据所包含的用户特征的数量。
[0087]
具体的，原始数据包括较多的用户特征，但并不是每一个的用户特征都是数据处理所必须的。特征筛选处理，就是从原始数据的多个用户特征中筛选出与数据处理关系最为密切的几个用户特征，形成目标数据，进而形成目标数据集，其中，目标数据所包含的用户特征的数量小于原始数据所包含的用户特征的数量。
[0088]
在本技术的一个实施例中，如图4所示，特征筛选处理的过程包括步骤410至步骤430，具体如下：
[0089]
步骤410、生成原始数据集中原始数据的每个用户特征与指定指标的热度图，并将热度图中热度值低于预设热度阈值的用户特征从每个原始数据中删除，得到第一数据集；第一数据集中的每个第一数据包括第一数量的用户特征。
[0090]
具体的，在进行特征筛选处理时，首先生成原始数据集对应的热度图，该热度图指示了各个用户特征与指定指标的相关性。其中，指定指标是指最终需要预测风险的指标，例如，以本技术实施例提供的预测糖尿病风险为例，指定指标为原始数据中“是否诊断为糖尿病”这一特征，那么热度图指示了基因信息、胰岛素抵抗指数、是否流产过、孕前bmi、年龄等特征与诊断为糖尿病的相关性。
[0091]
热度图相当于直方图，每一个图形的高度表示对应用户特征的热度值，该热度值就表示了该用户特征与诊断为糖尿病的相关性。热度值越大，表示相关性越大；热度值越小，则表示相关性越小。因此，热度值过小，说明对应用户特征与诊断为糖尿病的关系不大，那么其对于糖尿病风险的预测自然也不重要。因此，可以将热度值低于预设热度阈值的用户特征从原始数据中删除，保留原始数据中与指定指标相关性较大的用户特征。
[0092]
经热度值筛选处理后得到的第一数据形成第一数据集，第一数据所包含的用户特征的数量记为第一数量，则第一数量必然小于原始数据所包含的用户特征的数量。
[0093]
在本技术的一个实施例中，可以通过第三方库seaborn和matplotlib生成原始数据集对应的热度图。
[0094]
步骤420、通过遗传算法对第一数据集进行特征筛选处理，得到第二数据集，第二数据集中的每个第二数据包括第二数量的用户特征，第二数量小于第一数量。
[0095]
具体的，热度图作为初步筛选方法，其能够挖掘的信息有限，故而通过遗传算法对第一数据集进一步筛选，得到第二数据集。遗传算法的原理是仿照自然进化过程实现对最优解的寻找，先设定当前适应度函数，进行定向选择，再进行不定项变异，最后通过适应度函数与特征的值选择较好的特征。
[0096]
经过遗传算法的筛选，得到的第二数据包括第二数量的用户特征，第二数量小于第一数量，也即，第二数据包含的用户特征的数量小于第一数据包含的用户特征的数量。
[0097]
步骤430、根据预设特征库对第二数据集进行特征筛选处理，得到目标数据集；目标数据集中的目标数据所包含的用户特征数量为指定数量，且小于第二数量。
[0098]
具体的，预设特征库包括多个预设特征，预设特征是预先确定的与风险预测相关性较大的用户特征，例如，以糖尿病风险预测为例，预设特征可以包括甘油三酯、孕前体重、
孕前bmi、bmi等。根据预设特征库对第二数据集进行筛选处理，就是从第二数据中选择与风险预测相关性最大的几个特征，并将其余特征删除，得到目标数据。
[0099]
在本技术的一个实施例中，根据预设特征库进行特征筛选时，首先将第二数据的用户特征与预设特征库中的预设特征进行匹配，筛选出第二数据和预设特征库共有的特征，然后对共有的特征进行重要度排序，最后选择排序在前的指定数量的用户特征作为目标数据所包含的用户特征，该指定数量小于第二数量。例如，最终目标数据包含20个用户特征。
[0100]
在本技术的一个实施例中，在得到目标数据集之后，还可以通过树模型和残差分析获取目标数据集中的目标数据的重要性分数，该重要性分数可以作为后续为级联模型配置权重的依据。
[0101]
继续参考图2，步骤230、构建级联模型，基于目标数据集对级联模型进行训练，得到数据处理模型；级联模型包括第一模型和第二模型，第一模型的输出数据为第二模型的输入数据。
[0102]
具体的，级联模型是由至少两个模型构成的复合模型，通过目标数据集对级联模型进行训练，训练好的级联模型即为数据处理模型。在本技术实施例中，级联模型包括第一模型和第二模型，第一模型的输出数据为第二模型的输入数据。
[0103]
在本技术的一个实施例中，如图5所示，级联模型的训练过程包括步骤510至步骤530，具体如下：
[0104]
步骤510、将目标数据集划分为训练样本集和测试样本集，其中，训练样本集的数据量大于测试样本集的数据量。
[0105]
具体的，在模型训练之前，首先将目标数据集划分为训练样本集和测试样本集，训练样本集用于对级联模型进行训练，测试样本集用于测试训练好的级联模型是否合格。一般的，训练样本集的数据量大于测试样本集的数据量。
[0106]
步骤520、基于训练样本集对级联模型进行训练，得到训练好的级联模型；其中，在训练过程中，通过网格搜索法进行级联模型的参数调优。
[0107]
具体的，构建由第一模型和第二模型组成的级联模型，然后使用训练样本集对该级联模型进行训练，在训练过程中，通过网格搜索法(gridsearchcv)进行级联模型的参数调优，进行调优的参数包括树的长度、深度、每个树的权重、目标auc(aera under the curve，曲线下发的面积)等。
[0108]
在本技术的一个实施例中，以糖尿病风险预测为例，第一模型为lightgbm模型，第二模型为catboost模型。由于catboost模型在小样本学习中表现更为优良，因此将catboost模型作为主模型，将lightgbm模型作为辅助模型，也就是说，第二模型的权重大于第一模型的权重。
[0109]
在本技术的一个实施例中，通过网格搜索法(gridsearchcv)进行级联模型的参数调优时，缩小catboost模型的参数选择范围。
[0110]
在本技术的一个实施例中，以糖尿病风险预测为例，级联模型对于输入数据的直接输出数据为一个概率值，该概率值表示了具有糖尿病的概率，最后需要将该概率值转化为糖尿病的预测风险，也就是级联模型的预测结果为糖尿病风险预测结果，包括两种情况：具有糖尿病风险和不具有糖尿病风险。也就是说，级联模型相当于一个二分类模型，那么，
将直接输出数据所表示的概率值映射为预测结果的准确性，就代表了最终得到的数据处理模型的风险预测的准确性。
[0111]
在将直接输出数据所表示的概率值映射为对应的预测结果时，通常设置一分类阈值，当直接输出数据所表示的概率值大于该分类阈值时，则表示预测结果为具有糖尿病风险；当直接输出数据所表示的概率值小于该分类阈值时，则表示预测结果为不具有糖尿病风险。
[0112]
在本技术实施例中，首先设置一分类阈值的初始值，然后将级联模型对训练样本集的样本数据的预测结果进行排序，计算级联模型分类前训练样本集的信息熵(记为分类前信息熵)和级联模型分类后训练样本集的信息熵(记为分类后信息熵)，信息熵计算方式如下：
[0113][0114]
当分类后信息熵大于分类前信息熵时，更新当前分类阈值后重新进行预测；当分类后信息熵小于分类前信息熵时，说明根据当前分类阈值进行分类实现了熵增的效果，表明当前分类阈值是准确的，那么将当前分类阈值作为最终的分类阈值，也就是将熵增的临界样本数据预测值作为分类阈值，训练得到的数据处理模型将根据该分类阈值进行预测分类。
[0115]
步骤530、基于测试样本集对训练好的级联模型进行测试，当测试结果指示的模型准确率达到预设阈值，得到数据处理模型。
[0116]
具体的，在级联模型的训练过程中，当损失函数符合要求，或训练次数达到预设次数时，得到训练好的级联模型，为了确定训练好的级联模型是否合格，需要根据测试样本集对训练好的级联模型进行测试，当测试得到模型准确率达到预设阈值时，说明训练好的级联模型合格，可以作数据处理模型使用。若测试得到模型准确率未达到预设阈值，则需要重新对级联模型进行训练。
[0117]
在本技术的一个实施例中，可以通过对训练好的级联模型的预测结果进行评分，以此来确定模型准确率。可以采用宏平均f1-score对模型进行评价，具体过程如下：
[0118]
首先统计每个用户特征对应的tp(预测结果正确的样本数量)、fp(错误将其他类预测为样本类)和fn(本类标签预测为其他类)。
[0119]
然后根据下式计算每个用户特征对应的准确率(precisionk)和召回率(recallk)：
[0120][0121][0122]
再根据用户特征对应的准确率(precisionk)和召回率(recallk)计算该用户特征的评价分数(f1k)：
[0123][0124]
最后根据各用户特征的评价分数得到级联模型的评价分数(score)：
[0125][0126]
评价分数越高，表明级联模型的预测准确率越高。
[0127]
继续参考图2，步骤240、通过数据处理模型对待处理用户数据进行特征提取和映射处理，得到数据处理结果，数据处理结果用于进行风险提示。
[0128]
具体的，得到数据处理模型后，将待处理用户数据输入数据处理模型，数据处理模型对其进行特征提取和映射处理，得到数据处理结果，该数据处理结果指示了相应指标的风险提示。例如，以预测糖尿病风险为例，待处理用户数据应包含与目标数据相同的用户特征，数据处理模型待处理用户数据进行预测后，得到糖尿病风险预测结果，具有糖尿病风险和不具有糖尿病风险。
[0129]
本技术实施例提供的技术方案，通过对原始数据集进行特征筛选得到目标数据集，然后使用目标数据集对级联模型进行训练得到数据处理模型，最后使用数据处理模型对待处理用户数据进行处理，得到数据处理结果，使得进行模型训练的目标数据集与模型预测结果具有较大的相关性，从而提高了数据处理模型的预测准确性。例如，将数据处理模型用于孕妇糖尿病风险预测，能精准评估gdm风险，进而可以制定精准的预防方案，给医生在孕妇糖尿病相关病症的诊断提供参考和预警，达到保障产妇和胎儿安全的目的。
[0130]
应当注意，尽管在附图中以特定顺序描述了本技术中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。
[0131]
以下介绍本技术的装置实施例，可以用于执行本技术上述实施例中的数据处理方法。图6示意性地示出了本技术实施例提供的数据处理装置的结构框图。如图6所示，本技术实施例提供的数据处理装置包括：
[0132]
原始数据获取模块610，用于获取由多个原始数据构成的原始数据集，每个所述原始数据包括多个用户特征；
[0133]
特征筛选模块620，用于对所述原始数据集进行特征筛选处理，得到目标数据集，所述目标数据集中的目标数据所包含的用户特征的数量小于所述原始数据所包含的用户特征的数量；
[0134]
模型训练模块630，用于构建级联模型，基于所述目标数据集对所述级联模型进行训练，得到数据处理模型；所述级联模型包括第一模型和第二模型，所述第一模型的输出数据为所述第二模型的输入数据；
[0135]
数据处理模块640，用于通过所述数据处理模型对待分析数据进行特征提取和映射处理，得到数据处理结果。
[0136]
在本技术的一个实施例中，原始数据获取模块610包括：
[0137]
预处理单元，用于获取多个原始数据，并对所述多个原始数据进行预处理，以使所有的原始数据具备相同类型的用户特征；
[0138]
标准化单元，用于对预处理后的多个原始数据进行标准化处理；
[0139]
原始数据生成单元，用于根据标准化处理后的多个原始数据形成原始数据集。
[0140]
在本技术的一个实施例中，所述预处理单元包括：
[0141]
去重单元，用于去除所述多个原始数据中的重复数据；
[0142]
特征缺失比例确定单元，用于基于去重后多个原始数据，确定每个用户特征所对应的特征缺失比例；
[0143]
特征填充单元，用于根据所述特征缺失比例确定特征填充方法，并通过所述特征填充方法对所述特征缺失比例所对应的去重后的原始数据进行用户特征填充处理。
[0144]
在本技术的一个实施例中，所述特征填充单元具体用于：
[0145]
当所述特征缺失比例小于第一阈值时，确定所述特征填充方法为第一填充方法；
[0146]
当所述特征缺失比例大于第一阈值且小于第二阈值时，确定所述特征填充方法为第二填充方法；
[0147]
当所述特征缺失比例大于第二阈值时，确定所述特征填充方法为第三填充方法。
[0148]
在本技术的一个实施例中，所述原始数据的用户特征包括离散用户特征和连续用户特征；所述标准化单元具体用于：
[0149]
对预处理后的多个原始数据的离散用户特征进行编码处理，以及，对预处理后的多个原始数据的连续用户特征进行归一化处理。
[0150]
在本技术的一个实施例中，特征筛选模块620包括：
[0151]
热度值筛选单元，用于生成所述原始数据集中原始数据的每个用户特征与指定指标的热度图，并将所述热度图中热度值低于预设热度阈值的用户特征从每个原始数据中删除，得到第一数据集；所述第一数据集中的每个第一数据包括第一数量的用户特征；
[0152]
遗传算法筛选单元，用于通过遗传算法对所述第一数据集进行特征筛选处理，得到第二数据集，所述第二数据集中的每个第二数据包括第二数量的用户特征，所述第二数量小于所述第一数量；
[0153]
特征库筛选单元，用于根据预设特征库对所述第二数据集进行特征筛选处理，得到目标数据集；所述目标数据集中的目标数据所包含的用户特征数量为指定数量，且小于所述第二数量。
[0154]
在本技术的一个实施例中，模型训练模块630包括：
[0155]
数据划分单元，用于将所述目标数据集划分为训练样本集和测试样本集，其中，所述训练样本集的数据量大于所述测试样本集的数据量；
[0156]
模型训练单元，用于基于所述训练样本集对所述级联模型进行训练，得到训练好的级联模型；其中，在训练过程中，通过网格搜索法进行所述级联模型的参数调优；
[0157]
模型测试单元，用于基于所述测试样本集对所述训练好的级联模型进行测试，当测试结果指示的模型准确率达到预设阈值，得到数据处理模型。
[0158]
本技术各实施例中提供的数据处理装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。
[0159]
图7示意性地示出了用于实现本技术实施例的电子设备的计算机系统结构框图。
[0160]
需要说明的是，图7示出的电子设备的计算机系统700仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0161]
如图7所示，计算机系统700包括中央处理器701(central processing unit，cpu)，其可以根据存储在只读存储器702(read-only memory，rom)中的程序或者从存储部
分708加载到随机访问存储器703(random access memory，ram)中的程序而执行各种适当的动作和处理。在随机访问存储器703中，还存储有系统操作所需的各种程序和数据。中央处理器701、在只读存储器702以及随机访问存储器703通过总线704彼此相连。输入/输出接口705(input/output接口，即i/o接口)也连接至总线704。
[0162]
以下部件连接至输入/输出接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(cathode ray tube，crt)、液晶显示器(liquid crystal display，lcd)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。
[0163]
特别地，根据本技术的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理器701执行时，执行本技术的系统中限定的各种功能。
[0164]
需要说明的是，本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者处理用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质处理，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0165]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要
注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0166]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的用户特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的用户特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0167]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本技术实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
[0168]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0169]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种神经外科调节式导管装置的制作方法

数据处理方法、装置、可读介质及电子设备与流程

相关文献

最热文献