基于Python的机器学习模型自变量选择方法、系统及设备与流程

2023-02-06 21:29:09 来源：中国专利 TAG：

基于python的机器学习模型自变量选择方法、系统及设备
技术领域
1.本技术涉及人工智能技术领域，尤其涉及一种基于python的机器学习模型自变量选择方法、系统及设备。

背景技术：

2.近年来，随着机器学习模型在各行各业(例如，互联网保险金融行业)的大量普及，需要将机器学习模型(例如，车辆保险)在多种不同平台进行相应的部署。然而机器学习模型需要用到大量的数据处理和统计分析。
3.在现有的数据处理和统计分析领域，sas系统(statistics analysis system，统计分析系统，简称sas)已经成为国际上的标准软件系统。sas系统是一款模块化、集成化的大型应用软件系统，把数据存取、管理、分析和展现有机地融为一体，由数十个专用模块构成，功能包括数据访问、数据储存及管理、数据分析、图形处理、计量经济学与预测、运筹学等。sas系统应用场景主要在数据分析领域(因此也要求具备一定的数学、统计学基础)。其编程语言需要专门学习和掌握，而且对学习人员的数学、统计学基础知识也有要求。
4.目前，type3检验的实现主要通过sas系统进行。但sas系统是收费软件并且为非开源代码，由此，将模型在不同平台进行部署时较为不便，需要做数据重构等操作，部署效率低下。
5.最近几年来，python语言由于具有简单易学、免费、开源、可移植、可扩展、也没有对于数学等基础学科知识的要求等优点，在人工智能、大数据、数据分析、运维、web开发等领域，都有着广阔的应用前景。
6.最近，车联网技术大力发展，互联网车险成为当前保险方面的研究热点，由于sas系统在金融领域的稳定性和信用背书好，因此在金融保险领域多数采用sas系统进行实现。
7.基于成本考量和平台的可移植性，本技术提出采用python语言构建机器学习模型实现自变量选择的方法。

技术实现要素：

8.有鉴于此，本技术提供了一种基于python的机器学习模型自变量选择方法、装置及设备，实现自变量选择的同时，还提高不同平台部署模型的效率。
9.本技术采用的技术方案是：
10.第一方面，本技术提供一种基于python的机器学习模型自变量选择方法，其中，应用于python语言，包括：获取构建所述模型所需的多个自变量；针对所述多个自变量中的每个自变量：构建第一机器学习模型和第二机器学习模型；所述第一机器学习模型包括广义线性模型；所述第二机器学习模型与第一机器学习模型相同；所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量；基于所述第一机器学习模型与第二机器学习模型，确定所述自变量是否为目标自变量；确定所述多个自变量中的至少一个目标自变量。
11.第二方面，本技术提供一种基于python的机器学习模型自变量选择系统，其中，所述系统包括：获取模块，用于获取构建所述模型所需的多个自变量；处理模块，用于针对所述多个自变量中的每个自变量：构建第一机器学习模型和第二机器学习模型；所述第一机器学习模型包括广义线性模型；所述第二机器学习模型与第一机器学习模型相同；所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量；基于所述第一机器学习模型与第二机器学习模型，确定所述自变量是否为目标自变量；确定模块，用于确定所述多个自变量中的至少一个目标自变量。
12.第三方面，本技术还提供一种电子设备，包括处理器，其中，所述处理器用于执行机器学习模型自变量选择方法。
13.第四方面，本技术还提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行机器学习模型自变量选择方法。
14.本技术的基于python的机器学习模型自变量选择方法、装置及设备，通过所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量，找到目标自变量，通过在python语言环境下实现自变量的筛选，可以不用基于sas平台实现数据检验。
附图说明
15.本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：
16.图1是根据本说明书一些实施例所示的基于python的机器学习模型自变量选择方法的应用场景示意图；
17.图2是根据本说明书一些实施例所示的基于python的机器学习模型自变量选择方法的示例性流程图；
18.图3是根据本说明书一些实施例所示的针对所述多个自变量中的每个自变量，构建第一机器学习模型和第二机器学习模型方法的示例性流程图；
19.图4是根据本说明书一些实施例所示的基于第一机器学习模型与第二机器学习模型确定自变量是否为目标自变量方法的示例性流程图；
20.图5为本说明书一些实施例提供的另一种机器学习模型自变量选择方法的示例性流程图；以及
21.图6是根据本说明书一些实施例所示的基于python的机器学习模型自变量选择系统的模块图。
具体实施方式
22.为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。
23.应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别
的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。
24.如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。
25.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。
26.type3检验是一种在使用数据建模的过程中，用于从建模所需的自变量中选择一个或多个显著自变量的检验方法。通过type3检验可以筛选出对模型影响显著的自变量，由此来改善模型的表现。
27.目前，type3检验的实现主要通过统计分析软件(statistics analysis system，简称sas)实现。sas系统是大型集成软件系统，具有完备的数据访问、管理、分析和呈现及应用开发功能。在数据处理和统计分析领域，sas系统已经成为国际上的标准软件系统。但sas系统是收费软件并且为非开源代码，由此，将模型在不同平台进行部署时较为不便。
28.根据上述存在的问题，本说明书一些实施例提出一种机器学习模型自变量选择方法和系统，通过对包含所有自变量的模型和减少一个自变量模型进行计算处理，据此确定该自变量的p值，再根据p值是否小于指定阈值，筛选出所有自变量中的显著自变量。可以通过开源代码(python)来实现type3检验的功能，进一步地，可以将模型通过开源代码在不同平台进行部署。
29.图1是根据本说明书一些实施例所示的一种机器学习模型自变量选择方法的应用场景示意图。如图1所示，采用python语言机器学习模型自变量选择系统100可以用于将机器学习模型通过python语言在不同平台进行部署的场景。机器学习模型自变量选择系统100可以包含处理设备110、网络120、终端130 和存储设备140。
30.在一些实施例中，处理设备110可以对数据和/或信息进行处理。例如，处理设备110可以针对多个自变量中的每个自变量：构建第一机器学习模型和第二机器学习模型。在一些实施例中，处理设备112可包含一个或多个子处理设备(例如，单芯处理设备或多核多芯处理设备)。仅仅作为范例，处理设备112 可包含中央处理器(cpu)、专用集成电路(asic)、专用指令处理器(asip)、图形处理器(gpu)、物理处理器(ppu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编辑逻辑电路(pld)、控制器、微控制器单元、精简指令集电脑(risc)、微处理器等或以上任意组合。
31.网络120可促进数据和/或信息的交换，数据和/或信息可以包括终端130 发送给处理设备110的需要进行构建的机器学习模型。在一些实施例中，机器学习模型自变量选择系统100中的一个或多个组件(终端130、存储设备140) 可通过网络120发送数据和/或信息给机器学习模型自变量选择系统100中的其他组件。在一些实施例中，网络120可是任意类型的有线或无线网络。例如，网络120可包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(lan)、广域网络(wan)、无线区域网络(wlan)、都会区域网络
(man)、公共电话交换网络(pstn)、蓝牙网络、zigbee网络、近场通讯(nfc)网络等或以上任意组合。在一些实施例中，网络120可包括一个或多个网络进出点。例如，网络120可包含有线或无线网络进出点，如基站和/或网际网络交换点120-1、120-2、
…
，通过这些进出点，确定用于信息推荐的图谱系统100的一个或多个组件可连接到网络120上以交换数据和/或信息。
32.终端130可以是一种具有数据处理功能的设备的终端，可包括手机130-1、平板电脑130-2、笔记本电脑130-3、电子手表130-4等中的一种或任意组合。在一些实施例中，终端130可包括具有发送数据功能的装置，在用户需要将一个机器学习模型在不同平台进行部署时，将需要部署的模型发送给处理设备110。在一些实施例中，终端130可以通过网络120将数据发送送给处理设备110。例如，终端130可以通过网络120将需要进行部署的模型发送给处理设备110，以使处理设备110可以获取到构建该模型所需的自变量。
33.存储设备140是用于为机器学习模型自变量选择系统100提供信息的来源。存储设备140可以用于为系统100提供与自变量选择相关的信息，例如，提供第一机器学习模型以及第二机器学习模型源文件，以使系统100基于模型源文件进行模型构建。存储设备140可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。存储设备140可以由多个个人设备和云服务器生成。在一些实施例中，存储设备140可以用于存储确定好的至少一个目标自变量。在一些实施例中，存储设备140可存储供处理设备110执行或使用的信息和/或指令，以执行本说明书中描述的示例性方法。在一些实施例中，存储设备140可包括大容量存储器、可移动存储器、挥发性读写存储器(例如，随机存取存储器ram)、只读存储器(rom)等或以上任意组合。在一些实施例中，存储设备140可在云平台上实现。例如，该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等或以上任意组合。
34.在一些实施例中，存储设备140可以通过网络120连接以与系统100的一个或多个组件(例如，处理设备110、终端130等)通讯。系统100的一个或多个组件可通过网络120访问存储于存储设备140中的资料或指令。在一些实施例中，存储设备140可直接与系统100中的一个或多个组件(例如，处理设备110、终端130等)连接或通讯。在一些实施例中，存储设备140可以是处理设备110的一部分。
35.图2是根据本说明书一些实施例所示的一种机器学习模型自变量选择方法的示例性流程图。在一些实施例中，流程200可以由图1中所示的处理设备110 执行。例如，流程200可以以程序或指令的形式存储在存储设备(如处理设备 110的自带存储单元或外接存储设备)中，所述程序或指令在被执行时，可以实现流程200。在一些实施例中，流程200可以包括下述步骤。
36.步骤202，获取构建所述模型所需的多个自变量。在一些实施例中，所述步骤通过获取模块610执行。
37.模型可以是用户需要进行部署的机器学习模型。例如，金融保险领域中的车辆出险率模型，可以通过该模型用于预测车辆出现风险的概率。可以理解的，用户可以通过python语言将车辆出险率模型部署在不同的平台中。
38.多个自变量可以是构建用户所需模型的所需要的自变量。例如，构建的模型为p＝ax by c，其中a、b、c为模型参数，x、y为模型的自变量。可以理解的，在构建模型时需要多个自变量对应的训练样本，在训练的过程中，对模型参数进行迭代更新。
39.在一些实施例中，以车辆出险率模型为例，其自变量可以是被保险人信息、驾驶行为数据、车辆相关信息等。例如，性别、年龄、收入、车型、车龄等。
40.在一些实施例中，多个自变量的数量取决于构建的模型。可以理解的，构建每一个不同的模型，其所需多个自变量的数量相同或者不同。
41.在一些实施例中，在用户通过终端将模型在不同平台进行部署时，处理设备可获取到构建该模型所需要的至少两个自变量。例如，处理设备可以自动读取该模型所需的多个自变量。
42.在一些实施例中，针对所述多个自变量中的每个自变量，分别执行下述步骤204以及步骤206。进一步地，对于每个自变量均执行一次步骤204以及步骤206。例如，请结合参照图5(图5为本说明书一些实施例提供的另一种机器学习模型自变量选择方法示例性流程图)，多个自变量例如为5个：a、b、c、 d、e，从自变量a开始执行一次步骤204、步骤206，紧接着到b、c、d、e，直至所有自变量均执行步骤204以及步骤206。在一些实施例中，对多个自变量的执行顺序不做限定，可以是顺序、倒序或随机执行。
43.步骤204，构建第一机器学习模型和第二机器学习模型。所述第一机器学习模型包括广义线性模型；所述第二机器学习模型与第一机器学习模型相同；所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量。在一些实施例中，所述步骤通过处理模块620执行。
44.在一些实施例中，第一机器学习模型(后续简称为第一模型)和第二机器学习模型(后续简称为第二模型)可以用于表示该自变量的显著性。
45.在一些实施例中，第一模型和第二模型的差异可以为构建时是否存在该自变量，例如，在针对自变量a时，则构建第一模型与第二模型的自变量中相差了自变量a，其余自变量均相同。
46.可以理解的，通过将建立好的第一模型与第二模型进行比较，进而确定在有该自变量a时以及在没有该自变量a时模型的表现，进一步确定该自变量a 的显著性。
47.在一些实施例中，第一模型与第二模型可以是任意一种机器学习模型，但第一模型与第二模型优选为相同模型。例如，广义线性模型(generalize linearmodel，glm)、神经网络(neural networks，nn)、随机森林(random forest) 等。一种优选的方式是将广义线性模型与神经网络结合，先用广义线性模型进行第一次自变量训练确定初步的显著性，然后用神经网络对第一次自变量训练后输出的有显著性的第一自变量进行神经网络训练，之后根据显著性输出有显著性的第二自变量，这样提升了type 3筛选相关变量时的效率和准确性。
48.在一些实施例中，处理设备可以在获取到构建模型所需求的多个自变量时，针对每个自变量，构建与该自变量相关的第一模型与第二模型。在一些实施例中，关于步骤204的详细描述，请参照流程300中的相关描述，在此不做赘述。
49.步骤206，基于所述第一机器学习模型和所述第二机器学习模型，确定所述自变量是否为目标自变量。在一些实施例中，所述步骤通过处理模块620执行。
50.目标自变量可以是显著的自变量。可以理解的，目标自变量可以是多个自变量中对模型具有影响显著的自变量。
51.本技术中得到偏差值或似然值的方法主要是调用python的statsmodels软件包，
但通过其他python软件包或是自主编写函数在python中实现也可得到与本发明中所说明的偏差值或似然值等同的值。
52.在一些实施例中，处理设备可以通过对第一模型与第二模型进行计算处理，进而确定该自变量(例如，自变量a)是否为目标自变量。在一些实施例中，关于步骤206的详细描述，请参照流程400中的相关描述，在此不做赘述。
53.在一些实施例中，请结合参阅图5，当所有自变量均执行完步骤204和步骤206时，则开始执行步骤208。在一些实施例中，当一个自变量在执行步骤 206后，会检测是否所有自变量均执行步骤204和步骤206。若存在自变量未执行步骤204或步骤206时，则继续使未执行过的下一个自变量执行步骤204、步骤206；若所有自变量均执行完时，则执行步骤208。
54.步骤208，确定所述多个自变量中的至少一个目标自变量。在一些实施例中，所述步骤通过确定模块630执行。
55.在一些实施例中，处理设备可以将通过步骤204和步骤206确定的至少一个目标自变量(以上述例子为例，如自变量a、c、d为目标自变量)进行标记及存储至存储设备中，由此，确定构建模型所需的至少一个显著自变量。
56.可以理解的，在确定出构建模型所需的至少一个显著自变量时，可以重点针对显著自变量进行大量数据(训练样本)获取，而非显著自变量则可以获取较少的数据获取，这样可以在减少工作量的前提下，甚至提高模型构建效率。采用本实施例的方式后关于自变量的参数的修改设置仅需要在当前页面进行代码编写即可，减少了界面切换的操作，使目标自变量的选择操作简单高效。而在sas中则需要反复点击操作节点，在跳出的操作列表中对参数进行设置，十分不方便。
57.图3是根据本说明书一些实施例所示的一种针对所述多个自变量中的每个自变量，构建第一机器学习模型和第二机器学习模型方法的示例性流程图。在一些实施例中，流程300可以包括以下步骤。
58.步骤302，基于所述多个自变量构建第一机器学习模型。
59.在一些实施例中，请结合参阅图5，可以基于构建模型所需的多个自变量构建第一模型。例如，构建模型所需总共自变量a、b、c、d、e，则将这5个所需的自变量共同建立第一广义线性模型。
60.步骤306基于去除所述多个自变量中的所述自变量剩余的至少一个自变量，构建第二机器学习模型。
61.在一些实施例中，请结合参阅图5，可以基于去除多个自变量中该自变量剩余的至少一个自变量，构建第二机器学习模型。以上述例子为例，在针对自变量a时，则将5个所需的自变量去除掉自变量a，剩余的自变量b、c、d、e共同构建第二机器学习模型；相同地，在针对自变量c时，将5个所需的自变量去除掉自变量c，剩余的自变量a、b、d、e共同构建第二机器学习模型。
62.在一些实施例中，可以不对去除的自变量数量进行限制，可以对构建第一、第二模型(第一机器学习模型、第二机器学习模型的简称)自变量中相差的一个自变量进行限定，即，构建模型所需多个自变量中的一个。
63.例如，构建模型所需的多个自变量为自变量a、b、c、d、e，去除掉其中的自变量d、e，根据自变量a、b、c进行构建第一模型，在针对自变量a时，根据自变量b、c构建第二模型。由
此，第一模型与第二模型构建时的自变量仅相差自变量a，通过第一模型与第二模型进行计算处理确定自变量a的显著值。
64.图4根据本说明书一些实施例所示的一种基于第一机器学习模型与第二机器学习模型确定自变量是否为目标自变量方法的示例性流程图。在一些实施例中，流程400可以包括以下步骤。
65.步骤402，基于所述第二机器学习模型与所述第一机器学习模型进行计算，获得假设分布之间差异值，所述假设分布之间差异值包括卡方统计量。
66.假设分布之间差异值可以用于确定，假设该自变量的独立性的差异值。可以理解的，当假设分布之间差异值偏小时，则假设独立性差异小，该自变量更可能为存在独立性，接受假设的独立性，显著性更高；反之，当假设分布之间差异值偏大时，则假设独立性差异大，不太可能存在独立性，拒绝假设的独立性。
67.在一些实施例中，假设分布之间差异值可以为卡方统计量。在一些实施例中，假设分布之间差异值还可以为其他统计量，例如最小r方、停止r方等，在此不做限定。
68.在一些实施例中，可以通过计算所述第二机器学习模型与所述第一机器学习模型的似然值，基于所述似然值计算，获得卡方统计量。
69.在一些实施例中，可以通过以下公式对第一模型与第二模型的似然值进行计算获得卡方统计量xm。
70.xm＝2*[l(b；y)-lm(bm；ym)]
[0071]
其中，l＝l(b；y)为第一模型的似然值，l()为第一模型的似然函数，b为第一模型的极大似然估值，y为第一模型的观测值；lm(bm；ym)为第二模型的似然值，lm()为第二模型的似然函数，bm为第二模型的极大似然估值，ym为第二模型的观测值。
[0072]
在一些实施例中，可以通过计算所述第二机器学习模型与所述第一机器学习模型的偏差值，基于所述偏差值计算，获得卡方统计量。
[0073]
在一些实施例中，可以通过以下公式，对第一模型与第二模型的偏差值进行计算获得卡方统计量xm。
[0074]
xm＝[d()-dm()]
[0075]
其中，d为第一模型的偏差值，d()为第一模型的偏差函数；dm为第二模型的偏差值，dm()为第二模型的偏差函数。这里还可以对偏差函数d()和dm() 进行优化，主要是函数变量选取以及各变量的权重值设定上要依据多次模拟得出。
[0076]
在一些实施例中，假设分布之间差异值还可以包括p值(pvalue)。在一些实施例中，p值可以通过对上述计算得出的卡方统计量xm做卡方检验得出，作为该自变量对应的p值。
[0077]
步骤404，判断所述假设分布之间差异值是否符合预设标准；是，所述自变量为目标自变量；否，所述自变量不是目标自变量。
[0078]
在一些实施例中，可以通过判断假设分布之间差异值中的p值是否符合预设标准，进而确定该自变量是否为目标自变量，即：显著自变量。
[0079]
在一些实施例中，预设标准可以是预先设定的阈值。例如，预设阈值是否小于0.05。在一些实施例中，预设标准可以根据实际情况进行调整，在此不做限定。
[0080]
可以理解的，例如当该自变量的p值为0.023，小于预设阈值0.05时，则说明符合预
设标准，假设该自变量不属于显著自变量的概率越低，则拒绝该假设，进一步地说明该自变量属于显著自变量。又例如，当该自变量的p值为0.346，大于预设阈值0.05时，则说明不符合预设标准，假设该自变量的概率值越高，则该自变量越不属于显著自变量。
[0081]
通过type3检验筛选出显著性自变量后，出于一些特殊原因，例如基于道德规范和个人隐私保护的，被保险人性别、收入通过等自变量虽然通过了type3 显著性检验，但用户不希望被选择这类自变量进入模型构建。对此作为一种可选但有利的实施方式，在本实施例中：在确定所述多个自变量中的至少一个目标自变量之后还包括以下步骤：
[0082]
步骤71：获取用户指定的目标自变量筛选条件；
[0083]
例如目标自变量筛选条件可以是保护用户隐私、遵守道德规范等，从而屏蔽了一些数据。
[0084]
步骤72：根据所述用户指定的目标自变量筛选条件从所述至少一个目标自变量中去除不满足用户指定的筛选条件的目标自变量；
[0085]
本步骤从前述步骤所确定的目标自变量中将那些不满足用户指定的筛选条件的目标自变量去除，只保留满足条件的目标自变量，这样那些不满足用户指定的筛选条件的目标自变量就可以进入后续定价模型的构建。具体实施时主要包括以下步骤：
[0086]
步骤721：根据用户指定的目标自变量筛选条件获取不满足用户指定的目标自变量的类型；
[0087]
例如用户指定的目标自变量筛选条件为保护用户隐私，则将会损害用户隐私的目标自变量的类型作为不满足用户指定的目标自变量的类型。
[0088]
步骤722：逐个检验所确定的目标自变量的类型是否为不满足用户指定的目标自变量的类型；
[0089]
例如被保险人性别、被保险人收入这些自变量则是属于不满足用户指定的目标自变量的类型的自变量。
[0090]
这里，进行检验时可以采取字段识别的方式，对一些关键敏感字段直接标注，比如被保险人的家庭成员情况，而不进行检验，这样可以减少运算量。
[0091]
步骤723：若是则去除该目标自变量，若否则保留该目标自变量。
[0092]
步骤73：以经过用户指定的目标自变量筛选条件筛选后剩余的目标自变量构建车险定价模型。
[0093]
本实施例为用户对自变量的选定提供了一种个性化操作的方式。相较于 sas系统可实现的功能受限于sas提供的选项，本实施例在python语言环境下可以减少更多的操作步骤，也可type3筛选出显著自变量后，轻松的实现进入模型的自变量选择，而且可以根据需要随时保留或删除目标自变量，这就为该方法用于金融车险中可以根据各国的法律以及对车辆保险的驾驶人等信息进行差异化设计，为不同地域的人群在进行模型建立时更有针对性。
[0094]
图6是根据本说明书一些实施例所示的基于python的机器学习模型自变量选择系统的模块图。
[0095]
如图6所示，该基于python的机器学习模型自变量选择系统可以包括获取模块610、处理模块620、确定模块630。
[0096]
获取模块610用于获取构建所述模型所需的多个自变量；。
[0097]
处理模块620用于针对所述多个自变量中的每个自变量：
[0098]
构建第一机器学习模型和第二机器学习模型；所述第一机器学习模型包括广义线性模型；所述第二机器学习模型与第一机器学习模型相同；所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量；
[0099]
基于所述第一机器学习模型与第二机器学习模型，确定所述自变量是否为目标自变量；确定模块630，用于确定所述多个自变量中的至少一个目标自变量。在一些实施例中，所述从处理模块620还包括：偏差值获取子模块、卡方统计量获取子模块、显著性值获取子模块、显著性值比较子模块。
[0100]
偏差值获取子模块，所述偏差值获取子模块用于基于所述第二机器学习模型与所述第一机器学习模型分别进行计算，获得所述第二机器学习模型与所述第一机器学习模型各自的偏差值；
[0101]
卡方统计量获取子模块，所述卡方统计量获取子模块用于依据所述偏差值，获得卡方统计量；
[0102]
显著性值获取子模块，所述显著性值获取子模块用于对所述卡方统计量，做卡方检验，获得卡方检验的显著性值；
[0103]
显著性值比较子模块，所述显著性值比较子模块用于将所述显著性值与预设阈值比较，确定所述自变量是否为目标自变量。
[0104]
应当理解，图6所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合 (例如，固件)来实现。
[0105]
需要注意的是，以上对于候选项显示、确定系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，例如，图5中披露的获取模块610、处理模块620和确定模块630可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，获取模块610和处理模块620可以是两个模块，也可以是一个模块同时具有获取功能和数据更新功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。
[0106]
本说明书实施例可能带来的有益效果包括但不限于：(1)实现了在python 服务中检测显著自变量的功能，减少不相关变量，提高模型的部署效率以及准确度，由此，训练出来的模型能够在多个不同的更便捷的部署，缩短模型上线所需的时间。(2)在确定出模型部署时的显著自变量，还可以使得在部署时需要采集的数据(即显著自变量)越少，模型部署
成本越低。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。
[0107]
上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
[0108]
同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
[0109]
此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等) 执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。
[0110]
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、 rf、或类似介质，或任何上述介质的组合。
[0111]
此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。
[0112]
同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。
[0113]
一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有
±
20％的变化。相应地，在一些实施例
中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。
[0114]
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。
[0115]
最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于确定淹没风险等级的方法、装置、存储介质及处理器与流程

基于Python的机器学习模型自变量选择方法、系统及设备与流程

相关文献

最热文献