一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

被配置为在机器学习模型中实现动态离群值偏倚减少的基于计算机的系统、计算组件和计算对象的制作方法

2022-06-01 18:38:28 来源:中国专利 TAG:

被配置为在机器学习模型中实现动态离群值偏倚减少的基于计算机的系统、计算组件和计算对象
1.优先权要求
2.本技术要求于2019年9月18日提交的标题为“computer-based systems,computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models”的美国临时申请号62/902,074的优先权,该申请通过引用整体并入本文。
3.版权声明
4.本专利文件的部分公开内容包含受版权保护的材料。版权所有者不反对任何人对专利文件或专利公开内容进行传真复制,就像它出现在专利和商标局专利文件或记录中那样,但除此之外保留所有版权权利。以下通知适用于如下所述的软件和数据以及构成本文档的一部分的附图:copyright,hartford steam boiler inspection and insurance company,all rights reserved。
技术领域
5.本公开一般而言涉及被配置为在机器学习模型中实现偏倚减少的改进的基于计算机的系统、计算组件和计算对象。


背景技术:

6.机器学习模型可以包括一个或多个计算机或处理设备,以基于从样本/训练数据中学习到的模式和推断来形成预测或确定。样本/训练数据选择中的偏倚可以传播到机器学习模型的预测和确定中。


技术实现要素:

7.本公开的实施例包括用于动态离群值偏倚减少的机器学习模型的方法。该方法包括由至少一个处理器接收表示至少一个用户活动的至少一个活动相关属性的目标变量的训练数据集;由至少一个处理器接收用于确定一个或多个离群值的至少一个偏倚标准;由至少一个处理器确定机器学习模型的模型参数集合包括:(1)由至少一个处理器将具有初始模型参数集合的机器学习模型应用于训练数据集以确定模型预测值集合;(2)由至少一个处理器通过将模型预测值集合与训练数据集的对应实际值进行比较来生成数据元素误差的误差集合;(3)由至少一个处理器生成数据选择向量,以至少部分地基于数据元素误差的误差集合和至少一个偏倚标准来识别非离群值目标变量;(4)由至少一个处理器利用训练数据集上的数据选择向量生成非离群值数据集;(5)由至少一个处理器基于非离群值数据集确定机器学习模型的更新后的模型参数集合;以及(6)由至少一个处理器重复步骤(1)-(5)作为迭代,直到满足至少一个审查性能终止标准,从而获得机器学习模型的模型参数集合作为更新模型参数,由此每次迭代使用更新后的模型参数集合作为初始模型参数集合重新生成预测值集合、误差集合、数据选择向量和非离群值数据集;由至少一个处理器至
少部分地基于训练数据集和数据选择向量来训练离群值分类器机器学习模型的分类器模型参数集合,以获得被配置为识别至少一个离群值数据元素的经训练的离群值分类器机器学习模型;由至少一个处理器将经训练的离群值分类器机器学习模型应用于至少一个用户活动的活动相关数据的数据集,以确定:i)活动相关数据的数据集中的离群值活动相关数据集合,以及ii)活动相关数据的数据集中的非离群值活动相关数据集合;以及由至少一个处理器将机器学习模型应用于非离群值活动相关数据元素集合,以预测与至少一个用户活动相关的未来活动相关属性。
8.本公开的实施例包括用于动态离群值偏倚减少的机器学习模型的系统。该系统包括与具有存储在其上的软件指令的非暂态计算机可读存储介质通信的至少一个处理器,其中软件指令在被执行时使至少一个处理器执行以下步骤:接收表示至少一个用户活动的至少一个活动相关属性的目标变量的训练数据集;接收用于确定一个或多个离群值的至少一个偏倚标准;确定机器学习模型的模型参数集合包括:(1)将具有初始模型参数集合的机器学习模型应用于训练数据集以确定模型预测值集合;(2)通过将模型预测值集合与训练数据集的对应实际值进行比较,生成数据元素误差的误差集合;(3)至少部分地基于数据元素误差的误差集合和至少一个偏倚标准生成数据选择向量以识别非离群值目标变量;(4)利用训练数据集上的数据选择向量生成非离群值数据集;(5)基于非离群值数据集确定机器学习模型的更新后的模型参数集合;以及(6)重复步骤(1)-(5)作为迭代,直到满足至少一个审查性能终止标准,从而获得机器学习模型的模型参数集合作为更新后的模型参数,由此每次迭代使用更新后的模型参数集合作为初始模型参数集合重新生成预测值集合、误差集合、数据选择向量和非离群值数据集;至少部分地基于训练数据集和数据选择向量来训练离群值分类器机器学习模型的分类器模型参数集合以获得被配置为识别至少一个离群值数据元素的经训练的离群值分类器机器学习模型;将经训练的离群值分类器机器学习模型应用于至少一个用户活动的活动相关数据的数据集,以确定:i)活动相关数据的数据集中的离群值活动相关数据集合,以及ii)活动相关数据的数据集中的非离群值活动相关数据集合;以及将机器学习模型应用于非离群值活动相关数据元素集合,以预测与至少一个用户活动相关的未来活动相关属性。
9.本公开的实施例的系统和方法还包括:由至少一个处理器将数据选择向量应用于训练数据集以确定离群值训练数据集;由至少一个处理器使用离群值训练数据集训练至少一个特定于离群值的机器学习模型的至少一个特定于离群值的模型参数以预测离群值数据值;以及由至少一个处理器利用特定于离群值的机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值。
10.本公开的实施例的系统和方法还包括:由至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;由至少一个处理器利用广义机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值;以及由至少一个处理器利用广义机器学习模型来预测活动相关数据值。
11.本公开的实施例的系统和方法还包括:由至少一个处理器将数据选择向量应用于训练数据集以确定离群值训练数据集;由至少一个处理器使用离群值训练数据集训练特定于离群值的机器学习模型的特定于离群值的模型参数以预测离群值数据值;由至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;由至少一个处
理器利用特定于离群值的机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值;以及由至少一个处理器利用特定于离群值的机器学习模型来预测活动相关数据值。
12.本公开的实施例的系统和方法还包括:由至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;由至少一个处理器利用广义机器学习模型来预测活动相关数据集合的活动相关数据值;由至少一个处理器利用离群值分类器机器学习模型来识别活动相关数据值的离群值活动相关数据值;以及由至少一个处理器去除离群值活动相关数据值。
13.本公开的实施例的系统和方法,其中训练数据集包括作为混凝土成分和混凝土固化暴露的函数的混凝土抗压强度的至少一个活动相关属性。
14.本公开的实施例的系统和方法,其中训练数据集包括作为家庭环境条件和照明条件的函数的能量使用数据的至少一个活动相关属性。
15.本公开的实施例的系统和方法还包括:由至少一个处理器接收应用编程接口(api)请求以生成具有至少一个数据元素的预测;由至少一个处理器实例化至少一个云计算资源以调度机器学习模型的执行由至少一个处理器根据执行的调度利用机器学习模型来预测至少一个数据元素的至少一个活动相关的数据元素值;以及由至少一个处理器将至少一个活动相关的数据元素值返回到与api请求相关联的计算设备。
16.本公开的实施例的系统和方法,其中训练数据集包括医学数据集的三维患者图像的至少一个活动相关属性;并且其中机器学习模型被配置为基于医学数据集预测包括两个或更多个基于物理的渲染参数的活动相关数据值。
17.本公开实施例的系统和方法,其中训练数据集包括电子机器命令的模拟控制结果的至少一个活动相关属性;并且其中机器学习模型被配置为预测包括用于电子机器的控制命令的活动相关数据值。
18.本公开的实施例的系统和方法还包括:由至少一个处理器将活动相关数据集合分成多个活动相关数据子集;由至少一个处理器为多个活动相关数据子集中的每个活动相关数据子集确定集成(ensemble)模型;其中机器学习模型包括模型的集成;其中每个集成模型包括来自模型的集成的模型的随机组合;由至少一个处理器单独利用每个集成模型来预测特定于集成的活动相关数据值;由至少一个处理器基于特定于集成的活动相关数据值和已知值确定每个集成模型的误差;以及由至少一个处理器基于最低误差选择性能最高的集成模型。
附图说明
19.可以参考附图进一步解释本公开的各种实施例,其中在几个视图中相同的结构用相同的数字表示。所示附图不一定按比例绘制,而是重点通常放在图示本公开的原理上。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为教导本领域技术人员以各种方式采用一个或多个说明性实施例的代表性基础。
20.图1-图14b示出了说明本公开的至少一些实施例的一些示例性方面的一个或多个示意性流程图、某些基于计算机的体系架构和/或各种专用图形用户界面的屏幕截图。
具体实施方式
21.本文公开了结合附图的本公开的各种详细实施例;但是,应该理解的是,所公开的实施例仅仅是说明性的。此外,结合本公开的各种实施例给出的每个示例旨在是说明性的,而不是限制性的。
22.在整个说明书中,除非上下文另外明确指出,否则以下术语具有本文明确关联的含义。本文使用的短语“在一个实施例中”和“在一些实施例中”不一定指相同的(一个或多个)实施例,但是可以是指相同的(一个或多个)实施例。此外,本文使用的短语“在另一个实施例中”和“在一些其它实施例中”不一定指不同的实施例,但是可以指不同的实施例。因此,如下所述,在不脱离本公开的范围或精神的情况下,可以容易地组合各种实施例。
23.术语“基于”不是排他的,并且允许基于未描述的附加因素,除非上下文另有明确规定。另外,在整个说明书中,“一”、“一个”和“该”的含义包括复数引用物。“在...中”的含义包括“在...中”和“在...上”。
24.应该理解的是,本文描述的各种实施例的至少一个方面/功能可以实时和/或动态地执行。如本文中所使用的,术语“实时”涉及当另一个事件/动作已经发生时可以在时间上瞬时或几乎瞬时地发生的事件/动作。例如,“实时处理”、“实时计算”和“实时执行”都与在发生相关物理处理(例如,用户与移动设备上的应用进行交互)的实际时间期间的计算的执行相关,以便可以将计算的结果用于引导物理处理。
25.如本文所使用的,术语“动态地”和术语“自动地”及其逻辑和/或语言相关和/或派生词表示某些事件和/或动作可以在没有任何人为干预的情况下触发和/或发生。在一些实施例中,根据本公开的事件和/或动作可以是实时的和/或基于以下各项中的至少一个的预定的周期性的:纳秒、几纳秒、毫秒、几毫秒、秒、几秒、分钟、几分钟、每小时、几小时、每天、几天、每周、每月等。
26.在一些实施例中,具有相关联设备的示例性发明性、特别编程的计算系统被配置为在分布式网络环境中操作,通过一个或多个合适的数据通信网络(例如,互联网、卫星等)相互通信,并利用一种或多种合适的数据通信协议/模式,诸如但不限于ipx/spx、x.25、ax.25、appletalk(tm)、tcp/ip(例如,http)、近场无线通信(nfc)、rfid、窄带物联网(nbiot)、3g、4g、5g、gsm、gprs、wifi、wimax、cdma、卫星、zigbee以及其它合适的通信模式。在一些实施例中,nfc可以表示短距离无线通信技术,其中启用nfc的设备被“滑动”、“碰撞”、“轻敲”或以其它方式移动到邻近以进行通信。
27.本文公开的材料可以用软件或固件或它们的组合,或者作为存储在可以由一个或多个处理器读取和执行的机器可读介质上的指令来实现。机器可读介质可以包括用于以机器(例如,计算设备)可读的形式存储或传输信息的任何介质和/或机制。例如,机器可读介质可以包括只读存储器(rom);随机存取存储器(ram);磁盘存储介质;光学存储介质;闪存设备;电、光、声或其它形式的传播信号(例如,载波、红外信号、数字信号等)及其它。
28.如本文所使用的,术语“计算机引擎”和“引擎”识别被设计/编程/配置为管理/控制其它软件和/或硬件组件(诸如库、软件开发包(sdk)、对象等)的至少一个软件组件和/或至少一个软件组件和至少一个硬件组件的组合。
29.硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(asic)、可编程逻辑设备(pld)、数字信号
prism、xul和xulrunner,(35).net framework,(36)silverlight,(37)open web平台,(38)oracle数据库,(39)qt,(40)sap netweaver,(41)smartface,(42)vexi和(43)windows runtime。
35.在一些实施例中,本公开的示例性发明性的基于计算机的系统和/或示例性发明性的基于计算机的设备可以被配置为利用硬连线电路系统,该硬连线电路系统可以用于代替软件指令或与软件指令组合使用以实现与本公开的原理一致的特征。因此,与本公开的原理一致的实现不限于硬件电路系统和软件的任何特定组合。例如,各种实施例可以以许多不同的方式实施为软件组件,诸如但不限于独立软件包、软件包的组合,或者它可以是作为“工具”并入到更大的软件产品中的软件包。
36.例如,根据本公开的一个或多个原理特别编程的示例性软件可以作为独立产品或作为用于安装在现有软件应用中的插件包从网络(例如,网站)下载。例如,根据本公开的一个或多个原理特别编程的示例性软件也可以作为客户端-服务器软件应用或作为启用web的软件应用可用。例如,根据本公开的一个或多个原理特别编程的示例性软件也可以实施为安装在硬件设备上的软件包。
37.在一些实施例中,本公开的示例性发明性的基于计算机的系统/平台、示例性发明性的基于计算机的设备和/或示例性发明性的基于计算机的组件可以被配置为处理多个并发用户,这些并发用户可以是但不限于,至少100个(例如,但不限于100-999个)、至少1,000个(例如,但不限于1,000-9,999个)、至少10,000个(例如,但不限于,10,000-99,999个)、至少100,000个(例如,但不限于100,000-999,999个)、至少1,000,000个(例如,但不限于1,000,000-9,999,999个)、至少10,000,000个(例如,但不限于,10,000,000-99,999,999个)、至少100,000,000个(例如,但不限于100,000,000-999,999,999个)、至少1,000,000,000个(例如,但不限于1,000,000,000-10,000,000个)。
38.在一些实施例中,本公开的示例性发明性的基于计算机的系统和/或示例性发明性的基于计算机的设备可以被配置为输出到本公开的不同的、特别编程的图形用户界面实施方式(例如,桌面、web应用等)。在本公开的各种实施方式中,最终输出可以显示在显示屏幕上,该显示屏幕可以是但不限于计算机的屏幕、移动设备的屏幕等。在各种实施方式中,显示器可以是全息显示器。在各种实施方式中,显示器可以是可以接收视觉投影的透明表面。这样的投影可以传达各种形式的信息、图像和/或对象。例如,这样的投影可以是移动增强现实(mar)应用的视觉覆盖。
39.如本文所使用的,术语“云”、“互联网云”、“云计算”、“云体系架构”和类似术语对应于以下至少一个:(1)通过实时通信网络(例如,互联网)连接的大量计算机;(2)提供在多个连接的计算机(例如,物理机器、虚拟机(vm))上同时运行程序或应用的能力;(3)基于网络的服务,其看起来由真实服务器硬件提供,并且实际上由虚拟硬件(例如,虚拟服务器)提供服务,由运行在一个或多个真实机器上的软件模拟(例如,从而允许在不影响最终用户的情况下即时到处移动和放大(或缩小))。
40.在一些实施例中,本公开的示例性发明性的基于计算机的系统和/或示例性发明性的基于计算机的设备可以被配置为通过利用一种或多种加密技术(例如,私钥/公钥对,三重数据加密标准(3des),分组密码算法(例如,idea、rc2、rc5、cast和skipjack)、密码散列算法(例如,md5、ripemd-160、rtr0、sha-1、sha-2、tiger(tth)、whirlpool、rngs)安全地
存储和/或传输数据。
41.当然,上述示例是说明性的而非限制性的。
42.如本文所使用的,术语“用户”应具有至少一个用户的含义。在一些实施例中,术语“用户”、“订户”、“消费者”或“客户”应当被理解为是指如本文所述的一个或多个应用的用户和/或由数据提供者提供的数据的消费者。作为示例而非限制,术语“用户”或“订户”可以指在浏览器会话中通过互联网接收由数据或服务提供商提供的数据的人,或者可以指接收数据并存储或处理数据的自动化软件应用。
43.图1描绘了根据本公开的一个或多个实施例的用于机器学习中的偏倚减少的示例性基于计算机的系统100的框图。但是,实践一个或多个实施例可能不需要所有这些组件,并且可以在不脱离本公开的各种实施例的精神或范围的情况下对组件的布置和类型进行变化。在一些实施例中,示例性发明性的计算设备和/或示例性基于计算机的系统100的示例性发明性的计算组件可以被配置为管理大量成员和/或并发事务,如本文详述的。在一些实施例中,示例性基于计算机的系统/平台100可以基于可扩展的计算机和/或网络体系架构,其并入了用于评估数据、高速缓存、搜索和/或数据库连接池的各种策略,包括如本文实施例中所述的动态离群值偏倚减少(dobr)。可扩展体系架构的示例是能够操作多个服务器的体系架构。
44.在一些实施例中,参考图1,示例性基于计算机的系统100的成员102-104(例如,客户端)实际上可以包括能够通过诸如网络105的网络(例如,云网络)向和从另一个计算设备(诸如服务器106和107)、彼此等接收和发送消息的任何计算设备。在一些实施例中,成员设备102-104可以是个人计算机、多处理器系统、基于微处理器的或可编程的消费者电子器件、网络pc等。在一些实施例中,成员设备102-104内的一个或多个成员设备可以包括通常使用诸如蜂窝电话、智能电话、寻呼机、步话机、射频(rf)设备、红外线(ir)设备、cb、结合一个或多个前述设备的集成设备、或几乎任何移动计算设备等无线通信介质连接的计算设备。在一些实施例中,成员设备102-104内的一个或多个成员设备可以是能够使用诸如pda、pocket pc、可穿戴计算机、膝上型电脑、平板电脑、台式计算机、上网本、视频游戏设备、寻呼机、智能电话、超移动个人计算机(umpc)和/或配备为通过有线和/或无线通信介质(例如,nfc、rfid、nbiot、3g、4g、5g、gsm、gprs、wifi、wimax、cdma、卫星、zigbee等)进行通信的任何其它设备的有线或无线通信介质进行连接的设备。在一些实施例中,成员设备102-104内的一个或多个成员设备可以包括可以运行一个或多个应用,诸如互联网浏览器、移动应用、语音呼叫、视频游戏、视频会议和电子邮件等。在一些实施例中,成员设备102-104内的一个或多个成员设备可以被配置为接收和发送网页等。在一些实施例中,本公开的示例性特别编程的浏览器应用可以被配置为接收和显示图形、文本、多媒体等,几乎采用任何基于web的语言,包括但不限于标准通用标记语言(smgl),诸如超文本标记语言(html)、无线应用协议(wap)、手持设备标记语言(hdml),诸如无线标记语言(wml)、wmlscript、xml、javascript等。在一些实施例中,成员设备102-104内的成员设备可以由java、.net、qt、c、c 和/或其它合适的编程语言特别编程。在一些实施例中,成员设备102-104内的一个或多个成员设备可以被特别编程包括或执行应用以执行各种可能的任务,诸如但不限于消息传递功能、浏览、搜索、播放、流传输或显示各种形式的内容,包括本地存储或上传的消息、图像和/或视频和/或游戏。
45.在一些实施例中,示例性网络105可以向耦合到它的任何计算设备提供网络访问、数据传输和/或其它服务。在一些实施例中,示例性网络105可以包括并实现至少一种专用网络体系架构,该网络体系架构可以至少部分地基于由例如但不限于全球移动通信系统(gsm)协会、互联网工程任务组(ietf)和全球微波接入互操作性(wimax)论坛设定的一种或多种标准。在一些实施例中,示例性网络105可以实现gsm体系架构、通用分组无线电服务(gprs)体系架构、通用移动电信系统(umts)体系架构以及被称为长期演进(lte)的umts演进中的一个或多个。在一些实施例中,示例性网络105可以包括和实现由wimax论坛定义的wimax体系架构作为替代方案或与上述中的一个或多个相结合。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性网络105还可以包括例如局域网(lan)、广域网(wan)、互联网、虚拟lan(vlan)、企业lan、第3层虚拟专用网(vpn)、企业ip网络或其任意组合中的至少一个。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,通过示例性网络105的至少一个计算机网络通信可以至少部分地基于多种通信模式,诸如但不限于:nfc、rfid、窄带物联网(nbiot)、zigbee、3g、4g、5g、gsm、gprs、wifi、wimax、cdma、卫星及其任意组合中的一种进行传输。在一些实施例中,示例性网络105还可以包括大容量存储装置,诸如网络附加存储装置(nas)、存储区域网络(san)、内容交付网络(cdn)或其它形式的计算机或机器可读介质。
46.在一些实施例中,示例性服务器106或示例性服务器107可以是运行网络操作系统的web服务器(或一系列服务器),其示例可以包括但不限于microsoft windows server、novell netware或linux。在一些实施例中,示例性服务器106或示例性服务器107可以用于和/或提供云和/或网络计算。虽然未在图1中示出,但在一些实施例中,示例性服务器106或示例性服务器107可以连接到外部系统,例如电子邮件、sms消息传递、文本消息传递、广告内容提供商等。示例性服务器106的任何特征也可以在示例性服务器107中实现,反之亦然。
47.在一些实施例中,示例性服务器106和107中的一个或多个可以被特别编程为在非限制性示例中执行为认证服务器、搜索服务器、电子邮件服务器、社交网络服务服务器、sms服务器、im服务器、mms服务器、交换服务器、照片共享服务服务器、广告提供服务器、金融/银行相关服务服务器、旅行服务服务器或任何类似的适合成员计算设备101-104的用户的基于服务的服务器。
48.在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,例如,一个或多个示例性计算成员设备102-104、示例性服务器106和/或示例性服务器107可以包括特别编程的软件模块,其可以被配置为使用脚本语言、远程过程调用、电子邮件、推文、短消息服务(sms)、多媒体消息服务(mms)、即时消息传递(im)、互联网中继聊天(irc)、mirc、jabber、应用编程接口、简单对象访问协议(soap)方法、通用对象请求代理体系架构(corba)、http(超文本传输协议)、rest(代表性状态转移)或其任意组合发送、处理和接收信息。
49.图2描绘了根据本公开的一个或多个实施例的另一个示例性的基于计算机的系统/平台200的框图。但是,实践一个或多个实施例可能不需要所有这些组件,并且可以在不脱离本公开的各种实施例的精神或范围的情况下对组件的布置和类型进行变化。在一些实施例中,所示的成员计算设备202a、202b至202n中的每一个至少包括计算机可读介质,诸如耦合到处理器210或闪存的随机存取存储器(ram)208。在一些实施例中,处理器210可以执行存储在存储器208中的计算机可执行程序指令。在一些实施例中,处理器210可以包括微
处理器、asic和/或状态机。在一些实施例中,处理器210可以包括介质或可以与介质通信,介质例如是计算机可读介质,其存储指令,该指令在由处理器210执行时,可以使处理器210执行本文所描述的一个或多个步骤。在一些实施例中,计算机可读介质的示例可以包括但不限于能够为诸如客户端202a的处理器210之类的处理器提供计算机可读指令的电子、光学、磁性或其它存储或传输设备。在一些实施例中,合适介质的其它示例可以包括但不限于软盘、cd-rom、dvd、磁盘、存储器芯片、rom、ram、asic、配置的处理器、所有光学介质、所有磁带或其它磁性介质,或计算机处理器可以从中读取指令的任何其它介质。此外,各种其它形式的计算机可读介质可以向计算机(包括路由器、专用或公共网络、或其它传输设备或信道)有线和无线地传输或携带指令。在一些实施例中,指令可以包括来自任何计算机编程语言(包括例如c、c 、visual basic、java、python、perl、javascript等)的代码。
50.在一些实施例中,成员计算设备202a至202n还可以包括多个外部或内部设备,诸如鼠标、cd-rom、dvd、物理或虚拟键盘、显示器或其它输入或输出设备。在一些实施例中,成员计算设备202a至202n(例如,客户端)的示例可以是连接到网络206的任何类型的基于处理器的平台,诸如但不限于,个人计算机、数字助理、个人数字助理、智能电话、寻呼机、数字平板电脑、膝上型计算机、互联网电器和其它基于处理器的设备。在一些实施例中,成员计算设备202a至202n可以根据本文详述的一个或多个原理/方法用一个或多个应用特别编程。在一些实施例中,成员计算设备202a至202n可以在能够支持浏览器或启用浏览器的应用的任何操作系统(诸如microsoft
tm
、windows
tm
和/或linux)上运行。在一些实施例中,所示的成员计算设备202a至202n可以包括例如执行浏览器应用(诸如microsoft公司的internet explorer
tm
、apple computer公司的safari
tm
、mozilla firefox和/或opera)的个人计算机。在一些实施例中,通过成员计算客户端设备202a至202n,用户212a至212n可以通过示例性网络206彼此通信和/或与耦合到网络206的其它系统和/或设备通信。如图2中所示,示例性服务器设备204和213也可以耦合到网络206。在一些实施例中,一个或多个成员计算设备202a至202n可以是移动客户端。
51.在一些实施例中,示例性数据库207和215中的至少一个数据库可以是任何类型的数据库,包括由数据库管理系统(dbms)管理的数据库。在一些实施例中,示例性dbms管理的数据库可以被特别编程为控制相应数据库中数据的组织、存储、管理和/或检索到的引擎。在一些实施例中,示例性dbms管理的数据库可以被特别编程为提供查询、备份和复制、实施规则、提供安全性、计算、执行更改和访问日志和/或自动化优化的能力。在一些实施例中,示例性dbms管理的数据库可以选自oracle数据库、ibm db2、adaptive server enterprise、filemaker、microsoft access、microsoft sql server、mysql、postgresql和nosql实现。在一些实施例中,示例性dbms管理的数据库可以被特别编程为根据本公开的特定数据库模型定义示例性dbms中每个数据库的每个相应模式,该数据库模型可以包括分层模型、网络模型、关系模型、对象模型,或一些其它合适的组织,其可以产生一个或多个可应用的数据结构,包括字段、记录、文件和/或对象。在一些实施例中,示例性dbms管理的数据库可以被特别编程为包括关于所存储的数据的元数据。
52.在一些实施例中,本公开的示例性发明性的基于计算机的系统/平台、示例性发明性的基于计算机的设备和/或示例性发明性的基于计算机的组件可以被特别配置为在云计算/体系架构中操作,诸如但不限于:基础设施即服务(iaas)、平台即服务(paas)和/或软件
即服务(saas)。图3和图4图示了云计算/(一个或多个)体系架构的示例性实施方式的示意图,其中本公开的示例性发明性的基于计算机的系统/平台、示例性发明性的基于计算机的设备和/或示例性发明性的基于计算机的组件可以被特别配置为操作。
53.在本发明的示例性的基于计算机的系统和/或设备的实施例中,动态离群值偏倚减少(dobr)可以用于提高特别用于基准研究的广义线性模型的准确度和理解。但是,它是一种可以应用于具有一个或多个自变量和一个因变量的各种分析模型的方法。本公开以及其中的实施例说明了dobr在提高机器学习模型预测的准确度方面的发明性应用。
54.在实施例中,dobr不是预测模型。替代地,在实施例中,它是预测或解释模型的附加(add-on)方法,其可以提高模型预测的准确度。在实施例中,dobr识别出的离群值基于数据提供的目标变量和模型计算值之间的差异。随着基于预先确定的选择标准离群值被识别,离群值相关数据记录和模型产生的因变量从分析中去除。在永久去除这些记录后,可以继续进一步分析。但是,在示例性发明性系统和方法的其它实施例中,在每次模型迭代中,离群值识别处理包括整个数据集,使得所有记录都使用如由其计算参数定义的最后一次迭代的预测模型进行离群值审查。因而,本发明的示例性实施例通过例如在每次迭代中包括整个数据集以减少训练数据的选择偏倚的传播来减少机器学习模型中的偏倚。因此,可以更准确、更高效地训练和实现机器学习模型,以改善机器学习系统的操作。
55.图5图示了根据本公开的一个或多个实施例的机器学习中的示例性发明性偏倚减少系统的框图。
56.在一些实施例中,偏倚减少系统300可以包括用于在由例如机器学习引擎分析的数据集中的动态离群值偏倚减少(dobr)的组件。在一些实施例中,dobr提供了迭代处理来去除服从预定义标准的离群值记录。这个条件是用户定义的误差接受值,以百分比表达。它是指用户愿意潜在地基于他们的见解和将在本讨论后面描述的其它分析结果在模型中接受多少误差。100%的值表示接受所有误差,并且在dobr处理中不会去除任何记录。如果选择0%,那么去除所有记录。一般而言,对于工业应用,已观察到在80%到95%范围内的误差接受值。
57.在一些实施例中,用户可以与偏倚减少系统300交互,以经由用户输入设备308管理误差接受值,并经由显示设备312查看结果,以及使用显示设备312和用户输入设备308的其它用户交互行为。基于误差接受值,偏倚减少系统300可以分析接收到数据库310或与偏倚减少系统300通信的其它存储装置中的数据集311。偏倚减少系统300可以经由数据库310或其它存储设备接收数据集311,并使用一个或多个具有动态离群值偏倚减少的机器学习模型进行预测,以提高准确度和效率。
58.在一些实施例中,偏倚减少系统300包括硬件和软件组件的组合,包括例如存储装置和存储器设备、高速缓存、缓冲器、总线、输入/输出(i/o)接口、处理器、控制器、联网和通信设备、操作系统、内核、设备驱动程序以及其它组件。在一些实施例中,处理器307与多个其它组件通信以实现其它组件的功能。在一些实施例中,每个组件在处理器307上调度用于执行组件功能的时间,但是在一些实施例中,每个组件被调度到处理器307的处理系统中的一个或多个处理器。在其它实施例中,每个组件都具有包含在其中的其自己的处理器。
59.在一些实施例中,偏倚减少系统300的组件可以包括例如与模型索引302和模型库303、回归器参数库305、分类器参数库304和dobr过滤器306,以及其它可能的组件通信的
dobr引擎301。每个组件可以包括硬件和软件的组合以实现组件功能,诸如,例如,存储器和存储设备、处理设备、通信设备、输入/输出(i/o)接口、控制器、联网和通信设备、操作系统、内核、设备驱动程序、指令集以及其它组件。
60.在一些实施例中,dobr引擎301包括用于实例化和执行机器学习模型的模型引擎。dobr引擎301可以通过使用模型索引302来访问模型库303中用于实例化的模型。例如,模型库303可以包括机器学习模型的库,其可以被选择性地访问和实例化以供诸如dobr引擎301之类的引擎使用。在一些实施例中,模型库303可以包括机器学习模型,诸如例如,支持向量机(svm)、线性回归器、套索模型、决策树回归器、决策树分类器、随机森林回归器、随机森林分类器、k邻居回归器、k邻居分类器、梯度提升回归器、梯度提升分类器,以及其它可能的分类器和回归器。例如,模型库303可以根据以下示例伪代码1导入模型:
61.伪代码1
62.[0063][0064]
但是,在一些实施例中,为了促进访问模型库303中的机器学习模型库,dobr引擎301可以采用模型索引302,该模型索引302将每个模型索引到模型标识符以由dobr引擎301作为函数使用。例如,包括例如线性回归、xgboost回归、支持向量回归、lasso、k邻居回归、bagging回归、梯度提升回归、随机森林回归、决策树回归以及其它回归模型和分类模型的模型可以通过数字标识符进行索引并用名称标记。例如,下面的伪代码2描绘了模型索引302使用的模型索引代码的示例。
[0065]
伪代码2
[0066]
[0067][0068]
预期模型库303和模型索引302的伪代码的其它实施例。在一些实施例中,软件指令被存储在相应模型库303或模型索引302的存储器内并且被缓冲在高速缓存中以提供给处理器307。在一些实施例中,dobr引擎301可以通过经由通信和/或i/o设备访问或调用索引来利用模型索引302,使用该索引经由通信和/或i/o设备从模型库303作为函数调用模型。
[0069]
在一些实施例中,为了促进由dobr引擎301调用的模型的优化和定制,偏倚减少系统300可以将模型参数记录在例如存储器或存储装置中,诸如例如硬盘驱动器、固态状态驱动器、随机存取存储器(ram)、闪存以及其它存储装置和存储器设备。例如,可以在回归器参数库305中记录和调整回归参数。因此,回归器参数库305可以包括配置有足够的存储器和带宽的存储和通信硬件,以例如实时地存储、调整和传送用于多个回归器的多个参数。例如,对于由dobr引擎301实例化的每个回归机器学习模型,可以在回归器参数库305中初始化和更新相应参数。在一些实施例中,用户可以经由用户输入设备308建立初始参数集合。但是,在一些实施例中,初始参数集合可以是预定的或随机生成的。在实例化回归机器学习模型时,dobr引擎301可以使如在模型索引302中识别出的模型与回归器参数库305中的参数集合相关。例如,dobr引擎301可以根据例如与给定回归模型相关联的标识(id)号调用参数集合。例如,回归器参数库305可以类似于下面的伪代码3识别每个回归模型的参数:
[0070]
伪代码3
[0071]
[0072]
[0073]
[0074]
[0075][0076]
类似地,在一些实施例中,分类器参数可以在分类器参数库304中被记录和调整。因此,分类器参数库304可以包括配置有足够的存储器和带宽的存储和通信硬件,以例如实时地存储、调整和传送用于多个回归器的多个参数。例如,对于由dobr引擎301实例化的每个分类机器学习模型,可以在回归器参数库305中初始化和更新相应参数。在一些实施例中,用户可以经由用户输入设备308建立初始参数集合。但是,在一些实施例中,可以预先确定初始参数集合。在实例化回归机器学习模型时,dobr引擎301可以使如在模型索引302中识别出的模型与回归器参数库305中的参数集合相关。例如,dobr引擎301可以根据例如与给定回归模型相关联的标识(id)号调用参数集合。例如,回归器参数库305可以类似于下面的伪代码4识别每个回归模型的参数:
[0077]
伪代码4
[0078]
[0079][0080]
在一些实施例中,通过经由模型索引302调用和接收来自模型库303的模型集合以及来自回归器参数库305和/或分类器参数库304的相应参数,dobr引擎301可以将一个或更多实例化和初始化模型加载到例如dobr引擎301的高速缓存或缓冲器中。在一些实施例中,然后可以将数据集311从数据库310加载到例如dobr引擎301的相同或不同的高速缓存或缓冲器或其它存储设备中。处理器307或dobr引擎301中的处理器然后可以执行每个模型以将数据集311变换成例如基于与活动相关的某些输入属性来表征活动的结果或参数的活动相关数据值的相应预测。例如,家庭和/或商业环境中的电器能源使用、各种应用和配方中的混凝土抗压强度、物体或图像识别、语音识别或其它机器学习应用。例如,dobr引擎301可以基于历史能量使用、一年中的时间、一天中的时间、位置等因素的数据集311对电器能量使用进行建模。dobr引擎301可以经由连接到dobr引擎301的总线的模型索引302从模型库303调用回归器集合。然后,dobr引擎301可以在连接到dobr引擎301的总线的回归器参数库305中调用与用于电器能量使用估计的回归器相关联的参数文件或日志。dobr引擎301然后可以利用处理器307基于模型和模型参数、时间和日期、位置或其它因素及其组合来预测未来能量消耗。
[0081]
类似地,例如,dobr引擎301可以基于混凝土材料、一年中的时间、一天中的时间、位置、湿度、固化时间、年龄等因素的数据集311对混凝土抗压强度进行建模。dobr引擎301可以经由连接到dobr引擎301的总线的模型索引302从模型库303调用回归器集合。dobr引擎301然后可以在连接到dobr引擎301的总线的回归器参数库305中调用与用于混凝土抗压强度估计的回归器相关联的参数文件或日志。dobr引擎301然后可以利用处理器307基于特定混凝土配方、时间和日期、位置或其它因素及其组合的模型和模型参数来预测未来的混凝土抗压强度。
[0082]
作为另一个示例,dobr引擎301可能正在基于话语和真实转录以及其它因素的数据集311执行语音识别。dobr引擎301可以基于连接到dobr引擎301的总线的模型索引302从模型库303调用分类器集合。然后,dobr引擎301可以在连接到dobr引擎301的总线的分类器参数库304中调用与用于语音识别的分类器相关联的参数文件或日志。dobr引擎301然后可以利用处理器307基于用于一个或多个话语集合的模型和模型参数来预测记录的语音数据的转录。
[0083]
作为另一个示例,dobr引擎301可以基于跨成像和/或可视化的多个渲染参数的设置的数据集311以及其它因素自动预测医学图像的渲染设置,如在美国专利no.10,339,695
中所描述的。dobr引擎301可以经由连接到dobr引擎301的总线的模型索引302从模型库303调用分类器集合。dobr引擎301然后可以在连接到dobr引擎301的总线的分类器参数库304中调用与用于渲染设置的分类器相关联的参数文件或日志。dobr引擎301然后可以利用处理器307基于用于一个或多个医学数据集集合的模型和模型参数来预测渲染设置数据。
[0084]
作为另一个示例,dobr引擎301可以基于机器控制命令结果的数据集311和机器控制命令的模拟结果以及其它因素来执行机器的机器人控制,如在美国专利no.10,317,854中所描述的。dobr引擎301可以经由连接到dobr引擎301的总线的模型索引302从模型库303调用回归模型集合。dobr引擎301然后可以在连接到dobr引擎301的总线的回归器参数库305中调用与用于机器人控制的回归模型相关联的参数文件或日志。dobr引擎301然后可以利用处理器307基于用于控制命令集合、环境信息、传感器数据和/或命令的模拟的模型和模型参数来预测特定控制命令的成功或失败。
[0085]
在一些实施例中,偏倚减少系统300可以在云环境中实现机器学习模型,例如,作为远程用户的云服务。此类云服务可以被设计为支持大量用户和各种算法和问题规模,包括上述那些,以及特定于用户用例的其它潜在模型、数据集和参数微调,如在美国专利no.10,452,992中所描述的。在一个实施例中,可以由实现偏倚减少系统300的服务定义多个编程接口(诸如,应用编程接口(api)),其引导非专家用户相对快地开始使用机器学习最佳实践,使用户不必花费大量时间和精力来微调模型,或者学习高级统计或人工智能技术。例如,这些接口可以允许非专家依赖用于构建、训练和使用机器学习模型的过程的各个方面的默认设置或参数,其中默认值是从分类器参数库304和/或回归器参数库305中用于个体用户的类似模型的一个或多个参数集合中导出的。默认设置或参数可以用作经由dobr引擎301和优化器306使用利用用户数据集的训练定制用户的机器学习模型的起点。同时,用户可以定制他们希望用于各种类型的机器学习任务的参数或设置,诸如输入记录处理、特征处理、模型构建、执行和评估。在至少一些实施例中,除了或代替使用实现各种类型机器学习任务的预定义库,云服务偏倚减少系统300可以例如通过向服务注册定制功能具有服务的可扩展内置能力。取决于实现此类定制模块或功能的客户端的业务需求或目标,这些模块在一些情况下可以与服务的其它用户共享,而在其它情况下,定制模块的使用可以仅限于其实现者/拥有者。
[0086]
在一些实施例中,无论是作为云服务、本地或远程系统还是在任何其它系统体系架构中实现,偏倚减少系统300都可以包括模型库303中的模型,这些模型使得能够实现机器学习模型训练和实现的集成方法,如在美国专利no.9,646,262中所描述的。这种方法对于使用电子活动数据的电子数据集进行数据分析的应用可能是有用的。在一些实施例中,数据库310可以包括一个或多个结构化或非结构化数据源。在某些实施例中,无监督学习模块被配置为例如在来自模型库303的模型集成中使用多种无监督学习技术将非结构化数据集组装成有组织的数据集。例如,无监督学习模块被配置为将非结构化数据集组装成有组织数据集的多个版本,而在某些实施例中,监督学习模块被配置为基于有组织的数据集的多个版本中的每个版本生成一个或多个机器学习集成,并在使用dobr引擎301和优化器306训练每个集成中的每个模型之后,根据例如模型误差来确定哪个机器学习集成表现出最高的预测性能。
[0087]
用于控制硬件以基于数据集311进行预测的dobr引擎301指令的示例在下面的伪
代码5中描绘:
[0088]
伪代码5
[0089]
[0090]
[0091]
[0092]
[0093]
[0094]
[0095][0096]
但是,在一些实施例中,数据集311中的离群值可能会降低所实现模型的准确度,从而增加训练迭代以在给定应用中为给定模型实现准确的参数集合的次数。为了提高准确度和效率,dobr引擎301可以包括dobr过滤器301b以动态测试数据集中的数据点误差以确定离群值。因此,可以去除离群值以提供更准确或更具代表性的数据集311。在一些实施例中,dobr过滤器301b可以提供迭代机制,用于去除服从预定义标准(例如,上述并且例如由用户经由用户输入设备308提供的用户定义的误差接受值)的离群值数据点。在一些实施例中,用户定义的误差接受值表达为百分比,其中,例如,100%的值表示所有误差都被接受并且过滤器301b不会去除任何数据点,而例如0%的值导致所有数据点都被去除。在一些实施例中,过滤器301b可以被配置为具有在例如大约80%和大约95%之间的范围内的误差接受值。例如,过滤器301b可以被配置为执行如下伪代码6中描绘的功能:
[0097]
伪代码6
[0098]
[0099][0100]
在一些实施例中,dobr过滤器301b与优化器306结合工作,优化器306被配置为确定误差并优化回归器参数库305和分类器参数库304中每个模型的参数。因此,在一些实施例中,优化器306可以确定模型并将误差传送给dobr引擎301的过滤器301b。因此,在一些实施例中,优化器306可以包括例如具有足够存储器容量和带宽的存储装置和/或存储器设备以及通信设备,以接收数据集311并对预测进行建模并确定例如离群值、收敛、误差、绝对值误差,以及其它误差度量。例如,优化器306以被配置为执行如下伪代码7中描绘的功能:
[0101]
伪代码7
[0102]
[0103]
[0104][0105]
在一些实施例中,偏倚减少系统300然后由于减少了否则会使预测产生偏倚的离群值,因此可以经由例如显示器312将机器学习模型预测、离群值分析、预测收敛以及由dobr引擎产生的其它数据以更准确和高效的方式返回给用户301。
[0106]
图6图示了根据本公开的一个或多个实施例的示例性发明性方法的流程图。
[0107]
dobr,诸如上述dobr引擎301和过滤器301b,提供了迭代处理来去除服从预定义标准的离群值记录。这个条件是用户定义的误差接受值,以百分比表达。它是指用户愿意潜在地基于他们的见解和将在本讨论后面描述的其它分析结果在模型中接受多少误差。100%的值表示接受所有误差,并且在dobr处理中不会去除任何记录。如果选择0%,那么去除所有记录。一般而言,对于工业应用,已观察到在80%到95%范围内的误差接受值。
[0108]
但是,在一些实施例中,还应该注意的是,如果数据集不包含离群值,那么dobr不提供任何值。但在实际情况下,分析师在使用数据集之前很少具备这些知识。如本讨论稍后将展示的,dobr方法的实施例还可以确定表示模型离群值的数据集的百分比。此预分析步骤可以帮助设置正确的误差接受值或究竟是否存在离群值。
[0109]
以下步骤概述了应用于完整数据集的基本dobr方法。
[0110]
预分析:在实施例中,首先我们选择误差接受标准,比如我们选择

=80%。(如何从数据中确定该值将在解释dobr方法后演示)。然后根据例如下面的等式1定义误差接受标准c(

):
[0111]
等式1c(

)=f(y
pred
,y
tar
),
[0112]
其中

是误差接受标准,c是误差接受标准的函数,f()是比较函数,y是数据记录的值,y
pred
是预测值,并且y
tar
是目标值。
[0113]
其它函数关系可以用于设置c(α),但百分位函数是理解模型为何包含或排除某些数据记录的直观指南,诸如下面的等式2:
[0114]
等式2
[0115]
其中p

是百分位函数,i是记录条目的索引,并且m是记录条目的数量。
[0116]
由于dobr过程是迭代的,因此在实施例中,我们还定义了收敛标准,在此讨论中该收敛标准被设置在0.5%。
[0117]
在实施例中,给定数据集{x,y
tar
}404、解模型m408和误差接受标准

424,可以实现dobr以减少训练模型m408的偏倚。在一些实施例中,解模型408由模型引擎实现,包括例如处理设备和存储器和/或存储设备。根据实施例,示例性方法根据例如下面的等式3为将解模型m408应用于完整输入数据集{x,y
tar
}404的所有记录计算模型系数m(c)402和模型估计{y
pred
}410:
[0118]
等式3{y
pred
}0,m(c0)=m{x,y
tar
},
[0119]
其中0表示初始状态,并且x是指输入记录。
[0120]
然后,根据说明性实施例,总误差函数418根据例如下面的等式4计算初始模型总误差e0:
[0121]
等式4=||{y
pred
}0,{y
tar
}||,
[0122]
其中e0是初始模型总误差,并且0表示初始值。
[0123]
然后,根据说明性实施例,误差函数412根据例如下面的等式5计算模型误差:
[0124]
等式5
[0125]
其中e是预测的记录误差,并且k表示记录选择的迭代。
[0126]
然后,根据说明性实施例,误差函数412根据例如下面的等式6计算新的数据记录选择向量{ik}:
[0127]
等式6
[0128]
其中i是记录选择向量。
[0129]
然后,根据说明性实施例,数据记录选择器414根据例如下面的等式7通过仅选择记录选择向量等于1的记录来计算要包括在模型计算中的非离群值数据记录:
[0130]
等式7
[0131]
其中in是索引,其引用包括作为非离群值的记录的dobr集合。
[0132]
然后,根据说明性实施例,具有最新系数402的模型408根据例如下面的等式8从dobr选择的数据记录416计算新的预测值420和模型系数402:
[0133]
等式8
[0134]
然后,根据说明性实施例,使用新模型系数的模型408为完整数据集计算新预测值420。该步骤再现了在正式步骤中为dobr选择的记录计算预测值420,但在实践中,新模型可以根据例如下面的等式9仅应用于dobr去除的记录:
[0135]
等式9{y
pred
}
k 1
=m{c
k 1
,x}.
[0136]
然后,根据说明性实施例,总误差函数418根据例如下面的等式10计算模型总误差:
[0137]
等式10
[0138]
其中是目标输出。
[0139]
然后,根据说明性实施例,收敛测试424根据例如下面的等式11测试模型收敛:
[0140]
等式11
[0141]
其中β是收敛标准422,诸如,例如0.5%。
[0142]
在一些实施例中,如果例如百分比误差小于例如0.5%,那么收敛测试424可以终止迭代处理。否则,该处理可以返回到初始数据集404。然后可以执行上述每个步骤并且重新测试收敛标准422。重复该处理直到收敛测试424低于收敛标准424。
[0143]
图7是图示根据本公开的一个或多个实施例的具有减小的偏倚的另一个示例性基于计算机的机器学习模型的模型误差和误差接受标准之间的关系的示例的图。
[0144]
由于

是dobr的输入参数,并且模型结果可以基于所选择的值而变化,因此在实施例中,记录基于数据的过程以证明使用哪个值是重要的。在开发和应用dobr的实践应用中,它的选择(尚)没有理论基础。但是,在实践中,模型误差与

的关系图可能会产生其中减少离群值的明显影响的斜率变化。图1示出了根据本发明的实施例的与发电基准相关的非线性回归402计算的该图。
[0145]
在实施例中,该曲线的一般形状是预先确定的,即它总是以

=100%时的最大误差开始,并且当

=0%时,模型误差为零。在图7中,注意曲线斜率在

=85%附近变化。并且对于所有较小的

值,斜率几乎是恒定的。此时斜率的变化表明模型的可变性在去除数据记录方面没有变化,或者换句话说,在这些误差接受水平上不存在离群值。高于

=85%时,至少有两个斜率明显斜率变化,这表明某些数据集部分包含模型中未考虑的行为或现象。这种视觉测试可以帮助设置适当的误差接受水平,并且还可以确定究竟是否需要dobr。如果图7中线的斜率没有变化,那么模型可以令人满意地解释观察到的数据的可变性。没有模型离群值并且不需要应用dobr。
[0146]
在将特定百分比的附加可变性添加到数据集的模拟研究中,类似图6的曲线示出了初始陡峭的斜率线,该斜率线在编程到模拟中的误差接受值附近与较小值斜率相交。但是,在实践中,当观察到离群值时,通常会逐渐过渡到恒定斜率,这表明不止一种类型的可变性在模型中没有被考虑。
[0147]
计算适当的误差接受值是使用dobr的必要部分,并且它还直观地示出了离群值对模型结果影响的量和严重程度。这个步骤记录了

的选择,并且如果与离群值数据的模型预测值相比,离群值影响被判断为最小,那么可以证明不使用dobr是合理的。
[0148]
在一些实施例中,

和模型误差与

值可以用作用于识别特定场景的最佳性能模型或模型集成的度量。由于不同数据集的线性度可能不同,因此数据和模型的确切

值可能会改变模型的性能。因此,作为误差接受水平的函数的模型误差可以用于通过具有指示对数据可变性的或多或少的容忍度的模型误差以便形成准确的预测来确定给定模型在多大程度上可以解释数据的可变性。例如,模型预测的精度和准确度可以通过选择例如对于高误差接受值表现出例如低模型误差的模型和/或模型参数以选择对离群值数据更容忍的模型来进行微调。
[0149]
在一些实施例中,模型选择可以通过采用例如基于规则的编程和/或机器学习模型来根据模型误差和误差接受标准的平衡识别数据集的最佳执行模型来自动化。因此,可以自动选择模型来最佳地考虑数据集中的离群值。例如,可以针对一个或多个误差接受值跨模型比较模型误差,具有最低模型误差的模型被自动选择来生成预测。
[0150]
因此,根据本公开的各方面的dobr机器学习技术提供了更有效的模型训练,以及对单个数据集的数据和模型行为的改进的可见性。因此,在诸如人工智能、数据分析、商业智能以及其它领域,机器学习模型可以更有效且高效地对各种类型的数据进行试验。然后可以更高效地评估模型性能以确定应用和数据类型的最佳模型。例如,人工智能应用可以通过使用针对产生的智能类型的dobr选择和训练的模型来改进。类似地,商业智能和数据分析,以及其它应用,诸如物理行为预测、内容推荐、资源使用预测、自然语言处理和其它机
器学习应用,可以通过使用dobr基于离群值特性和响应于离群值的模型误差来微调模型参数和选择模型进行改进。
[0151]
图8是图示根据本公开的一个或多个实施例的具有减小的偏倚的另一个示例性基于计算机的机器学习模型的模型误差和误差接受标准之间的关系示例的图表。
[0152]
作为数据集上的dobr实施例的示例,我们使用从加州大学欧文分校(universityofcalifornia-irvine’s)的机器学习数据储存库下载的混凝土抗压强度数据集504。该数据集包含1030个观测值、记录或实例,具有8个自变量。前七项描述了混凝土成分,年龄以天为单位给出:水泥量、高效减水剂、高炉渣、粗骨料、粉煤灰、细骨料、水和年龄。
[0153]
输出变量是以兆帕(mpa)为单位测量的混凝土抗压强度。作为比较,1mpa≈145psi。线性回归模型根据例如下面的等式12构建:
[0154]
等式12
[0155]
其中ai是由线性回归模型计算的系数,xi是8个变量的观测值,并且i是变量索引。
[0156]
图8是通过运行线性回归模型504作为dobr误差接受百分比

从100%到60%的函数而构建的。从

=100%到大约

=95%,模型误差迅速下降,如回归506所示,然后作为α函数的误差减少以略低的速率下降,直到

=85%。从此时起,

以恒定速率下降,如回归508所示。误差开始以恒定速率减小的点是模型计算中忽略了模型离群值影响的地方。在这种情况下,选择点是

=85%。
[0157]
在实施例中,dobr然后被修改线性回归模型重新运行

=92.5%以确定拟合非离群值数据的最佳模型。图9和图10显示了使用完整数据集512(图9)和dobr版本(图10)的这些计算的结果,其中离群值被识别并从计算中去除。用红叉标记的离群值516是从非离群值模型计算的。这两个图用分别图9和图10的对角线510和514显示了实际与预测的目标值,描绘了相等性。完整数据集计算(图9)显示了离群值如何影响结果。dobr修改图(图10)显示用对角线514平分非离群值518以及可能需要进一步研究的明显离群值数据点组516来去除偏倚。
[0158]
图9是图示根据本公开的一个或多个实施例的具有减少的偏倚的基线基于计算机的机器学习模型的抗压强度和预测抗压强度之间的关系示例的图表。
[0159]
图10是图示根据本公开的一个或多个实施例的具有减少的偏倚的另一个示例性基于计算机的机器学习模型的抗压强度和预测抗压强度之间的关系示例的图表。
[0160]
离群值的识别以及它们有时在上述类型的图中形成的模式对于dobr方法在工业应用中的附加益处是有用的。离群值可以形成其它方法根本无法观察到的模式或组。该信息是通过简单地将dobr与分析师提供的模型一起使用来创建的。不需要附加的信息或假设。在实践中,dobr定义的离群值集合可以提供有用的信息来改进、提供见解或验证基础模型。
[0161]
图11是根据本公开的一个或多个实施例的用于利用dobr进行机器学习预测的另一个示例性基于计算机的系统的框图。
[0162]
在本发明的实施例中,机器学习过程从数据集开始,该数据集由n个独立变量和m个长度记录以及目标变量数组(m
×
1)组成。在实施例中,为了训练机器学习模型,数据集根据例如下面的等式13被分成两个随机选择的预定大小的子集:一个用于训练模
型,另一个用于测试其预测准确度:
[0163]
等式13
[0164]
其中是数据集的自变量的子集,并且是数据集的自变量的子集。
[0165]
对于本次讨论,的70%/30%拆分用于训练(n个记录)和测试(j个记录)(例如,70%的记录是训练的并且30%的记录是测试的),但是可以采用任何合适的拆分,诸如例如50%/50%、60%/40%、80%/20%、90%/10%、95%/5%,或其它合适的训练/测试拆分。使用训练的机器学习模型l通过计算预测目标变量集合{y
pred
}来进行测试,如例如下面的等式14中所表达的:
[0166]
等式14
[0167]
在说明性实施例中,模型准确度然后被测量为标准(norm),例如它可以具有例如以下形式:
[0168]
等式15
[0169]
在说明性实施例中,在训练和测试环境中,我们可以直接测量离群值,因为我们同时拥有输入和输出变量。一般而言,模型预测中的离群值{y
pred
},诸如与实际目标变量值的偏差大,是由于模型l无法将特定输入值变换成已知目标变量附近的预测值。这些记录的输入数据包含模型无法映射到如由目标变量给出的现实的因素和/或现象的影响。将这些记录保留在数据集中可能会使结果产生偏倚,因为模型系数是在所有数据记录都同样有效的假设下计算的。
[0170]
在一些实施例中,上述例如参考上面的图6的dobr处理适用于给定的数据集,其中分析人员期望通过去除对结果产生不利偏倚的离群值来拟合数据的最佳模型。它通过将模型解限制为已去除离群值的初始数据集的子集来提高模型的预测准确度。在说明性实施例中,dobr辅助解决方案具有两个输出结果:
[0171]
a)模型描述数据的x值集合、模型参数和模型解,以及
[0172]
b)模型未描述数据的x值集合、模型参数和模型解。
[0173]
因此,除了为受限数据集计算更准确的模型外,在实施例中,dobr还提供了可以相对于给定模型进一步研究以理解高模型预测误差的原因的离群值数据集。
[0174]
在本节前面所示的机器学习框架的说明性实施例中,预测模型是根据训练数据计算的,并且该模型单独用于测试阶段。由于通过设计,测试阶段可能不使用目标值来确定离群值,因此上面参考图6描述的dobr方法可能不适用。但是,dobr方法的示例性方面可能没有在上面使用:如前面提到的dobr输出结果所建议的离群值-非离群值分类能力。
[0175]
为了描述本发明的实施例的机器学习应用中的dobr,可以将数据集分为两个随机选择的部分:一个用于训练,一个用于测试。在训练阶段,自变量和目标变量都被保留,但在测试中,目标变量是隐藏的,并且自变量用于预测目标变量。已知的目标变量值仅用于测量模型的预测误差。
[0176]
在实施例中,给定具有n个记录的训练数据集{x,y
tar
}
train
604、机器学习模型l608和误差接受标准

622,可以实现dobr以减少训练机器学习模型l608的偏倚。在一些实施例中,机器学习模型l608由模型引擎实现,包括例如处理设备和存储器和/或存储设备。根据实施例,示例性方法模型根据例如下面的等式16为将机器学习模型l608应用于完整输入数据集{x,y
tar
}
train
604的所有记录估计{y
train
}606:
[0177]
等式16{y
pred
}0=l{(x,y)
train
,x
train
},
[0178]
其中0指示初始状态,并且x是指输入记录。
[0179]
然后,根据说明性实施例,总误差函数618根据例如下面的等式17计算初始模型总误差e0:
[0180]
等式17e0=||{y
pred
}0,{y
train
}||,
[0181]
其中e0是初始模型总误差。
[0182]
然后,根据说明性实施例,误差函数612根据例如下面的等式18计算模型误差:
[0183]
等式18
[0184]
其中e是预测的记录误差,并且k表示迭代。
[0185]
然后,根据说明性实施例,误差函数612根据例如下面的等式19计算新数据记录选择向量:
[0186]
等式19
[0187]
其中i是记录选择向量。
[0188]
然后,根据说明性实施例,数据记录选择器614根据例如下面的等式20通过仅选择记录选择向量等于1的记录来计算要包括在模型计算中的非离群值数据记录:
[0189]
等式20
[0190]
其中in是索引,其引用包括作为非离群值的记录的dobr集合。
[0191]
然后,根据说明性实施例,具有最新系数602的机器学习模块608根据例如下面的等式21使用dobr选择的数据记录来计算完整训练集604的新预测值620:
[0192]
等式21
[0193]
然后,根据说明性实施例,总误差函数618根据例如下面的等式22计算模型总误差:
[0194]
等式22
[0195]
然后,根据说明性实施例,收敛测试624根据例如下面的等式23测试模型收敛:
[0196]
等式23
[0197]
其中β是收敛标准622,诸如例如0.5%。
[0198]
在一些实施例中,如果例如百分比误差小于例如0.5%,那么收敛测试624可以终止迭代处理。否则,该处理可以返回到训练数据集604。
[0199]
在一些实施例中,dobr迭代处理测量模型可以预测自身的程度,而不是测量其相对于测试数据集的准确度。这里的目标是测试模型预测目标变量的能力,具有大偏差的记录被系统地去除,以提高模型关注数据预测相对好的大部分数据的能力。该处理必须在同一数据集上完成。如果在测试集中识别出离群值,那么从训练集中去除记录没有任何意义。该处理是dobr方法的基础,因为在计算了新模型(新模型参数)后重新输入在先前迭代中去除的记录。该处理要求使用相同的数据集。
[0200]
在实施例中,在定义了学习模型之后执行该迭代过程。基于要解决的问题,在实施例中,用户选择机器学习算法,然后确定“微调”或配置模型的具体超参数。可以使用标准技术(诸如交叉验证)或简单地通过将测试误差绘制为特定的用户提供的参数范围的函数来选择这些参数。使用的特定值可以优化预测准确度与计算时间,同时确保模型既不欠拟合也不过拟合。有几个强大的工具可以帮助完成这个处理,但用户体验和直觉也是选择最佳模型超参数的宝贵益处。下面讨论的示例中使用了特定模型和相关联的超参数。
[0201]
误差接受与模型误差图是通过应用误差接受值序列并制表或绘制结果来从这个步骤计算的。这些图识别数据集中因为其误差贡献略大于适合模型的数据记录的误差贡献而作为离群值的部分。同样在实践中,这些图可以显示模型未解释的不止一种类型的变化。斜率可以随着它收敛到模型的斜率而变化。这些变化可以帮助研究模型无法解释的附加数据编码行为的性质。可以识别占据不同斜率区间的记录,并且对它们的进一步调查可以提供有助于构建更稳健模型的见解。
[0202]
在实施例中,在训练时,如上所述,已经计算了两个模型:
[0203]
模型1
[0204]
{y
ref
}=l{(x,y)
train
,x
test
},
[0205]
其中{y
ref
}是参考模型,用作测量准确度改进的基础;以及模型2
[0206]
{y
base
}=l{(x,y)
in
,x
test
},
[0207]
其中{y
base
}是dobr基础模型,由收敛的离群值审查记录构建,并在非离群值数据(x,y)
in
上进行训练。
[0208]
在实施例中,与模型1和模型2相关联的误差例如分别是ε
r:f
=||{y
ref
},{y
test
}||和ε
base
=‖{y
base
},{y
test
}‖。
[0209]
因此,在实施例中,基础模型{y
base
}表明它可能是非离群值记录的更好预测器。但是,测试数据集是未经审查的,包含非离群值和离群值。因此,不确定对未经审查的测试数据应用非离群值、定制的模型是否将产生比{y
ref
}更好的预测模型。但是,在许多情况下,可以观察到ε
base
在统计上等于或大于ε
ref

[0210]
在目标是为给定数据集计算最佳预测模型的非机器学习应用中,从选定(非离群值)记录计算的dobr模型始终会产生较低的模型误差,因为识别出的离群值记录被省略。在没有离群值的极限情况下,dobr模型误差等于总模型误差,因为数据集是相同的。
[0211]
但是,在机器学习应用中,目标可能是使用可用数据的子集(训练)开发模型,然后在另一个子集(测试)上测量其预测准确度。但是,在一些实施例中,dobr方法在计算模型参数之前在每次迭代中去除模型离群值。在机器学习模型开发中,这可以在训练阶段完成,但根据定义,测试中的目标值只能用于测量模型的预测准确度,而没有离群值的高级知识。这一观察意味着标准dobr方法可以利用在训练阶段计算的更多dobr模型信息进行泛化。
[0212]
图11是根据本公开的一个或多个实施例的用于机器学习的具有减少的偏倚的另一个示例性基于计算机的系统的框图。
[0213]
在实施例中,在训练时,如上所述,产生以下信息:dobr为非离群值选择的训练数据集值(x,y)
in
、dobr为非离群值训练的数据选择向量{i
in
}、dobr为非离群值选择的训练数据集值(x,y)
out
,以及dobr为离群值训练的数据选择向量{1-i
in
}。
[0214]
在实施例中,dobr将训练数据分类为两个互斥的子集。此外,我们还有对应的选择向量,其例如根据下面的等式24为训练数据集中的每个记录提供二进制:(非离群值或离群值)分类值:
[0215]
等式24(x,y)
in
&(x,y)
out
,where:(x,y)
train
=(x,y)
in
(x,y)
out
andi
train
=i
in
i
out
.。
[0216]
在实施例中,训练数据属性的完整集合x
train
和dobr产生的分类{i
train
}用于构建/训练例如存储在模型库303中的分类器机器学习模型c。该模型应用于测试数据集x
test
,以基于训练数据集dobr建立的知识将测试数据记录分类为离群值或非离群值。例如,分类器机器学习模型c根据下面的等式25实现:
[0217]
等式25{ic}=c[(i
train
,x
train
),x
test
]。
[0218]
因此,在实施例中,{ic}分别产生两个测试预测数据集;和其中或者0。上述信息创建了几个可能的“完整数据集”预测模型,用于分析测试数据集。在一些实施例中,对整个数据集显示出最大预测改进的三个模型是:
[0219]
模型3
[0220][0221]
模型4
[0222][0223]
模型5
[0224][0225]
在一些实施例中,对于{y1},机器学习模型608由非离群值数据(x,y)
in
定义,并应用于dobr测试分类数据以预测非离群值测试值。对离群值数据执行相同的过程。在实施例中,这种组合的目的是使用最精确的预测模型及其对应的数据集。换句话说,该模型测试了分别应用于使用dobr分类定义的其相应数据集的非离群值和离群值模型的整体预测准确度。
[0226]
在一些实施例中,对于{y2},机器学习模型l608由训练数据(x,y)
train
定义,并且还应用于dobr测试分类数据该模型使用l(x,y)
train
的广泛知识来预测dobr定义的离群值和非离群值x值的目标值。该模型的目的是测试单独应用于dobr分类的非离群值和
离群值数据集的完整训练模型的预测准确度。
[0227]
在一些实施例中,第三个模型{y3}是联接前两种方法的预测特性的混合模型。这个模型测试将l(x,y)
train
(在总训练上训练的模型608)与l(x,y)
out
(在将应用于其相应分类的数据集的训练集中的离群值进行分类的dobr上训练的特定模型)联接的预测益处(如果有的话)。还存在可以在进一步研究中探索的附加混合模型。
[0228]
在这三个模型和其它实施例中的每一个中,使用dobr分类的非离群值和离群值记录来预测完整的测试数据集。dobr方法提高机器学习模型整体预测准确度的能力使用这些模型进行测试。但dobr的主要益处是识别模型离群值、将其去除,并根据剩余的非离群值计算最佳模型预测器。并且根据定义,dobr定义的离群值是包含在给定使用的机器学习模型的当前变量(或特征)中未充分描述的变化的记录。
[0229]
在一些实施例中,通过计算出的离群值和非离群值数据集,分析人员具有三个选项。在实施例中,第一个选项是应用基础模型{y
ref
},并且不应用dobr。当风险接受与模型误差曲线接近线性关系时,这是数据驱动的策略。在实施例中,第二个选项是应用一个或多个模型:{y1},{y2}或{y3},并组合例如平均结果。在实施例中,第三个选项是仅针对非离群值记录开发预测,并进一步研究离群值数据以开发针对该专门的新数据集的建模策略—例如,更改机器学习模型或添加变量以考虑无法解释的变化,等等。
[0230]
关于选项3,有几种方法计算非离群值数据集,这里提到了两种可能的选择。相对大量可能性的一个原因可能是由于许多应用的机器学习模型的非线性。一般而言,{ic}*l[(x,y)
train
,x
test
]≠l[(x,y)
train
,{ic}*x
test
]。这种不相等可能是由于许多机器学习模型的复杂性造成的。例如,等式适用于线性回归,但不是机器学习模型的一般规则。
[0231]
在实施例中,关于非离群值预测,dobr方法最初并未设计用于改进对完整数据集的预测。通过设计,该方法基于提供的模型和数据集收敛到最佳离群值集合。剩余的数据和模型计算提供了提高的准确度,但没有关于如何对离群值进行预测的指导。隐含的决定是将不同的模型应用于离群值数据集,其反映了非离群值模型中不存在的独特数据变化。
[0232]
在实施例中,定义了两个模型来测试非离群值预测准确度—从分析中去除离群值。选择非离群值数据集的第一选择根据例如下面的模型6将dobr分类向量{ic}应用到参考模型{y
ref
}:
[0233]
模型6
[0234]
{y4}={ic}*l[(x,y)
train
,x
test
]={ic}*{y
ref
}.
[0235]
在实施例中,参考模型利用完整的训练数据定义模型来根据数据集x
test
进行预测。然后基于从训练数据集中获得的dobr方法的知识,应用分类向量以去除预测的离群值。该模型将dobr应用于最一般或最广泛的域模型。
[0236]
在实施例中,第二模型根据例如下面的模型7通过根据非离群值训练数据使用从训练阶段创建的dobr模型以最窄或“精确”的方式将dobr应用到仅由分类模型选择的记录:
[0237]
模型7
[0238][0239]
还有其它可以从本研究中开发的分析公式形成的模型,并且取决于问题,它们可以具有显著的可预测性改进潜力。但是,这里使用的模型{y4}和{y5}是极限情况,表示训练
域利用率和模型定义方面最广泛和最窄的版本。
[0240]
在实施例中,为了测试上面定义的dobr开发模型(诸如,模型3-模型7)的预测准确度,我们使用{y
ref
}作为模型{y1},{y2}和{y3}(分别为模型3、模型4和模型5)的比较基础。对于{y4}和{y5}(分别为模型6和模型7),非离群值数据集的模型预测,比较基础是{ic}*y
test
。因此,在实施例中,可以根据例如下面的等式26、等式27和等式28来确定误差:
[0241]
等式27其中=数据集的长度,
[0242]
等式28其中
[0243]
等式29其中
[0244]
在说明性实施例的以下示例中,dobr的预测准确度的测量通过多少(如果有的话)来衡量的,ε1,ε2,和/或ε3小于ε
ref
。对于非离群值数据集误差ε4和ε5,改进的测量是误差相对于离群值调整的基础误差ε
ref
的减少。下面针对示例结果描述调整。
[0245]
在示例性发明性dobr改进的机器学习示例的一些实施例中,可以使用七个机器学习回归模型来测试先前定义的五个模型的准确度:线性回归、k最近邻、lasso、支持向量、决策树、装袋和随机森林。这些机器学习回归模型是广泛的模型构造的示例。还设想了附加或替代模型,诸如神经网络、聚类、集成模型等及其组合。
[0246]
线性回归是一种方法,其可以让分析人员了解系数(或模型参数)可以具有技术/处理相关含义的处理。分析人员必须提供由方程表示的处理模型,并且通过最小化预测的和数据提供的目标值之间的误差来确定系数。
[0247]
lasso是“最小绝对收缩和选择算子”的缩写,是一种回归相关方法,其中附加项被添加到目标函数。该项是回归系数的绝对值之和,并且根据用户提供的参数被最小化。这个附加项的目的是针对增加变量(或特征)系数值添加惩罚。最小化仅保留主要系数,并且可以有助于减少变量(或特征)协方差或共线性的难以解释的影响。
[0248]
决策树回归可以模仿人类思维,并且直观且易于解释。该模型选择决策树构造,该构造在逻辑上显示x值如何产生目标变量。分析人员在训练/测试机器学习练习中设置具体参数,比如每个叶子的最大深度和最小样本。
[0249]
随机森林回归建立在决策树方法上。就像森林是由树组成的一样,随机森林回归模型是由决策树组组成的。分析人员通过提供估计量(森林中的树数量)、与决策树最大树深度类似的一些参数、叶子特性以及与如何计算和应用模型误差相关的技术参数来定义森林结构。
[0250]
k-nn是指k最近邻方法,其中预测值是根据x(或特征)域中的k最近邻计算的。选择测量距离的度量和要使用的最近邻的具体数量是分析人员在微调模型以对给定数据集进行预测时设置的主要参数。这是一种简单直接的方法,可以很好地用于回归和分类预测。
[0251]
支持向量回归是一种通用的机器学习方法,它有几种变体。回归意味着将模型拟合到数据,并且优化通常是最小化预测变量和目标变量之间的误差。使用支持向量回归,误差标准被泛化为比如如果误差小于某个值“ε”,那么我们说“接近就足够好”并且只有大于“ε”的误差才被测量和优化。除了这个属性之外,该方法还允许将数据变换成具有标准或在一些情况下用户定义的变换函数或内核的非线性域。在目标是计算稳健的预测—而不是按照传统的回归精神对数据进行建模的情况下,使用多维数据结构。
[0252]
装袋回归通过利用替换抽取随机子集来计算预测估计。每个随机样本都会计算目标变量的决策树(默认情况下)预测。最终的集成预测值可以通过几种方式计算—平均值是一个示例。主要的机器学习变量是每个集成中估计器的数量、变量(或特征)的数量和为训练每个估计器而抽取的样本数量,以及选择/替换指南。与决策树回归等其它方法相比,该方法可以减少方差。
[0253]
分类器模型c[(i
training
,x
train
),x
test
]是说明性示例,因为它应用于dobr非离群值/离群值分类和训练集x值以定义测试数据集中的非离群值和离群值。这是dobr机器学习应用中的关键步骤,因为它将离群值的知识从训练集中转移到测试或生产数据集。如果存在不正确的分类,那么dobr方法在提高机器学习预测准确度方面的效用就无法实现。
[0254]
对决策树、k-nn、随机森林和装袋分类器模型的分类准确度进行了测试。选择了装袋和随机森林模型,并对这两个模型进行了微调,以产生非离群值的正确误差接受分数。更详细的分类分析可以建议其它模型。即使分类准确度至关重要,但广泛的分类器分析超出了此初步讨论的范围。
[0255]
图12是图示根据本公开的一个或多个实施例的用于预测混凝土强度的具有减小的偏倚的一些示例性基于计算机的机器学习模型的模型误差和误差接受标准之间的关系示例的图表。
[0256]
第一示例使用与上述参考混凝土抗压强度相同的数据集,其中dobr应用于完整的数据集。作为简短回顾,该数据集包含混凝土抗压强度作为如由8个定量输入变量定义的其组成和暴露的函数。该数据集有1,030个记录或实例,并且可以在加州大学欧文分校机器学习储存库档案中找到。
[0257]
机器学习训练练习将此数据集划分为70%:30%的拆分,其中模型微调在训练数据集(70%)上执行,并且预测结果用测试数据集(30%)测量。
[0258]
七种机器学习模型在混凝土抗压强度预测中的模型微调结果在下面的表1中给出。
[0259]
表1
[0260]
线性回归fit_intercept=false,normalize=false套索alpha=4,fit_intercept=false决策树回归器max_depth=6,min_samples_split=2随机森林回归器n_estimators=3,min_samples_leaf=30k-邻居回归器n_neighbors=3svrc=10,gamma=0.0005,kernel=’rbf’装袋回归器n_estimators=25,max_samples=35
[0261]
未显示默认模型参数(例如,对于python 3.6),因为它们不会将信息添加到结果中。在实施例中,微调处理是使用均方误差作为指标来选择最小化训练和测试数据集误差的参数的练习。可以应用更复杂的算法,但使用简单的方法只是为了确保结果不会过拟合或欠拟合任何数据集误差。
[0262]
在实施例中,为了应用dobr,执行确定误差过大的数据的百分比(如果有的话)。在实施例中,机器学习模型被应用于记录对应模型误差的误差接受分数序列。这仅针对训练数据集完成,因为测试数据集仅用于测量机器学习模型的预测准确度。模型中包含的数据百分比“误差接受”是指用户愿意接受的总模型误差量,也指示模型充分描述的数据部分。
[0263]
在实施例中,误差接受百分比序列的范围从100%到60%,增量为2。
[0264]
图13是图示根据本公开的一个或多个实施例的用于预测能源使用的具有减小的偏倚的一些示例性基于计算机的机器学习模型的模型误差和误差接受标准之间的关系示例的图表。
[0265]
第二个示例包含电器能源使用数据以及家庭环境和照明条件,每10分钟采样一次,持续4.5个月。它由29个属性组成:28个输入变量和1个输出(目标变量)以及19,735个记录:数据集和文档可以在加州大学欧文分校机器学习储存库档案中找到。
[0266]
与上述类似,在实施例中,在电器能源使用预测中针对七个机器学习模型的模型微调结果在下面的表2中给出。
[0267]
表2
[0268]
线性回归fit_intercept=false,normalize=falselassoalpha=4,fit_intercept=false,max_iter=100000,tol=0.01决策树回归器max_depth=22,min_samples_leaf=2随机森林回归器n_estimators=6k-邻居回归器n_neighbors=9svrc=1000,gamma=0.001,kernel=’rbf’装袋回归器n_estimators=20,max_samples=15
[0269]
在实施例中,未显示默认模型参数(例如,对于python 3.6),因为它们没有将信息添加到结果。微调处理是使用均方误差作为指标来选择最小化训练和测试数据集误差的参数的练习。可以应用更复杂的算法,但使用了简单的方法只是为了确保结果不会过拟合或欠拟合任何数据集误差。
[0270]
在实施例中,为了应用dobr,执行确定误差过大的数据的百分比(如果有的话)。在实施例中,机器学习模型被应用于记录相应模型误差的误差接受分数序列。这仅针对训练数据集完成,因为测试数据集仅用于测量机器学习模型的预测准确度。模型中包含的数据百分比“误差接受”是指用户愿意接受的总模型误差量,也指示模型充分描述的数据部分。
[0271]
在实施例中,误差接受百分比序列的范围从100%到60%,增量为2。
[0272]
图12和图13部分地示出了机器学习模型适应高变化数据的能力。线越接近线性(直的),模型充分描述转换为更少离群值(如果有的话)的数据的能力就越大。应用于具体数据的几个模型的线性行为表明它们几乎可以完全充分地描述整个训练数据集。能源数据集结果的非线性表明,存在显著比例的数据记录,其中模型产生不准确的预测或离群值。
[0273]
根据本发明的实施例,对于上述包括例如线性回归530、lasso 540、决策树回归522、随机森林回归528、k-邻居回归524、支持向量回归(svr)520和装袋回归526的混凝土数据图中,以及上述包括例如线性回归730、lasso 740、决策树回归722、随机森林回归728、k-邻居回归724、支持向量回归(svr)720,以及装袋回归726的能源使用数据图中的每条曲线,由低误差接受百分比定义的直线可以外推以确定离群值部分开始处的误差接受值。这个处
理可以是自动化的,但在实践中,它可以手动执行,以确保所选择的误差接受值反映分析人员的判断。
[0274]
外推练习和误差接受百分比选择是相对简单的处理,但它具有非常重要的含义。它指示所提出的模型与数据多好地拟合。误差接受值补码是离群值的数据集百分比,即,模型未能做出相对准确预测的记录的百分比。这是为给定数据集和实际应用选择机器学习(或任何模型)的重要信息。表3表示为两个示例数据集的每种模式选择的误差接受值。
[0275]
表3
[0276] 混凝土压缩电器能源使用线性回归80%84%lasso80%84%决策树94%90%随机森林90%90%k-最近邻88%84%支持向量94%84%装袋92%84%
[0277]
在实施例中,仅将dobr选择的值的预测准确度与参考模型进行比较。这是dobr的基本效用,因为该方法本身不提供任何关于提高完整数据集预测准确度的特定信息。因此,dobr分析为分析人员提供了潜在的权衡:对部分数据集具有更好的预测能力,但没有为离群值记录提供信息。本节解决的问题是,与对应的参考模型测试数据预测相比,dobr选择的结果在多大程度上(如果有的话)更准确。
[0278]
为完整数据集计算参考误差。用于与非离群值数据集比较的调整参考误差值是通过将完整参考误差乘以误差接受值来计算的。例如,如果参考误差为10.0,并且误差接受值为80%,那么调整后的参考误差为10x80%或8.0。该解释利用了“误差接受”的定义。例如,如果非离群值数据是根据80%的数据计算的,那么总误差的80%仍应保留在非离群值数据中。这是误差接受定义。
[0279]
测量dobr选择的非离群值的预测准确度性能的结果呈现在下面的表4和表5中,分别对应于例如混凝土强度数据集和能量数据集。参考误差是通过将实际误差接受百分比乘以||{y
ref
},{y
test
}||的点估计来计算的。随机森林分类器没有应用于混凝土数据集,因为它被判断不会改变关于dobr预测准确度提高的结论。
[0280]
对于以下所有统计数据,结果显示来自100个随机试验选择的训练和测试数据子集的平均值
±
95%置信区间。在下表中的一些示例中,支持向量结果是通过较少的迭代(5或10次)计算出来的,用于管理计算时间问题。
[0281]
表4
[0282][0283]
表5
[0284][0285]
表4显示,使用dobr选择的记录,即使有任何预测改进,也很少。这个结果并不令人惊讶,事实上,这是基于图12中所示的误差接受与模型误差曲线的形状而预期的。
[0286]
同样如预期那样,基于图13,表5指示从装袋和随机森林分类器的参考模型值中dobr选择的预测有相当大的改进,分别参见下面的图14a和图14b。dobr模型显示最大改进表明在模型学习之前去除离群值的再加上dobr分类提供了比仅将dobr分类用于完整(非dobr)模型更好的结果。模型之间改进结果的差异显示模型选
择是重要的。虽然这个决定由分析人员做出,但通过模型比较预测准确度是有意义的。模型运行时间和几个其它因素也是重要的,本研究并非被设计为或旨在建议一个模型优于另一个模型的可行性。
[0287]
表5的结论是明确且具有统计意义。考虑到离群值偏倚的可能性,如比如图13的图中所示,与使用没有dobr的机器学习模型相比,使用具有dobr方法的机器学习模型可以为非离群值记录提供更好的预测准确度。因此,包括具有dobr的机器学习模型的示例性发明性计算系统在进行预测时具有改进的准确度和减少的误差,从而提高了实现模型的性能和效率。但这种改进可能要付出一定的代价:对于识别出的离群值,可能没有预测值或考虑。在实施例中,如何对离群值记录建模可以基于应用而变化。
[0288]
表6示出了使用装袋分类器对混凝土抗压强度数据集进行训练/测试采样的预测准确度结果。随机森林分类器未应用于该数据集。该表显示了训练和测试数据集的100个随机选择的测试数据和每个模型之间的95%置信水平的均方根误差(参见公式15)。
[0289]
表6
[0290] ||{y
ref
},{y
test
}||||{y1},{y
test
}||||{y2},{y
test
}||||{y3},{y
test
}||线性回归10.49
±
0.079.2
±
0.110.13
±
0.089.58
±
0.08lasso10.51
±
0.079.2
±
0.110.25
±
0.089.53
±
0.09决策树7.89
±
0.107.9
±
0.17.84
±
0.117.98
±
0.09随机森林9.04
±
0.109.04
±
0.109.26
±
0.129.40
±
0.09k最近邻9.26
±
0.109.6
±
0.19.06
±
0.099.83
±
0.11支持向量9.84
±
0.1110.6
±
0.210.09
±
0.1110.32
±
0.11装袋9.02
±
0.109.3
±
0.18.82
±
0.129.44
±
0.11
[0291]
线性回归和lasso产生最大的基础或参考模型误差。但是,{y1}模型产生的预测准确度在统计上与除决策树之外的所有其它模型相同。在这种情况下,决策树模型产生最好的预测准确度,并且除了线性回归和lasso之外的所有模型似乎都没有随着dobr的添加而提高。
[0292]
表7示出了dobr模型相对于参考模型的预测准确度在每种情况下针对例如dobr模型:装袋分类器的混凝土抗压强度预测准确度性能的增加( )或减少(-)。
[0293]
表7
[0294][0295]
这些结果并不令人惊讶,因为线性回归和lasso的模型误差与误差接受曲线是具有最大非线性的图,并且其它曲线几乎是直线,表明这些模型充分预测了目标变量,并且不
需要离群值分析。并且这就是表7中传达的消息。关于预测的混凝土抗压强度的模型输出在本文附加的附录a中给出。
[0296]
现在查看表8中的能耗预测误差结果,存在不同的情况,涉及例如装袋和随机森林分类器的电器能耗预测误差。装袋、线性回归和lasso模型具有最大的参考预测误差,并且随机森林模型具有最小的参考预测误差。右三列中的dobr模型误差表明,在许多情况下,dobr模型产生的预测准确度高于参考模型。
[0297]
表8
[0298][0299][0300]
值得注意的是,装袋参考模型具有最大的参考误差值,但其dobr增强模型结果通常与其它模型处于相同的统计范围内。同样出于实际原因,支持向量模型仅运行了10次迭代。这解释了其模型结果的不确定性增加。
[0301]
详细的改进结果在与例如dobr模型的电器能耗预测准确度性能相关的表9中所示。注意的是,对于大多数机器学习模型,至少有一个dobr模型产生一些预测准确度提高。但是,也存在相对大的差异,因此没有关于dobr产生的可预测性改进的结论性结果。从能量数据的模型误差与误差接受曲线来看,所有图都显示了随机森林和决策树模型具有最小曲率的非线性行为。而且看起来模型,特别是随机森林,可以基于这里显示的结果充分对这种变化建模。关于预测能源使用的模型输出在本文附加的附录b中给出。
[0302]
表9
[0303][0304][0305]
图14a和图14b图示了根据本公开的一个或多个实施例的根据具有dobr分类器的发明性示例性基于计算机的系统的示例性实施例的分类器模型中的非离群值和离群值分布的图。
[0306]
混凝土数据集相对小,因此数据图可以提供视觉洞察力,但由于dobr在这种情况下几乎没有价值,因此绘制此数据集并不能提高我们对dobr如何工作的理解。但是,对于能源数据集预测,dobr确实产生一些显著的预测改进。但其相对大的尺寸(13,814个训练记录,5,921个测试记录)使得直接的散点图可视化难以解释。带有大量点的散点图(如图9和图10)可能会掩盖任何细节。表3中给出的误差改进结果是对非离群值数据集的总和,但问题仍然是dobr方法和分类模型如何产生这些结果。
[0307]
在实施例中,为了解决这个问题,可以分析两个模型表示的误差分布:离群值和非离群值数据集的{y4}随机森林分类器(图14a)和{y5}装袋分类器(图14b)。在实施例中,非离群值误差设计上应小于离群值误差,但示例性发明性dobr模型和分类处理仅由训练数据构建,因此测试数据集可以包含先前未见的信息。因此,模型和分类计算可能不精确,并且分类误差的程度可以在这些图中可视化。这项工作是针对线性和装袋回归模型执行的,因为这两种方法分别具有表5中给出的最大和最小的改进益处。
[0308]
为了讨论,参考误差值在图14a和图14b的两个图中都突出显示。顶部的一组箭头表明80%的非离群值误差值小于1,000,这表示20%的误差值》1,000。这组较低的箭头还表明,对于离群值分布,大约20%的离群值的误差《1,000或80%的误差》1,000

这应该表示离
群值误差。如果不预先了解误差接受百分比值,我们就无法精确计算分类处理的准确度,但上图确实表明,即使发生误差分类,大多数值仍被正确分类。
[0309]
图15图示了根据本公开的一个或多个实施例的针对发明性示例性基于计算机的系统的示例性实施例的示例用例的作为误差接受值的函数的模型误差的图,该系统具有dobr训练的机器学习模型,用于预测钻井中的非生产时间。
[0310]
海上钻井作业包含石油和天然气行业的独特挑战。除了来自天气和海洋深度的可观察到的后勤和环境风险外,在高温、压力和振动环境下作业还存在隐藏的井下风险。钻井时间安排很紧并且由于井下装备故障(非生产时间或npt)导致的延迟会造成巨大收入损失。
[0311]
为了帮助管理npt,构造了机器学习模型来帮助预测未来的停机时间事件,以便将这些估计的延迟纳入设定钻井目标的合同条款中。查看历史事件,包括:钻孔距离[英尺]、孔尺寸[英寸]、工具尺寸[英寸]、位置压力严重程度、最大狗腿(dog leg)[度/100英尺]、振动严重程度类别、曲率类别和npt(hr)。
[0312]
将线性、xgboost、梯度提升和随机森林回归模型应用于井下装备故障数据,以80/20的训练/测试拆分来测量模型预测准确度。hyperband用于微调模型和相关参数值,如下表10中所示:
[0313]
表10
[0314][0315]
将dobr计算的离群值信息传输到测试数据集的分类函数可以选择为随机森林模型,其中估计器的数量例如等于5。这个微调活动也是在分析的训练部分中完成的。参数选择的度量是计算训练集中正确分类元素的百分比,并将其与模型的误差接受值进行比较。
[0316]
线性回归包含在此分析中,因为它是其中系数可以提供工程洞察力以帮助识别附加的最佳实践细化的唯一的模型。从预测的角度来看,其它模型更稳健,但提供的洞察力很少。
[0317]
如本规范中所讨论的,有几个与dobr相关的模型可以构造基本的dobr处理。在这个示例中,给出了三个模型:m表示给定的超调模型。
[0318]
使用dobr选择训练和测试数据集的内值和离群值:
[0319]
伪代码8
[0320][0321]
其中data_xin_scrub和data_yin_scrub是从训练集计算的dobr内值,data_xout_scrub和data_yout_scrub是从训练集计算的dobr离群值,dobr_model_testin和dobr_
model_testout分别是从dobr分类模型计算的测试数据集内值和离群值,basemodel_yin,basemodel_yout是使用dobr分类模型分类为内值和离群值的非dobr计算模型结果,并且i为dobr定义的内值将basemodel值分配给basemodel_yin,并且为dobr定义的离群值将basemodel分配给basemodel_yin。
[0322]
从这些子集中,三个dobr模型是:
[0323]
a.dobr_model#1=[dobr_model
testin
,dobr_model
testout
]
[0324]
b.dobr_model#2=[basemodel
yin
,dobr_model
testout
]
[0325]
c.dobr_model#3=[dobr_model
testin
,basemodel
yout
]
[0326]
运行上述超调模型的误差接受百分比与模型误差曲线产生如图15中所示的曲线。这些曲线的重要特性是它们的曲率—而不是它们本身的误差值。一般而言,给定曲线在域(0,100%)上的斜率越线性,离群值的影响越小。对于海上井下装备故障数据,曲线呈现线性,误差接受率约为80%,然后出现各种非线性斜率。在将斜率分析为误差接受值的函数时,下表(表11)显示了确dobr分析的定的误差接受阈值。
[0327]
表11
[0328]
回归模型应用的误差接受%线性85.0xgboost85.0梯度提升85.0随机森林85.0
[0329]
所有模型都使用计算的超参数并且分配的误差接受值运行。关于预测npt的模型输出在本文附加的附录c中给出,并且误差结果在下表12中列出:
[0330]
表12
[0331][0332]
现在我们有了非dobr模型以及三个dobr模型,我们可以选择在生产中使用哪个模型来进行未来预测。总之,线性模型提供最低的预测准确度,并且dobr模型#1或#2提供最好的预测准确度。此时,分析人员可以平衡这些准确度数据与其它实际考虑因素,例如,计算时间以选择模型来应用于未来预测。
[0333]
虽然使用dobr来训练和实现机器学习模型以用于预测混凝土压缩应变和预测能量的结果,但也可以预期其它应用。
[0334]
例如,图像渲染和可视化可以利用机器学习模型来自动预测和实现基于例如医学数据的渲染参数,如在美国专利no.10,339,695中所述。dobr可以用于训练和实现基于内容的渲染的机器学习模型。表示患者的三维区域的医学数据集可以用作输入数据。使用dobr,可以从训练医学数据集中去除离群值,使得可以根据上述dobr技术在非离群值数据上训练机器学习模型。机器学习模型通过对来自训练医学数据集的非离群值数据的深度学习进行
训练,以从医学数据集中提取特征,并基于医学数据集的输入输出两个或更多个基于物理的渲染参数的值。在一些实施例中,基于物理的渲染参数是用于一致的数据处理、照明设计、观看设计、材料专有性或内部渲染器属性的控制。基于物理的渲染器使用应用产生的输出值渲染患者三维区域的逼真图像。
[0335]
在用于训练和实现机器学习模型的dobr的另一个示例应用中,可以使用上述dobr技术训练机器学习模型,以生成用于机器输出控制命令的控制命令,如在美国专利no.10,317,854中所描述的。在这样的示例中,模拟器可以基于控制命令来执行机器的工作操作的模拟。模拟器可以通过基于控制命令模拟机器的物理动作来生成用于训练机器学习模型的完整数据集。这样的数据集可以使用dobr迭代进行处理,以确保在训练模型参数(包括工作操作数据、控制命令数据和用作每次模拟输入的机器数据)时去除任何离群值模拟。
[0336]
在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性dobr机器学习模型可以至少部分地基于计算算法的蒙特卡罗方法(例如,solovay-strassen类型算法、baillie-psw类型算法、miller-rabin类型算法和/或schreier-sims类型算法),其可以考虑期望的非离群值数据的历史质量数据。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性dobr机器学习模型可以通过例如但不限于将至少一种机器学习技术(诸如,但不限于,决策树、提升、支持向量机、神经网络、最近邻算法、朴素贝叶斯、装袋、随机森林等)应用于收集的和/或编译的传感器数据(例如,关于环境和/或货物的物理/视觉外观的各种类型的视觉数据)进行连续训练。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性神经网络技术可以是但不限于前馈神经网络、径向基函数网络、递归神经网络、卷积网络(例如,u-net)或其它合适的网络。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,神经网络的示例性实现可以如下执行:
[0337]
i)定义神经网络体系架构/模型,
[0338]
ii)将输入数据传输到示例性神经网络模型,
[0339]
iii)递增训练示例性模型,
[0340]
iv)确定特定数量的时间步长的准确性,
[0341]
v)应用示例性经训练的模型来处理新接收到的输入数据,
[0342]
vi)可选地并且并行地,以预定的周期性继续训练示例性经训练的模型。
[0343]
在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性经训练的神经网络模型可以至少通过神经网络拓扑、一系列激活函数和连接权重来指定神经网络。例如,神经网络的拓扑可以包括神经网络的节点的配置以及这些节点之间的连接。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性经训练的神经网络模型也可以被指定为包括其它参数,包括但不限于偏倚值/函数和/或聚合函数。例如,节点的激活函数可以是阶跃函数、正弦函数、连续或分段线性函数、sigmoid函数、双曲正切函数或表示节点被激活的阈值的其它类型的数学函数。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性聚合函数可以是将输入信号与节点组合(例如,总和、乘积等)的数学函数。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性聚合函数的输出可以用作示例性激活函数的输入。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,偏倚可以是可由聚合函数和/或激活函数使用的恒定值或函数,以使节点或多或少可被激活。
[0344]
在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,用于示例性神经网络中的每个连接的示例性连接数据可以包括节点对或连接权重中的至少一个。例如,如果示例性神经网络包括从节点n1到节点n2的连接,则用于连接的示例性连接数据可以包括节点对《n1,n2》。在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,连接权重可以是影响在n2处输入之前是否修改和/或如何修改n1的输出的数值量。在循环网络的示例中,节点可以具有与其自身的连接(例如,连接数据可以包括节点对《n1,n1》)。
[0345]
在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,示例性经训练的神经网络模型还可以包括种类标识符(id)和适应度(fitness)数据。例如,每个种类id可以指示模型被分类在多个种类(例如,货物损失类别)中的哪个。例如,适应度数据可以指示示例性经训练的神经网络模型对输入感官数据集进行建模的程度如何。例如,适应度数据可以包括基于对模型的适应度函数的评估而确定的适应度值。例如,示例性适应度函数可以是基于通过在输入感官数据集上测试示例性经训练的神经网络模型而产生的误差的频率和/或误差的量级的目标函数。作为简单的示例,假设输入感官数据集包括十行,输入感官数据集包括表示为a和b的两列,并且示例性经训练的神经网络模型在给定输入值a的情况下将输出b的预测值。在该示例中,测试示例性经训练的神经网络模型可以包括从输入传感器数据集输入a的十个值中的每一个、将b的预测值与来自输入传感器数据集的b的对应实际值进行比较,并确定b的两个预测值和实际值是否不同和/或相差多少。为了说明,如果特定的神经网络在十行中的九行正确地预测了b值,则示例性适应度函数可以为相应的模型分配适应度值9/10=0.9。应该理解的是,先前的示例仅用于说明,而不应被认为是限制性的。在一些实施例中,示例性适应度函数可以基于与误差频率或误差率无关的因子,诸如输入节点的数量、节点层、隐藏层、连接、计算复杂度等。
[0346]
在一些实施例中,并且可选地,结合上文或下文描述的任何实施例,本公开可以利用以下至少之一的几个方面:
[0347]
美国专利系列号8195484,标题为insurance product,rating system and method;
[0348]
美国专利系列号8548833,标题为insurance product,rating system and method;
[0349]
美国专利系列号8554588,标题为insurance product,rating system and method;
[0350]
美国专利系列号8554589,标题为insurance product,rating system and method;
[0351]
美国专利系列号8595036,标题为insurance product,rating system and method;
[0352]
美国专利系列号8676610,标题为insurance product,rating system and method;
[0353]
美国专利系列号8719059,标题为insurance product,rating system and method;
[0354]
美国专利系列号8812331,标题为insurance product,rating and credit enhancement system and method for insuring project savings。
[0355]
现在将参考以下编号的条款描述本公开的至少一些方面:
[0356]
条款1.一种方法,包括:
[0357]
由至少一个处理器接收表示至少一个用户活动的至少一个活动相关属性的目标变量的训练数据集;
[0358]
由所述至少一个处理器接收用于确定一个或多个离群值的至少一个偏倚标准;
[0359]
由所述至少一个处理器确定机器学习模型的模型参数集合,包括:
[0360]
(1)由所述至少一个处理器将具有初始模型参数集合的机器学习模型应用于训练数据集以确定模型预测值集合;
[0361]
(2)由所述至少一个处理器通过将模型预测值集合与训练数据集的对应实际值进行比较来生成数据元素误差的误差集合;
[0362]
(3)由所述至少一个处理器生成数据选择向量,以至少部分地基于数据元素误差的误差集合和至少一个偏倚标准来识别非离群值目标变量;
[0363]
(4)由所述至少一个处理器在训练数据集上利用数据选择向量来生成非离群值数据集;
[0364]
(5)由所述至少一个处理器基于非离群值数据集确定机器学习模型的更新后的模型参数集合;以及
[0365]
(6)由所述至少一个处理器重复步骤(1)-(5)作为迭代,直到满足至少一个审查性能终止标准,从而获得机器学习模型的模型参数集合作为更新模型参数,由此每次迭代使用更新后的模型参数集合作为初始模型参数集合重新生成预测值集合、误差集合、数据选择向量和非离群值数据集;
[0366]
由所述至少一个处理器至少部分地基于训练数据集和数据选择向量来训练离群值分类器机器学习模型的分类器模型参数集合,以获得被配置为识别至少一个离群值数据元素的经训练的离群值分类器机器学习模型;
[0367]
由所述至少一个处理器将经训练的离群值分类器机器学习模型应用于至少一个用户活动的活动相关数据的数据集,以确定:
[0368]
i)活动相关数据的数据集中的离群值活动相关数据集合,以及
[0369]
ii)活动相关数据的数据集中的非离群值活动相关数据集合;以及
[0370]
由所述至少一个处理器将机器学习模型应用于非离群值活动相关数据元素集合,以预测与至少一个用户活动相关的未来活动相关属性。
[0371]
条款2.一种系统,包括:
[0372]
与具有存储在其上的软件指令的非暂态计算机可读存储介质通信的至少一个处理器,其中所述软件指令在被执行时使至少一个处理器执行以下步骤:
[0373]
接收表示至少一个用户活动的至少一个活动相关属性的目标变量的训练数据集;
[0374]
接收用于确定一个或多个离群值的至少一个偏倚标准;
[0375]
确定机器学习模型的模型参数集合,包括:
[0376]
(1)将具有初始模型参数集合的机器学习模型应用于训练数据集以确定模型预测值集合;
[0377]
(2)通过将模型预测值集合与训练数据集的对应实际值进行比较,生成数据元素误差的误差集合;
[0378]
(3)至少部分地基于数据元素误差的误差集合和至少一个偏倚标准生成数据选择向量以识别非离群值目标变量;
[0379]
(4)在训练数据集上利用数据选择向量来生成非离群值数据集;
[0380]
(5)基于非离群值数据集确定机器学习模型的更新后的模型参数集合;以及
[0381]
(6)重复步骤(1)-(5)作为迭代,直到满足至少一个审查性能终止标准,从而获得机器学习模型的模型参数集合作为更新后的模型参数,由此每次迭代使用更新后的模型参数集合作为初始模型参数集合重新生成预测值集合、误差集合、数据选择向量和非离群值数据集;
[0382]
至少部分地基于训练数据集和数据选择向量来训练离群值分类器机器学习模型的分类器模型参数集合以获得被配置为识别至少一个离群值数据元素的经训练的离群值分类器机器学习模型;
[0383]
将经训练的离群值分类器机器学习模型应用于至少一个用户活动的活动相关数据的数据集,以确定:
[0384]
i)活动相关数据的数据集中的离群值活动相关数据集合,以及
[0385]
ii)活动相关数据的数据集中的非离群值活动相关数据集合;以及
[0386]
将机器学习模型应用于非离群值活动相关数据元素集合,以预测与至少一个用户活动相关的未来活动相关属性。
[0387]
条款3.条款1和/或2的系统和方法,还包括:
[0388]
由所述至少一个处理器将数据选择向量应用于训练数据集以确定离群值训练数据集;
[0389]
由所述至少一个处理器使用离群值训练数据集训练至少一个特定于离群值的机器学习模型的至少一个特定于离群值的模型参数以预测离群值数据值;以及
[0390]
由所述至少一个处理器利用特定于离群值的机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值。
[0391]
条款4.条款1和/或2的系统和方法,还包括:
[0392]
由所述至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;
[0393]
由所述至少一个处理器利用广义机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值;以及
[0394]
由所述至少一个处理器利用广义机器学习模型来预测活动相关数据值。
[0395]
条款5.条款1和/或2的系统和方法,还包括:
[0396]
由所述至少一个处理器将数据选择向量应用于训练数据集以确定离群值训练数据集;
[0397]
由所述至少一个处理器使用离群值训练数据集训练特定于离群值的机器学习模型的特定于离群值的模型参数以预测离群值数据值;
[0398]
由所述至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;
[0399]
由所述至少一个处理器利用特定于离群值的机器学习模型来预测离群值活动相关数据集的离群值活动相关数据值;以及
[0400]
由所述至少一个处理器利用特定于离群值的机器学习模型来预测活动相关数据值。
[0401]
条款6.条款1和/或2的系统和方法,还包括:
[0402]
由所述至少一个处理器使用训练数据集训练广义机器学习模型的广义模型参数以预测数据值;
[0403]
由所述至少一个处理器利用广义机器学习模型来预测活动相关数据集合的活动相关数据值;
[0404]
由所述至少一个处理器利用离群值分类器机器学习模型来识别活动相关数据值的离群值活动相关数据值;以及
[0405]
由所述至少一个处理器去除离群值活动相关数据值。
[0406]
条款7.条款1和/或2的系统和方法,其中训练数据集包括作为混凝土成分和混凝土固化暴露的函数的混凝土抗压强度的至少一个活动相关属性。
[0407]
条款8.条款1和/或2的系统和方法,其中训练数据集包括作为家庭环境条件和照明条件的函数的能量使用数据的至少一个活动相关属性。
[0408]
条款9.条款1和/或2的系统和方法,还包括:
[0409]
由所述至少一个处理器接收应用编程接口(api)请求以生成具有至少一个数据元素的预测;以及
[0410]
由所述至少一个处理器实例化至少一个云计算资源以调度机器学习模型的执行;
[0411]
由所述至少一个处理器根据执行的调度利用机器学习模型来预测至少一个数据元素的至少一个活动相关的数据元素值;以及
[0412]
由所述至少一个处理器将至少一个活动相关的数据元素值返回到与api请求相关联的计算设备。
[0413]
条款10.条款1和/或2的系统和方法,其中训练数据集包括医学数据集的三维患者图像的至少一个活动相关属性;以及
[0414]
其中机器学习模型被配置为基于医学数据集预测包括两个或更多个基于物理的渲染参数的活动相关数据值。
[0415]
条款11.条款1和/或2的系统和方法,其中训练数据集包括电子机器命令的模拟控制结果的至少一个活动相关属性;以及
[0416]
其中机器学习模型被配置为预测包括用于电子机器的控制命令的活动相关数据值。
[0417]
条款12.条款1和/或2的系统和方法,还包括:
[0418]
由所述至少一个处理器将活动相关数据集合分成多个活动相关数据子集;
[0419]
由所述至少一个处理器为多个活动相关数据子集中的每个活动相关数据子集确定集成模型;
[0420]
其中机器学习模型包括模型的集成;
[0421]
其中每个集成模型包括来自模型的集成的模型的随机组合;
[0422]
由所述至少一个处理器单独利用每个集成模型来预测特定于集成的活动相关数据值;
[0423]
由所述至少一个处理器基于特定于集成的活动相关数据值和已知值确定每个集
成模型的误差;以及
[0424]
由所述至少一个处理器基于最低误差选择性能最高的集成模型。
[0425]
虽然已经描述了本公开的一个或多个实施例,但是应该理解的是,这些实施例仅是说明性的,而不是限制性的,并且许多修改对于本领域普通技术人员来说是显而易见的,包括本文描述的发明性方法、发明性系统/平台和发明性设备的各种实施例可以相互任意组合使用。此外,可以以任何期望的顺序执行各个步骤(并且可以添加任何期望的步骤和/或可以消除任何期望的步骤)。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献