一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

生成用于机器学习模型的训练数据的制作方法

2022-06-01 21:00:37 来源:中国专利 TAG:

生成用于机器学习模型的训练数据
1.相关申请的交叉引用
2.本技术要求于2019年9月6日提交的题为《生成用于机器学习模型的训练数据》(“generating training data for machine-learning models”)的美国专利申请号16/562,972的优先权和权益。


背景技术:

3.机器学习模型通常需要大量数据来训练,以做出关于新数据的准确的预测、分类或推断。当数据集不足够大时,机器学习模型可能被训练为做出不正确的推断。例如,小数据集可能导致机器学习模型对可用数据的过适。这可能导致机器学习模型由于省略了较小数据集中特定类型的记录而偏向特定结果。作为另一示例,通过增加机器学习模型的性能的方差,小数据集中的异常数可能不成比例地影响机器学习模型的性能。
4.不幸地,足够大的数据集合并不总是可以容易地用于训练机器学习模型。例如,跟踪罕有发生的事件的发生可能由于缺少事件的发生而导致小数据集。作为另一示例,与小群体大小相关的数据可能由于有限数量的成员而导致小数据集。


技术实现要素:

5.公开了一种系统,包括:计算设备,所述计算设备包括处理器和存储器;训练数据集,所述训练数据集存储在所述存储器中,所述训练数据集包括多个记录;以及第一机器学习模型,所述第一机器学习模型存储在所述存储器中,当由所述处理器执行时,所述第一机器学习模型使所述计算设备至少:分析所述训练数据集,以识别所述多个记录的共同特点或所述多个记录之间的相似处;并且至少部分地基于所识别的所述多个记录的共同特点或所述多个记录之间的相似处而生成新记录;以及第二机器学习模型,所述第二机器学习模型存储在所述存储器中,当由所述处理器执行时,所述第二机器学习模型使所述计算设备至少:分析所述训练数据集,以识别所述多个记录的共同特点或所述多个记录之间的相似处;评估由所述第一机器学习模型生成的新纪录,以确定所述新纪录是否无法与所述训练数据集中的所述多个记录区分;至少部分地基于所述新纪录的评估而更新所述第一机器学习模型;并且至少部分地基于所述新纪录的评估而更新所述第二机器学习模型。在所述系统的一些实施方案中,所述第一机器学习模型使所述计算设备生成多个新记录;并且所述系统还包括存储在所述存储器中的第三机器学习模型,所述第三机器学习模型使用由所述第一机器学习模型生成的多个新记录来训练。在所述系统的一些实施方案中,响应于确定所述第二机器学习模型不能在由所述第一机器学习模型生成的新纪录与所述训练数据集中的所述多个记录中的各个记录之间进行区分,生成所述多个新记录。在所述系统的一些实施方案中,从由概率密度函数(pdf)定义的样本空间中的预定数量的点的随机样本生成所述多个新记录,所述概率密度函数由所述第一机器学习模型识别。在所述系统的一些实施方案中,所述第一机器学习模型重复地生成所述新记录,直到所述第二机器学习模型不能以预定比率区分所述新记录与所述训练数据集中的所述多个记录。在所述系统的一些实
施方案中,当相同大小的新记录被创建时,所述预定比率是百分之五十。在所述系统的一些实施方案中,所述第一机器学习模型和所述第二机器学习模型是神经网络。在所述系统的一些实施方案中,所述第一机器学习模型使所述计算设备生成所述新记录至少两次,并且所述第二机器学习模型使所述计算设备评估所述新记录至少两次、更新所述第一机器学习模型至少两次、并且更新所述第二机器学习模型至少两次。
6.公开了一种计算机实施的方法的各种实施方案,包括:分析多个原始记录,以识别概率分布函数(pdf),其中,pdf包括样本空间,并且所述样本空间包括所述多个原始记录;使用pdf生成多个新记录;创建扩大的数据集,所述扩大的数据集包括所述多个新记录;并且使用所述扩大的数据集训练机器学习模型。在所述计算机实施的方法的一些实施方案中,分析所述多个原始记录,以识别所述概率分布函数,还包括:训练生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;训练判别器机器学习模型,以在所述新记录与所述多个原始记录中的各个原始记录之间进行区分;并且响应于由所述生成器机器学习模型创建的新记录被所述判别器机器学习模型以预定比率误认,识别所述概率分布函数。在所述计算机实施的方法的一些实施方案中,所述预定比率是由判别器在所述新记录与所述多个原始记录之间进行的比较的大约百分之五十。在所述计算机实施的方法的一些实施方案中,所述生成器机器学习模型是多个生成器机器学习模型中的一个生成器机器学习模型,并且所述方法还包括:训练所述多个生成器机器学习模型中的每一个生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;至少部分地基于以下各项从所述多个生成器机器学习模型中选择所述生成器机器学习模型:与每个生成器机器学习模型和判别器机器学习模型相关联的游程长度,与每个生成器机器学习模型和判别器机器学习模型相关联的生成器失败等级,与每个生成器机器学习模型和判别器机器学习模型相关联的判别器失败等级,与每个生成器机器学习模型和判别器机器学习模型相关联的差异等级,或者科尔莫戈罗夫-斯米尔诺夫(ks)检验的至少一个结果,其包括与所述多个原始记录相关联的第一概率分布函数和与所述多个新记录相关联的第二概率分布函数;并且识别所述概率分布函数还响应于从所述多个生成器机器学习模型中选择生成器机器学习模型而发生。在所述计算机实施的方法的一些实施方案中,使用所述概率分布函数生成所述多个新记录还包括:随机地选择由所述概率分布函数定义的样本空间中的预定数量的点。在一些实施方案中,所述计算机实施的方法还包括将所述多个原始记录添加至扩大的数据集。在所述计算机实施的方法的一些实施方案中,机器学习模型包括神经网络。
7.公开了一种系统的一个或多个实施方案,包括:计算设备,所述计算设备包括处理器和存储器;以及机器可读指令,所述机器可读指令存储在所述存储器中,当由所述处理器执行时,所述机器可读指令使所述计算设备至少:分析多个原始记录,以识别概率分布函数(pdf),其中,pdf包括样本空间,并且所述样本空间包括所述多个原始记录;使用pdf生成多个新记录;创建扩大的数据集,所述扩大的数据集包括所述多个新记录;并且使用扩大的数据集训练机器学习模型。在所述系统的一些实施方案中,使所述计算设备分析所述多个原始记录以识别所述概率分布函数的机器可读指令,还使所述计算设备至少:训练生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;训练判别器机器学习模型,以在所述新记录与所述多个原始记录中的各个原始记录之间进行区
分;以及响应于由所述生成器机器学习模型创建的新纪录被判别器机器学习模型以预定比率误认,识别所述概率分布函数。在所述系统的一些实施方案中,所述预定比率是由判别器在所述新记录与所述多个原始记录之间进行的比较的大约百分之五十。在所述系统的一些实施方案中,所述生成器机器学习模型是多个生成器机器学习模型中的一个生成器机器学习模型,并且所述机器可读指令还使所述计算设备至少:训练所述多个生成器机器学习模型中的每一个,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;至少部分地基于以下各项从所述多个生成器机器学习模型中选择生成器机器学习模型:与每个生成器机器学习模型和判别器机器学习模型相关联的游程长度,与每个生成器机器学习模型和判别器机器学习模型相关联的生成器失败等级,与每个生成器机器学习模型和判别器机器学习模型相关联的判别器失败等级,与每个生成器机器学习模型和判别器机器学习模型相关联的差异等级,或者科尔莫戈罗夫-斯米尔诺夫(ks)检验的至少一个结果,其包括与所述多个原始记录相关联的第一概率分布函数和与所述多个新记录相关联的第二概率分布函数;并且所述概率分布函数的识别还响应于从所述多个生成器机器学习模型中选择生成器机器学习模型而发生。在所述系统的一些实施方案中,使所述计算设备使用所述概率分布函数生成所述多个新记录的机器可读指令,还使所述计算设备随机地选择由概率分布函数定义的样本空间中的预定数目的点。在所述系统的一些实施方案中,当由处理器执行时,所述机器可读指令还使所述计算设备至少将所述多个原始记录添加至扩大的数据集。
附图说明
8.参照以下附图可以更好地理解本公开的许多方面。附图中的部件不一定按比例绘制,替代地,其强调清楚地示出本公开的原理。而且,在附图中,相同的附图标记在几个视图中始终表示相应的部分。
9.图1是描绘本公开的示例实施方案的图。
10.图2是根据本公开的各种实施例的计算环境的图。
11.图3a是一顺序图,该顺序图示出了根据本公开的各种实施例的图2的计算环境的各种组件之间的交互的示例。
12.图3b是一顺序图,该顺序图示出了根据本公开的各种实施例的图2的计算环境的各种组件之间的交互的示例。
13.图4是一流程图,该流程图示出了根据本公开的各种实施例的图2的计算环境内实施的部件的功能的一个示例。
具体实施方式
14.公开了用于生成附加数据的各种方法,该附加数据用于训练机器学习模型,以补充可能不足以训练机器学习模型的小数据集或有噪声的数据集。当仅小数据集可用于训练机器学习模型时,数据科学家可以尝试通过收集更多数据来扩展他们的数据集。然而,这并不总是可行的。例如,表示很少发生的事件的数据集仅能通过等待用于额外地发生该事件的延长时间段来补充。作为另一示例,至少部分地基于小群体大小的数据集(例如,表示一小组人的数据)不能通过仅将更多的成员添加至群体来有意义地扩展。
15.可以将附加记录添加至这些小数据集,但是存在缺点。例如,人们可能必须等待大量的时间以收集与很少发生的事件相关的足够数据,以便具有足够大小的数据集。然而,收集用于这些很少发生的事件的附加数据涉及的延迟可能是不能接受的。作为另一示例,人们可以通过从其他的相关群体获得数据来补充至少部分地基于小群体的数据集。然而,这可能降低用作机器学习模型的基础的数据的质量。在一些情况下,这种质量的降低可能导致对机器学习模型的性能的不能接受的影响。
16.然而,根据本公开的各种实施例,可以生成附加记录,该附加记录与存在于小数据集中的之前收集的数据是足够无法区分的。因此,可以使用生成的记录将小数据集扩展成足以训练期望的机器学习模型(例如,神经网络、贝叶斯网络、稀疏机器向量、决策树等)的大小。在以下讨论中,提供了用于生成机器学习的数据的方法的描述。
17.图1中描绘的流程图介绍了由本公开的各种实施例使用的方法。尽管图1示出了本公开的各种实施例的概念,但是在随后附图的讨论中提供了附加的细节。
18.首先,在步骤103处,可以使用小数据集来训练生成器机器学习模型以创建人工数据记录,该人工数据记录与已经存在于小数据集中的那些记录类似。如果数据集大小不足以用来准确地训练机器学习模型,则可以认为数据集是小的。小数据集的示例包括包含很少发生的事件的记录或小群体的成员的记录的数据集。生成器机器学习模型可以是任何神经网络或深度神经网络、贝叶斯网络、支持向量机、决策树、遗传算法、或可以训练或配置为至少部分地基于小数据集而生成人工记录的其他机器学习方法。
19.例如,生成器机器学习模型可以是生成式对抗网络(gan)的组件。在gan中,结合使用生成器机器学习模型和判别器机器学习模型以识别概率密度函数(pdf 231),该概率密度函数映射至小数据集的样本空间。在小数据集上训练生成器机器学习模型,以创建人工数据记录,该人工数据记录与小数据集类似。通过分析小数据集训练判别器机器学习模型,以识别真实数据记录。
20.然后,生成器机器学习模型和判别器机器学习模型可以参加彼此的竞争。通过竞争训练生成器机器学习模型,以最终创建人工数据记录,该人工数据记录是与小数据集中包括的真实数据记录无法区分的。为了训练生成器机器学习模型,将通过生成器机器学习模型创建的人工数据记录连同来自小数据集的真实记录一起提供给判别器机器学习模型。然后,判别器机器学习模型确定它认为哪个记录是人工数据记录。将判别器机器学习模型的确定结果提供给生成器机器学习模型,以训练生成器机器学习模型来生成人工数据记录,该人工数据记录是更可能与判别器机器学习模型的小数据集中所包括的真实记录无法区分的。类似地,判别器机器学习模型使用其确定结果来提高其检测人工数据记录的能力,该人工数据记录由生成器机器学习模型创建。当判别器机器学习模型具有大约百分之五十(50%,假设相等大小的人工数据被馈送到生成器)的错误率时,这可以用作一指示,即已经将生成器机器学习模型训练成创建无法与已经存在于小数据集中的真实数据记录区分的人工数据记录。
21.然后,在步骤106处,可以使用生成器机器学习模型来创建人工数据记录,以扩大小数据集。可以在各种点处对pdf 231进行采样,以创建人工数据记录。根据各种统计分布(例如,正态分布),可以对一些点重复地采样,或者可以对点簇彼此接近地采样。然后,可以将人工数据记录与小数据集组合以创建扩大的数据集。
22.最后,在步骤109处,可以使用扩大的数据集来训练机器学习模型。例如,如果扩大的数据集包含用于特定客户档案的客户数据,则可以使用扩大的数据集来训练机器学习模型,该机器学习模型用于向客户档案内的客户提供商业或金融产品报价。然而,可以使用以之前描述的方式生成的扩大的数据集来训练任何类型的机器学习模型。
23.参考图2,示出了根据本公开的各种实施例的计算环境200。计算环境200可以包括服务器计算机或提供计算能力的任何其他系统。替代地,计算环境203可以采用多个计算设备,该多个计算设备可以布置在一个或多个服务器组或计算机组或其他装置中。可以将这样的计算设备定位于单个设施中,或者可以将这样的计算设备分布在许多不同的地理位置之间。例如,计算环境200可以包括多个计算设备,该多个计算设备一起可以包括受托管的计算资源、网格计算资源或任何其他分布式计算装置。在一些情况下,计算环境200可以对应于弹性计算资源,其中,处理、网络、存储或其他计算相关资源的所分配能力可以随时间改变。
24.此外,计算环境200内的单个计算设备可以通过网络彼此数据通信。网络可以包括广域网(wan)和局域网(lan)。这些网络可以包括有线或无线的组件或其组合。有线网络可以包括以太网网络、电缆网络、光纤网络和电话网络,诸如拨号、数字用户线(dsl)和综合业务数字网(isdn)网络。无线网络可以包括蜂窝网络、卫星网络、电气电子工程师学会(ieee)802.11无线网络(例如,)、网络、微波传输网络、以及依赖于无线电广播的其他网络。网络还可以包括两个或更多网络的组合。网络的示例可以包括因特网、内联网、外联网、虚拟专用网(vpns)和类似的网络。
25.可以在根据各种实施例的计算环境200中执行各种应用或其他功能。在计算环境200上执行的组件可以包括一个或多个生成器机器学习模型203、一个或多个判别器机器学习模型206、专用机器学习模型209和模型选择器211。然而,也可以在计算机环境200中托管本文未详细讨论的其他应用、服务、进程、系统、引擎或功能,例如,当将计算环境200实施为由多个实体或租户利用的共享托管环境时。
26.此外,将各种数据存储在数据仓储213中,该数据仓储213是计算环境203可访问的。数据仓储213可以表示多个数据存储213,该多个数据仓储可以包括关系数据库、面向对象的数据库、层次数据库、哈希表或类似的键值数据仓储、以及其他数据存储应用或数据结构。存储在数据仓储213中的数据与下面描述的各种应用或功能实体的操作相关联。该数据可以包括原始数据集216、扩大的数据集219和潜在地其他数据。
27.原始数据集216可以表示已经从各种真实世界源收集或累积的数据。原始数据集216可以包括一个或多个原始记录223。原始记录223中的每一个可以表示原始数据集216内的单个数据点。例如,原始记录223可以表示与发生事件相关的数据。作为另一示例,原始记录223可以表示个体群体内的个体。
28.通常,可以使用原始数据集216来训练专用机器学习模型209,以在将来执行预测或决策。然而,如之前讨论的,有时,原始数据集216可以包含数量不足以在训练专用机器学习模型209中使用的原始记录223。不同的专用机器学习模型209可能需要不同的最小数量的原始记录223作为可接受准确训练的阈值。在这些情况下,代替原始数据集216或除了原始数据集216之外,可以使用扩大的数据集219来训练专用机器学习模型209。
29.扩大的数据集219可以表示包含数量足以训练专用机器学习模型209的记录的数
据集合。因此,扩大的数据集219可以既包括原始数据集216中包括的原始记录223,又包括由生成器机器学习模型203创建的新记录229。当通过判别器机器学习模型206与原始记录223进行比较时,新记录229中的各个新记录(通过生成器机器学习模型203创建)无法与原始记录223区分。由于新记录229是无法与原始记录223区分的,因此可以使用新记录229来扩大原始记录223,以便提供数量足以用于训练专用机器学习模型209的记录。
30.生成器机器学习模型203表示一个或多个生成器机器学习模型203,该一个或多个生成器机器学习模型可以执行,以识别概率密度函数231(pdf 231),该概率密度函数231包括pdf 231的样本空间内的原始记录223。生成器机器学习模型203的示例包括神经网络或深度神经网络、贝叶斯网络、稀疏机器向量、决策树和任何其他适用的机器学习技术。由于存在可以在其样本空间内包括原始记录223的许多不同的pdf 231,因此可以使用多个生成器机器学习模型203来识别不同的潜在pdf 231。如稍后讨论的,在这些实施方案中,可以通过模型选择器211从各种潜在pdf 231中选择适当的pdf 231。
31.判别器机器学习模型206表示一个或多个判别器机器学习模型206,该一个或多个判别器机器学习模型可以执行,以训练相应的生成器机器学习模型203,从而识别适当的pdf 231。判别器机器学习模型206的示例包括神经网络或深度神经网络、贝叶斯网络、稀疏机器向量、决策树以及任何其他适用的机器学习技术。由于不同的生成器机器学习模型206可以更好地适合于训练不同的生成器机器学习模型203,因此在一些实施方案中,可以使用多个判别器机器学习模型206。
32.当呈现有新数据或情况时,可以执行专用机器学习模型209,以预测、推断或分辨模式。可以在各种情况下使用专用机器学习模型209,例如,评估信用申请、识别异常或欺诈性行为(例如,错误或欺诈金融交易)、执行面部识别、执行语音识别(例如,在电话上认证用户或客户)以及各种其他行为。为了执行其功能,可以使用已知的或先存的数据语料库来训练专用机器学习模型209。这可以包括原始数据集216,或者在原始数据集216具有数量不足充分地训练专用机器学习模型209的原始记录223情况下,可以包括为训练目的已经生成的扩大的数据集219。
33.当呈现有新的数据或情况时,可以执行梯度提升的机器学习模型210,以预测、推断或分辨模式。每个梯度提升的机器学习模型210可以表示从pdf 231创建的机器学习模型,该pdf 231使用各种梯度提升技术通过相应的生成器机器学习模型203来识别。如稍后讨论的,可以通过模型选择器211使用各种方法选择性能最佳的梯度提升的机器学习模型210以用作专用机器学习模型209。
34.可以执行模型选择器211,以监测各个生成器机器学习模型203和/或判别器机器学习模型206的训练过程。理论上,对于包括原始数据集216的原始记录223的相同样本空间,存在无限数量的pdf 231。因此,一些单独的生成器机器学习模型203可以识别比其他pdf 231更好地适合样本空间的pdf 231。对于样本空间,较好地适合的pdf 231通常将比较差地适合的pdf 231产生更好质量的新记录229以用于包括在扩大的数据集219中。因此,如稍后进一步详细描述的,可以执行模型选择器211,以识别已经识别出较好地适合的pdf 231的那些生成器机器学习模型203。
35.接下来,提供计算环境200的各种组件的操作的一般描述。尽管以下描述提供了计算环境200的各种组件的操作和计算环境200的各种组件之间的交互的说明性示例,但是在
伴随图3和图4的讨论中更详细地描述了各个组件的操作。
36.首先,可以创建一个或多个生成器机器学习模型203和判别器机器学习模型206,以识别适当的pdf 231,该pdf 231包括pdf 231的样本空间内的原始记录223。如之前讨论的,理论上,存在无限数量的pdf 231,其包括pdf 231的样本空间内的原始数据集216的原始记录223。
37.为了最终能够选择最适当的pdf 231,可以使用多个生成器机器学习模型203来识别各个pdf 231。每个生成器机器学习模型203可以以各种方式与其他生成器机器学习模型203不同。例如,某些生成器机器学习模型203可以具有应用于神经网络内的各个感知器的各种输入或输出的不同权重,该神经网络形成各个生成器机器学习模型203。其他生成器机器学习模型203可以利用相对于彼此的不同输入。而且,不同的判别器机器学习模型206在训练特定生成器机器学习模型203以识别用于创建新记录229的适当pdf 231时可以更有效。类似地,各个判别器机器学习模型206可以接受不同输入或者具有分配给各个感知器的输入或输出的权重,各个感知器形成各个判别器机器学习模型206的底层神经网络。
38.接下来,可以使每个生成器机器学习模型203与每个判别器机器学习模型206配对。尽管这在一些实施方案中可以手动完成,但是模型选择器211还可以响应于提供有将使用的生成器机器学习模型203和判别器机器学习模型206的列表,自动地使生成器机器学习模型203与判别器机器学习模型206配对。在任一情况下,将生成器机器学习模型203和判别器机器学习模型206的每一对与模型选择器211进行注册,以便模型选择器211监测和/或评估各种生成器机器学习模型203和判别器机器学习模型206的性能。
39.然后,可以使用原始数据集216中的原始记录223训练生成器机器学习模型203和判别器机器学习模型206。可以训练生成器机器学习模型203,以尝试创建无法与原始记录223区分的新记录229。可以训练判别器机器学习模型206,以识别其正在评估的记录是原始数据集中的原始记录223还是由其相应的生成器机器学习模型203创建的新记录229。
40.一旦经过训练,就可以执行生成器机器学习模型203和判别器机器学习模型206,以参与竞赛。在竞赛的每一轮中,生成器机器学习模型203创建新记录229,该新纪录229被呈现给判别器机器学习模型206。然后,判别器机器学习模型206评估新记录229,以确定新记录229是原始记录223还是实际上的新记录229。然后,使用评估结果来训练生成器机器学习模型203和判别器机器学习模型206两者,以改善每一个机器学习模型的性能。
41.当使用原始记录223执行生成器机器学习模型203和判别器机器学习模型206对以识别相应的pdf 231时,模型选择器211可以监测与生成器机器学习模型203和判别器机器学习模型206的性能相关的各种度量。例如,模型选择器211可以跟踪每对生成器机器学习模型203和判别器机器学习模型206的生成器失败等级、判别器失败等级、游程长度和差异等级。模型选择器211还可以使用这些因素中的一个或多个,以从由生成器机器学习模型203识别的多个pdf 231中选择优选的pdf 231。
42.生成器失败等级可以表示由生成器机器学习模型203创建的数据记录多么频繁地被误认为原始数据集216中的原始记录223。最初,期望生成器机器学习模型203创建低质量的记录,该低质量的记录可容易地与原始数据集216中的原始记录223区分。然而,当继续通过多次迭代训练生成器机器学习模型203时,期望生成器机器学习模型203创建较好质量的记录,对于相应的判别器机器学习模型206,该较好质量的记录变得较难与原始数据集216
中的原始记录223区分。因此,生成器失败等级应该随着时间从百分之百(100%)失败等级降低至较低的失败等级。失败等级越低,生成器机器学习模型203在创建新纪录方面越有效,对于相应的判别器机器学习模型206,该新纪录是无法与原始记录223区分的。
43.类似地,判别器失败等级可以表示判别器机器学习模型206多么频繁地未正确地在原始记录223与由相应的生成器机器学习模型203创建的新记录229之间进行区分。最初,期望生成器机器学习模型203创建低质量的记录,该低质量的记录可容易地与原始数据集216中的原始记录223区分。因此,当确定记录是原始记录223还是由生成器机器学习模型206创建的新记录229时,将期望判别器机器学习模型206具有百分之零(0%)的初始错误率。当继续通过多次迭代训练判别器机器学习模型206时,判别器机器学习模型206应该能够继续在原始记录223与新记录229之间进行区分。因此,判别器失败等级越高,生成器机器学习模型203在创建新数据229方面越有效,对于相应的判别器机器学习模型206,该新数据229无法与原始记录223进行区分。
44.游程长度可以表示生成器机器学习模型203的生成器失败等级降低而判别器机器学习模型206的判别器失败等级同时增加的轮数。通常,与具有更短游程长度的生成器机器学习模型相比,更长的游程长度指示更好性能的生成器机器学习模型203。在一些情况下,可能存在与一对生成器机器学习模型203和判别器机器学习模型206相关联的多个游程长度。例如,如果机器学习模型对具有生成器失败等级降低而判别器失败等级增加的连续轮次的若干不同集合,则这可以发生,其中,该连续轮次被未发生同时变化的一个或多个轮次打断。在这些情况下,可以使用最长的游程长度用于评估生成器机器学习模型203。
45.差异等级可以表示判别器失败等级与生成器失败等级之间的百分比差异。差异等级可以在训练生成器机器学习模型203和判别器机器学习模型206的不同点处变化。在一些实施方案中,当差异等级在训练期间变化时,模型选择器211可以保持对差异等级的跟踪,或者可以仅跟踪最小的或最大的差异等级。通常,生成器机器学习模型203与判别器机器学习模型206之间的大差异等级是优选的,因为这通常指示生成器机器学习模型203正在生成高质量的人工数据,对于通常能够在高质量的人工数据与原始记录223之间进行区分的判别器机器学习模型206,该高质量的人工数据是无法区分的。
46.模型选择器211还可以进行科尔莫戈罗夫-斯米尔诺夫检验(ks检验),以检验由生成器机器学习模型203识别的pdf 231与原始数据集216中的原始记录223的适合。得到的ks统计越小,生成器机器学习模型203就越有可能识别出与原始数据集216的原始记录223紧密适合的pdf 231。
47.在充分地训练了生成器机器学习模型203后,模型选择器211然后可以选择由生成器机器学习模型203识别的一个或多个潜在pdf 231。例如,模型选择器211可以对识别出的pdf 231进行排序,并且选择与最长游程长度相关联的(多个)第一pdf 231、与最低生成器失败等级相关联的第二pdf 231、与最高判别器失败等级相关联的第三pdf 231、具有最高差异等级的第四pdf 231以及具有最小ks统计的第五pdf 231。然而,可能的是,一些pdf 231可以是多个类别中表现最佳的pdf 231。在这些情况下,模型选择器211可以选择该类别中的附加pdf 231用于进一步检验。
48.然后,模型选择器211可以检验选择的每一个pdf 231,以确定哪一个是表现最佳的pdf 231。为了选择由生成器机器学习模型203创建的pdf 231,模型选择器211可以使用
由选择的生成器机器学习模型203识别的每个pdf 231来创建包括新记录229的新数据集。在一些情况下,可以将新记录229与原始记录223组合,以为每个相应的pdf 231创建相应的扩大的数据集219。然后,可以由模型选择器211使用各种梯度提升技术来创建和训练一个或多个梯度提升的机器学习模型210。可以使用相应pdf 231的相应扩大的数据集219或仅包括由相应pdf 231创建的相应新记录229的较小数据集来训练每一个梯度提升的机器学习模型210。然后,可以使用原始数据集216中的原始记录223验证每个梯度提升的机器学习模型210的性能。然后,模型选择器211可以选择性能最佳的梯度提升的机器学习模型210,以作为用于在特定应用中使用的专用机器学习模型209。
49.接下来,参照图3a,示出了顺序图,该顺序图提供了根据各种实施例的生成器机器学习模型203与判别器机器学习模型206之间的交互的一个示例。作为替代方案,可以将图3a的顺序图视为描绘了在根据本公开的一个或多个实施例的计算环境200中实施的方法的元素的示例。
50.从步骤303a开始,可以训练生成器机器学习模型203,以创建新记录229形式的人工数据。通过使用各种机器学习技术,可以使用存在于原始数据集216中的原始记录223来训练生成器机器学习模型203。例如,可以训练生成器机器学习模型203来识别原始记录223之间的相似处,以便创建新记录229。
51.并行地,在步骤306a处,可以训练判别器机器学习模型206,以在原始记录223与由生成器机器学习模型203创建的新记录229之间进行区分。通过使用各种机器学习技术,可以使用存在于原始数据集216中的原始记录223来训练判别器机器学习模型206。例如,可以训练判别器机器学习模型206,以识别原始记录223之间的相似处。因此,可以将与原始记录223不充分地相似的任何新记录229识别为不是原始记录223之一。
52.接下来,在步骤309a处,生成器机器学习模型203创建新记录229。可以将新记录229创建为与现有原始记录223尽可能地相似。然后,将新记录229提供给判别器机器学习模型206用于进一步评估。
53.然后,在步骤313a处,判别器机器学习模型206可以评估由生成器机器学习模型203创建的新记录229,以确定其是否可与原始记录223区分。在进行评估之后,判别器机器学习模型206然后可以确定其评估是否正确(例如,判别器机器学习模型206是否将新记录229正确地识别为新记录229或原始记录223)。然后,可以将评估结果提供回给生成器机器学习模型203。
54.在步骤316a处,判别器机器学习模型206使用在步骤313a处进行的评估的结果来更新其自身。可以使用各种机器学习技术(诸如反向传播)进行更新。作为更新的结果,判别器机器学习模型206能够更好地区分在步骤309a处由生成器机器学习模型203创建的新记录229与原始数据集216中的原始记录223。
55.并行地,在步骤319a处,生成器机器学习模型203使用由判别器机器学习模型206提供的结果来更新其自身。可以使用各种机器学习技术(诸如反向传播)进行更新。作为更新的结果,生成器机器学习模型203能够更好地生成与原始数据集216中的原始记录223较相似的新记录229,并且因此,判别器机器学习模型206越难将其与原始记录223区分。
56.在步骤316a和319a处更新生成器机器学习模型203和判别器机器学习模型206之后,可以通过重复步骤309a至319a进一步继续训练两个机器学习模型。两个机器学习模型
可以以预定数目的迭代重复步骤309a到319a或直到满足阈值条件为止,例如,当判别器机器学习模型206的判别器失败等级和/或生成器失败等级优选地达到预定的百分比(例如,百分之五十)时。
57.图3b描绘了顺序图,该顺序图提供了生成器机器学习模型203与判别器机器学习模型206之间的交互的更详细示例。作为替代方案,可以将图3b的序列图视为描绘了在根据本公开的一个或多个实施例的计算环境200中实施的方法的元素的示例。
58.从步骤301b开始,可以随机地初始化用于生成器机器学习模型203的参数。类似地,在步骤303b处,也可以随机地初始化用于判别器机器学习模型206的参数。
59.然后,在步骤306b处,生成器机器学习模型203可以生成新记录229。初始新记录229可能质量差和/或性质上是随机的,因为尚未训练生成器机器学习模型203。
60.接下来,在步骤309b处,生成器机器学习模型203可以将新记录229传递给判别器机器学习模型206。在一些实施方案中,也可以将原始记录223传递给判别器机器学习模型206。然而,在其他实施方案中,响应于此,可以通过判别器机器学习模型206来获取原始记录223。
61.继续到步骤311b,判别器机器学习模型206可以将第一组新记录229与原始记录223进行比较。对于每一个新记录229,判别器机器学习模型206可以将新记录229识别为新记录229之一或原始记录223之一。将该比较的结果传递回生成器机器学习模型。
62.接下来,在步骤313b处,判别器机器学习模型206使用在步骤311b处进行的评估的结果来更新其自身。可以使用各种机器学习技术(诸如反向传播)进行更新。作为更新的结果,判别器机器学习模型206能够较好地区分在步骤306b处通过生成器机器学习模型203创建的新记录229与原始数据集216中的原始记录223。
63.然后,在步骤316b处,生成器机器学习模型203可以更新其参数,以提高其可以生成的新记录229的质量。更新可以至少部分地基于在步骤311b处通过判别器机器学习模型206进行的第一组新记录229与原始记录223之间的比较的结果。例如,通过使用各种前向和/或反向传播技术,可以使用从判别器机器学习模型206接收到的结果来更新生成器机器学习模型203中的各个感知器。
64.继续到步骤319b,生成器机器学习模型203可以创建新记录229的附加集合。可以使用来自步骤316b的更新后的参数创建新记录229的附加集合。然后,可以将这些附加的新记录229提供给判别器机器学习模型206用于评估,并且如之前在步骤309b至316b处描述的,可以使用结果来进一步训练生成器机器学习模型203。可以继续重复该过程,直到优选地,判别器机器学习模型206的错误率为大约50%(假设新记录229和原始记录223的量相同,或者如超参数另外允许的)。
65.接下来,参照图4,示出了流程图,该流程图提供了根据各种实施例的模型选择器211的一部分的操作的一个示例。应当理解,图4的流程图仅提供了许多不同类型的功能装置的一个示例,该功能装置可以用于实施模型选择器211的所示部分的操作。作为替代方案,可以将图4的流程图视为描绘了在根据本公开的一个或多个实施例的计算环境200中实施的方法的元素的示例。
66.从步骤403开始,模型选择器211可以初始化一个或多个生成器机器学习模型203,并且一个或多个判别器机器学习模型206开始其执行。例如,模型选择器211可以使用针对
生成器机器学习模型203的每个实例的输入随机地选择的权重来实例化生成器机器学习模型203的若干实例。同样地,模型选择器211可以使用针对判别器机器学习模型206的每个实例的输入随机地选择的权重来实例化判别器机器学习模型206的若干实例。作为另一示例,模型选择器211可以选择生成器机器学习模型203和/或判别器机器学习模型206的之前创建的实例或变型。可以随机地选择或者根据预定的或之前指定的标准(例如,在模型选择器211的配置中指定的预定数量)选择实例化的生成器机器学习模型203和判别器机器学习模型206的数量。由于与其他判别器机器学习模型206相比,一些判别器机器学习模型206可以更好地适用于训练特定的生成器机器学习模型203,因此还可以将生成器机器学习模型203的每个实例化的实例与判别器机器学习模型206的每个实例化的实例进行配对。
67.然后,在步骤406处,在生成器机器学习模型203和判别器机器学习模型206根据图3a或3b的顺序图所示的过程创建新记录229以彼此训练时,模型选择器211监测每一对生成器机器学习模型203和判别器机器学习模型206的性能。对于图3a或图3b所描绘的过程的每次迭代,模型选择器211可以跟踪、确定、评估或以其他方式识别与配对的生成器机器学习模型203和判别器机器学习模型206有关的相关性能数据。这些性能指标可以包括针对配对的生成器机器学习模型203和判别器机器学习模型206的游程长度、生成器失败等级、判别器失败等级、差异等级和ks统计。
68.随后,在步骤409处,模型选择器211可以根据在步骤406处收集的性能度量对在步骤403处实例化的每个生成器机器学习模型203进行分级。这种分级可以响应于各种条件发生。例如,模型选择器211可以在已经进行了每个生成器机器学习模型203的预定次数的迭代之后进行分级。作为另一示例,模型选择器211可以在特定的阈值条件或事件已经发生之后进行分级,例如,一对或多对生成器机器学习模型203和判别器机器学习模型206达到最小游程长度,或者越过生成器失败等级、判别器失败等级和/或差异排序的阈值。
69.可以以任何数量的方式进行分级。例如,模型选择器211可以为生成器机器学习模型206创建多个等级。第一分级可以至少部分地基于游程长度。第二分级可以至少部分地基于生成器失败等级。第三分级可以至少部分地基于判别器失败等级。第四分级可以至少部分地基于差异等级。最后,第五分级可以至少部分地基于生成器机器学习模型203的ks统计。在一些情况下,还可以利用考虑这些因素中的每一个的单个分级。
70.接下来,在步骤413处,模型选择器211可以选择与级别靠前的生成器机器学习模型203中的每一个相关联的pdf 231,该级别靠前的生成器机器学习模型203在步骤409处进行分级。例如,模型选择器211可以选择第一pdf 231、第二pdf 231、第三pdf 231、第四pdf 231或第五pdf 231,该第一pdf 231表示与最长游程长度相关联的生成器机器学习模型203的pdf 231,该第二pdf 231表示与最低生成器失败等级相关联的生成器机器学习模型203的pdf 231,该第三pdf 231表示与最高判别器失败等级相关联的生成器机器学习模型203的pdf 231,该第四pdf 231表示与最高差异等级相关联的生成器机器学习模型203的pdf 231,该第五pdf 231表示与最佳ks统计相关联的生成器机器学习模型203的pdf 231。然而,还可以选择附加的pdf 231(例如,每个类别中的前两个、前三个、前五个等)
71.继续到步骤416,模型选择器211可以使用在步骤413处选择的每一个pdf 231来创建单独的扩大的数据集219。为了创建扩大的数据集219,模型选择器211可以使用相应的pdf 231,以生成预定的或之前指定的数量的新记录229。例如,可以随机地采样每个相应的
pdf 231,或者可以以预定的或之前指定的数量的点在样本空间中选择每个相应的pdf 231,该样品空间由pdf 231定义。然后,可以将每一组新记录229与原始记录223组合地存储在扩大的数据集219中。然而,在一些实施方案中,模型选择器211可以仅将新记录229存储在扩大的数据集219中。
72.然后,在步骤419处,模型选择器211可以创建一组梯度提升的机器学习模型210。例如,可以使用xgboost库来创建梯度提升的机器学习模型210。然而,也可以使用其他梯度提升的库或方法。可以使用相应一个扩大的数据集219来训练每个梯度提升的机器学习模型210。
73.随后,在步骤423处,模型选择器211可以对在步骤419处创建的梯度提升的机器学习模型210进行分级。例如,模型选择器211可以使用原始数据集216中的原始记录223验证每一个梯度提升的机器学习模型210。作为另一示例,模型选择器211可以使用超时验证数据或其他数据源来验证每一个梯度提升的机器学习模型210。然后,当使用原始记录223或超时验证数据进行验证时,模型选择器211可以至少部分地基于其性能对每一个梯度提升的机器学习模型210进行分级。
74.最后,在步骤426处,模型选择器211可以选择最佳等级或等级最高的梯度提升的机器学习模型210作为要使用的专用机器学习模型209。然后,可以使用专用机器学习模型209进行与由原始数据集216表示的事件或群体相关的预测。
75.将之前讨论的多个软件组件存储在相应的计算设备的存储器中,并且之前讨论的多个软件组件由相应的计算设备的处理器可执行。在这方面,术语“可执行”是指以能够最终由处理器运行的形式的程序文件。可执行程序的示例可以是编译程序,该编译程序可以被转换成可以加载到存储器的随机存取部分中并由处理器运行的形式的机器代码,可执行程序的示例可以是可以适当格式表达的源代码,例如,能够加载到存储器的随机存取部分中并由处理器执行的目标代码,或者可执行程序的示例可以是可以由另一个可执行程序解译以在存储器的随机存取部分中生成要由处理器执行的指令的源代码。可以将可执行程序存储在存储器的任何部分或组件中,包括随机存取存储器(ram)、只读存储器(rom)、硬盘驱动器、固态驱动器、通用串行总线(usb)闪存驱动器、存储卡、诸如紧凑型光盘(cd)或多用途数字光盘(dvd)等光盘、软盘、磁带或其他存储器组件。
76.存储器包括易失性和非易失性存储器以及数据存储部件。易失性组件是在断电时不保持数据值的组件。非易失性组件是在断电时保持数据的组件。因此,存储器可以包括随机存取存储器(ram)、只读存储器(rom)、硬盘驱动器、固态驱动器、usb闪存驱动器、经由存储卡读卡器访问的存储卡、经由相关联的软盘驱动器访问的软盘、经由光盘驱动器访问的光盘、经由适当的带驱动器访问的磁带、或其他存储器组件、或这些存储器组件中的任何两个或更多个的组合。此外,ram可以包括静态随机存取存储器(sram)、动态随机存取存储器(dram)或磁性随机存取存储器(mram)以及其他这样的设备。rom可以包括可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电气可擦除可编程只读存储器(eeprom)或其他类似的存储器设备。
77.尽管如以上所讨论,在本文中描述的各种系统可以在由通用硬件执行的软件或者代码中实现,但是作为替代方案,在本文中描述的各种系统也可以在专用硬件中或软件/通用硬件和专用硬件的组合中实现。如果在专用硬件中实现,则可以将每个系统实施为电路
或状态机,该电路或状态机采用多种技术中的任何一种或多种技术的组合。这些技术可以包括但不限于具有用于在施加一个或多个数据信号时实施各种逻辑功能的逻辑门的分立逻辑电路、具有适当的逻辑门的专用集成电路(asic)、现场可编程门阵列(fpga)、或其他组件等。这些技术通常是本领域技术人员公知的,因此在本文中不再详细描述。
78.流程图和顺序图示出了之前讨论的各种应用的部分的实施方案的功能和操作。如果在软件中实现,则每个块可以表示包括用于实施指定逻辑功能的程序指令的代码的模块、段或部分。程序指令可以以源代码或机器代码的形式实现,该源代码包括以编程语言编写的人类可读语句,该机器代码包括可由合适的执行系统(诸如计算机系统中的处理器)识别的数字指令。可以通过各种过程从源代码转换机器代码。例如,可以在执行对应应用之前用编译器从源代码生成机器代码。作为另一示例,可以在用解译器执行的同时从源代码生成机器代码。也可以使用其他方法。如果在硬件中实现,则每个块可以表示电路或多个互相连通的电路,以实施指定的(多个)逻辑功能。
79.尽管流程图和顺序图示出了特定的执行顺序,但是应当理解,执行顺序可以与描绘的执行顺序不同。例如,可以相对于示出的顺序打乱两个或多个块的执行顺序。此外,可以同时地或者部分同时地执行在流程图或顺序图中连续示出的两个或多个框。此外,在一些实施例中,可以跳过或省略流程图或顺序图中示出的一个或多个框。此外,可以将任何数量的计数器、状态变量、警告信号量或消息添加至本文中描述的逻辑流中,用于增强效用、计费、性能测量或提供故障排除辅助等目的。应当理解,所有这些变化都在本公开的范围内。
80.此外,在本文中描述的包括软件或代码的任何逻辑或应用可以在任何非暂时性计算机可读介质中实现,所述非暂时性计算机可读介质由指令执行系统(诸如计算机系统或其他系统中的处理器)使用或结合指令执行系统(诸如计算机系统或其他系统中的处理器)使用。在这个意义上,逻辑可以包括语句,该语句包括可以从计算机可读介质取得并由指令执行系统执行的指令和声明。在本公开的上下文中,“计算机可读介质”可以是可包含、存储或维持在本文中描述的逻辑或应用以由指令执行系统使用或结合指令执行系统使用的任何介质。
81.计算机可读介质可以包括诸如磁性介质、光学介质或半导体介质等许多物理介质中的任何一种。合适的计算机可读介质的更具体示例将包括但不限于磁带、磁性软盘、磁性硬盘驱动器、存储卡、固态驱动器、usb闪存驱动器或光盘。此外,计算机可读介质可以是包括静态随机存取存储器(sram)和动态随机存取存储器(dram)的随机存取存储器(ram)、或磁性随机存取存储器(mram)。另外,计算机可读介质可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电气可擦除可编程只读存储器(eeprom)或其他类型的存储器设备。
82.此外,可以以各种方式实施和构建在本文中描述的任何逻辑或应用。例如,可以将描述的一个或多个应用实施为单个应用的模块或组件。此外,可以在共享或者单独的计算设备或其组合中执行在本文中描述的一个或多个应用。例如,在本文中描述的多个应用可以在相同的计算设备中执行,或者在相同的计算环境200中的多个计算设备中执行。
83.除非另有特别说明,否则诸如短语“x、y或z中的至少一个”等析取语言在上下文中被理解为通常用于表示项目、术语等可以是x、y或z或其任何组合(例如,x、y或z)。因此,这
种析取语言通常不旨在并且不应该暗示某些实施例要求x中的至少一个、y中的至少一个或z中的至少一个各自存在。
84.应该强调的是,本公开的上述实施例仅仅是为了清楚地理解本公开的原理而阐述的实施方案的可能示例。在基本上不脱离本公开的精神和原理的情况下,可以对上述实施例进行许多变化和修改。所有这些修改和变化旨在包括在本文中本公开的范围内并且由所附权利要求保护。
85.在以下条款中阐述了本公开的若干示例实施方案。尽管这些条款说明了本公开的各种实施方案和实施例,但是,如前面的讨论所示,这些条款不是对本公开仅有的实施方案或实施例的叙述。
86.条款1—一种系统,包括:计算设备,所述计算设备包括处理器和存储器;训练数据集,所述训练数据集存储在所述存储器中,所述训练数据集包括多个记录;以及第一机器学习模型,所述第一机器学习模型存储在所述存储器中,当由所述处理器执行时,所述第一机器学习模型使所述计算设备至少:分析所述训练数据集,以识别所述多个记录的共同特点或所述多个记录之间的相似处;并且至少部分地基于所识别的所述多个记录的共同特点或所述多个记录之间的相似处而生成新记录;以及第二机器学习模型,所述第二机器学习模型存储在所述存储器中,当由所述处理器执行时,所述第二机器学习模型使所述计算设备至少:分析所述训练数据集,以识别所述多个记录的共同特点或所述多个记录之间的相似处;评估由所述第一机器学习模型生成的所述新纪录,以确定所述新纪录是否无法与所述训练数据集中的所述多个记录区分;至少部分地基于所述新纪录的评估更新所述第一机器学习模型;并且至少部分地基于所述新纪录的评估更新所述第二机器学习模型。
87.条款2—根据条款1所述的系统,其中:所述第一机器学习模型使所述计算设备生成多个新记录;并且所述系统还包括存储在所述存储器中的第三机器学习模型,使用由所述第一机器学习模型生成的所述多个新记录训练所述第三机器学习模型。
88.条款3—根据条款1或2所述的系统,其中,响应于确定所述第二机器学习模型不能在由所述第一机器学习模型生成的所述新纪录与所述训练数据集中的所述多个记录中的各个记录之间进行区分,生成所述多个新记录。
89.条款4—根据条款1至3所述的系统,其中,从由概率密度函数(pdf)定义的样本空间中的预定数量的点的随机样本来生成所述多个新记录,所述概率密度函数(pdf)由所述第一机器学习模型识别。
90.条款5—根据条款1至4所述的系统,其中,所述第一机器学习模型重复地生成所述新记录,直到所述第二机器学习模型不能以预定比率区分所述新记录与所述训练数据集中的所述多个记录。
91.条款6—根据条款1至5所述的系统,其中,当相同大小的新记录被创建时,所述预定比率是百分之五十。
92.条款7—根据条款1至6所述的系统,所述第一机器学习模型使所述计算设备生成所述新记录至少两次,并且所述第二机器学习模型使所述计算设备评估所述新记录至少两次、更新所述第一机器学习模型至少两次、并且更新所述第二机器学习模型至少两次。
93.条款8—一种计算机实施的方法,包括:分析多个原始记录,以识别概率分布函数(pdf),其中,所述pdf包括样本空间,并且所述样本空间包括所述多个原始记录;使用所述
pdf生成多个新记录;创建扩大的数据集,所述扩大的数据集包括所述多个新记录;并且使用所述扩大的数据集训练机器学习模型。
94.条款9—根据条款8所述的计算机实施的方法,其中,分析所述多个原始记录,以识别所述概率分布函数,还包括:训练生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;训练判别器机器学习模型,以在所述新记录与所述多个原始记录中的各个原始记录之间进行区分;并且响应于由所述生成器机器学习模型创建的所述新记录被所述判别器机器学习模型以预定比率误认,识别所述概率分布函数。
95.条款10—根据条款9所述的计算机实施的方法,其中,所述预定比率是由所述判别器在所述新记录与所述多个原始记录之间进行的比较的大约百分之五十。
96.条款11—根据条款9或10所述的计算机实施的方法,其中,所述生成器机器学习模型是多个生成器机器学习模型中的一个生成器机器学习模型,并且所述方法还包括:训练所述多个生成器机器学习模型中的每一个生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;并且至少部分地基于以下各项从所述多个生成器机器学习模型中选择所述生成器机器学习模型:与每个生成器机器学习模型和所述判别器机器学习模型相关联的游程长度,与每个生成器机器学习模型和所述判别器机器学习模型相关联的生成器失败等级,与每个生成器机器学习模型和所述判别器机器学习模型相关联的判别器失败等级,与每个生成器机器学习模型和所述判别器机器学习模型相关联的差异等级,或者科尔莫戈罗夫-斯米尔诺夫(ks)检验的至少一个结果,其包括与所述多个原始记录相关联的第一概率分布函数和与所述多个新记录相关联的第二概率分布函数;并且识别所述概率分布函数还响应于从所述多个生成器机器学习模型中选择所述生成器机器学习模型而发生。
97.条款12—根据条款8至11所述的计算机实施的方法,其中,使用所述概率分布函数生成所述多个新记录还包括随机地选择由所述概率分布函数定义的样本空间中的预定数量的点。
98.条款13—根据条款8至12所述的计算机实施的方法,还包括:将所述多个原始记录添加至所述扩大的数据集。
99.条款14—根据条款8至13所述的计算机实施的方法,其中,所述机器学习模型包括神经网络。
100.条款15—一种系统,包括:计算设备,所述计算设备包括处理器和存储器;以及机器可读指令,所述机器可读指令存储在所述存储器中,当由所述处理器执行时,所述机器可读指令使所述计算设备至少:分析多个原始记录,以识别概率分布函数(pdf),其中,所述pdf包括样本空间,并且所述样本空间包括所述多个原始记录;使用所述pdf生成多个新记录;创建扩大的数据集,所述扩大的数据集包括所述多个新记录;并且使用所述扩大的数据集训练机器学习模型。
101.条款16—根据条款15所述的系统,其中,使所述计算设备分析所述多个原始记录以识别所述概率分布函数的所述机器可读指令,还使所述计算设备至少:训练生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;训练判别器机器学习模型,以在所述新记录与所述多个原始记录中的各个原始记录之间进行区分;以及响应于由所述生成器机器学习模型创建的新纪录被所述判别器机器学习模型以预
定比率误认,识别所述概率分布函数。
102.条款17—根据条款16所述的系统,其中,所述预定比率是由所述判别器在所述新记录与所述多个原始记录之间进行的比较的大约百分之五十。
103.条款18—根据条款16或17所述的系统,其中,所述生成器机器学习模型是多个生成器机器学习模型中的一个生成器机器学习模型,并且所述机器可读指令还使所述计算设备至少:训练所述多个生成器机器学习模型中的每一个生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;并且至少部分地基于以下各项从所述多个生成器机器学习模型中选择所述生成器机器学习模型:与每个生成器机器学习模型和所述判别器机器学习模型相关联的游程长度,与每个生成器机器学习模型和所述判别器机器学习模型相关联的生成器失败等级,与每个生成器机器学习模型和所述判别器机器学习模型相关联的判别器失败等级,与每个生成器机器学习模型和所述判别器机器学习模型相关联的差异等级,或者科尔莫戈罗夫-斯米尔诺夫(ks)检验的至少一个结果,其包括与所述多个原始记录相关联的第一概率分布函数和与所述多个新记录相关联的第二概率分布函数;并且所述概率分布函数的识别还响应于从所述多个生成器机器学习模型中选择所述生成器机器学习模型而发生。
104.条款19—根据条款15至18所述的系统,其中,使所述计算设备使用所述概率分布函数生成所述多个新记录的所述机器可读指令,还使所述计算设备随机地选择由所述概率分布函数定义的样本空间中的预定数目的点。
105.条款20—根据条款15至19所述的系统,其中,当由所述处理器执行时,所述机器可读指令还使所述计算设备至少将所述多个原始记录添加至所述扩大的数据集。
106.条款21—一种非暂时性计算机可读介质,包括第一机器学习模型和第二机器学习模型,其中:当计算设备的处理器执行时,所述第一机器学习模型使所述计算设备至少:分析训练数据集,以识别所述训练数据集的多个记录的共同特点或所述训练数据集的多个记录之间的相似处;并且至少部分地基于所识别的所述多个记录的共同特点或所述多个记录之间的相似处而生成新记录;当由所述计算设备的处理器执行时,所述第二机器学习模型使所述计算设备至少:分析所述训练数据集,以识别所述多个记录的共同特点或所述多个记录之间的相似处;评估由所述第一机器学习模型生成的新纪录,以至少部分地基于预定的错误率来确定所述新纪录是否无法与所述训练数据集中的所述多个记录区分;至少部分地基于所述新纪录的评估更新所述第一机器学习模型;并且至少部分地基于所述新纪录的评估更新所述第二机器学习模型。
107.条款22—根据条款21所述的非暂时性计算机可读介质,其中:所述第一机器学习模型使所述计算设备生成多个新记录;并且所述系统还包括存储在所述存储器中的第三机器学习模型,使用由第一机器学习模型生成的所述多个新记录来训练所述第三机器学习模型。
108.条款23—根据条款21或22所述的非暂时性计算机可读介质,其中,响应于确定所述第二机器学习模型不能在由所述第一机器学习模型生成的新纪录与所述训练数据集中的所述多个记录中的各个记录之间进行区分,生成所述多个新记录。
109.条款24—根据条款21至23所述的非暂时性计算机可读介质,其中,从由概率密度函数(pdf)定义的样本空间中的预定数量的点的随机样本来生成所述多个新记录,所述概
率密度函数由所述第一机器学习模型识别。
110.条款25—根据条款21至24所述的非暂时性计算机可读介质,其中,所述第一机器学习模型重复地生成所述新记录,直到所述第二机器学习模型不能以预定比率区分所述新记录与所述训练数据集中的所述多个记录。
111.条款26—根据条款21至25所述的非暂时性计算机可读介质,其中,当相同大小的新记录被创建时,所述预定比率是百分之五十。
112.条款27—根据条款21至26所述的非暂时性计算机可读介质,其中,所述第一机器学习模型使所述计算设备生成所述新记录至少两次,并且所述第二机器学习模型使所述计算设备评估所述新记录至少两次、更新所述第一机器学习模型至少两次、并且更新所述第二机器学习模型至少两次。
113.条款28-一种包括机器可读指令的非暂时性计算机可读介质,当由计算设备的处理器执行时,所述机器可读指令使所述计算设备至少:分析多个原始记录,以识别概率分布函数(pdf),其中,所述pdf包括样本空间,并且所述样本空间包括所述多个原始记录;使用所述pdf生成多个新记录;创建扩大的数据集,所述扩大的数据集包括所述多个新记录;并且使用所述扩大的数据集训练机器学习模型。
114.条款29—根据条款28所述的非暂时性计算机可读介质,其中,使所述计算设备分析所述多个原始记录以识别所述概率分布函数的所述机器可读指令,还使所述计算设备至少:训练生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;训练判别器机器学习模型,以在所述新记录与所述多个原始记录中的各个原始记录之间进行区分;以及响应于由所述生成器机器学习模型创建的新纪录被所述判别器机器学习模型以预定比率误认,识别所述概率分布函数。
115.条款30—根据条款29所述的非暂时性计算机可读介质,其中,所述预定比率是由所述判别器在所述新记录与所述多个原始记录之间进行的比较的大约百分之五十。
116.条款31—根据条款29或30所述的非暂时性计算机可读介质,其中,所述生成器机器学习模型是第一生成器机器学习模型,所述第一生成器机器学习模型和至少第二生成器机器学习模型被包括在多个生成器机器学习模型中,并且所述机器可读指令还使所述计算设备至少:至少训练所述第二生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;并且至少部分地基于以下各项从所述多个生成器机器学习模型中选择所述第一生成器机器学习模型:与每个生成器机器学习模型和所述判别器机器学习模型相关联的游程长度,与每个生成器机器学习模型和所述判别器机器学习模型相关联的生成器失败等级,与每个生成器机器学习模型和所述判别器机器学习模型相关联的判别器失败等级,与每个生成器机器学习模型和所述判别器机器学习模型相关联的差异等级,或者科尔莫戈罗夫-斯米尔诺夫(ks)检验的至少一个结果,其包括与所述多个原始记录相关联的第一概率分布函数和与所述多个新记录相关联的第二概率分布函数,其中,所述概率分布函数的识别还响应于从所述多个生成器机器学习模型中选择所述第一生成器机器学习模型而发生。
117.条款32—根据条款28至31所述的非暂时性计算机可读介质,其中,使所述计算设备使用所述概率分布函数生成所述多个新记录的所述机器可读指令,还使所述计算设备随机地选择由所述概率分布函数定义的样本空间中的预定数目的点。
118.条款33—根据条款28至32所述的非暂时性计算机可读介质,其中,当由所述处理器执行时,所述机器可读指令进一步使所述计算设备至少将所述多个原始记录添加至所述扩大的数据集。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献