生成用于机器学习模型的训练数据的制作方法

2022-06-01 21:00:37 来源：中国专利 TAG：

技术特征：
1.一种系统，包括：计算设备，所述计算设备包括处理器和存储器；训练数据集，所述训练数据集存储在所述存储器中，所述训练数据集包括多个记录；以及第一机器学习模型，所述第一机器学习模型存储在所述存储器中，所述第一机器学习模型在由所述处理器执行时，使所述计算设备至少执行：分析所述训练数据集，以识别所述多个记录之间的相似处；并且至少部分地基于所识别的所述多个记录之间的相似处而生成新记录；以及第二机器学习模型，所述第二机器学习模型存储在所述存储器中，所述第二机器学习模型在由所述处理器执行时，使所述计算设备至少执行：分析所述训练数据集，以识别所述多个记录之间的相似处；评估由所述第一机器学习模型生成的新纪录，以至少部分地基于预定的错误率来确定所述新纪录是否至少无法与所述训练数据集中的所述多个记录的子集区分开；至少部分地基于所述新纪录的评估来更新所述第一机器学习模型；并且至少部分地基于所述新纪录的评估来更新所述第二机器学习模型。2.根据权利要求1所述的系统，其中：所述第一机器学习模型使所述计算设备生成多个新记录；并且所述系统还包括存储在所述存储器中的第三机器学习模型，所述第三机器学习模型使用由所述第一机器学习模型生成的所述多个新记录来训练。3.根据权利要求1或2所述的系统，其中，响应于确定所述第二机器学习模型不能在由所述第一机器学习模型生成的新纪录与所述训练数据集中的所述多个记录中的各个记录之间进行区分，生成所述多个新记录。4.根据权利要求1至3所述的系统，其中，从由概率密度函数(pdf)定义的样本空间中的预定数量的点的随机样本来生成所述多个新记录，所述概率密度函数(pdf)由所述第一机器学习模型识别。5.根据权利要求1至4所述的系统，其中，所述第一机器学习模型重复地生成所述新记录，直到所述第二机器学习模型不能以预定比率区分所述新记录与所述训练数据集中的所述多个记录。6.根据权利要求1至5所述的系统，其中，当相同大小的新记录被创建时，所述预定比率是百分之五十。7.根据权利要求1至6所述的系统，其中，所述第一机器学习模型使所述计算设备生成所述新记录至少两次，并且所述第二机器学习模型使所述计算设备评估所述新记录至少两次，更新所述第一机器学习模型至少两次，并且更新所述第二机器学习模型至少两次。8.一种计算机实施的方法，包括：分析多个原始记录，以识别概率分布函数(pdf)，其中，所述概率分布函数(pdf)包括样本空间，并且所述样本空间包括所述多个原始记录；使用所述概率分布函数(pdf)生成多个新记录；创建扩大的数据集，所述扩大的数据集包括所述多个新记录；并且
使用所述扩大的数据集训练机器学习模型。9.根据权利要求8所述的计算机实施的方法，其中，分析所述多个原始记录以识别所述概率分布函数，还包括：训练生成器机器学习模型，以创建新纪录，所述新纪录与所述多个原始记录中的各个原始记录类似；训练判别器机器学习模型，以在所述新记录与所述多个原始记录中的各个原始记录之间进行区分；并且响应于由所述生成器机器学习模型创建的新记录被所述判别器机器学习模型以预定比率误认，识别所述概率分布函数。10.根据权利要求9所述的计算机实施的方法，其中，所述预定比率是由判别器在所述新记录与所述多个原始记录之间进行的比较的大约百分之五十。11.根据权利要求9或10所述的计算机实施的方法，其中，所述生成器机器学习模型是第一生成器机器学习模型，所述第一生成器机器学习模型和至少第二生成器机器学习模型被包括在多个生成器机器学习模型中，并且所述方法还包括：至少训练所述第二生成器机器学习模型，以创建新纪录，所述新纪录与所述多个原始记录中的各个原始记录类似；并且至少部分地基于以下各项从所述多个生成器机器学习模型中选择所述第一生成器机器学习模型：与每个生成器机器学习模型和所述判别器机器学习模型相关联的游程长度，与每个生成器机器学习模型和所述判别器机器学习模型相关联的生成器失败等级，与每个生成器机器学习模型和所述判别器机器学习模型相关联的判别器失败等级，与每个生成器机器学习模型和所述判别器机器学习模型相关联的差异等级，或者科尔莫戈罗夫-斯米尔诺夫(ks)检验的至少一个结果，包括与所述多个原始记录相关联的第一概率分布函数和与所述多个新记录相关联的第二概率分布函数，其中，所述概率分布函数的识别还响应于从所述多个生成器机器学习模型中选择所述第一生成器机器学习模型而发生。12.根据权利要求8至11所述的计算机实施的方法，其中，使用所述概率分布函数生成所述多个新记录，还包括：随机地选择由所述概率分布函数定义的样本空间中的预定数量的点。13.根据权利要求8至12所述的计算机实施的方法，还包括：将所述多个原始记录添加至所述扩大的数据集。14.根据权利要求8至13所述的计算机实施的方法，其中，所述机器学习模型包括神经网络。15.一种系统，包括：计算设备，所述计算设备包括处理器和存储器；以及机器可读指令，所述机器可读指令存储在所述存储器中，所述机器可读指令在由所述处理器执行时，使所述计算设备至少执行：分析多个原始记录，以识别概率分布函数(pdf)，其中，所述概率分布函数(pdf)包括样本空间，并且所述样本空间包括所述多个原始记录；
使用所述概率分布函数(pdf)生成多个新记录；创建扩大的数据集，所述扩大的数据集包括所述多个新记录；并且使用所述扩大的数据集训练机器学习模型。16.根据权利要求15所述的系统，其中，使所述计算设备分析所述多个原始记录以识别所述概率分布函数的所述机器可读指令，还使所述计算设备至少执行：训练生成器机器学习模型，以创建新纪录，所述新纪录与所述多个原始记录中的各个原始记录类似；训练判别器机器学习模型，以在所述新记录与所述多个原始记录中的各个原始记录之间进行区分；以及响应于由所述生成器机器学习模型创建的新纪录被所述判别器机器学习模型以预定比率误认，识别所述概率分布函数。17.根据权利要求16所述的系统，其中，所述预定比率是由判别器在所述新记录与所述多个原始记录之间进行的比较的大约百分之五十。18.根据权利要求16或17所述的系统，其中，所述生成器机器学习模型是第一生成器机器学习模型，所述第一生成器机器学习模型和至少第二生成器机器学习模型被包括在多个生成器机器学习模型中，并且所述机器可读指令还使所述计算设备至少执行：至少训练所述第二生成器机器学习模型，以创建新纪录，所述新纪录与所述多个原始记录中的各个原始记录类似；并且至少部分地基于以下各项从所述多个生成器机器学习模型中选择所述第一生成器机器学习模型：与每个生成器机器学习模型和所述判别器机器学习模型相关联的游程长度，与每个生成器机器学习模型和所述判别器机器学习模型相关联的生成器失败等级，与每个生成器机器学习模型和所述判别器机器学习模型相关联的判别器失败等级，与每个生成器机器学习模型和所述判别器机器学习模型相关联的差异等级，或者科尔莫戈罗夫-斯米尔诺夫(ks)检验的至少一个结果，包括与所述多个原始记录相关联的第一概率分布函数和与所述多个新记录相关联的第二概率分布函数，其中，所述概率分布函数的识别还响应于从所述多个生成器机器学习模型中选择所述第一生成器机器学习模型而发生。19.根据权利要求15至18所述的系统，其中，使所述计算设备使用所述概率分布函数生成所述多个新记录的所述机器可读指令，还使所述计算设备：随机地选择由所述概率分布函数定义的样本空间中的预定数目的点。20.根据权利要求15至19所述的系统，其中，所述机器可读指令在由所述处理器执行时，还使所述计算设备至少将所述多个原始记录添加至所述扩大的数据集。

技术总结
公开了用于生成机器学习模型的训练数据的各种实施例。分析多个原始记录，以识别概率分布函数(PDF)，其中，PDF的样本空间包括多个原始记录。使用PDF生成多个新记录。创建包括多个新记录的扩大的数据集。然后，使用扩大的数据集训练机器学习模型。据集训练机器学习模型。据集训练机器学习模型。

技术研发人员：S
受保护的技术使用者：美国运通旅游有关服务公司
技术研发日：2020.09.04
技术公布日：2022/5/31

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于分析服务平台的应用程序的应用集线器的制作方法

生成用于机器学习模型的训练数据的制作方法

相关文献

最热文献