存在目标数据集时机器学习算法的自动优化的制作方法

2021-09-14 22:29:00 来源：中国专利 TAG：

技术特征：
1.一种在机器学习算法中自动地传递知识的方法，所述方法包括：获取至少一个目标数据集，其中，所述至少一个目标数据集包括至少一个图像；基于所述至少一个图像生成第二训练数据集；以及用所述第二训练数据集重新训练全局域数学模型；其中，所述全局域数学模型是通过执行机器学习算法利用第一训练数据集的图像进行训练以减少在所述第一训练数据集的所有域中测量的全局误差的数学模型。2.根据权利要求1所述的方法，进一步包括以下步骤：通过执行机器学习算法，利用所述第一训练数据集的图像训练所述数学模型，以减少在所述第一训练数据集的所有域中测量的所述全局误差，从而获取所述全局域数学模型。3.根据权利要求1或2中的任一项所述的方法，其中，所述第二训练数据集包括来自所述第一训练数据集的、与来自所述至少一个目标数据集的所述至少一个图像相似的图像。4.根据权利要求3所述的方法，其中，所述相似的图像使用完全或部分地从预训练的机器学习模型导出的图像特征描述符向量来选择。5.根据权利要求3所述的方法，其中，所述相似的图像通过测量来自所述第一训练数据集的图像与来自所述至少一个目标数据集的所述至少一个图像的像素级或图像级描述符之间的相似性来选择。6.根据权利要求5所述的方法，进一步包括：生成来自所述至少一个目标数据集的每个图像的每个像素或像素集的图像特征描述符向量；生成来自所述第一训练数据集的每个图像的每个像素或像素集的图像特征描述符向量；计算图像特征描述符向量之间的距离；以及从所述第一训练数据集的图像中选择与所述目标数据集中的所述至少一个图像的像素/像素集距离接近的像素/像素集。7.根据权利要求6所述的方法，其中，所述图像特征描述符向量是组合选自包括以下各项的组的不同图像特征描述符向量的结果：梯度方向直方图(hog)、红
‑
绿
‑
蓝(rgb)颜色直方图、纹理直方图、对小波滤波器的响应、人工神经网络以及从预训练模型中提取的深度神经网络特征。8.根据权利要求7所述的方法，其中，图像特征描述符向量、所述图像特征描述符向量被组合的方式以及测量所述图像特征描述符向量之间的所述距离的函数是根据所需的图像变换不变性来选择的；其中，所述图像变换不变性包括以下项的任意组合：平移、旋转、缩放、剪切、图像模糊以及图像亮度和对比度变化。9.根据前述权利要求中的任一项所述的方法，其中，所述第二训练数据集包括来自所述至少一个目标数据集的由所述全局域数学模型预测为具有预定置信水平的部分或完整图像。10.根据权利要求9所述的方法，其中，所述预定置信水平与来自所述至少一个目标数据集中的所述至少一个图像的识别、分类或标记过程的预测的准确度水平相关地定义。11.根据权利要求9所述的方法，其中，所述部分或完整图像是通过使用半监督机器学习方法获取并且使用它们的像素级置信水平来选择的，其中，每个类别的阈值是预定的，并
且其中，在所有所述像素中来自所述全局域数学模型的预测高于所述预定阈值。12.根据前述权利要求中的任一项所述的方法，其中，所述第二训练数据集包括来自所述第一训练数据集的与所述至少一个目标数据集中的所述至少一个图像相似的图像，以及来自所述至少一个目标数据集的由所述全局域数学模型预测为具有高于预定阈值的置信水平的部分或完整图像。13.根据前述权利要求中的任一项所述的方法，其中，所述第二训练数据集进一步包括所述目标数据集中的由所述全局数学模型分类为具有低于预定阈值的置信水平的手动标记的完整图像或图像的部分，和/或所述目标集中的与所述第一训练集不相似的手动标记的完整图像或图像的部分。14.根据前述权利要求中的任一项所述的方法，其中，所述至少一个目标数据集由全部或部分地搭载在飞行器上的成像装置捕获，其中，所述飞行器选自包括卫星、航天器、航空器、飞机、无人驾驶飞行器uav和无人机的组。15.根据前述权利要求中的任一项所述的方法，其中，训练和重新训练所述数学模型，以学习来自包括基于土地利用类别的航空或卫星图像的所述至少一个目标数据集的图像的分割。16.根据权利要求15所述的方法，其中，所述数学模型利用选自包括以下各项的组的图像内容标签来分割图像内容：水体、河流、湖泊、水坝、森林、裸地、废料堆、建筑物、道路、作物类型、作物生长、土壤组成、矿山、石油和天然气基础设施。17.根据前述权利要求中的任一项所述的方法，其中，所述数学模型被训练和重新训练以从图像内容自动地预测连续或离散值。18.根据前述权利要求中的任一项所述的方法，其中，来自地面实况可用的所述第一训练数据集的图像类似于来自所述至少一个目标数据集中的所述至少一个图像并且保留来自所述至少一个目标数据集中的所述至少一个图像的采样分布。19.根据前述权利要求中的任一项所述的方法，其中，使用人工神经网络、深度学习技术、非监督机器学习方法、半监督机器学习方法或卷积神经网络中的至少一种来执行对所述数学模型的训练和重新训练以及生成所述第二训练集。20.根据前述权利要求中的任一项所述的方法，其中，调整所述数学模型，以将从包括航空或卫星图像及其对应的地面实况的训练数据集中学到的知识传递到从地球的任何部分并且在一天和一年的任何时间捕获的航空或卫星图像。21.根据权利要求1所述的方法，进一步包括：生成来自所述至少一个目标数据集的每个图像的每个像素或像素集的图像特征描述符向量；生成来自所述第一训练数据集的每个图像的每个像素或像素集的图像特征描述符向量；计算图像特征描述符向量之间的距离；从所述目标数据集的图像中选择与所述第一训练数据集的像素/像素集距离远的像素/像素集；为所选择的像素/像素集中的像素/像素集手动标注标签或分配值；以及将所述目标数据集的带标记的图像添加到所述第二训练集。
22.根据权利要求1所述的方法，进一步包括：从所述至少一个目标数据集中选择由所述全局域数学模型预测为具有低于预定阈值的预定置信水平的部分或完整图像；为所选择的至少一个目标图像的像素/像素集手动标注标签或分配值；以及将所选择的至少一个目标图像添加到所述第二训练集中。23.一种系统，包括：成像装置；全局域数学模型，所述全局域数学模型使用第一训练数据集进行训练，以减少在所述第一训练数据集的所有域中测量的全局误差；以及控制模块；所述成像装置被配置为捕获至少一个目标图像；所述控制模块被配置为：获取至少一个目标数据集，其中，所述至少一个目标数据集包括所述至少一个目标图像；基于所述至少一个目标图像生成第二训练数据集；以及使用所述第二训练数据集重新训练所述全局域数学模型；其中，训练所述数学模型包括执行机器学习算法。24.根据权利要求23所述的系统，其中，所述控制模块进一步被配置为利用所述第一训练数据集训练所述数学模型，以减小在所述第一训练数据集的所有域中测量的全局误差，从而获取所述全局域数学模型。25.根据权利要求23或24中的任一项所述的系统，其中，所述第一训练数据集包括含有多个图像的图像集合，所述多个图像具有已被正确分配语义标签的特征。26.根据权利要求23至25中的任一项所述的系统，进一步被配置为生成所述第二训练数据集，所述第二训练数据集包括来自所述第一训练数据集的与所述至少一个目标图像相似的图像或图像的部分。27.根据权利要求23至26中的任一项所述的系统，进一步被配置为生成所述第二训练数据集，所述第二训练数据集包括由所述全局域数学模型预测为具有预定置信水平的部分或完整目标图像。28.根据权利要求23至27中的任一项所述的系统，进一步被配置为生成所述第二训练数据集，所述第二训练数据集包括来自所述第一训练数据集的与所述至少一个目标图像相似的图像或图像的部分，以及由所述全局域数学模型预测为具有高于预定阈值的置信水平的部分或完整目标图像。29.根据权利要求23至28中的任一项所述的系统，进一步被配置为生成所述第二训练数据集，所述第二训练数据集包括由所述全局域数学模型分类为具有低于预定阈值的置信水平的手动标注的完整目标图像或目标图像的部分，和/或与所述第一训练集不相似的手动标注的完整目标图像或目标图像的部分。30.根据权利要求23至29中的任一项所述的系统，其中，所述系统全部或部分地搭载在飞行器上、陆基的或搭载在单独的飞行器上，其中，这种陆基的或单独的飞行器与所述系统的一部分通信。
31.根据权利要求30所述的系统，其中，所述飞行器选自包括航空器、航天器、无人机、飞机、无人驾驶飞行器uav和卫星的组。

技术总结
本发明提供了通过自动地生成训练数据集来使用机器学习技术传递知识的方法、系统和计算机程序产品。基于目标数据集的新训练数据集自动地生成，并且在机器学习技术中用于对图像执行任务。主要益处之一是可以将在一个域中学到的知识传递到提取数据或标记图像成本高或根本不可行的另一个域中。这些方法和系统还提供基于图像目标集的图像训练集，这些图像目标集以更有效的方式扩充数据并且改进训练集的内容和机器学习技术的预测。内容和机器学习技术的预测。内容和机器学习技术的预测。

技术研发人员：阿尔伯特
受保护的技术使用者：优鲁格斯股份有限公司
技术研发日：2020.02.05
技术公布日：2021/9/13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：风力发电机组的变桨执行机构在线状态辨识方法及装置与流程

存在目标数据集时机器学习算法的自动优化的制作方法

相关文献

最热文献