用于为人工智能模块创建训练、验证和测试数据集的方法、计算机程序、存储介质、设备与流程

2022-03-19 21:58:35 来源：中国专利 TAG：

1.本发明在第一方面涉及一种用于为人工智能模块创建训练、验证和测试数据集的方法。在另外的方面，本发明涉及相应的计算机程序、存储介质、设备和人工智能模块。

背景技术：

2.在记录测量数据时，例如在借助于车辆的环境传感装置记录道路交通中的测量数据时，存在不同类型的场景。当然，这些场景不是均匀分布的，并且导致不平衡的数据集。例如，前方行驶的车辆的后视图比其他场景更频繁地呈现。在例如通过学习系统统计评估中，这导致较频繁场景的过度加权。特别是在场景很少出现的情况下，这表现为学习系统的非泛化行为，例如学习回归系统的非泛化行为。由此限制了这种系统在这些场景上的输出质量。
3.从johnson，j.m. & khoshgoftaar, t.m. j big data（2019）6:27. https://doi.org/10.1186/s40537-019-0192-5中已知：用于应对标记的、不平衡的类数据的方案。其中特别是包括以下采样技术：-代表性不足的类的过采样（英文：oversample minority class过采样少数类）-代表性过高的类的欠采样（英文：undersample majority class欠采样多数类）-生成代表性不足的类的合成示例-考虑误差和评估函数中的类分布（基于代表性不足的类对错误进行代表性过高的惩罚）。

技术实现要素：

4.本发明的优点用于控制技术系统的人工智能模块通常借助于数据集进行训练，所述数据集从技术系统的记录的测量数据中导出。所述测量数据通常是不平衡的。当前，可将不平衡理解为：例如，如果从在技术系统的真实应用期间的测量中得出测量数据，则将技术系统的典型的应用情况比临界情况（英文：corner cases边角案例）更频繁地进行测量。因此，典型的应用情况比临界情况更频繁地在测量数据中出现。
5.因此，本发明的目的是：特别是以平衡和划分用于人工智能模块、诸如学习系统、例如回归系统的训练、验证或测试数据集为目的，实现从测量数据、例如时间序列测量数据中创建平衡的训练、验证和测试数据集，而没有场景标签。也可以通过该方法确保：时间序列测量数据的分布近似均匀。通过本发明尤其在临界情况（英文：corner cases边角案例）下可以实现借助于所创建的数据集训练的人工智能模块的更高的泛化能力和更高的性能。
6.在此背景下，本发明在第一方面实现一种用于创建用于训练人工智能模块的训练、验证或测试数据集的方法。为此，该方法具有以下步骤：划分测量数据。在测量数据时间不相关的情况下，可以根据数据的性质或人工智
能模块的目标应用进行划分。在测量数据时间相关的情况下，可以按时间部段进行划分。
7.测量数据可以是时间序列测量数据，诸如随时间记录的车辆传感器数据。
8.将数学函数应用于测量数据的划分的部分，以便获得代表测量数据的相应划分的部分的签名。
9.当前，可以将数学函数理解为简单的映射，诸如平均值、标准偏差等。此外，当前，也可以将数学函数理解为复杂函数、诸如机器学习的方法、诸如自动编码器、主成分分析、循环人工神经网络等。此外，也可以将其理解为数学函数的组合或系列。
10.当前，可以将签名理解为值、值对或通常理解为元组，所述值、值对或元组作为将当前描述的数学函数应用于测量数据的相应部分的结果而代表测量数据的相应部分。
11.确定相应签名出现频率的度量。
12.在本发明中，可以将频率的度量理解为值、值对或者通常理解为元组，所述值、值对或元组描述出自数学函数应用于测量数据的划分的部分上的特定的签名或签名的集合出现的频率如何。
13.根据所确定的频率度量从测量数据中创建训练、验证或测试数据集。
14.人工智能模块可以是分类系统或回归系统。
15.根据本发明的方法的一个实施方式，在划分测量数据的步骤中，按照固定的时间部段划分测量数据。
16.所述实施方式具有的优点是：可以由此确保检测的测量数据的均匀的粒度。
17.根据本发明的方法的一个实施方式，在应用步骤中，数学函数不应用于测量数据的所有部分。
18.该实施方式具有的优点是：通过忽略一些时间部段，数学函数所应用于的且随后用于创建训练、验证或测试数据集的剩余的时间部段时间上不那么强地相关。这有助于改进地训练人工智能模块。
19.根据本发明方法的一个实施方式，该方法无监控地执行。当前，可以将无监控（英文：unsupervised无监督）执行理解为其中没有注释（英文：labeled标记）训练数据或不存在训练数据的结果数据集的执行。
20.本发明的另一方面是一种计算机程序，其被设计用于执行根据本发明的方法的所有步骤。
21.本发明的另一方面是一种机器可读的存储介质，在所述存储介质上存储有根据本发明的一个方面的计算机程序。
22.本发明的另一方面是一种设备，所述设备被设计用于执行根据本发明的方法的所有步骤。
23.本发明的另一方面是一种适合于控制技术系统的人工智能模块。在此，用借助于根据本发明的第一方面的方法创建的训练数据集训练人工智能模块。
24.在本发明的范围中，技术系统尤其还可以是机器人、车辆、工具或机床。
25.按照根据本发明的人工智能模块的一个实施方式，人工智能模块的训练根据所确定的频率度量进行。
26.所述实施方式基于如下知识，即如果将所获得的关于测量数据的信息、即测量数据中的相应的签名的频率的度量用于控制训练方法，则可以借助于根据本发明的方法创建
的训练数据集改进用于人工智能模块的训练方法。
27.例如，这可以进行为，使得首先借助于根据本发明平衡的数据集进行训练并且在训练的过程中训练数据集连续回落到测量数据的最初测量的分布。
28.基于在按照根据本发明的方法创建训练数据集的过程中获得的信息对训练方法进行这种控制具有如下优点：在训练开始时使用平衡的数据集，而在训练结束时使用真实的数据集。
29.这样，在开始时、即学习步长较大的时间，可以使用优化的数据集；在最后，当学习步长较小且临界情况（英文：corner cases边角案例）对人工智能模块的整体性能影响较小时，使用真实的数据集。
30.这整体上引起获得更加平衡的人工智能模块。
附图说明
31.下面根据附图更详细地解释本发明的实施方式。
32.其中：图1示出根据本发明的训练方法的一个实施方式的流程图；图2a、2b示出测量数据集和从中产生的训练数据集的视图。
具体实施方式
33.图1示出根据本发明的用于为人工智能模块创建训练、验证或测试数据集的方法100的一个实施方式的流程图。
34.在步骤101中，划分测量数据集。可以根据测量数据的性质进行适当的划分。在测量数据时间相关的情况下，例如在时间序列测量数据的情况下，可以按照适当的时间部段、必要时按照固定的时间部段进行划分。例如，如果涉及车辆环境传感装置的测量数据，则
∆
t=5s的时间步长能够是适合的，其中所述测量数据代表例如前方物体、例如车辆的取向和方位角。
35.在步骤102中，将数学函数应用于测量数据的划分的部分，以便获得代表相应部分的签名。
36.当前，可以将数学函数理解为简单的映射，诸如平均值、标准偏差等。此外，当前也可以将其理解为复杂函数、诸如机器学习的方法，诸如自动编码器、主成分分析、循环人工神经网络等。此外，也可以将其理解为各个数学函数的组合或系列。
37.当前，可以将签名理解为值、值对或通常理解为元组，所述值、值对或元组作为将根据当前的数学函数应用于测量数据的相应部分的结果而代表测量数据的相应部分。
38.在步骤103中，确定相应签名出现频率的度量。在本发明中，可以将频率的度量理解为值、值对或者通常理解为元组，所述值、值对或元组描述出自数学函数应用于测量数据的划分的部分上的特定的签名或签名的集合出现的频率如何。
39.在步骤104中，根据所确定的频率度量从测量数据中创建训练、验证或测试数据集。
40.训练、验证或测试数据集的创建可以基于映射到为测量数据的相应部分求出的签名中的附加信息以各种方式进行。
41.一种可行性可以提出：从测量数据中根据特定的频率度量选择用于人工智能模块的平衡的训练、验证或测试数据集的子集（英文：re-sampling重采样）。
42.另一可行性可以提出：测量数据的代表性不足的部分、即其签名根据所求出的频率度量较罕见出现的部分，为了创建训练、验证或测试数据集而被多次选择。
43.另一可行性可以提出：为测量数据的代表性不足的部分人工地产生训练、验证或测试数据。在此，机器学习方法、诸如生成对抗网络（gan）、变分自动编码器等可用于产生人工数据。此外，会考虑将经典方法用于物理建模，例如光线追踪技术。
44.另一可行性可以提出：通过数据增强来支持代表性不足的时间部段。将数据增强理解为使用人工噪声和其他可信的变化对输入数据进行人工改变。所述人工改变必须保持物理可信性，并在空间中最小限度地移动输入数据点。
45.另一可行性可以提出：不那么强地考虑测量数据的代表性过高的部分。这例如可以通过如下方式进行：缩短测量数据集中的用于创建训练、验证或测试数据集的代表性过高的时间部段。也会考虑的是：通过对于创建训练、验证或测试数据集更少地选择代表性过高的时间部段。此外，会考虑的是：对于创建训练、验证或测试数据集选择代表性过高的时间部段的概率与频率的度量成反比。
46.此外，可以考虑的是：进一步检测如下测量数据，所述测量数据尤其涉及代表性不足的时间部段，以便加强它们的出现。在此，进一步检测测量数据可以通过如下方式进行：相应的传感器暴露于这种测量环境，这促进代表性不足的时间部段的检测。如果例如清楚的是：代表性不足的时间部段是车辆的至少部分自动化的运行的区域中的特定情况，则相应配设的测量车辆可以暴露在相应的情况下，以便产生对应于代表性不足的时间部段的数据。
47.图2a和2b示出在示例性的测量数据集中或者在借助于本发明的方法从测量数据集中创建的训练、验证或测试数据集中的签名出现频率的视图。
48.使用环境传感装置、当前为雷达传感器和dgps的时间相关的测量数据。所述数据按照时间部段进行划分。为每个时间部段计算签名，当前计算取向和方位角的平均值（mean），其在图2a中示出，并且计算取向和方位角的标准偏差（std），其在图2b中示出。对相应签名的出现计数。签名的计数的数量借助于灰度值的强度示出。
49.左图示出整个测量数据的分布。由于数据的性质，在此其是不平衡的数据集。在使用本发明的方法后，存在近似平衡的训练、验证或测试数据集。当前，借助于顺序重要性重采样实现训练、验证和测试数据集的平衡。通过使用本发明的方法，减少了训练、验证或测试数据集中非常频繁出现的签名的数量。这尤其在图2a的右图的中间处的数据点的稀薄和图2b的右图的左边缘处可见。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种第三方扫码的文印认证方法与流程

用于为人工智能模块创建训练、验证和测试数据集的方法、计算机程序、存储介质、设备与流程

相关文献

最热文献