用于图像分类的自适应学习的制作方法

2022-11-09 23:07:35 来源：中国专利 TAG：

用于图像分类的自适应学习
1.相关申请案交叉参考
2.本技术案主张2022年3月23日提出申请且被让与美国申请案第62/993112号的临时专利申请案的优先权，所述临时专利申请案的公开内容据此以引用的方式并入。
技术领域
3.本公开一般来说涉及图像分类，且特定来说涉及用于图像分类的自适应学习。

背景技术：

4.人工智能(ai)是用于不同计算系统中的许多任务的基本工具。ai通过机器、计算机系统、学习算法等等而模拟人类智能过程。智能过程可包括学习信息的获取及使用信息的规则、使用规则进行推理以实现近似或确定的结论以及自我校正。ai的特定应用包括专家系统、语音辨识、机器视觉、自主驾驶、内容递送网络中的智能路由、军事模拟等等。
5.在检验系统中、特定来说在旨在对物品或者物品、产品等等中的缺陷进行识别及分类的系统中，ai的使用已变得非常流行。ai技术已成为技术行业的重要部分，有助于解决制造过程中的许多挑战性问题。

技术实现要素：

6.所公开标的物的一个示范性实施例是一种方法，其包括：获得一组分类模型，所述组分类模型中的每一者经配置以预测图像的标签，其中所述所预测标签指示所述图像的类别，其中所述组分类模型中的每一分类模型经配置以从同一组标签中预测标签；将所述组分类模型应用于图像的校准数据集上，借此为图像的所述校准数据集中的每一图像提供所预测标签的阵列，借此为所述校准数据集提供所预测标签的一组阵列；计算所述校准数据集上的所述组分类模型的不一致测量，其中所述不一致测量是基于所述校准数据集的所预测标签的所述组阵列而计算的，其中所述不一致测量受所述组分类模型中的分类模型的预测之间的差异影响；将所述组分类模型应用于图像的生产数据集上，借此为所述生产数据集提供所预测标签的一组阵列；计算所述组分类模型在所述生产数据集上的生产不一致测量；确定所述生产不一致测量与所述不一致测量之间的相似度测量；响应于所述相似度测量低于预定阈值，指示所述生产数据集中的数据漂移。
7.所公开标的物的另一示范性实施例是一种方法，其包括：获得图像数据集，其中所述图像数据集包括经排序多组图像，其中每一组图像包括在时间区间内获得的图像，其中所述组图像根据其相应时间区间进行排序；确定训练数据集，其中所述训练数据集包括来自所述图像数据集的图像，其中所述确定训练集包括：确定所述经排序多组图像的权重，其中每一组图像与权重相关联，其中至少两组图像与不同权重相关联；及从所述经排序多组图像中选择将由所述训练数据集包括的图像的子集，其中所述选择基于所述权重；以及使用所述训练数据集来训练分类模型。
8.所公开标的物的另一示范性实施例是一种具有处理器的计算机化设备，所述处理
器适于执行以下步骤：获得一组分类模型，所述组分类模型中的每一者经配置以预测图像的标签，其中所述所预测标签指示所述图像的类别，其中所述组分类模型中的每一分类模型经配置以从同一组标签中预测标签；将所述组分类模型应用于图像的校准数据集上，借此为图像的所述校准数据集中的每一图像提供所预测标签的阵列，借此为所述校准数据集提供所预测标签的一组阵列；计算所述校准数据集上的所述组分类模型的不一致测量，其中所述不一致测量是基于所述校准数据集的所预测标签的所述组阵列而计算的，其中所述不一致测量受所述组分类模型中的分类模型的预测之间的差异影响；将所述组分类模型应用于图像的生产数据集上，借此为所述生产数据集提供所预测标签的一组阵列；计算所述组分类模型在所述生产数据集上的生产不一致测量；确定所述生产不一致测量与所述不一致测量之间的相似度测量；响应于所述相似度测量低于预定阈值，指示所述生产数据集中的数据漂移。
9.所公开标的物的另一示范性实施例是一种包括保持程序指令的非暂时性计算机可读存储媒体的计算机程序产品，所述程序指令在由处理器读取时致使所述处理器执行包括以下各项的方法：获得一组分类模型，所述组分类模型中的每一者经配置以预测图像的标签，其中所述所预测标签指示所述图像的类别，其中所述组分类模型中的每一分类模型经配置以从同一组标签中预测标签；将所述组分类模型应用于图像的校准数据集上，借此为图像的所述校准数据集中的每一图像提供所预测标签的阵列，借此为所述校准数据集提供所预测标签的一组阵列；计算所述校准数据集上的所述组分类模型的不一致测量，其中所述不一致测量是基于所述校准数据集的所预测标签的所述组阵列而计算的，其中所述不一致测量受所述组分类模型中的分类模型的预测之间的差异影响；将所述组分类模型应用于图像的生产数据集上，借此为所述生产数据集提供所预测标签的一组阵列；计算所述组分类模型在所述生产数据集上的生产不一致测量；确定所述生产不一致测量与所述不一致测量之间的相似度测量；响应于所述相似度测量低于预定阈值，指示所述生产数据集中的数据漂移。
10.所公开标的物的另一示范性实施例是一种具有处理器的计算机化设备，所述处理器适于执行以下步骤：获得图像数据集，其中所述图像数据集包括经排序多组图像，其中每一组图像包括在时间区间内获得的图像，其中所述组图像根据其相应时间区间进行排序；确定训练数据集，其中所述训练数据集包括来自所述图像数据集的图像，其中所述确定训练集包括：确定所述经排序多组图像的权重，其中每一组图像与权重相关联，其中至少两组图像与不同权重相关联；及从所述经排序多组图像中选择将由所述训练数据集包括的图像的子集，其中所述选择基于所述权重；以及使用所述训练数据集来训练分类模型。
11.所公开标的物的另一示范性实施例是一种包括保持程序指令的非暂时性计算机可读存储媒体的计算机程序产品，所述程序指令在由处理器读取时致使所述处理器执行包括以下各项的方法：获得图像数据集，其中所述图像数据集包括经排序多组图像，其中每一组图像包括在时间区间内获得的图像，其中所述组图像根据其相应时间区间进行排序；确定训练数据集，其中所述训练数据集包括来自所述图像数据集的图像，其中所述确定训练集包括：确定所述经排序多组图像的权重，其中每一组图像与权重相关联，其中至少两组图像与不同权重相关联；及从所述经排序多组图像中选择将由所述训练数据集包括的图像的子集，其中所述选择基于所述权重；以及使用所述训练数据集来训练分类模型。
附图说明
12.将依据结合图式进行的以下详细说明更充分地理解及了解当前所公开标的物，在图式中，对应或相似数字或字符指示对应或相似组件。除非另外指示，否则图式提供本公开的示范性实施例或方面且不限制本公开的范围。在图式中：
13.图1展示根据所公开标的物的一些示范性实施例的方法的流程图；
14.图2a到2d展示根据所公开标的物的一些示范性实施例的示范性不一致测量的示意性图解说明；
15.图3展示根据所公开标的物的一些示范性实施例的方法的流程图；
16.图4a及4b展示根据所公开标的物的一些示范性实施例的示范性架构的示意性图解说明；
17.图5展示根据所公开标的物的一些示范性实施例的对数据集的示范性数据选择的示意性图解说明；且
18.图6a及6b展示根据所公开标的物的一些示范性实施例的示范性训练数据选择型式的示意性图解说明。
具体实施方式
19.由所公开标的物解决的一个技术问题是提供可部署于客户位点上且从其开发者分离的自主、自学习图像分类工具。在一些示范性实施例中，尽管数据可能会发生改变，但自学习图像分类工具仍可随时间保持预测准确度。
20.在一些示范性实施例中，可在客户位点上使用利用图像分类的基于ai的工具来监视生产过程(例如在工厂中、在生产厂房等等中)。可在检验系统中利用此类基于ai的工具来在制造过程中对物品或者物品、产品等等中的缺陷进行识别及分类。在一些示范性实施例中，基于ai的工具可经配置以基于视觉输入而确定机器是否正常运行、所生产物品是否根据生产计划等等。视觉输入可包括由机器在不同生产阶段生产的产品的从不同角度的图像等等。基于ai的工具可经配置以对此类图像执行图像分类，以便对图像内的物品进行分类、识别物品或产品内的缺陷等等。基于ai的工具可经配置以应用深度学习或其它机器学习方法来解决图像分类学习任务。作为实例，基于ai的软件可用于自动化光学检验(aoi)，例如在平板显示器(fpd)制造、印刷电路板(pcb)制造等等中。aoi过程可基于图像分类及其它ai技术。
21.在一些示范性实施例中，监视生产过程(例如通过aoi)可在分离的客户位点中(例如在客户的工厂中)执行，而无需向基于ai的工具或其图像分类模型的开发者提供完整信息。可限制向开发者提供的信息，以便限制可能揭露给与开发者相关的竞争方(例如其它客户、开发中心等等)的信息。可需要基于ai的工具进行操作及调适而不具有向其它ai软件、其开发者、研究及开发中心等等发送或共享信息的能力。另外或替代地，基于ai的工具可在经连接环境中进行操作，但可受到对于向第三方(包含其开发者)传送及共享的数据量的限制。因此，由于开发位点处的相对较少可用经更新训练数据，以及客户位点处的无法处理大量训练数据的有限计算资源，对此类基于ai的工具中的分类模型的训练可为相对艰巨的任务。
22.由所公开标的物解决的另一技术问题是保持图像分类模型的预测准确度及性能，
尽管可在分离的客户位点上发生改变。在一些示范性实施例中，可基于初始训练数据集而开发及训练基于ai的模型或图像分类模型，所述初始训练数据集(例如)可从客户或从其它来源获得，且然后被提供给客户以用于解决图像分类学习任务。可连续地监视此类基于ai及图像分类模型以保持其预测质量。此类模型的预测质量可受数个因素影响，例如成像技术的改变、相机或其它光学传感器的降级、照明条件的改变、客户过程的改变、使用不同材料、数据产生过程的改变、所产生产品的改变等等。作为实例，在fpd或pcb制造中，图像像素可由于所制造fpd或pcb的色彩的改变、由于在生产中使用不同材料等等而改变。此类改变可影响待分类图像的反射率、透射率等等。作为另一实例，在fpd或pcb制造中，可对所产生产品连续地执行即使是小型的迅速改变，例如以用于使产品适应客户需要、适应新设计特征等等。因此，可在产品中引入新缺陷且需要对所述新缺陷进行识别及修复。
23.在一些示范性实施例中，数据的改变可并不出现在数据的统计测量中，但仍可需要被不同地分类。新图像可具有与旧的图像类似的统计特征，例如像素分布、色彩等等。然而，新图像可捕获可并未出现在先前所获得图像、最近所获得图像等等中的新制造缺陷。
24.在一些示范性实施例中，用于保持基于ai的模型的预测准确度的方法(例如每隔几天训练新模型)可不能提供充分的解决方案。作为实例，此重新训练可不会考量影响预测准确度的潜在改变。因此，新训练的模型可过度适合给定数据集、呈现出越来越少的泛化能力等等。因此，基于ai的工具的预测准确度可降级。
25.由所公开标的物解决的另一技术问题是提供处理数据的连续改变的连续ai学习。一方面，可需要基于ai的模型对于待分类数据的改变是敏感的，但还可需要基于ai的模型是稳定的，例如不受新数据干扰。参考上文所提及实例，在fpd或pcb行业中，可利用用于图像缺陷检测的深度学习分类模型。在此类行业中，所制造装置之间的快速改变可为普遍的，例如新装置或其部分每隔两天或三天可替换用于训练的已扫描设计。因此，可需要对最近设计进行准确分类，而对旧的已扫描设计进行较不准确分类。然而，旧的已扫描设计仍可与分类任务相关，例如与装置的基本组件、频繁出现的缺陷等等相关。
26.在一些示范性实施例中，可基于新数据而有意识地重新训练基于ai的分类模型以便保持其预测的准确度。在一些情形中，可每隔几小时、每隔几天等等获得新类型的数据。可需要ai学习技术来处理新类型的数据。然而，数据量随时间增加，且技术可不能够使用此大量的数据(其还可包含复制图像或几乎复制图像)来训练或重新训练分类模型。在一些示范性实施例中，ai学习技术可经设计以在学习新数据后即刻完全“遗忘”先前所学习数据。作为实例，响应于获得数据的新数据集，可相对于新数据集而执行分类模型的重新训练，同时完全遗忘最后的训练数据集、其最旧的样本、仅使用最后的训练数据集的部分来进行训练等等。尽管能够可能地减少用于重新训练的训练数据量，但此解决方案可导致丢失对训练重要的数据，例如相比于较新的数据，与当前样本更相关的旧数据等等。其它朴素的ai重新训练算法可在浪费昂贵的计算资源及时间的同时利用全部数据量进行重新训练。另外或替代地，ai重新训练算法可均匀地使用从所有可用数据集的预定百分比(例如，介于0％与100％之间)来重新训练模型。然而，此类算法可错过与训练相关的重要数据、将不相关数据用于当前分类任务等等。
27.一种技术解决方案是应用多个分类模型，所述多个分类模型使得能够基于多个分类模型上的一致而确定是否已发生数据漂移。在一些情形中，鉴于数据漂移，可需要额外或
替代训练。在一些示范性实施例中，可在客户位点处实施解决方案。另外或替代地，可以自主方式实施解决方案。
28.在一些示范性实施例中，每一分类模型可经配置以从同一组标签中预测图像的标签，所述标签指示所述图像的类别。多个分类模型可包括来自不同类型的不同分类模型、来自同一类型的数个分类模型等等。作为实例，多个分类模型可包括一或多个监督学习模型、一或多个无监督学习模型、一或多个半监督学习模型、一或多个自动机器学习(automl)产生的模型、一或多个终身学习模型、一或多个分类模型整体、一或多个具有有噪声标签假设的学习模型等等。在一些示范性实施例中，可使用同一训练数据集、不同训练数据集等等来执行分类模型的训练。可注意，分类模型的一组标签可或可不与用于图像分类任务中的预测器的一组标签相同。每一分类模型可经配置以针对图像从预测器的同一组标签中预测标签。
29.另外或替代地，多个分类模型可包括一或多个分布内分类模型。分布内分类模型可以无监督方式进行训练，以确定是否训练分布。此分布内分类模型可用于确定一组图像是展现出与训练分布相同或类似的统计性质(例如，“分布内”)还是展现出充分不同的统计性质(例如，“分布外”)。在一些示范性实施例中，分布内分类模型可为二元分类模型。二元分类模型可为检测器g(x):x
→
{0,1}，如果数据来自分布内，那么其指派标签1，否则指派标签0。
30.在一些示范性实施例中，多个分类模型可应用于经标记图像的校准数据集。校准数据集可包括来自不同训练阶段、不同生产回合等等的多个图像。来自校准数据集的每一图像可具备所预测标签的阵列，所述阵列中的每一所预测标签由不同分类模型提供。在一些示范性实施例中，可计算校准数据集上的多个分类模型的不一致测量。可基于校准数据集的所预测标签的多个阵列而计算不一致测量。不一致测量可受多个分类模型中的分类模型的预测之间的差异影响。可然后将多个分类模型应用于未经标记图像(例如，一组新获得的图像)的生产数据集。可计算生产数据集上的多个分类模型的生产不一致测量且将所述生产不一致测量与校准数据集上的多个分类模型的不一致测量进行比较。基于生产不一致测量与训练阶段不一致测量之间的相似度测量，可确定生产数据集中的数据漂移。在一些示范性实施例中，相似度测量低于阈值可指示数据漂移。
31.在一些示范性实施例中，可利用预测器来预测图像的标签。可将预测器应用于生产数据集上以预测其标签。举例来说，预测器可将图像标记成指示适当生产输出、由故障导致的输出(及故障的类型)等等的种类。在一些示范性实施例中，多个分类模型可包括预测器。可将预测器与其它分类模型一起应用于校准数据集上及生产数据集上，且可如在所预测标签的阵列中一样比较其所预测标签。另外或替代地，可从多个分类模型排除预测器。假设已针对校准数据集而验证预测器，只要生产数据集展现出在校准数据集及生产数据集上的多个分类模型的类似的不一致测量，便可假设预测器在应用于生产数据集上时仍保持有效。
32.在一些示范性实施例中，响应于指示生产数据集中的漂移，可重新训练用于分类任务的预测器。可基于生产数据集的至少一部分而重新训练预测器。可基于用于重新训练的生产数据集的至少一部分而重新计算基线不一致测量。相对于验证数据集，如果经重新训练预测器比起预测器来具有经改进准确度，那么经重新训练预测器可替换预测器。
33.可注意在一些情形中，图像分类模型的终身学习可具有一组固定输出类别，此意味着学习问题不会随时间而在类别数目方面改变，以便降低训练的复杂性。在一些示范性实施例中，可从输出类别移除不相关类别，例如其中不具有经分类样本的类别、不具有对其分类的新样本的类别等等。另外或替代地，可随时间创建并添加新类别。
34.另一技术解决方案是使用以非均匀方式从在不同时间区间内获得的数据选择的自适应训练数据集来重新训练分类器。在一些示范性实施例中，可随时间获得训练数据。可以不同时间区间(例如每隔几小时、每隔几天等等)获得数据的每一子集。当获得新数据集(例如，待分类的新样本)时，可确定新训练数据集。新训练数据集可包括来自不同时间区间的不同百分比的样本。
35.在一些示范性实施例中，可获得将用于确定训练数据集的经排序多组图像。在一些示范性实施例中，经排序多个组可按其升序日期进行排序。在一些示范性实施例中，可(例如)基于领域专家的知识、基于所基于的分类模型的训练的准确度等等而确定或估计数据集的含义或信息价值的程度。在一些示范性实施例中，可确定指示将从每一组选择的图像的数目或百分比的权重。权重可为非均匀的，例如至少两组可被指派有不同权重。可根据权重而执行对将由训练数据集包括的图像的选择，例如以随机或伪随机方式根据其相关联权重获得每一组的样本。作为实例，第一组的权重可为10％，此指示从所述组的总体中选择10％的样本来包含在训练数据集中。第二组可与5％的权重相关联，此指示训练数据集将包含从第二组的总体中选择的5％的样本。
36.作为实例，可基于以下各项而确定每一组的权重：基于所述每一组进行训练的分类器的准确度、基于以所述组结束的预定数目个连续组而进行训练的分类器的准确度等等。可基于分类器在最新组上、在与相关联组相继的一组上的应用等等而计算分类器的准确度。作为另一实例，每一组的权重可与所述组的准确度度量和来自先前时间区间的若干组的准确度度量之间的差异相关。作为另一实例，可基于与多个组随时间的次序相关联的单调型式而确定权重，例如“过去意味着更多(past means more)”型式，例如，可赋予较旧的组比最近组更大的权重；“过去意味着更少(past means less)”型式，例如，可赋予旧的组比最近组更小的权重等等。按照此原则，可为客户提供具有经训练模型的选项，所述经训练模型预期在类似于最近样本的执行个体上表现较佳，且在类似于过去样本的执行个体上较不准确，或反之亦然。可注意，样本包含曲线可为线性增长或衰减、非线性增长或衰减、指数增长或衰减等等。
37.在一些示范性实施例中，可确定用于训练的验证集。验证集可用于计算分类器(例如预测器)的准确度。在一些示范性实施例中，可与所选择训练集相反地确定验证集。作为实例，如果从用于训练集的若干组所选择的样本百分比从过去到现在增加，那么从用于验证集的若干组所选择的样本百分比可从过去到现在减小。作为实例，如果训练集选择型式是非线性地增长的过去意味着更少，那么验证集型式选择可为非线性地增长的过去意味着更多。在一些示范性实施例中，可使用针对于集的次序的函数f(x)确定训练数据集的权重(例如，x指示时间或其它)，同时可基于函数
–
f(x)而确定验证数据集的权重。如此，当使用“过去意味着更多”型式来确定训练数据集时，使用“过去意味着更少”型式来确定验证数据集，且反之亦然。
38.利用所公开标的物的一个技术效果是提供与外部计算及数据库断开连接并适应
于客户位点条件的用于自适应自主学习的自主解决方案。所公开标的物使得能够增强图像分类ai模型的准确度，而不会向ai模型的开发者或向任何其它外部方暴露利用ai分类器的工厂或生产厂房的数据。所公开标的物提供自动能力，所述自动能力用以使用自适应训练来在一组巨大改变下使图像分类ai模型的准确度及用户认可的性能稳定，所述自适应训练由大型且多样的ai模型判断，所述ai模型一起经由封装成大型二元可执行ai模型的一组类似模型、整体式模型、矛盾模型及数据分布改变检测器模型而可应用于客户位点中。此外，所公开标的物支持完整学习正则化及调节过程，其为用作对主分类预测器的预测结果的一组外部判断者的一组控制模型。
39.利用所公开标的物的另一技术效果是减少从构思产品到所述产品可用于销售所需的进入市场时间(time to market)(ttm)。在其中产品很快过时的行业中、尤其是在微电子界中(例如在fpd、pcb等等中)，ttm可为重要的。所公开标的物提供具有较准确训练的自适应学习，所述较准确训练改进基于ai的软件的准确度、稳健性及稳定性，且以较低时间复杂性实现自动模型性能跟踪及增强。所公开标的物通过减少在生产线中的每一改变之后所需的训练数据量而减少ttm。
40.利用所公开标的物的另一技术效果是增加需要连续重新训练的基于ai的长寿命分类模型的熟练度及准确度。所公开标的物提供机制，所述机制用以“记住”及“遗忘”进入重新训练数据集的样本，且因此减少训练数据量，同时增强训练的准确度。此机制实现针对基于ai的分类模型的连续自适应终身学习，而不会增加超时所需的计算及时间复杂性。此外，此机制避免使经重新训练分类模型过度适合给定数据集(例如最新数据集等等)。所公开标的物使得能够通过随时间根据来自不同生产阶段的各种各样的数据进行重新训练而将更多泛化能力引入到经重新训练分类模型。此外，所公开标的物提供高效验证机制，其中以与训练数据的选择相反的型式来执行验证数据的选择。此机制可使收敛对于分类模型更难，且可使得能够验证分类模型的重新训练是否成功并将分类器推向泛化。
41.所公开标的物可提供优于任何预先存在的技术及先前已在此项技术中变得常规或惯例的任何技术的一或多个技术改进。鉴于本公开，所属领域的技术人员可明了额外技术问题、解决方案及效果。
42.现在参考图1，其展示根据所公开标的物的一些示范性实施例的方法的流程图。
43.在步骤100上，可训练预测器。预测器可用于图像分类任务。预测器可经配置以针对图像从一组标签中预测标签。在一些示范性实施例中，可使用训练数据集来训练预测器，所述训练数据集包括图像及指示每一图像的类别的其标签。训练数据集可包括由人类专家人工标记的图像、使用用于先前反复中的预测器标记的图像、由分类模型标记且由人类专家验证的图像等等。
44.在步骤110上，可获得一组分类模型。每一分类模型可经配置以预测图像的标签。所预测标签可指示图像的类别。所述组分类模型中的每一分类模型可经配置以从与预测器相同的一组标签中预测标签。
45.在一些示范性实施例中，所述组分类模型可选自来自不同类型、具有不同参数、具有不同条件、具有不同学习类型等等的多个分类模型。可使用训练数据集来训练分类模型，所述训练数据集可包括经标记图像及未经标记图像两者。训练数据集可包括用于训练预测器或其部分的训练数据集。另外或替代地，训练数据集可包括经标记图像及未经标记图像
两者，例如被视为经错误标记的图像、来自新生产阶段的新图像等等。一些学习类型可仅对经标记图像执行，其它学习类型可对图像的未经标记子集执行，另外其它学习类型可使用经标记图像及未经标记图像两者执行等等。作为实例，可对经标记图像的子集执行具有类别条件概率的监督学习。作为另一实例，可对未经标记图像的子集执行针对分布内分类模型的无监督学习。作为另一实例，可使用包括经标记图像及未经标记图像两者的整个训练数据集来执行具有网络塑性的终身学习。
46.可随机地、任意地、基于领域专家的决策、基于先前反复准确度测量、基于训练数据的组成等等来确定所述组分类模型的组成。作为实例，所述组分类模型可包括：3个终身分类模型，其中的每一者利用具有不同参数的神经网络；2个具有有噪声标签的分类模型，其中的每一者假设不同数目个有噪声标签；分布内分类模型等等。
47.可注意，在一些示范性实施例中，所述组分类模型可包括用于分类任务中的预测器。另外或替代地，预测器可并非是所述组分类模型的成员。预测器可或可不单独应用于校准数据集上。
48.在步骤120上，可将所述组分类模型应用于图像的校准数据集上。
49.在一些示范性实施例中，校准数据集可包括来自不同训练阶段、不同生产回合等等的多个图像。校准数据集可为用于分类模型的训练的训练数据集的子集、基于训练数据集而确定的验证集、最近所获得图像的子集等等。在一些示范性实施例中，校准数据集可为用于训练用于位点内分类任务的预测器的同一数据集。另外或替代地，校准数据集可不同于训练数据集。还注意在一些情形中，校准数据集可为未经标记的，且其中的图像的标签可未被利用。而是，可仅利用所预测标签。
50.在一些示范性实施例中，每一分类模型可为生产数据集中的每一图像提供标签。可给图像的校准数据集中的每一图像提供所预测标签的阵列。因此，可提供校准数据集的所预测标签的一组阵列。
51.作为实例，所述组分类模型可包括表示为cls1、
…
、clsn的n个分类模型。可给校准数据集的每一图像提供具有(l1、...、ln)的值的所预测标签的阵列，其中li是来自由clsi预测的同一组标签(l)的标签，其中(l1、...、ln)的值是潜在异构值。
52.在步骤130上，可计算校准数据集上的所述组分类模型的不一致测量。可基于校准数据集的所预测标签的所述组阵列而计算不一致测量。可基于所述组分类模型中的分类模型之间的不一致的百分比而计算不一致测量。因此，不一致测量可受校准数据集中的图像上的所述组分类模型中的分类模型的预测之间的差异影响。
53.在一些示范性实施例中，可基于图像的部分而计算不一致测量，所述组分类模型中的分类模型的元组针对所述部分提供不同标签。可将不一致测量确定为校准数据集中的图像上的所述组分类模型中的一对分类模型的预测之间的差异、校准数据集中的图像上的所述组分类模型中的分类模型的三元组的预测之间的差异，或校准数据集中的图像上的所述组分类模型中的分类模型的任何其它元组之间的差异。
54.另外或替代地，可基于图像的部分而计算不一致测量，所述组分类模型中的分类模型的元组针对所述部分提供同一标签。不一致测量可指示在特定标签、预定数目个标签等等上的分类模型的元组的预测之间的不一致。
55.另外或替代地，不一致测量可指示与所述组分类模型中的其它分类模型的预测相
比，至少一个分类模型的预测中的异常。
56.在步骤140上，可将所述组分类模型应用于图像的生产数据集上。在一些示范性实施例中，每一分类模型可为生产数据集中的每一图像提供标签。因此，可针对生产数据集产生所预测标签的一组阵列。
57.可注意，如果所述组分类模型不包括用于分类任务的预测器，那么可将预测器单独应用于生产数据集上，(例如)以执行根据所公开标的物的系统的所要功能性(例如，实施aoi过程)。
58.在步骤150上，可计算所述组分类模型在生产数据集上的生产不一致测量。在一些示范性实施例中，可与校准数据集上的所述组分类模型的不一致测量的计算类似地计算所述组分类模型在生产数据集上的生产不一致测量。
59.在步骤160上，可确定生产不一致测量与不一致测量之间的相似度测量。在一些示范性实施例中，相似度测量可指示生产不一致测量与不一致测量的类似程度。在不失一般性的情况下，且出于描述清晰的目的，低数字可指示低相似度，而高数字可指示高相似度。作为实例，测量可为介于0与1之间的数字，其中1意指两个不一致测量是相同的，且0意指其彼此尽可能地不同。将注意，所公开标的物可使用指示不一致测量之间的距离测量的距离度量来实施。在此实施例中，低值可指示相似度，而高值可指示差异。
60.在步骤170上，响应于相似度测量低于预定阈值(例如，不满足最小相似度阈值)，可指示生产数据集中的数据漂移。
61.注意，不一致测量的降低(例如，当所述组分类模型彼此一致时)可如同不一致测量的增加一样指示数据漂移。可注意，如果分类模型展现不同的不一致型式，那么此类差异(无论所述分类模型是否彼此或多或少地一致)可指示生产数据集与校准数据集显著不同。因此，如关于校准数据集所确定的预测器的准确度测量可不再适用于生产数据集。
62.在一些示范性实施例中，可执行相似度测量是否低于预定阈值的确定。预定阈值可为指示测量之间的最小相似度(其可指示数据漂移)的相似度测量的值，例如约20％、30％等等。
63.在一些示范性实施例中，相似度测量低于预定阈值可指示所述组分类模型提供不同的不一致型式。在一些情形中，鉴于数据漂移，分类模型可比之前更加不一致，而在其它情形中，分类模型可更加一致。另外或替代地，其中不同分类模型致或不一致的执行个体的性质可鉴于数据漂移而改变。因此，鉴于与在校准中相比，在生产中的不一致测量改变，可自主地识别数据漂移。
64.在步骤180上，响应于确定生产数据集中的漂移，可重新训练用于分类任务的预测器。在一些示范性实施例中，数据漂移可指示使用现有训练数据集的训练不适合于生产数据集。可根据生产数据集而确定用于重新训练预测器的新训练数据集。可基于生产数据集、基于校准数据集、基于其组合等等而确定新训练数据集。另外或替代地，可基于相似度测量、生产不一致测量、离群值检测等等而单独确定新训练数据集。作为实例，可使用图3的方法来确定训练数据集。
65.在一些示范性实施例中，一旦预测器被重新训练且达到足够准确度得分，便可将用于训练预测器的训练集、用于验证预测器的验证集、其样本、其组合等等用作新校准数据集，同时重新执行步骤120到160。
66.现在参考图2a到2d，其展示根据所公开标的物的一些示范性实施例的示范性不一致测量的示意性图解说明。
67.在一些示范性实施例中，可通过将一组分类模型cls1、
…
、clsm应用于包括sample1、
…
、samplen的校准数据集上而产生校准数据集的所预测标签的一组阵列220。可给校准数据集的每一图像提供具有(l1、...、lk)的值的所预测标签的阵列，其中li是来自由clsi预测的同一组标签的标签，其中(l1、...、lk)的值是潜在异构值。作为实例，阵列223可为由其上的所述组分类模型cls1、
…
、clsm预测的第三图像的标签的阵列。
68.在一些示范性实施例中，可计算校准数据集{sample1、
…
、samplen}上的所述组分类模型cls1、
…
、clsm的不一致测量。可基于一组阵列220而计算不一致测量。因此，不一致测量可受校准数据集中的图像上的所述组分类模型中的分类模型的预测之间的差异影响。可基于对一组阵列220的值的统计测量、其汇总、每两个或多于两个分类模型之间的不一致等等而计算不一致测量。
69.在一些示范性实施例中，可基于图像的部分而计算不一致测量，所述组分类模型中的分类模型的元组针对所述部分提供不同标签。作为实例，可基于由分类模型的子集(例如cls1、cls4及cls6)在图像的部分(例如sample
15
、sample
18
、sample
22
及sample
36
)上提供的标签上的差异而计算不一致测量。
70.另外或替代地，可将不一致测量确定为校准数据集中的图像上的所述组分类模型中的一对分类模型的预测之间的差异、校准数据集中的图像上的所述组分类模型中的分类模型的三元组的预测之间的差异，或校准数据集中的图像上的所述组分类模型中的分类模型的任何其它元组之间的差异。作为实例，图240可表示校准集上的cls1及cls2的预测。图240中的每点(p1,p2)可示意性地表示由cls1及cls2为图像提供的标签的元组，其中p1是表示由cls1为图像提供的标签的值且p2是表示由cls2为图像提供的标签的值。作为实例，位于(l2,l3)中的点241指示cls1将标签l2提供给图像，同时cls2将标签l3提供给同一图像(也参见图2c)。
71.注意，图240仅是示意性的，且使用不同点来展示不同执行个体，如同标签是连续值而并非是一组列举的可能值中的一者一样。注意在一些实施例中，标签可为连续值，例如介于0与1之间的数字。此外，此图解说明在展示由两个分类器类似地标记的不同执行个体时起到解释清晰的目的。
72.线242上的点可表示图像，在所述图像上，cls1与cls2在其分类上实现一致。点的每一群集(例如群集244、246及248)，可表示cls1与cls2之间的一致或不一致型式。作为实例，大体上位于线242上的群集246及群集248可表示一对分类模型cls1与cls2之间关于l2(246)及关于l4(248)的一致，而群集244可表示其间的不一致(例如，关于由cls1分类为l2且由cls2分类为l4的执行个体)。可对不同群集执行统计测量以确定不一致测量。另外或替代地，不一致测量可指示与所述组分类模型中的其它分类模型的预测相比，至少一个分类模型的预测中的异常。群集244可表示cls1与cls2之间的此异常。
73.另外或替代地，可基于图像的部分而计算不一致测量，所述组分类模型中的分类模型的元组针对所述部分提供同一标签。不一致测量可指示在特定标签、预定数目个标签等等上的分类模型的元组的预测之间的不一致。作为实例，可基于如图2d中所图解说明的度量280而计算不一致测量。度量280中的每一单元格包括一致值，所述一致值表示一对分
类器提供一对标签的次数或次数百分比。作为实例，单元格282中的值指示以图像的0.2，第一分类模型提供标签l4而第二分类模型提供标签l3。可基于指示不同标签的单元格(例如不在度量280的对角线上的单元格)而计算不一致测量。可注意，度量280可被用于多个维度，所述多个维度表示针对每一对标签的多个分类器的一致值。另外或替代地，可利用多个不同矩阵，(例如)从而比较分类器的不同元组。
74.现在参考图3，其展示根据所公开标的物的一些示范性实施例的方法的流程图。
75.在步骤310上，可获得包括经排序多组图像的图像数据集。多个组中的每一组图像可包括在时间区间内获得的图像。所述组图像可根据其相应时间区间进行排序。作为实例，经排序多组中的第一组图像可包括在第一时间区间中(例如在星期一)获得的图像。经排序多组中的第二组图像可包括在紧接在第一时间区间之后的第二时间区间中(例如在星期二)获得的图像。注意，可将时间区间视为紧接其后的，如果不存在在所述时间区间之间具有时间区间的额外组的话。举例来说，假设仅在工作日期间捕获图像，可将星期一时间区间视为紧接在星期五时间区间之后。在一些示范性实施例中，所述接连关系可基于经排序多个组且可基于两个组之间的相对次序以及在两个组之间是否存在额外组来进行确定。
76.在一些示范性实施例中，数据集中的图像可被标记有指示其类别的标签。另外或替代地，数据集中的图像中的一些图像可为未经标记的。
77.在一些示范性实施例中，根据经排序多组图像的最后一组图像可为最近生产数据集。可在于生产中对未经标记图像应用分类模型期间(例如在fpd制造、pcb制造等等的aoi过程中)获得最近生产数据集。在一些示范性实施例中，多个生产数据集可包含于经排序多组图像中，所述多个生产数据集中的每一者可根据获得生产数据集的时间区间来进行排序。多个生产数据集可在经排序多个组中最后排序，其中最近的生产数据集可从多个生产数据集之间最后排序，且其中最早的生产数据集可从多个生产数据集之间首先排序。
78.在步骤320上，可确定训练数据集。训练数据集可包括来自在步骤310中获得的图像数据集的图像。训练数据集可经配置以用于训练用于图像的分类任务的分类模型，所述图像具有与图像数据集中的图像类似的概念。
79.在步骤322上，可针对经排序多组图像中的每一组确定权重。在一些示范性实施例中，可非均匀地提供权重，例如具有不同性质的不同组可被指派有不同权重。然而，可注意，可对所述组中的一些组提供类似或相同权重。
80.在一些示范性实施例中，权重可定义将从一组获得的图像的数目。权重可定义图像的相对数目(例如，图像的百分比)、绝对数目(例如，图像的精确数目)等等。作为实例，每一组图像可与百分比相关联，所述百分比指示来自所述组图像的将从所述组图像被选择的图像的比率。最低权重值(例如零、负值等等)可指示避免从被指派有最低权重值的相关联组图像选择任何图像，例如丢弃相关联组图像。另外或替代地，最大权重值(例如100％)可指示保留相关联组图像的所有图像，例如将相关联组作为整体而保留。
81.在一些示范性实施例中，权重可经确定以便与所述组图像的如基于其时间区间而定义的次序相关。在此情形中，可针对较旧的训练数据集而确定较低权重(例如指示较低百分比的权重)，从而实施“过去意味着更少”型式。另外或替代地，所确定权重可与所述组图像的时间区间的次序的相反情形相关。在此情形中，可针对较旧的训练数据集而确定较高权重(例如指示较高百分比的权重)，从而实施“过去意味着更多”型式。
82.在一些示范性实施例中，可根据非均匀单调函数(例如严格递增单调函数、严格递减单调函数、线性函数、非线性函数等等)而确定经排序多组图像的权重。
83.另外或替代地，可基于基于经排序多组图像而训练的分类模型的预期准确度而确定所述经排序多组图像的权重。可通过以下操作而确定准确度：基于每一组图像而训练分类器并确定所述分类器的准确度。另外或替代地，可基于分类模型的预期准确度的差异而确定经排序多组图像的权重，所述分类模型是基于包括所述组图像的训练数据及排除所述组图像的训练数据而训练的。可基于包括一系列组图像的训练数据集而针对每一组图像训练分类器，所述系列组图像在所述组图像之前并包含所述组图像。每一组图像的权重可基于相关联分类器的准确度测量与使用同一训练集(但不具有相关联组图像)来进行训练的分类器的准确度测量相比的差异而确定。当所述组图像在训练数据中时，在准确度测量的改进的情形中，可使相关联组图像的权重与所述改进的测量相关。当所述组图像在训练数据中时，在准确度测量的降低的情形中，可将最低权重值指派给相关联第二组图像。
84.另外或替代地，分类器可使用子系列的组来进行训练并在连续组上进行测试以确定使用此类组的训练对未来组的影响。每一子系列可包括来自经排序多组图像的预定数目个连续组图像，例如5个连续组、10个连续组、15个连续组等等。可将基于子系列而训练的分类器应用于来自经排序多组图像的一或多组图像上，根据图像数据集的次序，所述一或多组图像紧接在所述子系列中的最后组之后排序。可将所述分类器应用于具有不同数目的不同的多组图像上，例如紧接在子系列之后排序的下一组图像、接下来的2组图像、接下来的4组图像等等。可计算每一不同多组上的分类器的准确度测量。可基于基于每一子系列而训练的分类器的不同准确度测量而确定选择型式。作为实例，可基于将相关联分类器应用于下一组图像上的准确度测量、基于不同多组的不同准确度测量的平均值等等而确定子系列中的若干组图像的权重。作为另一实例，可基于准确度测量而确定对将在训练中被跳过的在子系列之后排序的图像组的数目的确定。可为在子系列之后排序的若干组指派最低权重值，将分类器应用于所述若干组上的准确度测量高于阈值，例如高于80％、高于90％等等。作为另一实例，当多组图像实现高于预定阈值的最高准确度测量时，可为若干个组中的多个图像组序列指派最低权重值。
85.在步骤324上，可从经排序多组图像中选择图像的子集。在一些示范性实施例中，从每一组图像中选择图像可基于针对所述组所提供的权重而执行。在一些示范性实施例中，可选择每一组的图像的样本。可基于权重而确定样本的大小。作为实例，可根据将从所述组图像中选择的图像的百分比而执行所述选择，可基于权重而确定所述百分比。可根据通过与每一组相关联的百分比定义的比率而选择所述组图像的部分。在一些示范性实施例中，如果未完全丢弃所述组，那么可从中选择最小数目个执行个体，例如至少10个图像、至少30个图像、至少100个图像等等。
86.在一些示范性实施例中，可以随机方式、伪随机方式等等执行从每一组图像中选择样本。所选择的随机样本可为从中选择所述随机样本的一组的严格子集，所述严格子集与所述组相比具有经减小大小。随机选择可产生不存在偏差的统计上有效的样本。另外或替代地，在一些情形中，所述选择可为有偏差的，例如有意地实施所要偏差。
87.在一些示范性实施例中，训练数据集可包括来自特定时间区间的异常数据，根据训练数据选择型式，可不选择所述异常数据，然而，所述异常数据可与分类任务相关。作为
实例，时间区间的数据集可引入一或多个新类别、消除一或多个类别等等。尽管根据选择型式未被选择，但此类训练集可对于分类任务是重要的，这是因为所述训练集可使得能够适应分类器对其分类的一组类别，且因此增强分类的准确度。作为另一实例，可从训练数据集移除高于预定阈值的预定数目个连续时间区间(例如约10个时间区间、15个时间区间等等)的数据集，所述数据集包括被分类到较不普遍类别的样本。在一些情形中，可在连续时间区间内减少被分类到特定种类的样本数目(例如，在最后时间区间中，越来越少的样本被标记为此种类)。此可指示此类种类可在不久的将来不复存在且可预期从整体数据集中被遗忘。另外或替代地，可从训练数据集移除复制或类似样本。为确定此相似度，可将深度聚类、熵最大化、正规化互相关及其它算法应用于来自不同区间的数据集上。
88.在步骤330上，可确定验证数据集及测试数据集。在一些示范性实施例中，验证数据集可包括来自图像数据集的图像。验证数据集可经配置以用于在于步骤330上进行训练的训练期间验证分类模型。在一些示范性实施例中，可以与确定训练数据集(步骤320)类似的方式确定验证数据集。
89.在一些示范性实施例中，可从用于在步骤320上选择训练数据集的经排序多组图像中选择验证图像。另外或替代地，可从另一数据集(例如先前所利用的验证数据集等等)选择验证数据集。
90.在一些示范性实施例中，可通过从经排序多组图像中的每一组选择随机样本而选择验证数据集。在一些示范性实施例中，可以与在步骤320上进行的选择类似的方式基于验证权重而确定从一组所选择的随机样本的大小。在一些示范性实施例中，验证权重可针对所有组为均匀的，例如10％、20％等等。另外或替代地，可针对经排序多组图像中的每一组确定可能不同的验证权重。在一些示范性实施例中，可与用于选择训练数据集的权重相反地确定验证权重。如果基于函数f(x)而执行在步骤322上经排序多组图像的权重，那么可基于函数g(x)＝
–
f(x)而确定验证权重。举例来说，如果权重在训练数据集中单调地增加，从而实施“过去意味着更少”型式，那么g(x)的使用可产生在验证数据集中相应单调地降低的权重，从而实施“过去意味着更多”型式。
91.在步骤340上，可使用在步骤320上确定的训练数据集及在步骤330上确定的验证数据集来训练分类模型。
92.在步骤350上，可利用测试数据集来测试及验证使用训练数据集所训练的分类模型。在一些示范性实施例中，使用测试数据集，可确定在步骤340上训练的分类模型的准确度测量。
93.现在参考图4a及4b，其展示根据所公开标的物的一些示范性实施例的其中可利用所公开标的物的示范性环境及架构的示意性图解说明。
94.在一些示范性实施例中，包括图4a中所图解说明的子系统400a及图4b中所图解说明的子系统400b的系统可经配置以执行用于根据所公开标的物的图像分类的自适应学习。
95.在一些示范性实施例中，可最初在开发位点中基于由客户提供的初始训练数据而训练分类模型。分类模型可用于客户位点处的分类任务中，以基于视觉输入(例如在不同生产阶段处的产品的图像等等)而进行缺陷检测。分类模型可经配置以针对每一所获得图像从一组预定类别中预测指示其类别的标签。每一类别可与产品中的缺陷相关联或指示所述缺陷。系统可经配置以连续监视并增强分类模型的准确度、基于经更新训练数据而重新训
练分类模型等等。
96.在一些示范性实施例中，可基于初始训练数据集402而训练分类模型。数据集402可包括经取样图像，所述经取样图像中的每一者标记有指示其类别的标签。另外或替代地，数据集402可包括未经标记图像。数据集402可包括生产缺陷的图像、来自先前生产回合的图像、不同产品组件的图像等等。
97.在一些示范性实施例中，数据净化模块410可经配置以净化所收集样本并评估其标签。数据净化模块410可经配置以从数据集402选择样本且对所选择样本应用“分布外”分类器。分布外分类器可经配置以对所选择样本应用无监督学习，以确定图像距数据的分布的距离。可将具有与数据的分布类似的分布的图像分类为分布内数据x
in
，而可将具有不同分布的图像分类为分布外数据x
out
。分布内数据x
in
可使用分类模型来进行分类及标记、可由人类专家标记等等。经标记数据可经再检测以确定是否标示有正确标签。分布外数据x
out
可由人类专家再检测以确定是否可对此类离群值进行标记、将其提供为未经标记数据、移除等等。在一些示范性实施例中，可将损坏的图像指示为离群值、错误拍摄的图像(例如，在其中看不到被检验的产品的错误时序中拍摄)等等。
98.在一些示范性实施例中，可将可包括经标记数据(x,y)及未经标记数据(x)两者的所选择数据提供到学习模块420。在学习模块420中，可基于所选择数据而训练一组分类模型。每一分类模型可经配置以针对图像在数据集402的所述组标签内预测指示其类别的标签。
99.在一些示范性实施例中，所述组分类模型可包括多个分类模型，例如模型421到426。可使用不同训练方案、利用不同参数、利用不同条件等等来训练每一分类模型。作为实例，可通过具有类别条件概率的监督学习而训练模型423。可使用经标记数据(x,y)、使用未经标记数据(x)、其组合等等来训练每一分类模型。作为实例，可使用未经标记数据(x)来训练执行分布内分类的模型425。可随机地、任意地、基于先前反复准确度测量、基于训练数据的组成等等来确定所述组分类模型的组成。分类模型的组成可从一个反复到另一反复而不同。
100.在一些示范性实施例中，可计算所述组分类模型的不一致测量。可基于分类模型的每一对或元组的预测之间的间隙(例如，差异)而计算不一致测量。作为实例，可在模型422的预测结果与模型423的预测结果之间计算间隙430。在一些示范性实施例中，所计算间隙可用于理解所述组分类模型的稳健程度。间隙越大，不一致测量越大，分类模型作为判断者便可更具信息性。可稍后将不一致测量与即时预测数据上的不一致测量进行比较，以确定生产数据中有多少图像与用于训练中的数据不同。另外或替代地，可稍后将不一致测量与即时预测数据上的不一致测量进行比较，以确定分类模型对这些图像的经预测弹性。
101.另外或替代地，可基于预测结果之间的其它距离、基于一或多个分类模型的预测结果等等而确定不一致测量。作为实例，预测结果模型425可指示数据的分布，且可与具有类似分类模型的先前预测、与预定阈值等等进行比较。
102.另外或替代地，可将所述组分类模型(例如，模型421、422、423、424、425、426)一起汇总成经封装模型435。模型435可连同用于所述组分类模型的训练的训练数据集以及与其相关的其它信息(例如其相似度测量、数据的分布测量等等)一起保存。在一些示范性实施例中，可将模型435与通过学习模块420在先前反复中产生的模型进行比较。在其准确度的
改进的情形中，可部署模型435。否则，可部署先前模型。
103.在一些示范性实施例中，所述组分类模型可包括将由分类模块440用于分类任务的主要分类模型。主要分类模型(还称为预测器)可为整体式分类器(例如模型422)，或预测未经标记图像的标签的任何其它分类器(例如模型423、模型424等等)。可了解，主要分类模型被快速执行、消耗相对低量的资源等等可为优选的。在一些示范性实施例中，主要分类模型可经配置以确定每一类别标签将在数据集内被选择的概率(例如使用softmax层)。响应于获得新生产图像组x
new
，分类模块440可将主要分类模型应用于新生产数据集上。可将缺陷(例如被标记为展示产品中的缺陷的存在的图像)提供到模型跟踪模块450。在一些示范性实施例中，可将所有或大体上所有缺陷图像提供到模型跟踪模块450，这是因为绝大多数图像可被标记为不包含任何缺陷(例如预期在运行的生产厂房中，其中大多数产品符合所要的质量水平)。
104.在一些示范性实施例中，可将来自新生产图像组x
new
的预定百分比k％的图像提供到模型跟踪模块450。预定百分比k％可为5％、10％等等。此类图像可用作生产数据集，将所述生产数据集与校准数据集进行比较，以确定新生产图像组x
new
是否包括数据漂移(例如，来自不同图像产生过程分布)。数据漂移可降低在主要分类模型的准确度上可能具有的保证等级，所述主要分类模型是使用生产数据集从其中漂移的校准数据集来训练及验证的。
105.在一些示范性实施例中，模型跟踪模块450可经配置以确定新生产图像组x
new
中的异常、新生产图像组x
new
与主要分类模型之间的不匹配、警告模型准确度降级、标示特殊离群值图像等等。模型跟踪模块450可经配置以将模型421到426中的每一者作为“判断”分类器应用于生产数据集上。可计算生产数据集上的分类模型的生产不一致测量且将所述生产不一致测量与通过学习模块420使用校准数据集来计算的分类模型的不一致测量进行比较。可以与不一致测量类似的方式(例如基于分类模型的每一对或元组的预测之间的间隙、基于分布内分类器结果之间的比较等等)计算生产不一致测量。
106.在一些示范性实施例中，如果确定数据漂移，那么可将生产数据集连同缺陷的子集一起提供到训练数据集选择模块460。训练数据集选择模块460可经配置以确定应选择哪一数据来重新训练主要分类模型。
107.在一些示范性实施例中，可选择被确定为特殊的图像(例如被怀疑涉及缺陷、离群值的图像、漂移图像、不适合已知类别的图像等等)以用于重新训练。可将此类图像提供给数据净化模块410以由人类专家进行重新标记。
108.另外或替代地，训练数据集选择模块460可经配置以随时间从可用数据选择图像。可用数据可保存于数个图像组中，所述数个图像组中的每一者包括在时间区间内获得的图像。作为实例，数据集ds
i-k
可包括在时间点i与从i往回k个时间点(例如，从今天往回8天)之间的时间区间处获得的图像。所述组图像可根据其相应时间区间进行排序，例如{ds
i-k
,ds
i-k 1
,
…
,ds
i-1
}。
109.在一些示范性实施例中，训练数据集选择模块460可经配置以将数据集遗忘算法462应用于所述图像组上。数据集遗忘算法462可经配置以确定应选择哪些组来进行重新训练，以及应遗忘(例如，从重新训练数据集排除)哪些组。数据集遗忘算法462可经配置以应用不同假设来选择遗忘哪些数据集，例如遗忘旧的图像组、遗忘分布外图像组、遗忘被视为降低分类模型的整体准确度的图像组、遗忘与其它组相比有噪声的图像组等等。另外或替
代地，数据集遗忘算法462可经配置以基于行业类型、成像技术、统计测量等等而应用最佳实践假设。
110.另外或替代地，训练数据集选择模块460可经配置以将数据集混合算法464应用于由数据集遗忘算法462选择的图像组上。数据集混合算法464可经配置以确定应选择所选择组的哪些部分来进行重新训练。数据集混合算法464可经配置以应用不同选择假设，例如：“过去意味着更多”假设，其中选择来自较旧的数据集的更多图像；“过去意味着更少”假设，其中选择来自较新的数据集的更多图像；基于训练的可能准确度而进行选择等等。
111.在一些示范性实施例中，可将所选择图像提供给学习模块420以用于重新训练所述组分类模型。此类所选择图像可为用于确定新不一致测量的新校准数据集。
112.现在参考图5，其展示根据所公开标的物的一些示范性实施例的对数据集的示范性数据选择的示意性图解说明。
113.在一些示范性实施例中，图像数据集500可包括经排序多组图像：数据库510、520..、590。每一组图像可包括在时间间隔内获得的图像。每一时间区间可具有与生产速度相关的预定周期，例如指示生产回合的时间周期、指示分类回合的时间周期等等。另外或替代地，可基于经取样图像的改变速度(例如过去样本的其中获得具有不同统计特征的图像的平均时间周期等等)而确定时间周期。作为实例，在pcb行业中，可通常在所制造装置之间具有快速改变，例如每隔2天或3天替换已扫描设计等等。因此，每一时间区间可包含数个小时，例如8个小时、12个小时、24个小时等等；数天，例如2天、5天、一工作周等等。
114.在一些示范性实施例中，多组图像可根据其中获得每一组中的图像的时间区间的次序进行排序。作为实例，数据库510可包括在最早时间区间中获得的图像，数据库520可包括在紧接在最早时间区间之后的下一时间区间中获得的图像等等。数据库590可包括在最后(例如，最新)时间区间中获得的图像。数据库590可为生产数据集，例如在于生产中对未经标记图像应用分类模型期间的最后时间区间中获得的一组图像。此类图像可为未经标记的、可为部分标记的、可由未经更新分类模型标记等等。
115.在一些示范性实施例中，可基于图像数据集500而确定训练数据集505。训练数据集505可用于训练分类模型，所述分类模型经配置以针对每一给定图像预测指示其类别的标签。在一些示范性实施例中，分类模型可用于连续ai分类任务中，所述连续ai分类任务在每一回合中具有待分类数据的可能改变，例如fpd或pcb行业中的缺陷检测等等的可能改变。分类模型可被周期性地重新训练以便保持其准确度，但还可需要不受新数据干扰。因此，可需要训练数据包括最近样本及旧的样本两者。来自每一时间区间的样本量可基于分类任务的要求、数据的改变的性质等等而变化。
116.在一些示范性实施例中，可针对图像数据集500中的每一组图像确定权重。权重可为非均匀的且可从一个组到另一组而不同。可根据不同选择型式(例如但不限于图6a中所描述的型式)而确定权重。在一些示范性实施例中，可基于用户的需要(例如在最近设计上提供较准确分类结果且在旧的已扫描设计上提供较不准确分类结果等等)而确定选择型式。权重可指示将从每一组图像(例如，每一时间区间)选择的图像量。作为实例，每一权重可等于百分比，根据由所述百分比定义的比率，所述百分比指示相关联组图像的部分。作为另一实例，权重可为将从所述组图像选择的图像的比率、将从所述组图像选择的图像的最大数目、将从所述组图像选择的图像的最小数目等等。
117.在一些示范性实施例中，来自图像数据集500的每一组图像的子集可经选择以由训练数据集505包括。可基于针对相关联组所确定的权重而选择每一子集。作为实例，可从数据库510选择百分比(或比率)α，从数据库520选择百分比β等等。因此，训练数据集505可包括图像的多个子集，例如子集515，子集525
…
子集595。大小(s)可指示图像组s中的图像的数目。在一些示范性实施例中，大小(子集515)＝α
·
大小(数据库510)、大小(子集525)＝β
·
大小(数据库525)、
…
、大小(子集595)＝γ
·
大小(数据库590)。
118.可注意，至少一对权重(或百分比)α、β
…
γ是不同的，例如，α≠β。可进一步注意，一些百分比可为0，例如，无任何图像可从相关联组图像选择。
119.现在参考图6a，其展示根据所公开标的物的一些示范性实施例的示范性训练数据选择型式的示意性图解说明。
120.在一些示范性实施例中，针对图像组(例如图5的图像数据集500中的图像组)所确定的权重可和与其相关联的时间区间的次序相关。在一些示范性实施例中，可针对较旧的训练数据集而确定指示待选择图像的较低百分比的较低权重，例如在型式610、615(“过去意味着更多”型式)中。在此类选择型式中，从最近数据集选择较多图像且从旧的数据集选择较少图像。因此，分类模型可在最近样本上更强(例如，更准确)且在过去样本上较不准确。另外或替代地，可针对较旧的训练数据集而确定指示待选择图像的较高百分比的较高权重，例如在型式620、625(“过去意味着更少”型式)中。在此类选择型式中，从旧的数据集选择较多图像且从最近数据集选择较少图像。当来自较旧数据集的数据比较新数据对最近样本更具信息性时(例如当引入新缺陷、来自较旧时间区间的重复缺陷等等时)，此型式可为相关的。在一些示范性实施例中，可根据时间的单调函数而确定权重。单调函数可为非单值函数，例如严格递增单调函数(如在型式620、625中)、严格递减单调函数(如在型式610、615中)、线性函数(如在型式615、625中)、非线性函数(如在型式610、620中)等等。
121.另外或替代地，可基于图像组的重要度测量(例如基于图像组的训练的准确度、样本的方差、引入新类别等等)(如在型式630中)而确定图像组的权重。
122.在一些示范性实施例中，当应用未来数据集时，可基于分类模型的可能准确度而确定每一组图像的权重，所述分类模型是基于所述每一组图像而训练的。可通过以下操作而确定可能准确度：基于包括所述组图像的训练数据集而训练分类器，且将经训练分类器应用于稍后获得的图像组。可将所得准确度与在不具有相关联组图像的情况下训练的其它分类器的准确度进行比较。作为实例，可基于包括连续组图像的第一数据集而训练第一分类器。可基于第二数据集而训练第二分类器，除了由第一数据集包括的图像组之外，所述第二数据集还包括紧接在第一数据集的最后组图像之后排序的一组额外图像。可基于第二分类器的准确度测量与第一分类器的准确度测量相比的差异而确定所述组额外图像的权重。如果第二分类器的准确度测量与第一分类器的准确度测量相比的差异指示改进，那么可使所述组额外图像的权重与所述改进的测量相关。如果第二分类器的准确度测量与第一分类器的准确度测量相比的差异指示准确度的降低，那么可为所述组额外图像的权重指派指示避免选择任何图像的最低权重值。
123.另外或替代地，可基于每一组图像连同在其前面的所有组图像一起来训练分类器。可将每一分类器的准确度测量与基于先前组图像及在其前面的若干组而训练的分类器的准确度测量进行比较。作为实例，针对在时间区间t处获得的每一组新图像，可基于所有
组图像直到所述组新图像(例如，经累积训练数据集，包括先前数据集(直到时间区间t-1)以及所述组新图像(在时间区间t处获得的一组)而训练新分类器cls
t
。可将分类器cls
t
的准确度测量与分类器cls
t-1
(例如，基于所有组图像直到在时间区间t-1处获得的所述组图像而训练的分类器的准确度测量进行比较。可使针对在时间区间t处获得的所述组新图像所确定的权重与所述准确度测量之间的差异相关。
124.另外或替代地，可将权重提供给若干组图像的元组(例如，若干组图像的系列)作为一个单元，例如5组图像、10组图像等等的元组。元组中的每一组图像可被指派有相同权重。若干组的每一元组可用于训练将被应用于来自一组未来(例如，连续)图像的图像上的分类器。可将分类器应用于若干组图像的子系列上以确定所述分类器的准确度测量，根据多组图像的次序，所述若干组图像的子系列紧接在元组中的最后组之后排序。可基于将基于每一元组而训练的分类器应用于若干组图像的连续子系列上的准确度测量而确定所述每一元组的权重。具有高于最小准确度阈值的准确度测量的元组可被指派有最低权重值，所述最低权重值指示避免从元组中的若干组图像选择任何图像(例如，从训练数据集丢弃此类组图像)。另外或替代地，可确定可在重新训练的过程中跳过的时间区间的数目(例如，图像组的数目)。高准确度测量(例如高于预定阈值)可指示分类模型的预测能力以及无需针对此数据进行额外训练。作为实例，可将最低权重值指派给若干组图像的子系列，所述子系列具有与提供高于预定相似度阈值的准确度测量的子系列中的组数目相同的组数目。
125.在一些示范性实施例中，一或多个例外可应用于选择型式上。作为实例，引入新分类种类(例如新类别)的若干组图像可作为整体被选择在训练数据集中、可被提供有最高权重等等，以便在重新训练中引入新种类。作为另一实例，消除分类到一或多个分类种类的分类(例如，不具有分类到一或多个类别的图像)的若干组图像可从训练数据集被丢弃。另外或替代地，来自所有组图像的被分类到经消除类别的图像可从所述组图像被移除，且因此未被选择在训练数据集中。作为另一实例，具有随时间分类到其的不平衡数目个图像的类别、具有随时间分类到其的减小数目个图像的类别等等也可视为已消除的且可移除分类到所述类别的图像。
126.另外或替代地，可从训练数据集移除复制或类似图像。可将例如深度聚类、熵最大化、数据集图像之间的正规化互相关等统计技术应用于所选择图像上以便确定其间的相似度。可从训练数据集移除具有高于预定阈值(例如高于90％、高于95％等等)的相似度测量的图像。
127.现在参考图6b，其展示根据所公开标的物的一些示范性实施例的示范性训练数据集及验证数据集选择型式的示意性图解说明。
128.在一些示范性实施例中，可基于经排序多组图像而选择图像的验证数据集。可针对每一组图像确定验证权重。验证集图像可为基于其验证权重而从经排序多组图像选择的。
129.在一些示范性实施例中，可以与训练集的选择相反的选择型式来确定验证权重。
130.作为实例，图650可描绘训练数据集及验证数据集选择型式。训练选择型式可根据曲线660中所描绘的函数f(t)，所述函数可表示随时间的若干组图像的权重、随时间的从每一组图像选择的图像的百分比等等。验证数据集选择型式可根据曲线670中所描绘的函数g(t)，其中g(x)＝
–
f(x)。曲线660中所描绘的训练选择型式是非线性“过去意味着更多”型
式。曲线670中所描绘的验证数据集选择型式是非线性“过去意味着更少”型式。
131.另外或替代地，可基于经排序多组图像而选择用于测试经重新训练分类模型的测试数据集。作为实例，测试数据集可包括来自每一组图像的预定百分比的图像(例如来自所述组图像的10％、15％等等)。
132.本发明可为一种系统、一种方法或一种计算机程序产品。计算机程序产品可包含其上具有指令以用于致使处理器执行本发明的方面的计算机可读存储媒体。
133.计算机可读存储媒体可为有形装置，所述有形装置可保持并存储指令以供由指令执行装置使用。计算机可读存储媒体可为(举例来说，但不限于)电子、磁性光学存储装置等等，例如但不限于硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)等等。在一些情形中，指令可从服务器、远程计算机、远程存储装置等等下载到存储媒体。
134.用于执行本发明的操作的计算机可读程序指令可为汇编指令、指令集架构(isa)指令、机器指令、机器相依指令、微代码、固件指令、状态设定数据，或者以一或多个程序设计语言(包含面向对象的程序设计语言，例如smalltalk、c 等等，以及常规程序性程序设计语言，例如“c”程序设计语言或类似程序设计语言)的任何组合写入的源代码或目标代码。程序指令可完全执行于用户的计算机上、部分地执行于用户的计算机上、作为独立软件包部分地执行于用户的计算机上及部分地执行于远程计算机上或者完全执行于远程计算机或服务器上。在后一情景中，远程计算机可通过包含局域网(lan)或广域网(wan)的任何类型的网络连接到用户的计算机或可连接到外部计算机(举例来说，通过使用因特网服务提供商的因特网)。
135.在本文中参考方法、设备、系统及计算机程序产品的流程图及框图来描述本发明的方面。将理解，图式中的每一框以及图式中的框组合可由计算机可读程序指令实施。
136.可将计算机可读程序指令加载到计算机、其它可编程数据处理设备或其它装置上以致使将在所述计算机、其它可编程设备或其它装置上执行一系列操作步骤以产生计算机实施的过程，使得在计算机、其它可编程设备或其它装置上执行的指令实施图式的框中所指定的功能。
137.图中的流程图及框图图解说明本发明的各种实施例的可能实施方案。就此来说，流程图或框图中的每一框可表示模块、分段或指令部分，其包括用于实施所指定逻辑功能的一或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。举例来说，事实上，取决于所涉及的功能性，可大体上同时执行连续展示的两个框，或可有时按相反次序执行所述框。还将注意，图式的每一框以及框组合可由基于专用硬件的系统实施。
138.本文中所使用的术语仅出于描述特定实施例的目的而并非打算限制本发明。如本文中所使用，单数形式“一(a)”、“一(an)”及“所述(the)”还打算包含复数形式，除非上下文另外明确指示。将进一步理解，术语“包括(comprises)”及/或“包括(comprising)”在本说明书中使用时指定存在所陈述特征、整数、步骤、操作、元件及/或组件，但并不排除存在或添加一或多个其它特征、整数、步骤、操作、元件、组件及/或其群组。
139.所附权利要求书中的所有构件或步骤加功能元件的对应结构、材料、动作及等效物打算包含用于结合如具体主张的其它所主张元件一起执行功能的任何结构、材料或动
作。本发明的说明已出于图解及说明的目的而呈现，但并不打算为穷尽性的或将本发明限制于所公开的形式。在不背离本发明的范围及精神的情况下，所属领域的技术人员将明了许多修改及变化形式。选择及描述实施例以便最佳地解释本发明的原理以及实际应用，且使其它所属领域的技术人员能够理解本发明，从而得出具有适于所囊括的特定用途的各种修改的各种实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于Scaleformer类算法的腹腔镜图像分割方法及系统与流程

用于图像分类的自适应学习的制作方法

相关文献

最热文献