一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

产品分析方法及系统及装置及介质与流程

2022-05-08 08:56:18 来源:中国专利 TAG:


1.本发明涉及智能制造与人工智能技术领域,具体地,涉及产品分析方法及系统及装置及介质。


背景技术:

2.工业产品缺陷的根因定位方法,应用于工业制造领域的产品质量控制和工艺参数优化任务中。工业制造过程中,降低产品的不良率对于企业的质量控制至关重要,其核心在于精准、迅速定位出生产加工过程中造成缺陷的根因,即检测定位出影响产品质量的关键工艺参数,进而通过分析调整关键工艺参数,改进生产工艺,提升产品质量。
3.工业产品缺陷的根因定位,现有技术主要通过多元统计分析方法,分析生产加工过程中各工艺参数与产品不良率之间的相关性,基于多元线性回归方法找出权重系数最大的工艺参数,或者通过业务专家结合生产加工的相关经验进行人工筛查。然而工业制造领域产品生产加工过程中涉及到的工艺参数往往成千上万,数量远超待分析的缺陷产品的数量,而且不同的工艺参数间往往存在非常强的相关性,这些因素都严重影响多元统计分析方法的准确性。而人工筛查的方法,高度依赖有经验的业务专家,分析效率也较低,严重影响企业的产品质量控制。
4.现有技术中有几种相关的产品分析方法,分别为:现有技术1:方案来源:cn111159645a一种基于产品生产履历和参数的不良根因定位方法具体方案:(1)读取指定时间段的玻璃产品的生产履历数据,统计不良玻璃产品的样本数量;(2)分析相同站点各设备不良样本是否存在聚集;(3)分四轮逐步剔除参数行,形成辅助表;(4)根据模型给出的特征重要性评分,形成分析表;(5)根据分析表筛选属性特征列,形成结果表;(6)根据结果表定位产品不良根因。
5.方案优点:结合了工业制造过程中履历参数分析的流程和经验,贴合工业制造的业务场景;方案缺点:处理流程过度依赖业务专家的人工经验,同时参数剔除过程受阈值设置影响较大。此外参数剔除处理流程比较繁琐。
6.现有技术2:方案来源:cn113590451a一种根因定位方法运维服务及存储介质具体方案:(1)获取业务系统运维数据;(2)构建所述目标数据特征之间的第一、第二、第三依赖关系;(3)分析得到目标关系;(4)对所述目标关系中的候选异常类型进行根因推断,得到异常类型的异常概率;(5)根据异常概率确定根因类型。
7.方案优点:通过概率图模型给出了异常类型的异常概率,具有较强的解释性;方案缺点:(1)该方法主要针对运维数据,工业制造上的生产加工数据和运维数据之间具有较大差异;(2)样本数据量远少于参数维数时,构建概率图模型存在一定困难。
8.现有技术3:方案来源:cn104123298b产品缺陷的分析方法和设备具体方案:(1)从记录的产品数据中,筛选生成缺陷产品构成的数据集;(2)基于关联分析算法或统计分析算法,确定缺陷产品数据集中不同数据属性间的关联规则;(3)根据(2)中所述数据属性间的关联规则,对缺陷产品数据集进行数据筛选,得到缺陷根因所在的数据集。
9.方案优点:通过关联规则,可以在产品信息量较大的情况下很快缩小缺陷根因所在的数据范围,从而快速定位产品缺陷根因。方案缺点:关联规则的提取相对比较困难,尤其对于工业产品缺陷根因检测领域,工艺流程复杂、涉及参数众多,参数间影响关系复杂,难以有效提取得到准确的关联规则。


技术实现要素:

10.为解决上述问题,本发明提供了产品分析方法及系统及装置及介质。
11.为实现上述目的,本发明提供了产品分析方法,所述方法包括:获得产品的质量检测数据,对所述质量检测数据进行标注获得标注数据;获得产品的原始加工数据,对所述原始加工数据进行清洗获得第一工艺流程数据,对所述第一工艺流程数据进行预处理获得第二工艺流程数据;基于所述标注数据和所述第二工艺流程数据对第一分类预测模型进行训练获得第二分类预测模型;获得待分析数据,将所述待分析数据输入所述第二分类预测模型,所述第二分类预测模型输出所述待分析数据中每个生产工艺参数的预测值;基于每个生产工艺参数的预测值计算获得每个生产工艺参数的shap值,基于每个生产工艺参数的shap值的绝对值获得每个生产工艺参数在所述待分析数据中的平均shap值;基于每个生产工艺参数在所述待分析数据中的平均shap值进行排序获得第一排序结果,基于第一排序结果获得影响产品质量的多个关键工艺环节名称及多个关键生产工艺参数。
12.其中,本发明基于每个生产工艺参数的shap值能够准确获得影响产品质量的多个关键工艺环节名称及多个关键生产工艺参数,与现有技术1相比,本方法不依赖业务经验准则,不设置特征筛选的阈值,具有较强的灵活性和可拓展性,能够快速准确的获得影响产品质量的多个关键工艺环节名称及多个关键生产工艺参数。与现有技术2相比,本发明针对工业制造过程中不良根因定位的特定场景进行分析,本发明中的处理方法对于生产加工数据中样本量少、参数维数高的特点具有较强的针对性和有效性,并不需要大量的样本。与现有技术3与相比,本发明不依赖任何关联规则,本方法具有较强的灵活性和可拓展性。
13.优选的,所述方法还包括以下步骤:对于待分析数据中的缺陷产品,获得缺陷产品对应的每个关键生产工艺参数的shap值,将缺陷产品对应的每个关键生产工艺参数的shap值进行排序,获得第二排序结果,基于第二排序结果获得导致产品不良贡献最大的第一根因生产工艺参数;对于待分析数据中的正常产品,获得正常产品对应的每个关键生产工艺参数的
shap值,将正常产品对应的每个关键生产工艺参数的shap值进行排序,获得第三排序结果,基于第三排序结果获得对产品良品率贡献最大的第二根因生产工艺参数。
14.其中,由于缺陷产品对应的每个关键生产工艺参数的shap值为负数,则在排序时若直接以负数的shap值由大到小进行排序,获得第二排序结果,则取第二排序结果中排序靠后的若干个结果作为导致产品不良贡献最大的第一根因生产工艺参数;若使用绝对值由大到小进行排序,则取排序靠前的若干个结果作为导致产品不良贡献最大的第一根因生产工艺参数。对于正常产品其shap值为正,将正常产品对应的每个关键生产工艺参数的shap值由大到小进行排序,获得第三排序结果,则取第三排序结果中靠前的若干个结果作为对产品良品率贡献最大的第二根因生产工艺参数。
15.其中,本方法在获得影响产品质量的多个关键工艺环节名称及多个关键生产工艺参数之后,想要判断这些工艺环节和工艺参数对于产品的质量是正向的影响还是负向的影响,shap值的正负,体现了特征对模型预测输出的影响是“正向促进”还是“反向削弱”,因此在上述步骤得到关键工艺环节名称及关键生产工艺参数的基础上,本发明可以进一步分析,对于具体的每一个产品,关键工艺环节名称及关键生产工艺参数是如何影响产品质量的。
16.优选的,所述方法还包括以下步骤:根据第一根因生产工艺参数和/或第二根因生产工艺参数不同取值时对应的产品的良品率和生产工艺参数的shap值,分析第一根因生产工艺参数和/或第二根因生产工艺参数不同取值对产品质量的影响。
17.其中,得到导致产品缺陷不良的根因参数后,需要针对不良根因参数的取值进行分析调优。本发明可以进一步分析对于某个特定工艺参数,参数的不同取值对产品质量的影响情况,从而给出参数优化的方向,辅助参数调优。
18.优选的,本方法根据产品的质量检测数据,划分产品的质量等级,获得所述标注数据。对数据进行标注便于模型进行处理。
19.优选的,本方法对所述原始加工数据进行清洗,具体包括:分析原始加工数据中同一产品的产品加工记录的重复次数,剔除重复的产品加工记录;将产品加工记录按照产品编号和时间排序,将同一产品在不同时间的产品加工记录中的生产工艺参数进行整合,形成该产品的完整生产工艺参数;剔除完整生产工艺参数中产品覆盖率超出第一预设范围的生产工艺参数;剔除完整生产工艺参数中取值为固定值的生产工艺参数;删除产品加工记录中工艺参数的覆盖率超出第二预设范围的产品加工记录。
20.其中,清洗数据的目的是以确保后续分析步骤的准确性。
21.优选的,对所述第一工艺流程数据进行预处理,具体包括:对于所述第一工艺流程数据中的数值型生产工艺参数,计算任意两个数值型生产工艺参数之间的相关系数,对于相关系数超过第一阈值的两个数值型生产工艺参数,删除其中一个数值型生产工艺参数;对于所述第一工艺流程数据中的类型选择生产工艺参数,对类型选择生产工艺参数进行编码,生成类型选择变量。
22.优选的,采用皮尔逊相关系数计算任意两个数值型生产工艺参数之间的相关系
数。
23.优选的,对类型选择生产工艺参数进行one-hot编码。区别于数值型工艺参数,类型选择参数多为编号信息,不能直接作为后续步骤中分析的参数特征,因此需要将单个类型选择参数转换为多个相互独立的类型选择变量。
24.其中,针对工艺流程数据的特点进行预处理,能保证大规模工艺参数数据分析的可行性和准确性。
25.优选的,所述第一分类预测模型为机器学习模型。
26.优选的,生产工艺参数的shap值的计算方式为:其中,表示某个样本中生产工艺参数的shap值;!表示阶乘符号;为样本中所有生产工艺参数的集合,样本中生产工艺参数的数量为;表示样本所有生产工艺参数中去掉生产工艺参数后构成的集合;表示从中抽取出来的部分生产工艺参数构成的某个任意子集,其大小为;表示利用集合中的生产工艺参数对应的第二分类预测模型的输出值;表示同时利用集合中的生产工艺参数和生产工艺参数时第二分类预测模型的输出值。
27.优选的,需满足以下约束:其中,表示样本在第二分类预测模型中的预测值,表示第二分类预测模型的基线值,表示样本中所有个生产工艺参数的包含情况。
28.优选的,利用部分依赖图或散点图分析第一根因生产工艺参数和/或第二根因生产工艺参数不同取值对产品质量的影响。
29.其中,通过特定参数取值与产品不良率之间的散点图,可以得到特定工艺参数取值与产品不良率之间的关系,为参数调优提供参考方向。shap值反映了特征对模型输出的影响方向(“增强输出”还是“减弱输出”)以及影响的程度大小。因此,通过利用散点图分析工艺参数不同取值与参数特征shap值之间的关系,可以辅助分析参数不同取值对产品质量的影响。
30.本发明还提供了产品分析系统,所述系统包括:标注单元,用于获得产品的质量检测数据,对所述质量检测数据进行标注获得标注数据;清洗及预处理单元,用于获得产品的原始加工数据,对所述原始加工数据进行清洗获得第一工艺流程数据,对所述第一工艺流程数据进行预处理获得第二工艺流程数据;训练单元,用于基于所述标注数据和所述第二工艺流程数据对第一分类预测模型进行训练获得第二分类预测模型;
模型处理单元,用于获得待分析数据,将所述待分析数据输入所述第二分类预测模型,所述第二分类预测模型输出所述待分析数据中每个生产工艺参数的预测值;计算单元,用于基于每个生产工艺参数的预测值计算获得每个生产工艺参数的shap值,基于每个生产工艺参数的shap值的绝对值获得每个生产工艺参数在所述待分析数据中的平均shap值;分析单元,用于基于每个生产工艺参数在所述待分析数据中的平均shap值进行排序获得第一排序结果,基于第一排序结果获得影响产品质量的多个关键工艺环节名称及多个关键生产工艺参数。
31.本发明还提供了产品分析装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述产品分析方法的步骤。
32.本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述产品分析方法的步骤。
33.本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:本发明创新性地将基于shap值的模型解释方法应用于工业制造领域的产品缺陷根因定位问题中,针对性地给出了影响产品质量最重要的工艺参数特征以及对应的工艺环节。
34.相比于其他的特征重要性分析方法,本发明基于特征的shap值的正负性,分析了重要特征对产品质量影响的正负性,并且根据不同质量等级产品的shap值,定位得到了可能导致产品质量缺陷最主要的工艺流程环节以及具体的工艺参数,实现了不良根因的准确定位通过不同工艺参数特征的shap值与参数取值之间的关系,分析重要工艺参数的合理取值,从而辅助不良工艺参数的调整优化。
35.该发明提出的基于shap值对不良根因参数的分析方法,易于理解,具有较强的可解释性。
36.本方法不依赖业务经验准则,不设置特征筛选的阈值,本发明不依赖任何关联规则,具有较强的灵活性和可拓展性,能够快速准确的获得影响产品质量的多个关键工艺环节名称及多个关键生产工艺参数,本发明针对工业制造过程中不良根因定位的特定场景进行分析,本发明中的处理方法对于生产加工数据中样本量少、参数维数高的特点具有较强的针对性和有效性,并不需要大量的样本。
附图说明
37.此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;图1为产品分析方法的流程示意图;图2是不同玻璃面板样本上该参数取值与产品不良率之间的散点图;图3是不同玻璃面板样本上该参数取值与该特征的shap值之间的散点图;图4为产品分析系统的组成示意图。
具体实施方式
38.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
39.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
40.应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
41.如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
42.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
43.实施例一请参考图1,图1为产品分析方法的流程示意图,本发明实施例一提供了产品分析方法,所述方法包括:获得产品的质量检测数据,对所述质量检测数据进行标注获得标注数据;获得产品的原始加工数据,对所述原始加工数据进行清洗获得第一工艺流程数据,对所述第一工艺流程数据进行预处理获得第二工艺流程数据;基于所述标注数据和所述第二工艺流程数据对第一分类预测模型进行训练获得第二分类预测模型;获得待分析数据,将所述待分析数据输入所述第二分类预测模型,所述第二分类预测模型输出所述待分析数据中每个生产工艺参数的预测值;基于每个生产工艺参数的预测值计算获得每个生产工艺参数的shap值,基于每个生产工艺参数的shap值的绝对值获得每个生产工艺参数在所述待分析数据中的平均shap值;基于每个生产工艺参数在所述待分析数据中的平均shap值进行排序获得第一排序结果,基于第一排序结果获得影响产品质量的多个关键工艺环节名称及多个关键生产工艺参数。
44.其中,本方法中的产品可以是工艺制品中的各自产品,如面板、触摸屏、液晶显示屏等等,本发明不对具体的产品进行限定,下面以产品是面板进行举例介绍。
45.为了便于理解,本实施例将生产工艺参数相关描述表述为与机器学习相关的特征描述。
46.本发明的目标为分析定位出产品加工制造过程中导致产品不良最主要的工艺参
数(即不良根因参数);以及分析特定工艺参数的取值对于产品质量的影响,辅助工艺参数的调优。
47.本发明实施例一提供一种工业制造过程中缺陷产品的根因定位方法,旨在解决工业制造过程中工艺参数众多、部分参数间高度相关、产品工艺流程复杂,难以定位工业产品缺陷根因的技术问题。
48.其中,shap是由shapley value启发的可加性解释模型。shapley value起源于合作博弈论。
49.为实现上述目的,本发明提供一种基于shap 值的工艺缺陷根因检测定位方法,所述方法包括:步骤1:对产品的质量检测数据和原始加工数据,分别进行标注和清洗,生成标注数据和相应的完整的工艺流程数据;所述产品加工数据,包括但不限于:产品加工过程中各个工艺环节生产控制设备监测的工艺状态参数(如生产设备中的温度、湿度、压强等)、抽检过程监测的产品中间状态参数(如面板生产中间过程中玻璃的厚度和表面清洁度、电子元器件加工过程中引脚的好坏等)、加工过程中的用料用时数据(如不同用料的比例、某个环节加工时长等)。
50.需要指出,由于工业制造过程中存在大量的平行生产线、平行腔室等平行生产设备,即使是同种型号的产品,在加工过程中的生产履历数据以及记录的工艺参数类型也会有所差异。此外,在自动化控制过程中,不同的生产监测设备记录工艺参数的方式也不尽相同。这些因素导致在原始的产品加工数据中,容易出现以下几种情况:(1)在生产监测设备导出数据的过程中,由于相关人员的疏忽,在原始加工数据集中,少量具有唯一编号的产品,可能存在多条完全相同的重复加工记录(重复记录在数据整合时未删除);(2)由于经历了串行加工过程中的多个环节,尤其是相同的工艺操作被执行了多道工序,在原始加工数据中,大量具有唯一编号的产品,可能存在多条不同的加工记录(串行加工过程中不同环节的加工数据未整合);(1)根据产品的质量检测数据,划分产品的质量等级,得到标注数据和相应的产品原始加工数据;(2)分析原始加工数据中同一产品加工记录的重复次数,剔除完全相同的重复加工记录;(3)将所有产品的加工记录同时按照产品编号和时间排序,将同一产品不同时间的加工记录中的参数进行“拼接”整合,形成该产品的完整的加工参数;(4)剔除数值缺失严重的工艺参数;(5)剔除取值为固定值的工艺参数;(6)删除数值缺失严重的产品加工记录;本实施例针对原始加工数据中比较容易出现、而且对后续分析步骤影响较大的情形,说明了数据清洗的方法,以确保后续分析步骤中的准确性。此外,一些特定领域的产品加工数据中,还可能提供一些额外信息(如面板生产过程中的站点编号等),可以辅助进行异常数据的筛查和数据清洗,本发明不限制。
51.步骤2:对清洗后得到的完整的工艺流程数据进行预处理;数据分析前,都必须进行预处理。需要说明的是,工业制造领域的生产加工数据,
往往存在以下突出特点:(1)工艺参数数量众多,参数特征数远超样本数;(2)生产加工数据中的工艺参数,除了加工过程中监测采集的各类加工状态信息(如压强、温度)外,还有一些针对加工状态信息的后续处理数据(如平均压强、温度的方差等)。同时,相同的操作重复多次时,在每一次加工过程中都会被记录为不同的工艺加工参数。这些因素导致工艺参数间相关度非常高;(3)工艺流程复杂,产品加工过程中除了串行加工过程外,还存在并行加工过程。所谓并行加工过程,是指在完成同一道工序、实现同一种加工功能时,一个产品可以在多个平行生产线、平行腔室等平行生产设备间,选择其一经过。因此,该加工过程中产品所用的平行设备的信息,也会作为一个参数,记录到产品的生产加工数据中,即为并行过程的类型选择参数(参数取值为选择的平行生产线的线别、平行腔室的编号等)。
52.因此,必须针对工艺流程数据的特点进行预处理,才能保证大规模工艺参数数据分析的可行性和准确性,具体的预处理包括:(1)删除并记录高度互相关的工艺参数。
53.高度互相关的工艺参数,将导致模型中特征间出现严重的共线性,而且也会严重制约模型的运行速度。
54.因此,首先计算所有工艺参数间的相关性。对于相关性超过预设值的两个工艺参数,只保留其一,并将删除的工艺参数进行记录。
55.需要指出,工艺参数基本可分为数值型工艺参数(如温度、湿度、压强、表面清洁度以及平均湿度、最大压强、温度的方差等)和类型选择参数(如该环节或该工序选择的平行生产线的线别、平行腔室的编号等),该步骤中所述互相关性只针对数值型工艺参数。
56.优选地,本发明采用皮尔逊相关系数计算数值型工艺参数的相关性。
57.(2)使用多个独立的类型选择变量替代原有的单个类型选择参数。
58.区别于数值型工艺参数,类型选择参数多为编号信息,不能直接作为后续步骤中分析的参数特征,因此需要将单个类型选择参数转换为多个相互独立的类型选择变量。
59.本实施例中,本发明采用one-hot编码方式,对类型选择参数进行编码,生成类型选择变量,在实际应用中也可以采用其他编码方式,本发明实施例不对具体的编码方式进行限定。
60.当然,上述步骤仅是针对工业制造过程中工艺参数数据的特点,给出的一些必要的预处理步骤,在实际处理过程中,可以根据数据的质量和特点,视情减少某些步骤或者增加其他预处理步骤,本发明不限制。
61.步骤3:根据分类预测模型的预测值计算各参数特征的shap值;(1)选用xgboost等机器学习模型作为分类预测模型,对输入的标注数据和工艺流程数据进行训练、测试,直至模型的性能指标达到预设值;需要指出,对于待分析的模型输入数据,预测模型的预测效果越好,说明该预测模型对于待分析数据“拟合”得越好,在后续步骤中,利用该模型的预测值计算待分析数据中工艺参数特征的shap值就越准确。
62.因此,对于待分析数据,如果模型的性能指标低于预设值,则需重新训练该预测模型,直至对于待分析数据,模型的性能指标达到预设值。
63.(2)采用如下公式,计算得到每个产品样本中不同参数特征的shap值:
其中,表示在某个样本中特征的shap值,为该样本中所有特征的集合,其维度为(即特征的数量为),表示该样本所有特征中去掉特征后构成的集合,表示从中抽取出来的部分特征构成的某个任意子集,其大小为。表示只利用集合中的特征预测模型的输出值。表示同时利用集合中的特征和特征,预测模型的输出值,显然体现了在任意的某种特征抽取方式中,特征对于预测模型输出的边际效益。该公式整体上给出了在所有可能的特征抽取方式中,特征对于预测模型输出的边际效益的期望,体现了特征对于预测模型输出的
ꢀ“
贡献程度”。
64.需要指出,shap值满足如下等式:其中,表示样本在预测模型中的预测值,表示模型的基线值(即所有样本对应的模型输出的期望),表示样本中所有个特征的包含情况(即样本特征是否参与到预测模型的建模中),如果样本中不包含某个特征,则该特征的shap值为0,即该特征对输出的预测值无贡献。
65.通过该式,可以看出特征的shap值,刻画了在样本上,特征对于预测模型输出值的贡献度,显然,该值大于0,表示该参数特征提升了样本的预测值,即正相关,该特征对于模型输出的预测值有正向的促进作用;反之,说明该参数特征使预测值降低,即负相关,该特征对于模型输出的预测值有反向的减弱作用。
66.因此,shap值可以表征特征对于模型预测值的影响程度,通过上述过程,计算得到的shap值,即为每个产品生产加工过程中每个生产工艺参数对于产品加工质量的贡献得分,有助于筛选重要特征。
67.步骤4:根据各参数特征shap值的排序,确定影响产品质量最重要的工艺环节及工艺参数;参数特征shap值的绝对值反映了特征对于模型输出的贡献大小,体现了特征的重要程度。通过对shap值绝对值进行排序,从而可以确定影响产品质量最重要的特征。
68.(1)计算各参数特征shap值绝对值的平均数,作为各参数特征的平均shap值;(2)对各参数特征的平均shap值进行排序,选取排在前预设位的参数特征作为影响最重要的参数特征;(3)根据筛选出的重要参数特征所属的工艺流程环节,确定影响产品质量最重要的工艺环节及工艺参数;步骤5:根据不同产品中各参数特征的shap值,确定可能导致产品质量缺陷最主要的工艺流程环节以及具体的工艺参数;
特征shap值的正负,体现了特征对模型预测输出的影响是“正向促进”还是“反向削弱”,因此在步骤4得到重要参数特征的基础上,本发明可以进一步分析,对于具体的每一个产品,重要参数特征是如何影响产品质量的。
69.(1)针对缺陷产品,筛选出shap值排序超过前预设位的参数特征,作为可能导致产品质量缺陷的根因;(2)针对正常产品,筛选出shap值排序超过前预设位的参数特征,作为在该生产加工数据中取值较好、对产品良率提升有较大帮助的工艺参数,从而可以与不良根因参数进行对照,辅助工艺参数优化;步骤6:根据特定工艺参数不同取值时的不良率和shap值,分析特定工艺参数不同取值对产品质量的影响,辅助工艺参数调优;得到导致产品缺陷不良的根因参数后,工厂需要针对不良根因参数的取值进行分析调优。本发明可以进一步分析对于某个特定工艺参数,参数的不同取值对产品质量的影响情况,从而给出参数优化的方向,辅助参数调优。
70.其中,在本发明实施例中,由于工艺流程参数众多,因此在步骤6中,重点针对步骤4、步骤5给出的对产品质量影响较大的重要参数特征进行分析。
71.(1)利用部分依赖图、散点图等工具,分析特定工艺参数特征的取值与产品不良率之间的关系;通过特定参数取值与产品不良率之间的散点图,可以得到特定工艺参数取值与产品不良率之间的关系,为参数调优提供参考方向。
72.(2)利用部分依赖图、散点图等工具,分析特定工艺参数的取值与参数特征shap值之间的关系;shap值反映了特征对模型输出的影响方向(“增强输出”还是“减弱输出”)以及影响的程度大小。因此,通过利用散点图分析工艺参数不同取值与参数特征shap值之间的关系,可以辅助分析参数不同取值对产品质量的影响。
73.由以上技术方案可以看出,本发明能够对工业制造中的工艺加工数据进行重要的数据清洗和预处理,有效提升了数据的质量以及对大规模工艺加工参数数据分析的可行性和可靠性,并通过shap值针对性地给出了影响产品质量最重要的工艺参数特征以及对应的工艺环节。进一步地,根据shap值的正负性以及不同质量等级产品的shap值,定位得到可能导致产品质量缺陷最主要的工艺流程环节以及具体的工艺参数,实现了不良根因的准确定位。该发明还可以通过不同工艺参数特征shap值与参数取值之间的关系,分析重要工艺参数的合理取值,从而辅助不良工艺参数的调整优化。该发明提出的基于shap值对不良根因参数的分析方法,易于理解,具有较强的可解释性。
74.实施例二在实施例一的基础上,为了更清楚地展现本发明的目的、技术方案和优点,下面以玻璃面板生产制造中的缺陷产品的不良根因定位问题为例,结合附图和具体实施例对本发明进行详细阐述。
75.应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
76.如图1所示,是本发明工艺缺陷根因定位方法的较佳实施例的流程图,根据不同的需求,该流程图中某些步骤间的顺序可以调整,某些步骤可以省略。
等;优选地,为了便于后期根据工艺参数名称定位其所属的工艺流程阶段,可在参数名称中加上工艺流程阶段名,如“a136995_photo_1h400_cln”,即表示在站点“1h400”、子单位为“cln”的photo工序中编号为“a136995”的工艺参数;(4)剔除数值缺失严重的工艺参数;针对全部的工艺参数,逐个统计每一项工艺参数取值不为空的记录条数,除以记录总条数,即为该工艺参数的产品覆盖率;若某项参数的产品覆盖率低于预设值,则剔除该工艺参数。
83.优选地,工艺参数的产品覆盖率可设置为0.8~0.9之间。
84.(5)剔除取值为固定值的工艺参数;若某项工艺参数对于所有玻璃面板的取值都为相同值,说明该工艺参数在不同玻璃面板间没有差异,剔除这样的工艺参数。
85.(6)删除数值缺失严重的产品加工记录;针对全部的加工记录,逐个统计每一条玻璃面板加工记录中,取值不为空的工艺参数的数量,除以数据集中工艺参数的总数,即为该条加工记录中工艺参数的覆盖率;若该条产品加工记录中工艺参数的覆盖率低于预设值,则剔除该条产品加工记录,形成产品完整的工艺流程数据。
86.优选地,产品加工记录中工艺参数的覆盖率可预设为0.7~0.8之间;需要指出,步骤(4)和步骤(6)之间的顺序可以互换。优选地,由于工业制造领域参数数量众多,往往远超数据集中样本数量(即产品加工数据的记录条数),因此应尽可能保留产品加工数据,先删除数值缺失严重的工艺参数特征,然后再删除相应的产品加工数据,即先执行步骤(4),再执行步骤(6)。
87.步骤s20:对清洗后得到的完整的工艺流程数据进行预处理。
88.(1)删除并记录高度互相关的工艺参数。
89.针对全部的数值型工艺参数,逐个计算每个数值型工艺参数与其他所有数值型工艺参数之间的相关系数;若任意两个数值型工艺参数的相关系数超过预设值,则任选其一进行删除,并将删除的工艺参数对应记录到“与保留的工艺参数高度互相关的变量列表”中。
90.在某玻璃面板的生产加工数据中,原始的2.6万工艺参数中相关度达到0.9以上的参数高达1.9万个,通过删除高度互相关的工艺参数可以显著降低参数间的“共线性”,还可以快速降维,提升后续模型分析计算的速度。
91.优选地,使用皮尔逊相关系数计算两个数值型工艺参数间的相关系数。
92.(2)使用多个独立的类型选择变量替代原有的单个类型选择参数玻璃面板的生产履历中,存在平行的生产线、机台、腔室等,因此其加工数据中,存在大量的类型选择参数(如平行生产线的线别、腔室的编号、生产单元子模块的编号等),这些信息不能直接作为特征用于后续的分析,需要使用多个独立的类型选择变量进行替换。优选地,采用one-hot编码进行类型变量的生成,其中参数取值为0或1,即可表示是否选择当前类型(如是否选择该平行生产线或该平行腔室等)。
93.例如:原始加工数据中某个工艺参数为“line”,其记录在当前工艺阶段产品加工时所选择的平行生产线线别,其取值为“ab”或“cd”,这样的字符型取值无法直接输入后续
的分析模型,需生成两个类型选择变量“abline”和“cdline”替代工艺参数“line”。若原始的参数“line”取值为“ab”,则生成的类型选择变量“abline”和“cdline”的取值分别为1和0;反之,若原始的参数“line”取值为“cd”,则生成的类型选择变量“abline”和“cdline”的取值分别为0和1。
94.步骤s30:根据分类预测模型的预测值计算各参数特征的shap值。
95.(1)选用xgboost等机器学习模型作为分类预测模型,对输入的标注数据和工艺流程数据进行训练、测试,直至模型的性能指标达到预设值;将步骤s10、步骤s20处理得到的标注数据和工艺流程数据,作为分类预测模型的输入数据,并将其划分为训练集、验证集、测试集,以工艺流程数据中的生产加工参数作为模型输入的特征,以产品质量等级的预测作为模型的输出结果,以标注数据中产品的质量等级标签作为真实值,利用预测模型实现产品质量等级分类的预测,模型的预测效果即为模型进行分类预测时的性能指标。不断调整优化预测模型的参数,当模型的性能指标在测试集上达到预设值后,得到产品质量分类的预测模型。
96.其中,所述模型的性能指标和所述预设值可以进行自定义配置,如将模型的性能指标设置为分类的准确率或者auc值,将预设值设置为0.8等。
97.所述预测模型可以包括,但不限于:xgboost模型、随机森林模型、lightgbm模型、神经网络模型、svm模型、逻辑回归模型等。优选地,相比于回归模型,对于工业制造领域的工艺参数数据,预测模型选取树模型(如xgboost、随机森林等)效果较好;在本实施例中,将产品质量等级(“缺陷品”或者“正常品”)的预测分类作为模型的输出结果(将缺陷品视为正样本、正常品视为负样本)。当然,在其他实施例中,可以设定产品的其他质量检测信息为预测模型的输出,包括但不限于:产品的不良率、缺陷产品的数量、产品缺陷发生的位置等。
98.(2)计算得到每个产品样本中不同参数特征的shap值由于本实施例采用的分类预测模型xgboost是树模型,所以直接使用shap库提供的treeshap方法,基于训练得到的产品质量等级分类预测模型,进行快速计算,得到每一个样本中每个特征参数的shap值。
99.例如:输入模型的玻璃面板工艺流程数据中共5000个样本,每个样本有6000个参数特征,则需要对每个玻璃面板样本的每个特征计算一次shap值,得到30000000个shap值。
100.步骤s40:根据各参数特征shap值的排序,确定影响产品质量最重要的工艺环节及工艺参数;(1)针对所有参数特征,计算每个参数特征在所有产品样本上shap值的绝对值的平均数,得到各参数特征的平均shap值(绝对值);例如:玻璃面板工艺参数数据集中,共有6000个参数特征,数据集中共5000个样本,则相应的每个参数对应有5000个不同的shap值。对于每个参数特征,首先将其在5000个样本上的每个shap值取绝对值,然后计算这5000个样本shap绝对值的平均数,即可得到该参数特征的平均shap值(绝对值);(2)针对所有参数特征,将各参数特征的平均shap值(绝对值)由高到低进行排序;例如,针对玻璃面板蓝画面彩斑不良的加工数据,对平均shap值(绝对值)进行由高到低排序的结果(前20个特征)。
101.(3)选取排在前预设位的参数特征作为对产品质量影响最重要的参数特征;其中,所述预设位可以进行自定义配置,如排名前20、排名前50等。
102.例如,在相同数据集上,根据步骤(2)中平均shap值(绝对值)的排序结果,得到的排名前10位的参数特征,然后进行比较,比较的维度可以是参数特征,以及以各参数特征的平均shap值(绝对值)作为各参数特征的重要性。
103.根据确定的最重要的参数特征,对照检查参数名称和工艺流程,定位得到相应的工艺流程环节,从而确定影响产品质量最重要的工艺环节及工艺参数。
104.特别地,由于预处理阶段删除了大量高度互相关的参数特征,为避免遗漏真正的不良根因,在后续所有的根因定位分析环节中,都需要列出与筛选出的工艺参数高度互相关的参数。
105.例如,在相同数据集上,对于玻璃面板蓝画面彩斑不良,根据步骤(3)中筛选出的重要参数特征,通过定位其所在的工艺环节,得到的对产品质量有影响的前20个最重要工艺参数的名称、所在的工艺段、所属的生产子单元等,并且可以获得同工艺段中高度相关的其他参数,便于精准、全面地在复杂的工艺流程中定位相关工艺参数。
106.当然,在其他的实施例中,在特征shap值的基础上,还可以结合预测模型自身给出的特征重要性或者permutation等方法计算出的特征重要性,综合考虑不同方法得到的特征重要性数值,给出综合排序,本发明不限制。
107.步骤s50:根据不同产品中各参数特征的shap值,分析不同特征对产品质量的影响。
108.(1)根据标注数据中产品的质量等级标签,将所有“缺陷品”样本(正样本)中各参数特征的shap值,按照由高到低进行排序。选取排在前预设位的参数特征作为对模型预测值正向影响(“促进”不良)最大的特征,也即导致产品不良最主要的工艺参数(不良根因);其中,所述预设位可以进行自定义配置,如排名前20、排名前50等。
109.例如,在相同数据集上,针对玻璃面板蓝画面彩斑不良,通过对所有“缺陷品”样本(正样本)中各参数特征shap值进行由高到低的排序,筛选得到的前20个可能导致不良的参数特征。如在缺陷样本中,第3889号特征、第3893、第2706号、第1849号等参数特征的取值不合理,对于缺陷不良的发生起到了比较突出的作用,很可能它们就是导致不良的根因,需要重点关注。
110.(2)与步骤(1)类似,针对所有的“正常品”样本(负样本)中各参数特征的shap值,按照由低到高进行排序;选取排在前预设位的参数特征作为对模型预测值负向影响(“减弱”不良)最大的特征,也即导致产品良率较高的工艺参数特征,即得到生产工艺中取值较好、对产品良率提升有较大帮助的工艺参数,从而可以与不良根因参数进行对照,辅助工艺参数优化;同样地,其中所述预设位可以进行自定义配置,如排名前20、排名前50等。
111.例如,在相同的数据集上,针对所有“正常品”样本(负样本)中各参数特征的shap值,按照由低到高排序,筛选得到的前20个取值较好、对产品良率提升较大的参数特征。
112.显然,如在正常样本中,第3889号、1948号、5851号等参数特征的取值比较合理,对产品的质量起到了积极的影响,这些参数的合理取值值得深入研究。
113.尤其值得注意,第3889号特征,既对于缺陷产品有最大的影响,也对正常产品有最大的影响,体现了该参数的合理取值非常重要。而第1948号参数特征在正常品中的影响排
序明显高于缺陷品,说明了该参数在提升良率方面有较突出的作用。
114.需要指出,在本发明优选实施例中,将“缺陷品”视为正样本,因而对模型预测值的正向影响即为“促进、强化”产品的“缺陷、不良”。在其他实施例中,如果将“正常品”视为正样本,则对模型预测值负向影响最大的参数特征即为产品缺陷不良根因。
115.步骤s60:根据特定工艺参数不同取值时的不良率和shap值,分析特定工艺参数不同取值对产品质量的影响,辅助工艺参数调优;(1)利用部分依赖图、散点图等工具,分析特定工艺参数特征的取值与产品不良率之间的关系;例如:针对上述数据集筛选出的第1849号参数“a138130_wet_1c501”,图2是不同玻璃面板样本上该参数取值与产品不良率之间的散点图,图2中横坐标为参数“a138130_wet_1c501”的取值,纵坐标为产品发生蓝画面不良的不良率,可以很明显看出,当该参数取值在两端的区间段(如8.06~8.12和8.27~8.29)时,产品发生蓝画面不良的不良率较低。而当参数取值在中间范围区间段(如8.16~8.21)时,产品的不良率较高。从而可以为根因参数调优提供参考。
116.需要特别指出,由于产品不良受众多参数的影响,因此这里通过散点图体现的产品不良率与特定某个参数之间的关系并不明显,只能作为参考。
117.(2)利用部分依赖图、散点图等工具,分析特定工艺参数特征的取值与参数特征shap值之间的关系;参数的取值对于产品的质量非常重要,如果取值合理,其shap值为较大的正数值,该参数特征对于输出带来的就是“正向的促进作用”(在本实施例中即为“强化不良”);反之,其shap值为较小的负数值,带来的就是“负向的减弱作用”(在本实施例中即为“减弱不良”)。因此,可以通过分析特定重要参数取值对应的shap值,判断重要参数取值对于产品质量的影响。
118.例如:针对上述数据集筛选出的第1849号参数“a138130_wet_1c501”,图3是不同玻璃面板样本上该参数取值与该特征的shap值之间的散点图,图3中横坐标为参数“a138130_wet_1c501”的取值,纵坐标为参数特征的shap值。可以非常明显的看出,当该参数取值较小(如小于8.20)时,该参数的shap值几乎都是负值,对于产品的不良,带来的都是“负向的减弱作用”;而当该参数取值较大(如大于等于8.20)时,该参数的shap值几乎都是正值,对于产品的不良,带来的都是“正向的增强作用”。通过上述对shap值的分析过程,可以辅助缺陷根因参数的调整优化。
119.显然,针对特征参数取值的分析,基于shap值要比基于产品不良率,更容易得到相对明确的参数取值与产品质量之间的关系。
120.在本实施例中,分析参数特征不同取值对于该特征shap值影响的方法,包括但不限于:绘制散点图或部分依赖图、计算相关系数、构建线性回归模型等。优选地,可以采用散点图或者部分依赖图的方式,直观、简便地分析参数特征的shap值与不同取值之间的关系。
121.实施例三本发明实时三提供了产品分析系统,请参考图4,图4为产品分析系统的组成示意图,所述系统包括:标注单元,用于获得产品的质量检测数据,对所述质量检测数据进行标注获得标
注数据;清洗及预处理单元,用于获得产品的原始加工数据,对所述原始加工数据进行清洗获得第一工艺流程数据,对所述第一工艺流程数据进行预处理获得第二工艺流程数据;训练单元,用于基于所述标注数据和所述第二工艺流程数据对第一分类预测模型进行训练获得第二分类预测模型;模型处理单元,用于获得待分析数据,将所述待分析数据输入所述第二分类预测模型,所述第二分类预测模型输出所述待分析数据中每个生产工艺参数的预测值;计算单元,用于基于每个生产工艺参数的预测值计算获得每个生产工艺参数的shap值,基于每个生产工艺参数的shap值的绝对值获得每个生产工艺参数在所述待分析数据中的平均shap值;分析单元,用于基于每个生产工艺参数在所述待分析数据中的平均shap值进行排序获得第一排序结果,基于第一排序结果获得影响产品质量的多个关键工艺环节名称及多个关键生产工艺参数。
122.实施例四本发明实施例四提供了一种用户用能行为分析装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述用户用能行为分析方法的步骤。
123.实施例五本发明实施例五提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述用户用能行为分析方法的步骤。
124.其中,所述处理器可以是中央处理器(cpu,central processing unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(application specific integrated circuit)、现成可编程门阵列(fieldprogrammable gate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
125.所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中用户用能行为分析装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
126.所述用户用能行为分析装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法
和专利实践的要求进行适当的增减。
127.本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
128.同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
129.此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
130.计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、rf、或类似介质,或任何上述介质的组合。
131.本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c 、c#、vb.net、python等,常规程序化编程语言如c语言、visual basic、fortran 2003、perl、cobol 2002、php、abap,动态编程语言如python、ruby和groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(lan)或广域网(wan),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(saas)。
132.此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
133.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
134.针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
135.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
136.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献