一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于有监督机器学习的雷达质量问题分类预测方法及设备与流程

2022-07-13 17:52:24 来源:中国专利 TAG:


1.本发明属于天线与微波技术领域,具体涉及一种基于有监督机器学习的雷达质量问题分类预测方法及设备。


背景技术:

2.在雷达质量问题处理过程中,雷达质量问题管理信息系统中存储了大量的历史雷达质量问题记录,这些记录通常以电子表格形式记载。合理利用历史雷达质量问题蕴藏的知识价值,开展雷达质量问题的分类管理,对新发生的质量问题进行分类预测,可以辅助质量管理人员决策,在科研生产活动中具有十分重要的现实意义。
3.针对雷达质量问题各种分类预测要求,通过关键字检索的方式开展分类预测是最容易想到的办法,但是这个方法存在虚报、漏报、人力资源开销大等缺点。
4.针对雷达质量问题分类预测的一种特定情形,即按照雷达故障模式开展质量问题分类,《信息技术与网络安全》期刊2021年第40卷第9期的论文《基于故障模式的装备质量问题文本分类方法》中,提出了通过计算雷达质量问题文本与雷达故障模式文本之间的“距离”开展分类,采用了独热键编码的方式构建了文本向量,计算质量问题文本与故障模式特征向量间的相似度,最后按照相似度的阈值判定质量问题归属故障模式的种类。该方法充分依赖于人工设计的雷达质量问题和雷达故障模式的特征,但未利用已分类雷达质量问题的信息来指导新雷达质量问题的分类预测,随着待分类雷达质量问题数量和雷达故障模式的数量增大,分类的准确度和召回率会大幅度下降;采用独热键编码的方式构建文本向量,在运用过程中引入维度灾难,在特定的情况下会导致内存溢出错误,直接导致分类预测任务执行的中断。而且,根据业务需求不同,存在多种分类需求,按照雷达故障模式开展质量问题分类只是分类预测的一种实例,该方法不能应用到其他分类需求中。


技术实现要素:

5.本发明目的是:针对现有技术的不足,提供一种基于有监督机器学习的雷达质量问题分类预测方法及设备,能够解决在短时间内完成大量雷达质量问题的自动分类,大幅度地降低手工分类的工作量,分类的效果良好,可应用于按照故障模式、问题严重程度、责任类别、原因类别为依据的雷达质量问题分类预测。
6.具体地说,本发明是采用以下技术方案实现的。
7.一方面,本发明提供一种基于有监督机器学习的雷达质量问题分类预测方法,包括:
8.s110,根据雷达质量问题数据,形成按雷达质量问题类别进行分类的雷达质量问题文本数据库,将所述雷达质量问题类别进行唯一编号,并作为所述雷达质量问题数据的标签;对所述雷达质量问题文本数据库中已分类的历史雷达质量问题打标签,形成雷达质量问题分类标记库,将所述雷达质量问题分类标记库分割成训练集和验证集,将所述雷达质量问题文本数据库中未打标签的待分类的雷达质量问题作为测试集;
9.s120,对所述训练集、验证集和测试集中雷达质量问题文本进行预处理,即在预先建立的停用词典、雷达专业词典的基础上,对训练集、验证集和测试集中雷达质量问题文本包含的特征子项进行中文分词;将特征子项的中文分词结果组合成关键词特征向量;
10.s130,将关键词特征向量变换成含有段落标签的文本,作为语料;采用深度学习模型训练该语料,将其转换成固定长度的数值特征向量;
11.s140,构建基于有监督机器学习的雷达质量问题分类模型,利用所述训练集同步开展若干个分类模型训练,并保存相应的分类预测模型;
12.s150,在所述验证集上开展所述若干个分类预测模型的评估,选择性能最优的模型作为优选的分类预测模型,采用该优选的分类预测模型对所述测试集进行雷达质量问题分类预测,得到已分类的雷达质量问题。
13.进一步的,所述基于有监督机器学习的雷达质量问题分类预测方法,按照勤劳模式进行雷达质量问题分类预测,所述按照勤劳模式进行雷达质量问题分类预测包括:将所述采用优选的分类预测模型对所述测试集进行雷达质量问题分类预测得到的已分类的雷达质量问题增补为所述已分类的历史雷达质量问题,加入所述训练集,重新利用该训练集同步开展若干个分类模型训练,并保存相应的分类预测模型;在该验证集上开展所述若干个分类预测模型的评估,选择性能最优的模型作为优选的分类预测模型,采用该优选的分类预测模型对所述测试集进行雷达质量问题分类预测,得到已分类的雷达质量问题。
14.进一步的,当进行第m次雷达质量问题分类预测时,m的取值范围为[2,n],n为设定的数量范围,按照懒惰模式进行雷达质量问题分类预测;当m》n时,按照勤劳模式进行雷达质量问题分类预测;
[0015]
所述按照懒惰模式进行雷达质量问题分类预测包括:
[0016]
在预先建立的停用词典、雷达专业词典的基础上,对测试集中雷达质量问题文本包含的特征子项进行中文分词,将特征子项的中文分词结果组合成关键词特征向量;
[0017]
将所述关键词特征向量变换成含有段落标签的文本,作为语料,采用深度学习模型训练该语料,将其转换成固定长度的数值特征向量;
[0018]
采用第一次进行雷达质量问题分类预测得到的所述优选的分类预测模型对所述测试集进行雷达质量问题分类预测,得到已分类的雷达质量问题。
[0019]
进一步的,所述基于有监督机器学习的雷达质量问题分类预测方法,还包括:
[0020]
将所述测试集中两个以上待分类预测的雷达质量问题按照一个批次处理时,在所述验证集上开展所述若干个分类预测模型的评估,选择性能最优的模型作为优选的分类预测模型,利用该优选的分类预测模型对该批次处理的待分类预测的雷达质量问题开展分类预测。
[0021]
进一步的,在将所述雷达质量问题分类标记库分割成训练集和验证集之前,将雷达质量问题分类标记库中雷达质量问题数据的顺序随机排列。
[0022]
进一步的,所述深度学习模型为doc2vec模型。
[0023]
进一步的,所述基于有监督机器学习的雷达质量问题分类模型包括贝叶斯分类器模型、logistic回归分类器模型、支持向量机svm分类器器模型、k-nn分类器模型、多层神经网络模型和随机森林模型。
[0024]
进一步的,所述性能最优指准确度指标最优。
[0025]
另一方面,本发明还提供一种基于有监督机器学习的雷达质量问题分类预测方法,按照懒惰模式执行分类预测任务,所述懒惰模式包括:
[0026]
在预先建立的停用词典、雷达专业词典的基础上,对测试集中雷达质量问题文本包含的特征子项进行中文分词,将特征子项的中文分词结果组合成关键词特征向量;
[0027]
将所述关键词特征向量变换成含有段落标签的文本,作为语料,采用深度学习模型训练该语料,将其转换成固定长度的数值特征向量;
[0028]
采用预设的分类预测模型对所述测试集进行雷达质量问题分类预测,得到已分类的雷达质量问题。
[0029]
再一方面,本发明还提供一种基于有监督机器学习的雷达质量问题分类预测设备,所述设备包括存储器和处理;所述存储器存储有实现基于有监督机器学习的雷达质量问题分类预测方法的计算机程序,所述处理器执行所述计算机程序,以实现上述基于有监督机器学习的雷达质量问题分类预测方法的步骤。
[0030]
本发明的基于有监督机器学习的雷达质量问题分类预测方法及设备的有益效果如下:
[0031]
采用有监督学习的分类模型,通过已有的雷达质量问题训练了分类模型,充分利用已分类雷达质量问题的信息,指导新雷达质量问题的分类预测,保证了分类的准确性。
[0032]
将雷达质量问题的类别特征作为标记,将雷达文本子项的组合特征转化为雷达质量问题数值向量,通过构建的分类预测模型,表示了雷达文本子项特征与类别特征的内部联系。利用雷达质量问题文本子项之间的内部隐含的关系,开展文本的类别特征的预测,不仅可按照故障模式分类作为类别特征的预测,还可以应用于问题严重程度、责任类别、原因类特征的类别特征预测。
[0033]
在将文本转换为数值向量过程中,使用了doc2vec模型完成了文本的向量化,多次迭代完成语料库的训练,保留了雷达质量问题文本特征主要的隐含语义特征,克服了维度灾难,大幅度减少了稀疏矩阵的内存开销,能够在短时间内完成大量雷达质量问题的自动分类,大幅度地降低手工分类的工作量,适用于雷达质量问题多、故障模式多,短时间内完成分类等特殊情况。
[0034]
集成了多种机器学习分类器,设置可选择的多种训练策略,根据验证集的性能指标,优选出合适的分类预测模型,能够有效避免单一分类学习模型的局限性,拓展了模型泛化分类的能力,还可解决除了故障模式以外的责任类别分类、原因分类、问题严重程度分类等其它应用,为雷达质量管理人员提供决策服务。
[0035]
针对谨慎或者冒险偏向的人员提供了可选择的两种分类预测的工作模式(懒惰模式和勤劳模式),可以辅助质量管理人员开展质量问题分类的决策。在雷达质量问题分类预测过程中,可以将采用优选的分类预测模型对所述测试集进行雷达质量问题分类预测得到的已分类的雷达质量问题增补为已分类的历史雷达质量问题,加入所述训练集,重新利用该训练集同步开展若干个分类模型训练,并保存相应的分类预测模型;在该验证集上开展若干个分类预测模型的评估,选择性能最优的模型作为优选的分类预测模型,采用该优选的分类预测模型对所述测试集进行雷达质量问题分类预测,得到已分类的雷达质量问题。通过这种方式,可以对多种分类预测模型不断改进和进化,使得分类预测的精确度越来越高。
[0036]
将两个以上待分类预测的雷达质量问题按照一个批次处理时,可以只开展一次在验证集上选择优选的分类预测模型,利用这个优选的分类预测模型对这一批次处理的待分类预测的雷达质量问题开展分类预测,一定程度可以提高获得分类预测结果的效率。即,将测试集中两个以上待雷达质量问题分类预测按照一个批次处理时,在验证集上开展所述若干个分类预测模型的评估,选择性能最优的模型作为优选的分类预测模型,利用该优选的分类预测模型对该批次处理的待分类预测的雷达质量问题开展分类预测。
[0037]
本发明的基于有监督机器学习的雷达质量问题分类预测方法及设备,相比于人工开展分类,可以大幅度地降低人力资源,提高分类的效率;与现有的关键词相似度计算分类方式相比,其优点在于能够合理利用历史积累的已分类好的雷达质量问题数据;采用doc2vec将文本关键词特征向量转换为数值特征向量,解决雷达问题文本的数值表示和降维,有效地解决了内存溢出问题;采用集成的多机器学习分类模型能够有效避免单一分类学习模型的局限性;将分类预测过程中的文本关键词向量、数值特征向量和已训练模型本地化保存,保存了持续提升的分类预测模型能力所需的资源,分类预测的精度指标随着训练数据积累越来越好;针对谨慎或者冒险偏向的人员提供了可选择的两种分类预测的工作模式,可以辅助质量管理人员开展质量问题分类的决策。
附图说明
[0038]
图1是本发明的雷达质量问题分类预测方法流程图。
[0039]
图2是本发明的雷达质量问题文本预处理图。
[0040]
图3是本发明的雷达质量问题文本特征转换成数值特征向量示意图。
[0041]
图4是本发明的雷达质量问题分类多模型训练图。
[0042]
图5是本发明的雷达质量问题多模型分类预测图。
具体实施方式
[0043]
下面结合实施例并参照附图对本发明作进一步详细描述。
[0044]
实施例1:
[0045]
本发明的一个实施例,以雷达故障模式预测为例,介绍一种基于有监督机器学习的雷达质量问题分类预测方法及设备。
[0046]
如图1所示,基于有监督机器学习的雷达质量问题分类预测方法包括:
[0047]
s110,根据雷达质量问题数据,形成按雷达质量问题类别进行分类的雷达质量问题文本数据库,将类别进行唯一编号,并作为雷达质量问题数据的标签。对雷达质量问题文本数据库中已分类的历史雷达质量问题打标签,形成雷达质量问题分类标记库,将雷达质量问题分类标记库分割成训练集和验证集,例如,提取雷达质量问题分类标记库中80%的雷达质量问题数据作为训练集,提取雷达质量问题分类标记库中20%的雷达质量问题数据作为验证集;将雷达质量问题文本数据库中未打标签的待分类的新的雷达质量问题作为测试集。
[0048]
优选的,在另一个实施例中,将雷达质量问题分类标记库分割成训练集和验证集之前,将雷达质量问题分类标记库中雷达质量问题数据的顺序随机排列,可以一定程度上加速提升分类预测模型的预测准确率。
[0049]
优选的,在另一个实施例中,雷达质量问题数据从雷达质量问题管理系统的输出表、故障模式表导出。
[0050]
具体地,从质量问题管理系统中导出雷达质量问题文本表格数据,形成分类的雷达质量问题文本数据库,其中包含已分类的历史雷达质量问题(参见表1)和待分类的雷达质量问题(参见表2)。表1中,每个雷达质量问题文本表格数据中都包含了故障模式,即已进行了分类。
[0051]
表1 已标记历史雷达质量问题库
[0052][0053]
表2 待分类雷达质量问题库
[0054][0055]
表1和表2中是从质量问题信息管理系统导出的雷达质量问题数据库,字段内容包括“雷达质量问题编号”、“部位”、“现象”、“原因”、“纠正”和“纠正措施”六个方面,均为一段短文本。定义雷达质量问题为q;雷达质量问题中的“部位”为a,“现象”为b,“原因”为c,“纠正”为d和“纠正措施”为e。雷达质量问题中的“部位”通常是一个名词,用于指示一个雷达系统组成部分。通过一段具有固定格式的短文本组合表示各个雷达质量问题,例如雷达质量问题qi=《ai,bi,ci,di,ei》,其中i为雷达质量问题的序号。
[0056]
为了便于后续机器学习模型的分析运算,将表1中的故障模式作为雷达质量问题的类别,依次进行唯一编号(标签编号),分类标签包括标签编号和分类简称两个部分组成,具体参见表3。
[0057]
表3 分类标签
[0058]
标签编号分类简称1故障模式12故障模式23故障模式3
[0059]
按照表3的分类标签编号方式,对表1的历史雷达质量问题打标签,形成雷达质量问题分类标记库,结果参见表4。
[0060]
表4 雷达质量问题分类标记库
[0061][0062]
将表4中雷达质量问题分类标记库顺序随机打乱,并按照比例分割成训练集和验
证集,例如按照训练集80%、验证集20%的比例划分。将表2中的待分类雷达质量问题作为测试集。
[0063]
s120,对训练集、验证集和测试集中雷达质量问题文本进行预处理,即在预先建立的停用词典、雷达专业词典的基础上,对训练集、验证集和测试集中雷达质量问题文本包含的特征子项进行中文分词;将特征子项的中文分词结果组合成关键词特征向量。
[0064]
停用词典是在雷达质量问题描述中不具有重要含义的中文字或词的集合,例如,“的”、“也”、“了”和“可以”等,用于在对雷达质量问题文本进行预处理时,剔除其中属于停用词典的中文字或词。雷达专业词典是在雷达质量问题描述中具有重要含义的雷达专业中文字词或者特定符号的集合,例如,“信号”、“航迹”和“软件”等,用于在对雷达质量问题文本进行预处理时,保留其中属于雷达专业词典的中文字或词。
[0065]
采用预先建立的停用词典、雷达专业词典对训练集、验证集和测试集的雷达质量问题文本进行筛选后,对训练集、验证集和测试集的雷达质量问题文本中包含的特征子项(例如部位、现象、原因、纠正和纠正措施)进行中文分词,根据分类任务的需求(例如故障模式、严重程度、责任类别和原因类别)不同,将特征子项的中文分词结果(例如“部位”、“现象”、“原因”、“纠正”和“纠正措施”)组合成关键词特征向量,如图2所示。
[0066]
例如,一个雷达质量问题描述为:“部位:数据处理,现象:雷达的软件死机了,航迹消失了,目标也无法跟踪了。原因:程序的内存出现了溢出越界错误,纠正:修改程序,增加内存越界检查,测试通过后部署,纠正措施:变更软件进入配置库,软件全部升级部署。”在实施中文分词时,在可以利用分词应用软件(例如中文结巴jieba分词)对各特征子项(例如“部位”、“现象”、“原因”、“纠正”和“纠正措施”)的文本进行单独分析。根据按故障模式分类任务的需要,从雷达质量问题中选择“部位”和“现象”作为特征子项,然后组合“部位”和“现象”的分词结果,保存关键词特征向量:【数据处理,雷达,航迹,消失,死机,航迹,目标,无法,跟踪】。
[0067]
优选的,在另一个实施例中,可以采用多线程加快雷达质量问题中的特征子项(“部位”、“现象”、“原因”、“纠正”和“纠正措施”等)的中文分词。
[0068]
优选的,在另一个实施例中,中文分词的结果以本地化文件的形式保存,这样可以满足不同的分类任务的需求,例如分类任务不限于按照故障模式分类;同时,可以使得中文分词处理过程成为独立的步骤,为后续再次利用中文分词结果奠定基础,减少计算资源的开销。
[0069]
s130,将关键词特征向量变换成含有段落标签的文本,作为语料;采用深度学习模型训练该语料,将其转换成固定长度的数值特征向量,如图3所示。
[0070]
具体地,每个雷达质量问题作为一个段落,雷达质量问题编号作为段落的编号。开展文本向量化的训练,将含有段落标签的雷达质量问题文本转换成雷达质量问题数值特征向量。设置最少重复次数参数min_count、窗口大小参数window、变量维度参数size、负例的数量参数negative、线程数量参数workers,设置训练的迭代次数epochs。经过一段时间训练后,形成的雷达质量问题的数值特征向量,在本地文件夹中保存。例如,采用doc2vec的深度学习模型开展文本向量化的多次迭代训练,训练前加载窗口大小、变量维度、最少重复次数、负例的数量、线程数量参数,设置训练的迭代次数,训练结束后形成了雷达质量问题文本特征向量。例如,设置最少重复次数参数min_count为2,窗口大小参数window为10,变量
维度参数size为50,负例的数量参数negative为3,线程数量参数workers为4,设置训练的迭代次数epochs为500。
[0071]
假设存在n个(n为大于0的整数)雷达质量问题文本,并经过步骤s120的预处理后,形成n个中文分词结果,每个雷达质量问题qi(i为雷达质量问题的序号,i取值范围为[1,n])文本中关键词数为ki个。受到运行本发明的基于有监督机器学习的雷达质量问题分类预测方法的计算机运算和存储资源的限制,预设的关键词总数为r个,优选的,r的取值范围一般为[50,500])。对于长度不能达到关键词总数r的关键词特征向量(即相应雷达质量问题的关键词数ki小于预设的关键词总数r),使用特殊词(如nan)补充;对于长度大于r的关键词特征向量(即相应雷达质量问题的关键词数ki大于预设的关键词总数r),截去多余分词。
[0072]
在处理中,可以采用多线程加快将雷达质量问题关键词特征向量转换为数值特征向量的过程;数值特征向量以本地化文件的形式保存,使得这个处理过程成为独立的步骤,为后续再次利用数值特征向量资源奠定基础,减少计算资源的开销。
[0073]
s140,构建基于有监督机器学习的雷达质量问题分类模型,利用训练集同步开展若干个分类模型训练,并保存相应的分类预测模型。
[0074]
如图4所示,雷达质量问题数值特征向量为输入,类别作为标签,构建基于有监督机器学习的雷达质量问题多种分类模型,利用相同的训练集数据对多个分类模型同步进行训练,训练后形成的各种模型保存在分类预测模型存储库中。
[0075]
例如,在另一个实施例中,基于有监督机器学习的雷达质量问题分类模型包括:采用贝叶斯分类器、logistic回归分类器、支持向量机svm分类器、k-nn分类器、多层神经网络和随机森林共六种模型。
[0076]
可以采用六个线程开展六个分类预测模型的同步训练,提高模型训练的效率,节约计算时间,将六个训练好的分类预测模型以本地化文件的形式保存,使得这个处理过程成为独立的步骤。
[0077]
选择多种机器学习模型开展同步训练的优点在于,克服质量文本数据对单一模型的依赖,提升分类预测的准确性和鲁棒性,从而为利用验证最优的模型来开展分类预测创造条件。
[0078]
优选的,在另一个实施例中,将训练后形成的各种分类预测模型,均在本地文件夹中保存。将多种已训练好的分类预测模型实施本地化文件保存的优点在于,使得分类预测模型能够在计算机关机、重新启动后仍然保持分类预测的能力,减少了计算资源的开销,本地化保存的分类预测模型能够被复制,为在不同计算机上开展分类预测提供服务。
[0079]
s150,在所述验证集上开展所述若干个分类预测模型的评估,选择性能最优的模型作为优选的分类预测模型,采用该优选的分类预测模型对待所述测试集进行雷达质量问题分类预测,得到已分类的雷达质量问题。
[0080]
如图5所示,在验证集上开展多模型的评估的过程包括:按照准确性指标,对分类预测模型存储库中的各个分类预测模型按照在验证集上的性能排序,选择性能最佳的模型作为优选的分类预测模型;将待分类的雷达质量问题测试集中的雷达质量问题数值特征向量作为输入,利用优选的分类预测模型对待分类的雷达质量问题进行分类预测,获得分类标签的编号。根据获得的分类标签的编号,通过表3查找对应的故障模式名称,得到已分类
预测的待分类雷达质量问题。
[0081]
雷达质量问题的性能评价指标有多种选择,本发明中,将准确率p作为评价指标,是指已正确分类的雷达质量问题数量与所有已分类的雷达质量问题的比值,具体公式如下:
[0082]
p=已正确分类的雷达质量问题数/所有已分类的质量问题总数
[0083]
例如,采用贝叶斯分类器、logistic回归分类器、支持向量机svm分类器、k-nn分类器、多层神经网络和随机森林共六种已训练好的分类预测模型开展分类预测性能评估,选择在验证集上准确度指标最优的模型作为优选的分类预测模型。例如,如果性能最优模型为贝叶斯分类器,则选择贝叶斯分类器作为优选的分类预测模型;如果性能最优模型为随机森林,则选择随机森林分类器作为优选的分类预测模型。将测试集中的雷达质量问题数值特征向量作为输入,利用优选的分类预测模型完成待分类雷达质量问题的分类预测。
[0084]
为了完成第一次雷达质量问题的分类预测任务,需要开展从s110至s150的所有步骤,每个步骤都不能省略。
[0085]
优选的,在另一个实施例中,在雷达质量问题的分类预测模型训练过程中,对前f次分类预测的结果进行专家判断预测和修正,f的取值范围一般为[2,100]。随着时间的推移,可以积累了一定数量的已正确分类的雷达质量问题,并以此得到优选的分类预测模型。
[0086]
雷达质量问题的分类预测有懒惰和勤劳两种工作方式。每种工作方式执行的步骤参见表5。
[0087]
表5 分类预测任务执行策略
[0088]
工作方式s110s120s130s140s150懒惰模式 √√ √勤劳模式√√√√√
[0089]
懒惰模式,在雷达质量问题的分类预测模型训练过程中,采用根据积累的已分类雷达质量问题得到的分类预测模型;在之后的分类预测过程中,忽略积累的已分类雷达问题,对多种分类预测模型不进行改进和进化,则分类预测的精确度稳定不变。
[0090]
勤劳模式,在雷达质量问题分类预测过程中,可以将分类预测的结果相关的雷达质量问题增补入表1中作为历史质量问题数据,重新开展六种分类预测模型训练,六种分类预测模型不断改进和进化,分类预测的精确度越来越高。
[0091]
在一个实施例中,基于有监督机器学习的雷达质量分类预测方法采用懒惰模式,包括以下步骤:
[0092]
s120,对测试集中雷达质量问题文本进行预处理,即在预先建立的停用词典、雷达专业词典的基础上,对测试集中雷达质量问题文本包含的特征子项进行中文分词,将特征子项的中文分词结果组合成关键词特征向量;
[0093]
s130,将关键词特征向量变换成含有段落标签的文本,作为语料,采用深度学习模型训练该语料,将其转换成固定长度的数值特征向量;
[0094]
s150,采用预设的分类预测模型对待分类的雷达质量问题测试集进行分类预测。
[0095]
在另一个实施例中,基于有监督机器学习的雷达质量分类预测方法采用勤劳模式,包括以下步骤:
[0096]
s110,根据雷达质量问题数据,形成按雷达质量问题类别进行分类的雷达质量问
题文本数据库,将类别进行唯一编号,并作为雷达质量问题数据的标签;对雷达质量问题文本数据库中已分类的历史雷达质量问题打标签,形成雷达质量问题分类标记库,将雷达质量问题分类标记库分割成训练集和验证集,将雷达质量问题文本数据库中未打标签的待分类的新的雷达质量问题作为测试集。
[0097]
s120,对训练集、验证集和测试集中雷达质量问题文本进行预处理,即在预先建立的停用词典、雷达专业词典的基础上,对训练集、验证集和测试集中雷达质量问题文本包含的特征子项进行中文分词;将特征子项的中文分词结果组合成关键词特征向量。
[0098]
s130,将关键词特征向量变换成含有段落标签的文本,作为语料;采用深度学习模型训练该语料,将其转换成固定长度的数值特征向量。
[0099]
s140,构建基于有监督机器学习的雷达质量问题分类模型,利用训练集同步开展多分类模型训练,并保存分类预测模型。
[0100]
s150,在验证集上开展多个分类预测模型的评估,选择性能最优的模型作为优选的分类预测模型,采用该优选的分类预测模型对待分类的雷达质量问题测试集进行分类预测。
[0101]
优选的,在另一个实施例中,当进行第一次雷达质量问题分类预测时,执行步骤s110~s150;当进行第m次雷达质量问题分类预测时,m的取值范围为[2,n],n为设定的数量范围(例如100),按照懒惰模式进行雷达质量问题分类预测;当m》n时,按照勤劳模式进行雷达质量问题分类预测,对六种分类预测模型再次逐步训练,提高模型的准确性。
[0102]
特别地,在另一个实施例中,将两个以上待雷达质量问题分类预测按照一个批次处理时,在步骤s150中,在验证集上选择优选的分类预测模型可以只开展1次,利用这个优选的分类预测模型对这一批次处理的待分类预测的雷达质量问题开展分类预测,一定程度可以提高获得分类预测结果的效率。
[0103]
实施例2:
[0104]
雷达质量问题分类预测,本质上是通过分类预测模型,揭示了分类特征与文本子项特征组合的内在隐含关系。本发明的基于有监督机器学习的雷达质量问题分类预测方法,除了开展雷达故障分类预测,还可以开展其它类别的预测。
[0105]
本发明的另一个实施例,介绍本发明的基于有监督机器学习的雷达质量问题分类预测方法及设备,用于开展雷达质量问题的严重程度、责任类别、原因类别的分类预测。相应的,雷达质量问题子项应选择与问题严重程度、责任类别、原因类别相关的内容,文本子项选择参见表6。本实施例与实施例1相比,s110步骤中的分类标签选择不同,根据文本子项中文分词组合选择各有不同,其余s130、s140和s150步骤均相同。
[0106]
表6 雷达质量问题分类预测
[0107]
类别部位现象原因纠正纠正措施严重程度√√
ꢀꢀꢀ
责任类别√√√√√原因类别√√√
ꢀꢀ
[0108]
在一个实施例中,假设应用本发明完成雷达质量问题“严重程度”预测,s110步骤可将标签替换为“严重程度”,s120步骤子项中文分词组合选择可以替换为“部位”和“现象”子项组合。
[0109]
在一个实施例中,假设应用本发明完成雷达质量“责任类别”的预测,s110步骤可将标签替换为“责任类别”,s120步骤子项中文分词组合选择可以替换为“部位”、“现象”、“原因”、“纠正”和“纠正措施”子项组合。
[0110]
在一个实施例中,假设应用本发明完成“原因类别”的预测,s110步骤可将标签替换为“原因类别”,s120步骤子项中文分词组合选择可以替换为“部位”、“现象”和“原因”子项组合。
[0111]
本发明的基于有监督机器学习的雷达质量问题分类预测方法,采用了对雷达质量问题文本语料,利用基于自然语言处理的深度学习模型开展训练,提取雷达质量问题文本的分类关键特征,采用有监督的机器学习分类模型,利用已分类好的雷达质量问题数据训练多种分类模型,建立雷达质量问题文本与分类标记的联系,选择验证集上性能最佳的作为最终分类模型,开展待分类雷达质量问题的分类预测。
[0112]
本发明的基于有监督机器学习的雷达质量问题分类预测方法,将雷达质量问题的类别特征作为标记,将雷达文本子项的组合特征转化为雷达质量问题数值向量,通过构建的分类预测模型,表示了雷达文本子项特征与类别特征的内部联系。利用雷达质量问题文本子项之间的内部隐含的关系,开展文本的类别特征的预测,不仅可按照故障模式分类作为类别特征的预测,还可以应用于问题严重程度、责任类别、原因类特征的类别特征预测。
[0113]
本发明的基于有监督机器学习的雷达质量问题分类预测方法及设备,相比于人工开展分类,可以大幅度地降低人力资源,提高分类的效率;与现有的关键词相似度计算分类方式相比,其优点在于能够合理利用历史积累的已分类好的雷达质量问题数据;采用doc2vec将文本关键词特征向量转换为数值特征向量,解决雷达问题文本的数值表示和降维,有效地解决了内存溢出问题;采用集成的多机器学习分类模型能够有效避免单一分类学习模型的局限性;将分类预测过程中的文本关键词向量、数值特征向量和已训练模型本地化保存,保存了持续提升的分类预测模型能力所需的资源,分类预测的精度指标随着训练数据积累越来越好;针对谨慎或者冒险偏向的人员提供了可选择的两种分类预测的工作模式,可以辅助质量管理人员开展质量问题分类的决策。
[0114]
在一些实施例中,上述技术的某些方面可以由执行软件的处理系统的一个或多个处理器来实现。该软件包括存储或以其他方式有形实施在非暂时性计算机可读存储介质上的一个或多个可执行指令集合。软件可以包括指令和某些数据,这些指令和某些数据在由一个或多个处理器执行时操纵一个或多个处理器以执行上述技术的一个或多个方面。非暂时性计算机可读存储介质可以包括例如磁或光盘存储设备,诸如闪存、高速缓存、随机存取存储器(ram)等的固态存储设备或其他非易失性存储器设备。存储在非临时性计算机可读存储介质上的可执行指令可以是源代码、汇编语言代码、目标代码或被一个或多个处理器解释或以其他方式执行的其他指令格式。
[0115]
计算机可读存储介质可以包括在使用期间可由计算机系统访问以向计算机系统提供指令和/或数据的任何存储介质或存储介质的组合。这样的存储介质可以包括但不限于光学介质(例如,光盘(cd)、数字多功能光盘(dvd)、蓝光光盘)、磁介质(例如,软盘、磁带或磁性硬盘驱动器)、易失性存储器(例如,随机存取存储器(ram)或高速缓存)、非易失性存储器(例如,只读存储器(rom)或闪存)或基于微机电系统(mems)的存储介质。计算机可读存储介质可以嵌入计算系统(例如,系统ram或rom)中,固定地附接到计算系统(例如,磁性硬
盘驱动器),可移除地附接到计算系统(例如,光盘或通用基于串行总线(usb)的闪存),或者经由有线或无线网络(例如,网络可访问存储(nas))耦合到计算机系统。
[0116]
请注意,并非上述一般性描述中的所有活动或要素都是必需的,特定活动或设备的一部分可能不是必需的,并且除了描述的那些之外可以执行一个或多个进一步的活动或包括的要素。更进一步,活动列出的顺序不必是执行它们的顺序。而且,已经参考具体实施例描述了这些概念。然而,本领域的普通技术人员认识到,在不脱离如下权利要求书中阐述的本公开的范围的情况下,可以进行各种修改和改变。因此,说明书和附图被认为是说明性的而不是限制性的,并且所有这样的修改被包括在本公开的范围内。
[0117]
上面已经关于具体实施例描述了益处、其他优点和问题的解决方案。然而,可能导致任何益处、优点或解决方案发生或变得更明显的益处、优点、问题的解决方案以及任何特征都不应被解释为任何或其他方面的关键、必需或任何或所有权利要求的基本特征。此外,上面公开的特定实施例仅仅是说明性的,因为所公开的主题可以以受益于这里的教导的本领域技术人员显而易见的不同但等同的方式进行修改和实施。除了在下面的权利要求书中描述的以外,没有意图限制在此示出的构造或设计的细节。因此明显的是,上面公开的特定实施例可以被改变或修改,并且所有这样的变化被认为在所公开的主题的范围内。因此,本文寻求的保护如下面的权利要求中所述。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献