一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于特征形态和数据关系的数据特征构建系统和方法与流程

2022-12-07 09:28:22 来源:中国专利 TAG:

技术特征:
1.一种基于特征形态和数据关系的数据特征构建系统,其特征在于,包括:数据特征深度分析模块,用于分析待处理数据集中所有数据库表得到dag执行聚合图、数据特征统计值和数据特征形态;数据特征预处理模块,用于基于数据特征统计值和数据特征形态,对待处理数据集中的数据进行清洗和预处理,得到处理后数据集;数据特征转换构建模块,用于基于数据特征形态,对处理后数据集中每个数据库表的原始特征进行特征转换构建得到相对应的的衍生特征,并整合每个数据库表的原始特征和衍生特征,得到转换后特征集;数据特征深度聚合模块,用于基于所述dag执行聚合图对转换后特征集进行聚合操作,得到聚合后特征集;数据特征过滤模块,用于过滤聚合后特征集得到优选特征组合;数据特征降维模块,用于对所述优选特征组合进行降维处理,得到降维后的最优特征组合。2.根据权利要求1所述的数据特征构建系统,其特征在于,所述分析待处理数据集中所有数据库表得到dag执行聚合图包括,基于所述数据库表的主键和外键得到用树结构表示的各数据库表间的关联关系,使用递归树算法从树的叶子结点开始进行递归遍历,得到所述dag执行聚合图,所述dag执行聚合图用于表示特征聚合的执行顺序、执行方向、能否并行执行以及特征的层级关系。3.根据权利要求2所述数据特征构建系统,其特征在于,所述基于所述dag执行聚合图对转换后特征集进行聚合操作包括,基于所述dag执行聚合图,从图的开始节点按照图所示的执行顺序、执行方向、能否并行执行以及特征的层级关系进行数据特征聚合,基于每个节点的下层节点的数据特征构建新特征聚合到该节点对应的特征集,对所有层级的节点对应的特征依次迭代聚合,得到聚合后特征集。4.根据权利要求1-3任一项所述的数据特征构建系统,其特征在于,所述数据特征形态包括文本特征、数值特征、时间特征。5.根据权利要求4所述的数据特征构建系统,其特征在于,所述预处理包括对文本特征、数值特征、时间特征分别进行预处理,其中,对文本特征预处理包括:对文本特征中的原始短文本进行编码操作得到第一文本编码;对长文本进行分词处理得到分词短文本,对长文本进行文本分析得到文本分析结果;基于文本分析结果选择需要保留的分词短文本,对其进行编码操作得到第二文本编码;将第一文本编码和第二文本编码汇总得到文本编码;对数值特征预处理包括:对数值特征进行标准化处理,并进行编码得到数值特征编码;对时间特征预处理包括:对时间特征进行统一时间格式处理,得到统一格式的时间特征。6.根据权利要求5所述的数据特征构建系统,其特征在于,所述基于数据特征形态,对处理后数据集中每个数据库表的原始特征进行特征转换构建得到相对应的衍生特征包括:对数据集中每个数据库表中的文本特征,统计文本中字符数量和单词数量分别作为新特征;对数据集中每个数据库表中的数值特征进行数学计算,包括两两相加、两两相减、两两
相乘、两两求模以及对数值特征取负数、对数值特征取绝对值,将计算结果分别作为新特征;对数据集中每个数据库表中的时间特征按照时间单位拆分,得到对应的年、月、周、日、小时、分钟、秒分别作为新的特征,计算时间特征和上一时间特征的时间差作为新的特征。7.根据权利要求6所述的数据特征构建系统,其特征在于,所述数据特征过滤模块,用于执行下述流程过滤聚合后特征集得到优选特征组合:使用排序法基于特征相关系数对特征排序,根据阈值过滤特征得到第一优选特征组;所述特征相关系数包括使用皮尔斯相关算法和方差分析算法计算特征间相关性得到的相关系数;使用包装法基于预设的训练模型算法对第一优选特征组中不同的特征子集进行训练,选取训练准确率最优的特征子集作为第二优选特征组;使用嵌入法对第二优选特征组进行过滤得到优选特征组,包括:使用决策树和/或随机森林模型,对第二优选特征组进行训练,得到训练好的模型和所有特征的权值系数,基于权值系数对特征进行排序,根据预设阈值选取排序靠前的特征的集合作为优选特征组。8.根据权利要求7所述的数据特征构建系统,其特征在于,所述降维算法包括主成分分析法和/或线性判别式分析法。9.根据权利要求3所述的数据特征构建系统,其特征在于,所述数据清洗包括基于所述数据特征统计值对所述待处理数据集中的数据的缺失值和异常值进行数据清洗。10.一种基于特征形态和数据关系的数据特征构建方法,其特征在于,包括如下步骤:数据特征深度分析,包括分析待处理数据集中所有数据库表得到dag执行聚合图、数据特征统计值和数据特征形态;数据特征预处理,包括基于数据特征统计值和数据特征形态,对待处理数据集中的数据进行清洗和预处理,得到处理后数据集;数据特征转换构建,包括基于数据特征形态,对处理后数据集中每个数据库表的原始特征进行特征转换构建得到相对应的的衍生特征,并整合每个数据库表的原始特征和衍生特征,得到转换后特征集;数据特征深度聚合,包括基于所述dag执行聚合图对转换后特征集进行聚合操作,得到聚合后特征集;数据特征过滤,包括过滤聚合后特征集得到优选特征组合;数据特征降维,包括对所述优选特征组合进行降维处理,得到降维后的最优特征组合。

技术总结
本发明属于计算机科学的机器学习领域,尤其涉及一种基于特征形态和数据关系的数据特征构建系统和方法。本发明充分考虑了数据之间的关联性,根据数据之间的关联性构建DAG执行聚合图,并根据数据特征的统计值构建衍生的数据特征,然后根据DAG执行聚合图对数据特征进行聚合操作,对聚合后特征集进行过滤处理和降维处理。本发明通过DAG执行聚合图充分考虑了数据特征之间的关联性,通过构建衍生的数据特征满足了对业务多样性的适应,本发明的数据特征构建方法提高了特征的信息浓度,提升了数据特征构建的效率。特征构建的效率。特征构建的效率。


技术研发人员:孟英谦 杨亮 杜宏博 王强 葛天恒 印泰桦 葛晋鹏 刘晓兰 薛行 崔琳 许童
受保护的技术使用者:中国兵器工业计算机应用技术研究所
技术研发日:2022.10.13
技术公布日:2022/12/6
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献