一种多源异构农业农村大数据分类方法与流程

2022-12-20 20:37:54 来源：中国专利 TAG：

1.本发明涉及农业农村大数据技术领域，具体为一种多源异构农业农村大数据分类方法。

背景技术：

2.随着生产力的提高和社会发展，新一轮科技革命、产业变革方兴未艾，云计算、大数据、区块链、物联网、智联网等新一代信息技术加快应用，深刻改变生产生活方式，引发经济格局和产业形态深度变革，形成发展数字经济的普遍共识，数字农业农村既是乡村振兴的战略方向，也是建设数字中国的重要内容，但是数据很多情况只在很小的范围内垂直交换，导致无法发挥应数据有的价值，迫切需要进行数据整合，按照统一运行网络、统计基础设施、统一数据资源、统一服务平台、统一安全策略、统一标准规范的总体要求，建立统一的农业农村大数据平台。
3.本技术人意识到在建立统一农业农村大数据平台的过程一般需要数据读取、数据处理、数据治理、数据组织和数据服务等过程，而首先需要处理的是数据读取汇聚，由于以前信息化建设时都是由各个业务职能部门进行信息化建设，没有统一的建设标准，必然存在数据标准不统一，数据表示方式各种各样的问题。
4.数据读取时，源数据和标准数据的对应问题会需要大量的繁琐调查和确认处理，而人为处理由于存在个体差异，容易出错和主观分类不统一，而且效率相对比较低下，随着计算机技术和机器学习和人工智能技术的发展，可以很好地进行数据分类推荐，辅助人进行数据识别和分类，降低主观影响数据分类错误。
5.本发明主要处理两个方面的问题：第一个是多源异构的数据读取问题；另一个是根据接入数据元数据信息（从数据源获取或者额外补充）自动匹配标准数据的处理，标准数据处理包括数据集（表）分类推荐，数据项（数据元）分类推荐，其中多源异构接入底层使用插件技术保证数据异构数据的灵活性和可扩展性，整合了开源的datax完成数据集成，数据集分类推荐和数据项分类推荐则采用机器学习方法与规则处理相结合的方法处理，目的是为农业农村大数据平台数据数据读取处理自动化提供辅助手段，提高数据读取的自动化水平，为农业农村大数据平台提供一种数据读取自动化分类与匹配的方法，促进农业农村信息化和大数据平台化的进程。

技术实现要素：

6.针对现有技术的不足，本发明提供一种多源异构农业农村大数据分类方法，具备自动化效率高的优点，解决了现有的农村大数据读取自动化效率低，往往数据读取都是人为处理，这样容易出错和主观分类不同意，而且效率比较低，因此不便于人们使用的问题。
7.本发明的一种多源异构农业农村大数据分类方法，包括如下步骤：s1、首先根据数据源的配置，读取源数据的元数据信息；s2、然后根据源表名称和描述信息，利用已训练好的自然语言处理模型，识别标准
数据集，一般情况下推荐5～10个标准数据集；s3、此时根据推荐的数据集，进一步做源表字段名称、类型、长度、描述等处理，利用已训练好的字段分类模型识别出标准字段；s4、综合标准字段和标准数据集的识别权重值，进行综合计算，得出最后的综合权重并排序推荐标准数据集和标准数据字段。
8.本发明的一种多源异构农业农村大数据分类方法，所述多源异构数据读取采用底层插件技术，针对不同的数据源采用不同的独立插件读取数据和元数据补充信息。
9.本发明的一种多源异构农业农村大数据分类方法，所述插件实现逻辑模型中包括job、task两个维度，通过将job进行task拆分，然后将task合并到taskgroup进行运行，其中job是datax用以描述从一个源头到一个目的端的同步作业，是datax数据同步的最小业务单元，比如：从一张mysql的表同步到odps的一个表的特定分区，task是为最大化而把job拆分得到的最小执行单元，比如：读一张有1024个分表的mysql分库分表的job，拆分成1024个读task，用若干个并发执行。
10.本发明的一种多源异构农业农村大数据分类方法，所述标准数据集识别处理主要是根据表中文名称和表描述等信息进行分词处理，获得所述待分类文本对应的分词集合，根据预设的词向量词典对表名称和表描述信息分词集合进行向量化处理，获得表名称和表描述分类文本对应的词向量集合，针对表名称词向量和表描述词向量分别计算出与标准数据集的描述的fasttext、textcnn和svm的相似权重，并推荐出数据标准数据集。
11.与现有技术相比，本发明的有益效果如下：1、本发明通过使用自然语言处理分类模型fasttext、textcnn、svm和随机森林完成对表描述和字段描述信息进行分类预测，结合权重计算模型进行分类权重计算，获得精准的标准数据集（表）的推荐和标准数据项（字段）的推荐，达到了自动化效率高的优点，解决了现有的农村大数据读取自动化效率低，往往数据读取都是人为处理，这样容易出错和主观分类不同意，而且效率比较低，因此不便于人们使用的问题。
12.2、本发明通过多源异构数据是基于插件技术处理，可以很方便地支持新型的数据接入，只要简单地按照插件接口实现对应的读适配器或写适配器即可，同时本方法基于深度学习，是一个完全端到端的训练过程，通过真实结果和预测结果的误差，对模型中的各个参数进行反推，省去人工建立模型、设计特征提取器、参数调优的过程，最后本方法可以很容易实现b/s结构的图形操作页面，实现用户对模型训练和优化处理。
附图说明
13.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：图1为本发明结构示意图；图2为本发明插件实现逻辑模型定义图；图3为本发明数据读取插件启动过程图；图4为本发明标准数据集（标准表）自动分类处理图；图5为本发明标准数据项（标准字段）自动分类处理图；图6为本发明textcnn处理示意图；
图7为本发明fasttext向量化处理示意图；图8为本发明svm分类情况示意图；图9为本发明随机森林决策示意图。
具体实施方式
14.以下将以图式揭露本发明的多个实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。
15.请参阅图1-9，本发明的一种多源异构农业农村大数据分类方法，包括如下步骤：s1、首先根据数据源的配置，读取源数据的元数据信息；s2、然后根据源表名称和描述信息，利用已训练好的自然语言处理模型，识别标准数据集，一般情况下推荐5～10个标准数据集；s3、然后根据推荐的数据集，进一步做源表字段名称、类型、长度、描述等处理，利用已训练好的字段分类模型识别出标准字段；s4、综合标准字段和标准数据集的识别权重值，进行综合计算，得出最后的综合权重并排序推荐标准数据集和标准数据字段。
16.实施例一：s1、首先根据数据源的配置，读取源数据的元数据信息；s2、然后根据源表名称和描述信息，利用已训练好的自然语言处理模型，识别标准数据集，一般情况下推荐5～10个标准数据集；s3、然后根据推荐的数据集，进一步做源表字段名称、类型、长度、描述等处理，利用已训练好的字段分类模型识别出标准字段；s4、综合标准字段和标准数据集的识别权重值，进行综合计算，得出最后的综合权重并排序推荐标准数据集和标准数据字段。
17.多源异构数据读取采用底层插件技术，针对不同的数据源采用不同的独立插件读取数据和元数据补充信息，插件实现逻辑模型中包括job、task两个维度，通过将job进行task拆分，然后将task合并到taskgroup进行运行，其中job是datax用以描述从一个源头到一个目的端的同步作业，是datax数据同步的最小业务单元，比如：从一张mysql的表同步到odps的一个表的特定分区，task是为最大化而把job拆分得到的最小执行单元，比如：读一张有1024个分表的mysql分库分表的job，拆分成1024个读task，用若干个并发执行，其中数据读取插件启动过程如附图3所示，图3为执行阶段。
18.标准数据集识别处理主要是根据表中文名称和表描述等信息进行分词处理，获得待分类文本对应的分词集合，根据预设的词向量词典对表名称和表描述信息分词集合进行向量化处理，获得表名称和表描述分类文本对应的词向量集合，针对表名称词向量和表描述词向量分别计算出与标准数据集的描述的fasttext、textcnn和svm的相似权重，并推荐出数据标准数据集。
19.对于标准数据集（标准表）自动分类推荐处理过程见图4所示，其中图4：首先从附加数据或者数据源的元数据中读取表的名称和表的描述信息，其中表名对进行同义词处理，然后把表名转换为拼音，根据表名拼音从标准数据集中搜索对应的标准数据集，如果找到对应的标准数据集，则直接返回标准数据集，否则对表描述信息进行分词处理，然后根据
各个算法要求相应的处理，转换为算法需要的输入矩阵，然后分别应用textcnn、fasttext、svm、随机森林四种分类算法进行分类预测，得到各个分类的算法的预测值和对应的权值后，对分类结果进行“分值=权值*比例系数”计算，得出分类的权重值后再进行分类权重合并叠加，然后根据最终的分类分值，如果分值最高的分类超过分类基准分值，则推荐最高分值的标准数据集，否则推荐结束。
20.对于标准数据集包含的标准数据项（标准字段）自动分类推荐处理过程见附图5所示数据项分类处理过程，标准数据项（字段）推荐处理过程与标准数据集处理过程类似，具体描述可以参考标准数据集推荐过程说明。
21.本分类方法中使用了4种机器学习的分类算法，对于每个分类模型的构建张统一采用标注数据输入、模型训练、模型测试、模型优化、模型应用等处理过过程。
22.textcnn分类：textcnn的流程：先将文本分词做embeeding得到词向量，将词向量经过一层卷积，一层max-pooling，最后将输出外接softmax来做n分类。textcnn的优势：模型简单，训练速度快，效果不错。
23.textcnn的缺点：模型可解释型不强，在调优模型的时候，很难根据训练的结果去针对性的调整具体的特征，因为在textcnn中没有类似gbdt模型中特征重要度（feature importance）的概念，所以很难去评估每个特征的重要度，textcnn处理可如附图6所示。
24.fasttext分类：fasttext向量化处理中x1，x2，
…
，xn
−
1，xn表示一个文本中的n-gram向量，每个特征是词向量的平均值，然后使用全部的n-gram去预测指定类别，fasttext向量化处理如附图7。
25.svm分类：svm分类，又叫支持向量机（support vector machine）曾经在分类、回归问题中非常流行，支持向量机也称为最大间隔分类器，通过分离超平面把原始样本集划分成两部分，本分类方法需要k个类别分类，在训练样本上，采用svm训练出k个分类器，每个分类器将训练样本分成kiki类与非kiki类，然后采用svm训练出模型，每个分类器只能回答是否属于kiki的答案，此种方法会造成一个样本数据属于多个类别的情况，如附图8所示。
26.也可以采用：y（x）=maxk yk（x）y（x）=maxk yk（x），即采用最大的函数间隔的那个类别，但不同的分类器有可能尺度不相同，函数距离自然不能作为判断标准，同时，训练样本的不平衡也可能造成分类器有误差。
27.随机森林分类：随机森林算法是从原始的数据集中采取有放回的抽样，构造子数据集，子数据集的数据量是和原始数据集相同的，不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复，利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果，最后，如果有了新的数据需要通过随机森林得到分类结果，就可以通过对子决策树的判断结果的投票，得到随机森林的输出结果了，如附图9所示，假设随机森林中有3棵子决策树，2棵子树的分类结果是a类，1棵子树的分类结果是b类，那么随机森林的分类结果就是a类。
28.在使用本发明时：本发明对德清宅基地数据进行宅基地数据接入农业农村大数据
平台处理，标准数据集和标准字段自动分类识别准确率达到85%以上，大量节省人工成本，使用该方法对兰陵宅基地信息化系统数据接入农业农村大数据平台处理，数据接入端直接对接pgsql交换数据库，标准数据集和标准字段自动分类识别准确率达到90%以上，使用该方法接入农业农村大数据平台处理，源数据交换通过kafka消息队列进行对接，标准数据集和标准字段自动识别推荐正常离线地图达到92%，大大降低了人工数据集和字段匹配分类处理，大大加快了农村大数据平台原始数据接入处理过程，分类使用了表元数据：表中文名称、表英文名称、表描述；结合字段元数据：字段中文名称、字段英文名称、字段描述、字段类型、字段长度等元素，然后综合评价分类，使用自然语言处理分类模型fasttext、textcnn、svm和随机森林完成对表描述和字段描述信息进行分类预测，结合权重计算模型进行分类权重计算，获得精准的标准数据集（表）的推荐和标准数据项（字段）的推荐。
29.综上仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于机器视觉的背部穴道的定位方法

一种多源异构农业农村大数据分类方法与流程

相关文献

最热文献