一种基于Gaia系统的数据分类方法与流程

2021-11-06 06:31:00 来源：中国专利 TAG：

技术特征：
1.一种基于gaia系统的数据分类方法，其特征在于，包括：步骤一：通过gaia系统读取数据源构建初始数据集ucollection，所述数据源包括带有属性的训练样本矩阵x、t以及初始的随机赋值权重向量w；步骤二：基于gaia系统构建分布式超限学习机并利用初始数据集ucollection进行训练；步骤三：通过gaia系统读取用户输入的待分类数据集，利用训练后的分布式超限学习机输出数据的分类结果。2.根据权利要求1所述的一种基于gaia系统的数据分类方法，其特征在于，所述步骤二包括：步骤1：对构建的初始数据集ucollection进行判断，如果初始数据集ucollection是有界的且只有一个来源，则一次性读取全部数据作为训练数据，并启动批数据处理环境进行训练；步骤2：如果初始数据集ucollection是有界的且有多个来源，一次性读取全部增量训练样本矩阵(x1,x2…
,x
k
)、(t1,t2…
,t
k
)，并启动批数据处理环境进行训练；步骤3：如果初始数据集ucollection是无界的且有多个来源，在线持续输入增量训练样本矩阵，启动流数据处理环境，根据一定数量的增量训练样本进行训练；步骤4：如果初始数据集ucollection是无界的且有多个来源，在线持续输入增量训练样本矩阵，启动流数据处理环境，根据一定的增量训练样本输入时间间隔进行训练。3.根据权利要求2所述的一种基于gaia系统的数据分类方法，其特征在于，所述步骤1包括：步骤1.1：利用gaia系统中的pardo并行转换操作进行内积计算的第一步运算过程；步骤1.2：利用gaia系统中的groupbykey转换操作进行内积计算的第二步运算过程，即将得到的每个乘积值发送到主节点中并进行求和操作，得到矩阵x与向量w进行内积运算的最终结果；步骤1.3：利用超限学习机的非线性映射函数计算矩阵x的激活函数值h
i
(x)得到矩阵h，并得到矩阵h的转置矩阵h
t
；所述超限学习机的非线性映射函数表示为：h
i
(x)＝g(w
i
·
x b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式中，w
i
表示第i个随机赋值权重向量，i＝1,2,
…
,l，l为隐藏层的结点个数，b
i
表示偏移量，g(
·
)表示非线性映射函数；步骤1.4：继续使用pardo并行转换操作进行h
t
h内积计算和h
t
t内积计算的第一步运算过程，然后使用groupbykey转换操作进行h
t
h内积计算和h
t
t内积计算的第二步运算过程，得到h
t
h内积和h
t
t内积计算的结果；步骤1.5：利用公式(2)得到分布式超限学习机的输出权重β；式中，i为单位矩阵，λ为根据岭回归理论引入的正值。4.根据权利要求2所述的一种基于gaia系统的数据分类方法，其特征在于，所述步骤2包括：
步骤2.1：使用pardo并行转换操作，按照预设的并行度值n将一次性给定的增量训练样本矩阵(x1,x2…
,x
k
)进行分组；步骤2.2：对于分组后的矩阵，利用超限学习机的非线性映射函数计算矩阵x的激活函数值h
i
(x)得到矩阵h，则n个分组分别计算得到n个矩阵h，标记为h1,h2…
,h
n
；步骤2.3：使用groupbykey转换操作，将每个h1,h2…
,h
n
分别发送到主节点中；步骤2.4：根据h1,h2…
,h
n
，利用公式(3)、(4)得到每一个增量训练样本输入后的更新权重，直至输入最后的增量训练样本，得到最终更新的输出权重；重，直至输入最后的增量训练样本，得到最终更新的输出权重；其中，其中，为h的伪逆矩阵，β
k
为第k次迭代的输出权重值，m
k
为第k次迭代的中间结果。5.根据权利要求2所述的一种基于gaia系统的数据分类方法，其特征在于，所述步骤3包括：步骤3.1：使用pardo并行转换操作，根据预设的并行度值n将持续输入的增量训练样本矩阵(x1,x2…
,x
k
)进行分组，每组数据量的最大值标记为groupsize，其大小等于滚动窗口的大小；步骤3.2：数据被分发至每个组后，利用超限学习机的非线性映射函数计算矩阵x的激活函数值h
i
(x)得到矩阵h，则n个分组分别计算得到n个矩阵h，标记为h1,h2…
,h
n
；步骤3.3：使用groupbykey转换操作，将每个h1,h2…
,h
n
分别发送到主节点中；步骤3.4：当n的值达到countsize后，使用trigger操作对计算输出权重进行触发，读取h1,h2…
,h
n
；步骤3.5：根据公式(3)、公式(4)得到每一个增量训练样本输入后的更新权重，直至输入最后的增量训练样本，得到最终更新的输出权重；步骤3.6：重复步骤3.2～步骤3.5，计算每个增量训练样本产生的矩阵h，每当矩阵h的数量达到countsize后，都触发一次更新输出权重的过程。6.根据权利要求2所述的一种基于gaia系统的数据分类方法，其特征在于，所述步骤4包括：步骤4.1：使用pardo并行转换操作，根据预设的并行度值n将持续输入的增量训练样本矩阵(x1,x2…
,x
k
)进行分组；步骤4.2：当数据被分发至每个组后，利用超限学习机的非线性映射函数计算矩阵x的激活函数值h
i
(x)得到矩阵h，则n个分组分别计算得到n个矩阵h，标记为h1,h2…
,h
n
；步骤4.3：使用groupbykey转换操作，将每个h1,h2…
,h
n
分别发送到主节点中；步骤4.4：当时间达到预设时间间隔timesize后，使用trigger操作对计算输出权重进行触发，读取(h1,h2…
,h
n
)；步骤4.5：根据公式(3)、公式(4)得到每一个增量训练样本输入后的更新权重，直至输入最后的增量训练样本，得到最终更新的输出权重；步骤4.6：重复步骤4.2～步骤4.5，计算每个增量训练样本产生的矩阵h，每当时间达到达到timesize后，都触发一次更新输出权重的过程。
7.根据根据权利要求3所述的一种基于gaia系统的数据分类方法，其特征在于，所述步骤1.1包括：步骤1.1.1：将数据源表示为三元组形式，元素分别为行id、列id以及元素值；步骤1.1.2：计算矩阵x与向量w中对应元素的乘积，得到内积计算的第一步运算结果。

技术总结
本发明提供一种基于Gaia系统的数据分类方法，所述方法基于超限学习机实现，Gaia系统由于其更新的底层流处理计算架构和多种全局优化与执行优化技术，相比于其他分布式计算系统具有更好的执行效率。在批处理模式下可实现海量吞吐，在流处理模式下可实现极速响应；另外，由于超限学习机是一种单隐层前馈神经网络，相比于其他的学习机具有更快的学习速度；将上述两种优势进行结合，可使得本发明实现更高效率的数据分类。再者通过构建的初始数据集UCollection自行判断判定启动批处理环境或流处理环境，用户在使用该学习机进行数据分类时可不用关心数据的类型与来源，只需关注对数据的处理过程即可，为用户的使用带来了极大的便利。利。利。

技术研发人员：季航旭赵宇海王国仁吴刚李博扬
受保护的技术使用者：北京理工大学
技术研发日：2021.08.20
技术公布日：2021/11/5

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于大数据的在线远程教育方法及系统与流程

一种基于Gaia系统的数据分类方法与流程

相关文献

最热文献