一种用于实现大数据分析的信息计算系统及构建方法与流程

2022-07-23 13:32:29 来源：中国专利 TAG：

1.本技术属于数据分析技术领域，具体涉及一种用于实现大数据分析的信息计算系统及构建方法。

背景技术：

2.现有的统计分析软件存在分析统计功能不全、代码繁琐复杂、运行速度慢的问题，已经不能满足客户的需要，如果在现有的技术框架下大规模增加不同的分析统计功能，则会造成统计分析软件运行速度更加缓慢，尤其针对大规模数据的运行和处理上，运行速度已经成为统计分析软件发展的壁垒。其次，当前大数据统计软件限于功能单一、分散的各种基础统计模块，不利于用户快速、高效的进行数据清洗、数据分析。

技术实现要素：

3.针对以上技术问题，本技术提出一种用于实现大数据分析的信息计算系统及构建方法，在增加了众多分析统计功能的前提下，免除复杂的代码撰写，大幅度提高计算效率和运行速度。
4.本技术提出一种用于实现大数据分析的信息计算系统，包括：交互层、接口层、分析层、全局层；所述交互层用于针对输入数据、变量列表、数据分析功能、绘图功能、选项功能、数据分析结果以及错误日志提供人机交互显示界面；所述接口层用于针对数据分析功能、绘图功能、选项功能，采用python语言与r语言进行交互式编写自定义封装函数；所述分析层用于根据所述输入数据创建变量列表，根据数据分析功能以及选项功能二者中已选择的功能调用对应的自定义封装函数，传输所述自定义封装函数所需参数值，完成对应自定义封装函数指定的功能，得到数据分析结果以及对应图形，并将数据分析结果传递给交互层和/或保存于本地，将分析过程中对应变量的修改结果发送到全局层；所述全局层用于实时获取变量的修改结果，并将变量的修改结果实时发送到交互层。
5.所述交互层，包括：输入模块、处理模块、绘图模块；所述输入模块用于接收一组或多组输入数据，并将所述一组或多组输入数据发送到所述处理模块；所述处理模块用于针对所述一组或多组输入数据对应建立并显示一个或多个数据库，以功能名称的树形结构方式显示数据分析功能以及所述数据分析功能对应的选项功能；所述绘图模块用于选择绘图功能，并针对所述绘图功能的选项功能进行配置，根据配置结果将数据分析结果以及对应图形进行显示。
6.所述交互层还包括：变量模块以及错误日志模块，分别与所述分析层相连接；
所述变量模块用于接收分析层传递过来的变量列表，所述变量列表包括：变量类型列表和变量分布列表，并根据全局层传递过来的变量的修改结果，实时显示最新的变量类型列表和变量分布列表；所述错误日志模块用于在所述分析层在分析过程中出现错误的情况下，将错误和原因反馈到错误日志中。
7.所述接口层将所述自定义封装函数以及系统的所有逻辑编译为dll格式文件，将所述dll格式文件以及python模块包和r模块包放置在同一个文件夹中执行。
8.所述分析层包括：生成模块、执行模块、保存模块；所述生成模块用于根据一组或多组输入数据生成变量类型列表和变量分布列表；所述执行模块用于根据已选择的所述数据分析功能、所述数据分析功能对应的选项功能、绘图功能、绘图功能对应的选项功能调用对应的自定义封装函数，传输函数所需参数值，执行对应自定义封装函数指定的功能，得到数据分析结果以及图形，将所述数据分析结果以及图形传递给所述保存模块，将分析过程中对应变量的修改结果发送到全局层；所述保存模块用于将所述数据分析结果以及图形保存到本地。
9.所述交互层还包括：读取模块，用于从分析层读取保存到本地的数据分析结果以及图形；所述分析层还包括：判断模块，与所述读取模块相连接，用于当接受读取模块的读取请求后，选择是否同时将读取过程中对应变量的修改结果发送到全局层，若选择是，则将读取过程中对应变量的修改结果同时发送到全局层，若选择否，则直接将分析结果以及图形发送到读取模块。
10.所述全局层包括：变量设定单元、变量写入单元、变量更新单元、变量调用单元；所述变量设定单元用于设定全局变量以及全局数据变量；所述变量写入单元用于将python语言与r语言进行交互的结果写入全局数据变量，得到新的全局数据变量；所述变量更新单元用于采用所述新的全局数据变量更新所述全局变量，得到更新后的全局变量；所述变量调用单元用于在更新后的全局变量下主动调用变量列表，完成对所述变量列表的实时更新。
11.本技术还提出一种用于实现大数据分析的信息计算系统的构建方法，包括如下步骤：针对数据分析功能、绘图功能、选项功能，采用python语言与r语言进行交互式编写自定义封装函数；采用多个数据库同时接收一组或多组数据；根据一组或多组数据创建变量列表；根据数据分析功能以及选项功能二者中已选择的功能调用对应的自定义封装函数，传输所述自定义封装函数所需参数值，完成对应自定义封装函数指定的功能，得到数据分析结果以及对应图形；显示数据分析结果、图形以及实时更新的变量列表。
12.所述针对数据分析功能、绘图功能、选项功能，采用python语言与r语言进行交互
式编写自定义封装函数，包括如下步骤：将所述自定义封装函数以及系统的所有逻辑编译为dll格式文件，将所述dll格式文件以及python模块包和r模块包放置在同一个文件夹中执行。
13.所述实时更新的变量列表，包括：实时更新的变量类型列表和变量分布列表，实现过程如下：设定全局变量以及全局数据变量；将python语言与r语言进行交互的结果写入全局数据变量，得到新的全局数据变量；采用所述新的全局数据变量更新所述全局变量，得到更新后的全局变量；在更新后的全局变量下主动调用变量列表，完成对所述变量列表的实时更新。
14.有益技术效果：本技术提出一种用于实现大数据分析的信息计算系统及构建方法，避免了现有技术中每次从服务器调用，生成代码，并且依靠网络才完成分析函数的运算，解决了运行速度慢的问题，本技术的构架既能包含众多的功能、多数据库运行、实时更新变量列表，还能够大幅度提高运行速度。
附图说明
15.图1为本技术实施例的一种用于实现大数据分析的信息计算系统原理框图；图2为本技术实施例的交互层原理框图；图3为本技术实施例分析层原理框图；图4为本技术实施例全局层原理框图；图5为本技术实施例的一种用于实现大数据分析的信息计算系统的构建方法流程图；图6为本技术实施例的实时更新变量列表流程图。
具体实施方式
16.下面结合附图对本技术作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本技术的保护范围。
17.本技术提出一种用于实现大数据分析的信息计算系统及构建方法，本技术能够同时进行多个数据库的操作，能够实现多个数据库之间的数据合并和数据转换。本技术拥有很多的分析函数，并且具有众多的高级选项，并且，本技术在增加了众多分析统计功能的前提下，免除复杂的代码撰写，大幅度提高计算效率和运行速度，同时，根据众多现有的科研或者工程案例，本技术设计了一整套的数据处理、统计分析、统计作图等的线性分析流。在免除用户编写代码的前提下，可以更清晰的使用户掌握现代化的数据清洗流程，并可以根据现有处理模块用户自定义的设计适合自己数据的高效简洁可视化的数据清洗过程。在用户清洗完生产环境数据后，根据本技术的统计分析功能可以快速了解数据间的统计关系以及更深层次的关联关系，并在此基础上根据数据类型设计符合数据的预测模型，从比较深的层面帮助用户理解数据内部的潜在利用价值。本技术支持自定义图形制作功能，可以使用户充分从各个角度在可视化层面去了解数据的分布、关系等，极大辅助和提高了数据分
析的整个流程。
18.本技术提出一种用于实现大数据分析的信息计算系统，如图1所示，交互层、接口层、分析层、全局层；所述交互层用于针对输入数据、变量列表、数据分析功能、绘图功能、选项功能、数据分析结果以及错误日志提供人机交互显示界面；所述接口层用于针对数据分析功能、绘图功能、选项功能，采用python语言与r语言进行交互式编写自定义封装函数；所述分析层用于根据所述输入数据创建变量列表，根据数据分析功能以及选项功能二者中已选择的功能调用对应的自定义封装函数，传输所述自定义封装函数所需参数值，完成对应自定义封装函数指定的功能，得到数据分析结果以及对应图形，并将数据分析结果传递给交互层和/或保存于本地，将分析过程中对应变量的修改结果发送到全局层；所述全局层用于实时获取变量的修改结果，并将变量的修改结果实时发送到交互层。
19.本技术提出的一种用于实现大数据分析的信息计算系统具有众多的数据分析功能，能够用于数据的整理，包括：数据库预览、变量可视化、变量名修改、变量属性查看修改、变量分布查看、连续变量转换、分类变量转换、计算新变量、重复记录处理、日期变量计算、异常值处理、缺失值处理、变量深度描述、数据量纲转换、数据库横向合并、数据库纵向追加、删除行、删除列、数据库备份、多数据库操作、数据导出等等。
20.数据分析功能包括：线性/logistic/cox单因素分析、线性/logistic/cox回归多因素分析、线性/logistic/cox亚组分析、线性/logistic/cox-拐点分析、协变量筛查、倾向性评分、多重插补、诊断实验与roc分析、时间依赖roc分析、logistic预测模型分析、cox预测模型分析、survey数据分析。
21.所述数据分析功能具有对应的选项功能，例如，针对数据分析功能的survey数据分析中的survey人群描述功能，具有对应的选项功能，详述如下：survey人群描述功能用于人群基本特征描述，可用于复杂抽样、存在调查权重的数据分析，其分组变量：需要用来列分组变量，只可选择一个变量。变量列表：需要用来分析的变量，可选择多个变量。偏态分布变量：需要使用中位数（四分位间距值）描述的偏态分布连续变量；对应的选项功能可以包括：权重、区组变量、分层抽样变量、fpc（finite population correction，有限总体校正，选择一个变量，默认为空，表示不涉及此内容）、nest（字符串）、contdigits（连续变量的小数点位数，默认为3）、catdigits（分类变量的小数点位数，默认为2）、pdigits（p值的小数点位数，默认为4）、smd（结果表格是否展示标准差smd，选择t/f，默认为t）、showalllevels（结果表格中分类变量是否展示全部行值情况，选择t/f，默认为t）、addoveral（结果表格是否展示总人群汇总结果，选择t/f，默认为t）、minmax（结果表格中偏态连续变量是否展示最大值最小值，选择t/f，默认f），其中，t代表值为真，f代表值为假。本技术每一个数据分析功能具有自己独有的对应的选项功能（或称为高级选项功能）。绘图功能包括：拟合曲线gaussian、分层拟合曲线gaussian、拟合曲线logistic、分成拟合曲线logistic、拟合曲线cox、分层拟合曲线cox、生存曲线、森林图、相关矩阵图、柱状图、作图界面重置。同理，每个绘图功能也拥有自己独有的对应选项功能，例如拟合曲线gaussian包括：y变量：y变量，只可选择一个。x变量：待分析自变量，只可选择一个，需为连续型变量类。协变量：组，可选择
多个。拟合曲线gaussian绘图功能对应的选项功能：权重：加权变量选择，点右侧倒三角，可出现数据库中各项变量；k：knots，整值(2~20)，默认为4，曲线拟合度；xlab：x轴标题，默认为轴标题，默认为x变量名称；ylab：y轴标题，默认为轴标题，默认为y变量名称；breaks.n：直方图单个柱子宽度，默认为50；x下限%：x轴下限百分比，数值(0~100)，默认为0；x上限%：x轴上限百分比，数值(0~100)，默认为99.9；y下限%：y轴下限百分比，数值(0~100)，默认为0.1；上限%：y轴上限百分比，数值(0~100)，默认为10；lty：线条类型，整值(1~5)，默认为1；lwd：线条宽度，整值(1~10)，默认为3；band：是否显示置信区间，选择(t/f)，默认为"t"；rug：是否显示地柱，选择(t/f)，默认为"f"；col.line：线条颜色，默认为"grey21"；hist：是否显示直方图，选择 (t/f)，默认"t"；border：直方图边缘线条，颜色(字符)，默认为"grey21"；col.hist：直方图柱体：颜色(字符)，默认为"grey71"；col.fill，拟合曲线置信区间，填充颜色，默认为#b5b5b570，其中后两位70表示透明度；ci.line：是否绘制置信区间虚线：是否绘制置信区间虚线，选择(t/f)，默认为"t"；p.nonlinear：是否显示non-linear test p值，选择(t/f)，默认"t"；smooth：拟合曲线方法：选择spline（自然平滑样条）/rcs（限制立方样条），默认为"spline"；rcs.point：限制立方样条结点所在自变量百分位数值，逗号分割，默认为(5,35,65,95)；pn.xvar：non-linear test p值所在x轴位置，默认为软件自动设置；pn.yvar：non-linear test p值所在y轴位置，默认为软件自动设置；height.pdf：生成本地pdf图片高度，单位图片高度，单位cm，默认为8；width.pdf：生成本地pdf图片高度，单位图片高度，单位cm，默认为8。如上所述，本技术提出的系统拥有的功能众多，功能下还具有对应的高级选项，相当于子功能，故这种系统本身也需要提高运行速度，否则这么多功能将会导致系统运行缓慢。
22.所述交互层，如图2所示，所述交互层，包括：输入模块、处理模块、绘图模块；所述输入模块用于接收一组或多组输入数据，并将所述一组或多组输入数据发送到所述处理模块；所述处理模块用于针对所述一组或多组输入数据对应建立并显示一个或多个数据库，以功能名称的树形结构方式显示数据分析功能以及所述数据分析功能对应的选项功能；所述绘图模块用于选择绘图功能，并针对所述绘图功能的选项功能进行配置，根据配置结果将数据分析结果以及对应图形进行显示。
23.所述交互层还包括：变量模块以及错误日志模块，分别与所述分析层相连接；所述变量模块用于接收分析层传递过来的变量列表，所述变量列表包括：变量类型列表和变量分布列表，并根据全局层传递过来的变量的修改结果，实时显示最新的变量类型列表和变量分布列表；所述错误日志模块用于在所述分析层在分析过程中出现错误的情况下，将错误和原因反馈到错误日志中。
24.所述接口层将所述自定义封装函数以及系统的所有逻辑编译为dll格式文件，将所述dll格式文件以及python模块包和r模块包放置在同一个文件夹中执行。dll文件（dynamic link library）为动态链接库文件，又称“应用程序拓展”，是软件文件类型。所述系统的所有逻辑包括：交互层、接口层、分析层、全局层之间的调用关系逻辑。
25.由于采用python语言与r语言进行交互式编写自定义封装函数，因此在所述接口
层通过调用名为rpy2的python库，读取r模块包生成的数据，并将python模块包与r模块包各自生成的数据进行格式转换，从而使python模块包与r模块包双方可以解读对方提供的信息。
26.所述分析层，如图3所示，包括：生成模块、执行模块、保存模块；所述生成模块用于根据一组或多组输入数据生成变量类型列表和变量分布列表；在具体实施中：是通过一个自定义封装函数从r模块包的dataframe中提取现在的变量名称及类型，然后将结果发送到python模块包，python模块包再将r的数据格式转为python的数据格式，然后将python格式的变量名称及类型显示到右侧的变量列表即可。其中，自定义封装函数是根据不同的功能定义不同的函数，是本领域技术人员公知的常识，本技术不进行赘述。
27.所述执行模块用于根据已选择的所述数据分析功能、所述数据分析功能对应的选项功能、绘图功能、绘图功能对应的选项功能调用对应的自定义封装函数，传输函数所需参数值，执行对应自定义封装函数指定的功能，得到数据分析结果以及图形，将所述数据分析结果以及图形传递给所述保存模块，将分析过程中对应变量的修改结果发送到全局层；所述保存模块用于将所述数据分析结果以及图形保存到本地。
28.所述交互层还包括：读取模块，用于从分析层读取保存到本地的数据分析结果以及图形；所述分析层还包括：判断模块，与所述读取模块相连接，用于当接受读取模块的读取请求后，选择是否同时将读取过程中对应变量的修改结果发送到全局层，若选择是，则将读取过程中对应变量的修改结果同时发送到全局层，若选择否，则直接将分析结果以及图形发送到读取模块。所述变量的修改包括：增加变量操作、删除变量操作以及更改变量操作。
29.所述全局层，如图4所示，包括：包括：变量设定单元、变量写入单元、变量更新单元、变量调用单元；变量设定单元、变量写入单元、变量更新单元、变量调用单元；所述变量设定单元用于设定全局变量以及全局数据变量；所述变量写入单元用于将python语言与r语言进行交互的结果写入全局数据变量，得到新的全局数据变量；所述变量更新单元用于采用所述新的全局数据变量更新所述全局变量，得到更新后的全局变量；所述变量调用单元用于在更新后的全局变量下主动调用变量列表，完成对所述变量列表的实时更新。
30.本技术的创造性在于：在更新了全局变量后主动调用变量类型列表和变量分布列表，而传统做法需要通过多线程，由全局map自己实时更新自己来判断是否更新了。本技术采用此方法通过1ms基本就可以实现实时更新变量类型列表和变量分布列表。
31.本还申请提出一种用于实现大数据分析的信息计算系统的构建方法，如图5所示，包括如下步骤：步骤s1：针对数据分析功能、绘图功能、选项功能，采用python语言与r语言进行交互式编写自定义封装函数；
步骤s2：采用多个数据库同时接收一组或多组数据；步骤s3：根据一组或多组数据创建变量列表；步骤s4：根据数据分析功能以及选项功能二者中已选择的功能调用对应的自定义封装函数，传输所述自定义封装函数所需参数值，完成对应自定义封装函数指定的功能，得到数据分析结果以及对应图形；步骤s5：显示数据分析结果、图形以及实时更新的变量列表。
32.所述针对数据分析功能、绘图功能、选项功能，采用python语言与r语言进行交互式编写自定义封装函数，包括如下步骤：将所述自定义封装函数以及系统的所有逻辑编译为dll格式文件，将所述dll格式文件以及python模块包和r模块包放置在同一个文件夹中执行。
33.所述实时更新的变量列表，包括：实时更新的变量类型列表和变量分布列表，如图6所示，实现过程如下：步骤s5.1：设定全局变量以及全局数据变量；步骤s5.2：将python语言与r语言进行交互的结果写入全局数据变量，得到新的全局数据变量；步骤s5.3：采用所述新的全局数据变量更新所述全局变量，得到更新后的全局变量；步骤s5.4：在更新后的全局变量下主动调用变量列表，完成对所述变量列表的实时更新。
34.本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于ACU控制器的功能扩展系统及方法与流程

一种用于实现大数据分析的信息计算系统及构建方法与流程

相关文献

最热文献