一种应用于元宇宙的大数据处理方法及系统与流程

2022-07-06 06:10:02 来源：中国专利 TAG：

1.本发明属于信息技术领域，具体地，涉及一种应用于元宇宙的大数据处理的方法及系统。

背景技术：

2.元宇宙本质上是对现实世界的虚拟化、数字化过程，需要对内容生产、经济系统、用户体验以及实体世界内容等进行大量改造。但元宇宙的发展是循序渐进的，是在共享的基础设施、标准及协议的支撑下，由众多工具、平台不断融合、进化而最终成形。它基于扩展现实技术提供沉浸式体验，基于数字孪生技术生成现实世界的镜像，基于区块链技术搭建经济体系，将虚拟世界与现实世界在经济系统、社交系统、身份系统上密切融合，并且允许每个用户进行内容生产和世界编辑。
3.元宇宙的普及，离不开各项技术的升级与融合，例如5g通信技术，大数据处理技术等，在目前的元宇宙技术中，数字孪生是一项核心技术，数字孪生的模型建立和运行需要云端实时获取其日志log文件，以便进行而分析处理，获取性能参数等信息。但是，在海量数据背景下，其log文件的分析量很大，导致对性能参数的分位数计算效率低下。

技术实现要素：

4.本发明提供了一种应用于元宇宙的大数据处理的方法及系统，有效解决了现有技术中针对数字孪生log文件分析中分位数计算效率低下的问题，有效提升了分析效率和计算效率。
5.为了实现上述目的，本发明提供了一种应用于元宇宙的大数据处理的方法，应用于边云协同系统，所述系统包括中心云、多个分布式节点、多个边缘计算节点mec、多个基站和多个移动台，所述方法包括：
6.所述多个mec通过所述多个基站，获取所述多个移动台的初始数据；
7.所述多个mec对所述初始数据进行筛选，获取筛选后的目标数据，并将所述目标数据按对应关系分别上传至对应的所述多个分布式节点；
8.每一个所述分布式节点对所述对应接收到的目标数据进行纵向压缩，获取第一压缩目标数据，并将所述第一压缩目标数据发送至所述中心云；
9.所述中心云对接收到的每一所述第一压缩目标数据进行横向压缩，获取第二压缩目标数据；
10.所述中心云基于所述第二压缩目标数据进行分位数统计。
11.可选地，每一个所述分布式节点对所述对应接收到的目标数据进行纵向压缩，包括：
12.每一个所述分布式节点对所述对应接收到的目标数据按照时间先后顺序进行数据排列；
13.将排列后的目标数据依次进行二进制转换；
14.对所述二进制转换后的数据进行压缩编码。
15.可选地，所述对所述二进制转换后的数据进行压缩编码，包括：
16.设置t0时刻的二进制目标数据为基准值j0；
17.将tn时刻的二进制目标数据与所述基准值j0进行异或运算，获取运算结果cn；
18.对所述运算结果cn进行二进制压缩。
19.可选地，所述对所述运算结果cn进行二进制压缩，包括：
20.将所述运算结果cn中2个以上连续的0设置为m^0，得到运算结果c
n’其中m表示连续的0的个数；
21.将所述运算结果c
n’设置为结构化数组。
22.可选地，所述中心云对接收到的每一所述第一压缩目标数据进行横向压缩，包括：
23.所述中心云遍历所述每一第一压缩目标数据中的主键标识；
24.所述中心云将相同时刻的相同主键标识的第一压缩目标数据进行合并，并设置生成合并符号，将所述合并符号封装进所述合并后的第一压缩目标数据中。
25.可选地，所述合并符号为10位字符串。
26.可选地，所述多个mec对所述初始数据进行筛选，包括：
27.所述多个mec基于所述初始数据的置信度、边界框阈值以及截取时间窗口进行初始数据的筛选。
28.可选地，所述初始数据为所述移动台中数字孪生系统运行的log数据。
29.本发明实施例还提供一种应用于元宇宙的大数据处理系统，所述系统包括中心云、多个分布式节点、多个边缘计算节点mec、多个基站和多个移动台，其中：
30.所述多个mec用于通过所述多个基站，获取所述多个移动台的初始数据；对所述初始数据进行筛选，获取筛选后的目标数据，并将所述目标数据按对应关系分别上传至对应的所述多个分布式节点；
31.所述分布式节点用于对所述对应接收到的目标数据进行纵向压缩，获取第一压缩目标数据，并将所述第一压缩目标数据发送至所述中心云；
32.所述中心云用于对接收到的每一所述第一压缩目标数据进行横向压缩，获取第二压缩目标数据；基于所述第二压缩目标数据进行分位数统计。
33.本发明实施例还提供一种应用于元宇宙的大数据处理系统，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。
34.本发明实施例的方法及系统具有下列优点：
35.本发明实施例中，mec对获取到的目标数据进行纵向压缩，将海量的数据量级降低，并在中心云侧再次进行横向压缩，提升压缩率，最终可有效降低log数据分析的数量，提升对性能参数的分位数计算效率。
附图说明
36.图1为一个实施例中应用于元宇宙的大数据处理系统架构图；
37.图2为一个实施例中应用于元宇宙的大数据处理的方法流程图；
38.图3为一个实施例中的应用于元宇宙的大数据处理系统组成结构图；
39.图4为一个实施例中系统的硬件组成示意图。
具体实施方式
40.为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
41.图1是本发明实施例中应用于元宇宙的大数据处理系统架构图，如图1所示，该系统10包括中心云11、分布式节点12、多个边缘计算节点mec13、多个基站14和多个移动台15。其中，中心云11作为管理中心，通过mec管理的方式提供资源注册入库，将网络节点的服务资源注册到全局的应用仓库，并提供各级节点的服务管控、监测和配置，其中，中心云11会将边云协同等操作流程授权给下级节点(即分布式节点12)，通过下级节点完成一系列边云协同操作或大部分边云协同操作。
42.分布式节点12是中心云11的下级节点，中心云具备超大规模的运算能力和存储能力，而分布式节点则是虚拟下级节点，其运算能力和存储能力低于中心云，但优势是其通过虚拟的方式动态获取运算能力和存储能力，在一般情况下具备大型运算能力和存储能力，此外，分布式节点12主要通过星形组网的方式进行mec的管控。相比于链型、环形、树形组网结构，分布式节点可以并行实现一对一的网络通信机制，通信效率提升明显。因此，星形网络12的拓扑网络结构是星形组网，即一个分布式节点对应多个mec。
43.边缘计算节点mec13在本发明实施例中与分布式节点配对，在配对后，主要与分布式节点进行通信，并与基站，移动台进行数据交互，最终完成边云协同操作。mec13具备一定的计算能力和存储能力，其下沉到靠近最终移动台的一侧，因此其响应速度很快。
44.基站bs14与mec配对，一个mec配对有多个基站bs14，基站分布在不同的地区，当移动台需要进行边云协同时，通过基站接入到mec。
45.移动台15可以是不同的移动终端或移动设备，具备无线输入输出能力，并具备本地的高速处理能力，其接入上述网络，完成边云协同，以实现移动台注册。
46.如图2所示，本发明实施例提供一种应用于元宇宙的大数据处理方法，应用于图1所示的边云协同系统，包括：
47.s101.所述多个mec通过所述多个基站，获取所述多个移动台的初始数据；
48.移动台在与基站的信息交互过程中，会将数字孪生的各个log文件数据进行写入和读取，并将该文件数据定时上报给基站，基站透发给对应范围的mec，其中，一个mec的辖区范围内有多个基站，一个基站的辖区范围内有多个移动台，因此，mec-基站-移动台在网络交互层次上有对应关系。
49.在本发明实施例中，mec通过基站获取移动台的初始数据，该初始数据为数字孪生的log文件数据，log文件是记录数字孪生系统/软件运行过程中的各项参数、操作的记录文件，云端可以从log文件中分析出当前数字孪生模型或系统的运行状态，加载状态等，以便实时监控和实时进行调整。
50.s102.所述多个mec对所述初始数据进行筛选，获取筛选后的目标数据，并将所述目标数据按对应关系分别上传至对应的所述多个分布式节点；
51.由于初始数据的数据量较大，因此mec需要对初始数据进行筛选，以便减少其数据量，在本发明实施例中，可以通过初始数据的置信度、边界框阈值以及截取时间窗口进行初始数据的筛选。其中，一个概率样本的置信区间(confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围。优选地，本发明实施例可以设定该置信度为95。边界框阈值可定义在log文件中各项参数的最大值和最小值，形成一个边界框，如果低于该最小值或者超过其最大值，则没有落入其边界框范围内，该数据无效需要删除。截取时间窗口表示其按照一定的时间范围进行时间截取，在该时间范围外的数据无需保存，只分析该时间范围内的数据。
52.通过上述方式进行筛选后，即可从初始数据上筛除无效的数据，得到目标数据，该目标数据包括各个移动台的主键标识pid以及生成时间t，mec可根据pid确定其单个目标数据的对应关系，在本发明实施例中，移动台-基站-mec-分布式节点-中心云存在对应关系，具体地，一个中心云对应所属的多个分布式节点，一个分布式节点对应多个mec，一个mec对应多个基站，一个基站对应多个移动台，此外，在实际的运行场景中，移动台可能会迁移到其他基站中，此时会重新确认移动台的对应关系。因此，本发明实施例中可根据pid确认其属于哪一个基站的所属范围，该基站属于哪一个mec的所属范围，且该mec属于哪一个分布式节点的所属范围。
53.因此，mec可通过目标数据按对应关系分别上传至对应的多个分布式节点中。
54.s103.每一个所述分布式节点对所述对应接收到的目标数据进行纵向压缩，获取第一压缩目标数据，并将所述第一压缩目标数据发送至所述中心云；
55.在分布式节点接收到对应的目标数据后，需要对海量的目标数据进行纵向压缩，并在纵向压缩后获取第一压缩目标数据。
56.在本发明实施例中，借用了帧内压缩和帧间压缩的思想，分别对目标数据进行纵向压缩和横向压缩的双重压缩，尽可能降低目标数据的数据量。
57.具体地，纵向压缩的方法包括：
58.s1031.每一个所述分布式节点对所述对应接收到的目标数据按照时间先后顺序进行数据排列；
59.分布式节点在接收到目标数据之后，先对目标数据进行时间排序，例如可以按照时间由旧到新或者由新到旧进行排序，为了方便说明，本发明实施例列举n个时刻，分别定义为t0,t1,...tn。
60.s1032.将排列后的目标数据依次进行二进制转换；
61.在进行排序后，将目标数据依次进行二进制转换，转换为二进制代码，二进制由0和1组成，例如00110001，在实际运用中，只需要把目标数据中的关键参数转换为32bit或64bit的二进制即可。
62.s1033.对所述二进制转换后的数据进行压缩编码。
63.压缩编码的具体方法如下：
64.设置t0时刻的二进制目标数据为基准值j0，例如j0＝“00110001”；
65.将tn时刻的二进制目标数据与所述基准值j0进行异或运算，获取运算结果cn；异或运算是二进制的一种运算方式，其运算符号为xor，运算方式为：两位不同为1,相同则为0。
由于不同时刻的目标数据值其差异不会很大，因此，在进行异或运算后，数据位中相应的0会增多，而1较少，因此，可以基于此规律对0进行压缩，实现二进制的有效压缩。
66.对所述运算结果cn进行二进制压缩。具体地，将所述运算结果cn中2个以上连续的0设置为m^0，得到运算结果c
n’，其中m表示连续的0的个数；例如，数组的二进制为“000110000001”，可以表示为“01101” “3” “6”，其中第一个数组是将多个连续的0压缩成了1个0之后的数组，“3”表示第一个0的连续个数为3，“6”表示第二个0的连续个数为6，也可以表示为“3^0116^01”的非二进制数组，整个数组的存储大小得到降低。
67.将所述运算结果c
n’设置为结构化数组。例如，典型的结构化数组可以是“起始符 c
n’ 数据大小终止符”的格式。
68.s104.所述中心云对接收到的每一所述第一压缩目标数据进行横向压缩，获取第二压缩目标数据；
69.在对目标数据进行纵向压缩之后，得到第一压缩目标数据，此时还需要对第一压缩目标数据进行横向压缩。
70.具体地，横向压缩方法包括：
71.s1041.所述中心云遍历所述每一第一压缩目标数据中的主键标识；
72.s1042.所述中心云将相同时刻的相同主键标识的第一压缩目标数据进行合并，并设置生成合并符号，将所述合并符号封装进所述合并后的第一压缩目标数据中。其中，合并符号为自定义的10位字符串。
73.s105.所述中心云基于所述第二压缩目标数据进行分位数统计。
74.分位数(quantile)，tp＝top percentile，即对一批数值型数据进行排序之后，排在p％位置的数值大小，是数据分析中非常重要的统计指标之一。常用的分位数包括：80分位数，90分位数，99分位数等。
75.然而，在实时计算(流式计算)场景中，由于无法在有限的时间内对海量数据进行全局的排序，给实时分位数的计算带来一定的技术挑战。
76.tp50、tp90和tp99等指标常用于系统性能监控场景，指高于50％、90％、99％等百分线的情况。
77.例如，tp50：指在一个时间段内(如5分钟)，统计该方法每次调用所消耗的时间，并将这些时间按从小到大的顺序进行排序，取第50％的那个值作为tp50的值；配置此监控指标对应的报警阀值后，需要保证在这个时间段内该方法所有调用的消耗时间至少有50％的值要小于此阀值，否则系统将会报警。
78.本发明实施例的方法及系统具有下列优点：
79.本发明实施例中，mec对获取到的目标数据进行纵向压缩，将海量的数据量级降低，并在中心云侧再次进行横向压缩，提升压缩率，最终可有效降低log数据分析的数量，提升对性能参数的分位数计算效率。
80.如图3所示，本发明实施例还提供一种应用于元宇宙的大数据处理系统，所述系统包括中心云31、多个分布式节点32、多个边缘计算节点mec33、多个基站34和多个移动台35，其中：
81.所述多个mec33用于通过所述多个基站34，获取所述多个移动台35的初始数据；对所述初始数据进行筛选，获取筛选后的目标数据，并将所述目标数据按对应关系分别上传
至对应的所述多个分布式节点32；
82.其中，移动台35用于在与基站34的信息交互过程中，会将数字孪生的各个log文件数据进行写入和读取，并将该文件数据定时上报给基站34，基站34透发给对应范围的mec33，其中，一个mec33的辖区范围内有多个基站34，一个基站34的辖区范围内有多个移动台35，因此，mec33-基站34-移动台35在网络交互层次上有对应关系。
83.在本发明实施例中，mec33用于通过基站34获取移动台35的初始数据，该初始数据为数字孪生的log文件数据，log文件是记录数字孪生系统/软件运行过程中的各项参数、操作的记录文件，云端可以从log文件中分析出当前数字孪生模型或系统的运行状态，加载状态等，以便实时监控和实时进行调整。
84.由于初始数据的数据量较大，因此mec33需要对初始数据进行筛选，以便减少其数据量，在本发明实施例中，可以通过初始数据的置信度、边界框阈值以及截取时间窗口进行初始数据的筛选。其中，一个概率样本的置信区间(confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围。优选地，本发明实施例可以设定该置信度为95。边界框阈值可定义在log文件中各项参数的最大值和最小值，形成一个边界框，如果低于该最小值或者超过其最大值，则没有落入其边界框范围内，该数据无效需要删除。截取时间窗口表示其按照一定的时间范围进行时间截取，在该时间范围外的数据无需保存，只分析该时间范围内的数据。
85.通过上述方式进行筛选后，即可从初始数据上筛除无效的数据，得到目标数据，该目标数据包括各个移动台35的主键标识pid以及生成时间t，mec33可根据pid确定其单个目标数据的对应关系，在本发明实施例中，移动台35-基站34-mec33-分布式节点32-中心云31存在对应关系，具体地，一个中心云31对应所属的多个分布式节点32，一个分布式节点32对应多个mec33，一个mec33对应多个基站34，一个基站34对应多个移动台35，此外，在实际的运行场景中，移动台35可能会迁移到其他基站34中，此时会重新确认移动台35的对应关系。因此，本发明实施例中可根据pid确认其属于哪一个基站34的所属范围，该基站34属于哪一个mec33的所属范围，且该mec33属于哪一个分布式节点32的所属范围。
86.因此，mec33可通过目标数据按对应关系分别上传至对应的多个分布式节点32中。
87.在分布式节点32用于接收到对应的目标数据后，需要对海量的目标数据进行纵向压缩，并在纵向压缩后获取第一压缩目标数据。
88.在本发明实施例中，借用了帧内压缩和帧间压缩的思想，分别对目标数据进行纵向压缩和横向压缩的双重压缩，尽可能降低目标数据的数据量。
89.具体地，纵向压缩的方法包括：
90.每一个所述分布式节点32对所述对应接收到的目标数据按照时间先后顺序进行数据排列；
91.分布式节点32在接收到目标数据之后，先对目标数据进行时间排序，例如可以按照时间由旧到新或者由新到旧进行排序，为了方便说明，本发明实施例列举n个时刻，分别定义为t0,t1,...tn。
92.将排列后的目标数据依次进行二进制转换；
93.在进行排序后，将目标数据依次进行二进制转换，转换为二进制代码，二进制由0
和1组成，例如00110001，在实际运用中，只需要把目标数据中的关键参数转换为32bit或64bit的二进制即可。
94.对所述二进制转换后的数据进行压缩编码。
95.压缩编码的具体方法如下：
96.设置t0时刻的二进制目标数据为基准值j0，例如j0＝“00110001”；
97.将tn时刻的二进制目标数据与所述基准值j0进行异或运算，获取运算结果cn；异或运算是二进制的一种运算方式，其运算符号为xor，运算方式为：两位不同为1,相同则为0。由于不同时刻的目标数据值其差异不会很大，因此，在进行异或运算后，数据位中相应的0会增多，而1较少，因此，可以基于此规律对0进行压缩，实现二进制的有效压缩。
98.对所述运算结果cn进行二进制压缩。具体地，将所述运算结果cn中2个以上连续的0设置为m^0，得到运算结果c
n’，其中m表示连续的0的个数；例如，数组的二进制为“000110000001”，可以表示为“01101” “3” “6”，其中第一个数组是将多个连续的0压缩成了1个0之后的数组，“3”表示第一个0的连续个数为3，“6”表示第二个0的连续个数为6，也可以表示为“3^0116^01”的非二进制数组，整个数组的存储大小得到降低。
99.将所述运算结果c
n’设置为结构化数组。例如，典型的结构化数组可以是“起始符 c
n’ 数据大小终止符”的格式。
100.所述分布式节点32用于对所述对应接收到的目标数据进行纵向压缩，获取第一压缩目标数据，并将所述第一压缩目标数据发送至所述中心云31；
101.所述中心云31用于对接收到的每一所述第一压缩目标数据进行横向压缩，获取第二压缩目标数据；基于所述第二压缩目标数据进行分位数统计。
102.中心云31用于对第一压缩目标数据进行横向压缩。
103.具体地，横向压缩方法包括：
104.遍历所述每一第一压缩目标数据中的主键标识；
105.将相同时刻的相同主键标识的第一压缩目标数据进行合并，并设置生成合并符号，将所述合并符号封装进所述合并后的第一压缩目标数据中。其中，合并符号为自定义的10位字符串。
106.本发明实施例的方法及系统具有下列优点：
107.本发明实施例中，mec对获取到的目标数据进行纵向压缩，将海量的数据量级降低，并在中心云侧再次进行横向压缩，提升压缩率，最终可有效降低log数据分析的数量，提升对性能参数的分位数计算效率。
108.本发明实施例还提供了一种应用于元宇宙的大数据处理系统，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。
109.本发明实施例还提供一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机可执行指令用于执行上述实施例中的方法。
110.如图4所示，本发明实施例还提供一种系统，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。
111.在实际应用中，系统还可以分别包含必要的其他元件，包含但不限于任意数量的
输入/输出系统、处理器、控制器、存储器等，而所有可以实现本技术实施例的大数据管理方法的系统都在本技术的保护范围之内。
112.存储器包括但不限于是随机存储记忆体(random access memory，ram)、只读存储器(read至only memory，rom)、可擦除可编程只读存储器(erasable programmable read only memory，eprom)、或便携式只读存储器(compact disc read至only memory，cd至rom)，该存储器用于相关指令及数据。
113.输入系统用于输入数据和/或信号，以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件，也可以是一个整体的器件。
114.处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(central processing unit，cpu)，在处理器是一个cpu的情况下，该cpu可以是单核cpu，也可以是多核cpu。处理器还可以包括一个或多个专用处理器，专用处理器可以包括gpu、fpga等，用于进行加速处理。
115.存储器用于存储网络设备的程序代码和数据。
116.处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。
117.在本技术所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
118.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
119.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本技术实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至only memory，rom)，或随机存储存储器(random access memory，ram)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，dvd)、或者半导体介质，例如，固态硬盘(solid state disk，ssd)等。
120.以上仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要
求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：领域自适应的无重叠实体的跨领域数据协同物品推荐算法

一种应用于元宇宙的大数据处理方法及系统与流程

相关文献

最热文献