一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

国产高性能的水声信息处理设备及其监控方法与流程

2021-12-08 00:09:00 来源:中国专利 TAG:


1.本发明涉及信息处理技术领域,尤其涉及一种国产高性能的水声信息处理设备及其监控方法。


背景技术:

2.在水声信息处理领域,目前主流采用的仍是基于x86与多dsp处理的服务器,包括x86主控模块、dsp计算模块、交换模块、电源模块等;其中主控模块只有一个,dsp计算资源的分配基于主控模块的任务分配策略,整机健康状态管理是基于主控模块的bmc模块收集其他模块的bmc信息汇总后统一对外上报,其处理性能难以满足水声信息处理日益增长的需求,且存在单点故障问题,此外,基于dsp嵌入式应用开发体系,软件定制程度高、安装部署操作复杂,计算资源使用不均衡,软件升级较为困难。


技术实现要素:

3.(一)要解决的技术问题
4.基于上述问题,本发明提供一种国产高性能的水声信息处理设备及其监控方法,解决水声信息处理性能需求日益增大,且存在单点故障的问题。
5.(二)技术方案
6.基于上述的技术问题,本发明提供一种国产高性能的水声信息处理设备,包括至少两个cpu模块、交换模块、交换后io模块、背板、第一连接器和第三连接器,所述至少两个cpu模块、交换模块采用第一连接器通过背板和交换后io模块互联,所述交换后io模块采用第三连接器对外连接;所述cpu模块、交换模块均包括用于模块状态管理的bmc控制器,所述至少两个cpu模块通过集群管理平台监控;
7.所述集群管理平台包括资源监控模块、资源管理模块、任务管理模块和群组管理模块,所述资源监控模块包括计算监控、网络监控、存储监控和服务监控,所述资源管理模块包括计算资源管理、网络资源管理、存储资源管理和服务资源管理,所述任务管理模块包括应用软件管理、应用配置管理、应用状态管理和应用迁移管理,所述群组管理模块包括群组配置管理、节点授权管理、计算集群管理和计算节点管理。
8.进一步的,所述设备还包括电源模块、风扇控制板、风扇、指示灯板,所述电源模块也连接到所述第一连接器,所述指示灯板采用第二连接器通过背板和风扇控制板互联,所述风扇控制板连接风扇。
9.进一步的,所述第一连接器包括1g以太网总线、10g以太网总线、gpio接口、ipmb总线、pcie总线、usb接口、rs232接口、rs422接口、vga接口、sata接口、模块编码识别接口、机箱编码识别码接口;所述cpu模块、交换模块通过第一连接器中的1g以太网总线和10g以太网总线互联,所述交换模块和交换后io模块通过第一连接器中的1g以太网总线和10g以太网总线互联,所述交换模块、cpu模块、电源模块通过第一连接器中的ipmb总线连接,电源模块通过第一连接器和背板为cpu模块、交换模块、交换后io模块提供电源接口,cpu模块引出
第一连接器中的模块编码识别接口、机箱编码识别码接口至背板,cpu模块引出第一连接器中的pcie总线至背板作为预留总线,cpu模块将usb接口、rs232接口、vga接口和1g以太网接口引出至模块前面板作为模块自身的测试接口;交换模块将usb接口、rs232接口和1g以太网接口引出至模块前面板作为模块自身的测试接口。
10.进一步的,所述第二连接器包括ipmb总线、uart串口和以太网接口;所述风扇控制板和交换模块通过第二连接器、第一连接器中的ipmb总线经背板相连,电源模块通过第一连接器、第二连接器和背板为风扇控制板和风扇提供电源接口,风扇控制板引出第二连接器中的uart串口和以太网接口至背板作为预留接口。
11.进一步的,所述cpu模块的个数不超过5个。
12.本发明也公开了一种国产高性能的水声信息处理设备的监控方法,其特征在于,用于所述的国产高性能的水声信息处理设备,包括以下步骤:
13.a、水声应用任务向集群管理平台申请运行资源;
14.b、集群管理平台接收请求,统计各cpu模块的资源使用情况;
15.c、集群管理平台根据调度策略指定cpu模块运行水声应用任务;
16.d、集群管理平台实时监控各cpu模块的状态,以及运行于指定cpu模块上的水声应用任务,各cpu模块的监控方法为:
17.d1、各cpu模块通过其中的bmc控制器采集硬件或软件的状态信息;所述硬件表示各cpu模块,所述软件表示各cpu模块运行水声应用任务的算法应用软件;
18.d2、将采集的所述硬件或软件的状态信息上报至集群管理平台的资源监控模块;
19.d3、判断所述硬件的状态是否正常,若是,则进入步骤d4,否则,判断该cpu是否包含实时任务,若否,则远程重启所述硬件,进入步骤d5,若是,则进入步骤d6;
20.d4、判断所述软件的状态是否正常,若是,则进入步骤d7;若否,则重启对应的软件,并重新建立通信连接,然后进入步骤d7;
21.d5、再次判断所述硬件的状态是否正常,若否,则进入步骤d6;若是,则重启对应的软件,并重新建立通信连接,然后进入步骤d7;
22.d6、查询该cpu模块所运行的任务,根据故障迁移策略进行任务迁移,并重新建立通信连接;
23.d7、结束本次采集的状态信息的判断,返回步骤d1,继续定时采集硬件或软件的状态信息。
24.进一步的,所述步骤d6中所述的任务迁移的方法包括以下步骤:
25.s1、集群管理平台监测到某个cpu模块出现故障,分析运行已出现故障的cpu模块对应的任务,即故障任务,所需的资源;
26.s2、判断是否有满足资源要求的可运行故障任务的cpu模块,若是,则进入步骤s6;若否,则集群管理平台对各cpu模块及其运行的所有任务进行预重构,进入步骤s3;
27.s3、再次判断是否有满足资源要求的可运行故障任务的cpu模块,若是,则集群管理平台按预重构的方式重构各cpu模块及其运行的所有任务,进入步骤s6;若否,则进入步骤s4;
28.s4、判断是否有比所述故障任务优先级更低的任务,若是,则集群管理平台对各cpu模块和排除掉比故障任务优先级更低的任务后的剩余任务进行预重构,进入步骤s5;若
否,则结束任务迁移;
29.s5、第三次判断是否有满足资源要求的可运行故障任务的cpu模块,若是,则集群管理平台暂停比故障任务优先级更低的任务的运行,按预重构的方式重构各cpu模块和所述剩余任务,进入步骤s6;若否,则无法将故障任务迁移,报警,结束任务迁移;
30.s6、根据调度策略选择cpu模块,由选择的cpu模块运行所述故障任务,完成任务迁移。
31.进一步的,所述水声应用任务的算法应用软件支持包含向量运算、矩阵运算、线性方程组求解、非线性方程组求解、差值与拟合、傅里叶分析、数字滤波设计、随机信号处理、功率谱估计、自适应滤波、时频分析、小波变换的基础算法库。
32.(三)有益效果
33.本发明的上述技术方案具有如下优点:
34.(1)本发明通过至少两个cpu模块和交换模块构成算力资源池,所能提供的浮点运算能力与cpu模块的数量有关,可满足日益增大的水声信息处理性能需求;
35.(2)本发明通过集群管理平台监控至少两个cpu模块及其运行的水声应用任务,可以根据水声任务的资源需求,动态的分配计算、网络、存储资源给具体的任务,并对在运行任务进行统一的管理与监控,便于后续的软件部署、升级和维护;
36.(3)本发明监控时发现硬件和软件异常时,自主重启硬件或软件,初步排除异常情况,保证硬件和软件的正常运行,有利于提高设备的高可用与高可靠性;
37.(4)本发明在硬件异常且任务紧急或重启无法解决时,将故障的硬件运行的任务迁移,据监控的各cpu模块资源使用情况,动态的调整分配,进行任务重构,将故障的cpu模块要运行的任务进行任务迁移,使得任务负载均衡,保障任务不受影响,避免单点故障影响整个设备的运行,进一步提高设备的高可用性与高可靠性,提升了设备整体的容错性和鲁棒性;
38.(5)本发明的集群管理平台支持计算资源、网络资源、存储资源、服务资源的池化,水声应用软件无需关心具体运行在哪个硬件设备上,只需关心资源需求,简化了设备的监控方法。
附图说明
39.通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
40.图1为本发明实施例的国产高性能的水声信息处理设备的示意图;
41.图2为本发明实施例的集群管理平台的软件结构示意图;
42.图3为本发明实施例的国产高性能的水声信息处理设备的监控方法的流程图;
43.图4为本发明实施例的国产高性能的水声信息处理设备的监控方法中的任务迁移方法的流程图。
具体实施方式
44.下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
45.一种国产高性能的水声信息处理设备,如图1所示,包括机箱结构件,和处于机箱结构件内的至少两个cpu模块、交换模块、交换后io模块、电源模块、风扇控制板、风扇、指示灯板、背板、第一连接器、第二连接器和第三连接器,所述至少两个cpu模块、交换模块、电源模块采用第一连接器通过背板和交换后io模块互联,所述第一连接器所用的总线包括pcie总线和ipmb总线,所用的接口包括千兆以太网接口、万兆以太网接口、槽位号检测接口、机箱号检测接口;所述指示灯板采用第二连接器通过背板和风扇控制板互联,所述风扇控制板连接风扇,所述第二连接器包括风扇电源接口、风扇控制接口、gpio接口和电源控制信号接口;所述交换后io模块采用第三连接器对外连接,所述第三连接器包括设备电源接口、以太网电管理接口、至少一个1g以太网电交换接口和10g以太网光交换接口;所述至少两个cpu模块和交换模块包括核心部件为国产芯片的bmc控制器,具体为华大半导体有限公司的hc32系列芯片;
46.所述第一连接器采用中航光电科技股份有限公司的vpx20系列连接器,所述接口或总线包括1g以太网总线、10g以太网总线、gpio接口、ipmb总线、pcie总线、usb接口、rs232接口、rs422接口、vga接口、sata接口、模块编码识别接口、机箱编码识别码接口;1g以太网总线和10g以太网总线采用协议标准为1000base

t、1000base

x、10gbase

kr;ipmb总线采用协议标准为ipmi2.0;pcie总线采用协议标准为pcie gen3.0。具体地,所述cpu模块和交换模块采用1g以太网总线和10g以太网总线互联(采用协议标准分别为1000base

x和10gbase

kr)并进行数据交换,构成实现资源管理和资源池化功能的物理基础;交换模块和交换后io模块采用1g和10g以太网总线互联;交换模块通过ipmb链式总线(采用协议标准ipmi2.0)和cpu模块、电源模块连接,用于各模块的状态信息的采集和管理;电源模块通过第一连接器和背板为cpu模块、交换模块、交换后io模块等提供12v、3.3v电源接口,实现整体供电功能;cpu模块引出模块编码识别接口、机箱编码识别码接口至背板,通过背板对接口的配置,可在硬件层面实现对整机及整机所含的cpu模块、交换模块和电源模块进行唯一标识,为故障的可追溯奠定了硬件基础;cpu模块引出pcie总线(pcie总线采用协议标准为pcie gen3.0)至背板作为预留总线,方便后续对整机功能进行扩展和升级。此外,cpu模块将usb接口、rs232接口、vga接口和1g以太网接口引出至模块前面板作为模块自身的测试接口;交换模块将usb接口、rs232接口和1g以太网接口引出至模块前面板作为模块自身的测试接口,方便在整机故障的情况下对国产cpu模块和国产交换模块进行调试和故障分析。
47.所述设备通过交换后io模块及第三连接器将1g和10g内部总线转换为对外的1g电接口(协议标准为1000base

t)和10g光接口(协议标准为10gbase

sr),实现整机对外通信功能。
48.第二连接器采用中航光电科技股份有限公司的cy系列连接器,传递接口风扇电源、风扇控制信号、gpio信号、设备电源控制信号等,包括ipmb总线、uart串口和以太网接口。其中风扇控制板通过ipmb链式总线和交换模块相连,为实现风扇转速自动控制和风扇信息反馈功能提供了物理接口;电源模块通过第一连接器、第二连接器和背板提供电源接口(包含12v和3.3v),实现对风扇控制板及风扇的供电;通过第二连接器将设备电源控制信号引出至整机前面板的控制按键,实现整机电源控制功能。此外,风扇控制板预留uart串口和以太网接口,为风扇控制板的调试和后续功能扩展提供了物理验证接口等。
49.所述至少两个cpu模块通过集群管理平台控制,用于执行水声算法应用软件,最多
支持5个cpu模块,可提供5632gflops的单精度浮点运算能力,可满足完全满足水声信息处理的要求;所述集群管理平台如图2所示,包括资源监控模块、资源管理模块、任务管理模块和群组管理模块,所述资源监控模块包括计算监控、网络监控、存储监控和服务监控,所述资源管理模块包括计算资源管理、网络资源管理、存储资源管理和服务资源管理,所述任务管理模块包括应用软件管理、应用配置管理、应用状态管理和应用迁移管理,所述群组管理模块包括群组配置管理、节点授权管理、计算集群管理和计算节点管理。集群管理平台既可以监控计算、网络、内存、硬盘、设备接口等硬件资源,也可以监控操作系统、水声服务、水声数据库、水声应用等软件资源。至少两个cpu模块通过集群管理平台控制,而cpu模块均包括bmc控制器,因此,可以将某个cpu模块的bmc控制器作为主bmc,其它cpu模块的bmc控制器作为从bmc,通过主bmc载入集群管理平台,管控从bmc;也可以将所有cpu模块作为从bmc,对外连接集群管理平台,被管控。
50.当水声应用任务需要所述水声信息处理设备执行时,该国产高性能的水声信息处理设备的监控方法,如图3所示,包括以下步骤:
51.a、水声应用任务向集群管理平台申请运行资源;
52.b、集群管理平台接收请求,统计各cpu模块的资源使用情况;
53.c、集群管理平台根据调度策略指定cpu模块运行水声应用任务;
54.d、集群管理平台实时监控各cpu模块的状态,以及运行于指定cpu模块上的水声应用任务;各cpu模块的监控方法为:
55.d1、各cpu模块通过其中的bmc控制器采集硬件或软件的状态信息;
56.所述硬件表示各cpu模块,所述软件表示各cpu模块运行水声应用任务的算法应用软件;水声应用任务的算法应用软件支持包含向量运算、矩阵运算、线性方程组求解、非线性方程组求解、差值与拟合、傅里叶分析、数字滤波设计、随机信号处理、功率谱估计、自适应滤波、时频分析、小波变换等基础算法库。
57.d2、将采集的所述硬件或软件的状态信息上报至集群管理平台的资源监控模块;
58.d3、判断硬件的状态是否正常,若是,则进入步骤d4,否则,判断该cpu是否包含实时任务,若否,则远程重启硬件设备,进入步骤d5,若是,则进入步骤d6;
59.d4、判断软件的状态是否正常,若是,则进入步骤d7;若否,则重启对应的软件,并重新建立通信连接,然后进入步骤d7;
60.因为载入的软件为能正常打开运行的软件,如果软件的状态不正常,一般为软件的稳定性问题,重启后基本能解决软件的状态不正常的问题,不需要再判断,即使小概率出现了软件的状态仍不正常的情况,但步骤s7还会继续采集软件状态进行再判断。
61.d5、再次判断硬件的状态是否正常,若否,则进入步骤d6;若是,则重启对应的软件,并重新建立通信连接,然后进入步骤d7;
62.当硬件的状态不正常,但包含实时任务时,立即进行任务迁移解决问题;当硬件的状态不正常,且不包含实时任务,则尝试远程重启是否能解决问题,仍不正常才进行任务迁移解决问题;
63.d6、查询该cpu模块所运行的任务,根据故障迁移策略进行任务迁移,并重新建立通信连接;
64.d7、结束本次采集的状态信息的判断,返回步骤d1,继续定时采集硬件或软件的状
态信息;
65.当集群管理平台实时监测到某个cpu模块发生故障,且如步骤d6所述需要进行任务迁移时,如图4所示,包括以下步骤:
66.s1、集群管理平台监测到某个cpu模块出现故障,分析运行已出现故障的cpu模块对应的任务,即故障任务,所需的资源;
67.将已出现故障的cpu模块运行的对应任务,用故障任务表示。
68.s2、集群管理平台判断是否有满足资源要求的可运行故障任务的cpu模块,若是,则进入步骤s6;若否,则集群管理平台对各cpu模块及其运行的所有任务进行预重构,进入步骤s3;
69.所述资源要求包括计算资源、网络资源、存储资源和服务资源,根据集群管理平台的资源监控模块、资源管理模块进行判断。
70.s3、集群管理平台再次判断是否有满足资源要求的可运行故障任务的cpu模块,若是,则集群管理平台按预重构的方式重构各cpu模块及其运行的所有任务,进入步骤s6;若否,则进入步骤s4;
71.步骤s2的预重构和s3的重构,都是指将各cpu模块运行的对应任务重新安排,尽可能安排出资源充分的cpu模块以便用于故障任务的运行,此处针对的任务是各cpu模块运行的所有任务。
72.s4、判断是否有比所述故障任务优先级更低的任务,若是,则集群管理平台对各cpu模块和排除掉比故障任务优先级更低的任务后的剩余任务进行预重构,进入步骤s5;若否,则结束任务迁移;
73.当没有满足资源要求的可运行故障任务的cpu模块,也没有比故障任务优先级更低的任务时,则故障任务为优先级最低的任务,不进行任务迁移,故障任务不运行或有空闲资源时重启运行。
74.s5、集群管理平台第三次判断是否有满足资源要求的可运行故障任务的cpu模块,若是,则集群管理平台暂停比故障任务优先级更低的任务的运行,按预重构的方式重构各cpu模块和所述剩余任务,进入步骤s6;若否,则无法将故障任务迁移,报警,结束任务迁移;
75.步骤s4的预重构和s5的重构,都是指将各cpu模块运行的比故障任务优先级更高或同级的对应任务重新安排,暂停比故障任务优先级更低的任务的运行,尽可能安排出资源充分的cpu模块以便用于故障任务的运行,此处针对的任务是各cpu模块运行的排除掉比故障任务优先级更低的任务后的剩余任务。
76.如果暂停比故障任务优先级更低的任务的运行,对各cpu模块运行的比故障任务优先级更高或同级的对应任务重新安排,仍没有满足资源要求的可运行故障任务的cpu模块,则无法通过任务迁移解决故障问题,报警,以便通过其它方式解决。
77.s6、根据调度策略选择cpu模块,由选择的cpu模块运行所述故障任务,完成任务迁移。
78.在有满足故障任务的资源要求的cpu模块后,再根据设定的调度策略选择运行故障任务的cpu模块,将故障任务迁移到了选择的cpu模块,调度策略在现有技术中有多种策略,根据需要设定。
79.因此,cpu模块和交换模块构成算力资源池,当其中一块cpu模块出现问题时可实
现应用任务迁移,无缝切换至另一块cpu模块,保障任务不受cpu故障的影响。
80.综上可知,通过上述的一种国产高性能的水声信息处理设备及其监控方法,具有以下有益效果:
81.(1)本发明通过至少两个cpu模块和交换模块构成算力资源池,所能提供的浮点运算能力与cpu模块的数量有关,可满足日益增大的水声信息处理性能需求;
82.(2)本发明通过集群管理平台监控至少两个cpu模块及其运行的水声应用任务,可以根据水声任务的资源需求,动态的分配计算、网络、存储资源给具体的任务,并对在运行任务进行统一的管理与监控,便于后续的软件部署、升级和维护;
83.(3)本发明监控时发现硬件和软件异常时,自主重启硬件或软件,初步排除异常情况,保证硬件和软件的正常运行,有利于提高设备的高可用与高可靠性;
84.(4)本发明在硬件异常且任务紧急或重启无法解决时,将故障的硬件运行的任务迁移,据监控的各cpu模块资源使用情况,动态的调整分配,进行任务重构,将故障的cpu模块要运行的任务进行任务迁移,使得任务负载均衡,保障任务不受影响,避免单点故障影响整个设备的运行,进一步提高设备的高可用性与高可靠性,提升了设备整体的容错性和鲁棒性;
85.(5)本发明的集群管理平台支持计算资源、网络资源、存储资源、服务资源的池化,水声应用软件无需关心具体运行在哪个硬件设备上,只需关心资源需求,简化了设备的监控方法。
86.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献