一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于硬件NUMA的一致性维护系统和一致性维护服务器的制作方法

2022-03-09 01:02:07 来源:中国专利 TAG:

一种基于硬件numa的一致性维护系统和一致性维护服务器
技术领域
1.本发明涉及数据处理技术领域,尤其涉及一种基于硬件numa的一致性维护系统和一致性维护服务器。


背景技术:

2.随着信息技术和应用场景的快速发展,数据爆发性增长,数据的处理已成为一个突出问题,同时快速的处理数据又对计算性能提出了很高的要求,多cpu协同处理海量数据已经是今年来的研究热点。
3.集群计算指的是计算机集群将一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,计算机集群可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网或其他方式连接。集群计算机通常用来改进单个计算机的计算速度和可靠性。集群计算技术实现难度低稳定性高,但是性能稍差。
4.numa技术(非一致访问分布共享存储技术)则是将多个cpu进行分组,例如cpu总数为16个,将每4个cpu分成一组,就可以分成4组,每一个组就叫一个节点(node),节点之间通过互连模块互相连接起来,每个节点中有独立的本地内存等资源,但是每个节点可以通过互连模块访问其他节点的内存等资源。numa技术可以通过软硬件实现,基于软件的numa技术实现难度低稳定性高,但是在节点间的延迟仍然比基于硬件的numa大几个数量级,性能较差。硬件numa技术性能高,但是稳定性差,如果协议设计不合理,性能和功能都会出现极大隐患。


技术实现要素:

5.有鉴于此,本发明实施例的目的在于提出一种基于硬件numa的一致性维护系统和一致性维护服务器,通过在控制芯片增加维护逻辑模块,统计总结系统的拥堵及隐患并提前做出调整,解决了在高性能计算系统中使用chi协议的硬件numa系统存在的性能和功能隐患,减少产品迭代次数,降低设计成本费用。
6.基于上述目的,本发明实施例的一方面提供了一种基于硬件numa的一致性维护系统,包括多个计算节点,每个所述计算节点包括:
7.多个cpu;
8.一个控制芯片,所述控制芯片在所述计算节点内与所述多个cpu相连,并与其他所述计算节点的控制芯片相连;
9.其中,所述控制芯片包括协议逻辑模块和维护逻辑模块,所述协议逻辑模块配置用于连接所述计算节点内cpu和其他所述计算节点的cpu,以进行数据传输和处理,所述维护逻辑模块配置用于监测所述协议逻辑模块是否存在功能隐患/性能隐患,响应于监测到所述协议逻辑模块存在功能隐患/性能隐患,记录状态信息,并对所述协议逻辑模块调度策略进行调整。
10.在一些实施方式中,所述cpu配置为基于chi协议的cpu,所述控制芯片配置为chi
协议控制芯片,所述协议逻辑模块配置为支持chi协议的协议逻辑模块。
11.在一些实施方式中,所述维护逻辑模块还包括存储模块,所述存储模块配置用于:存储所述维护逻辑模块记录的所述状态信息。
12.在一些实施方式中,所述存储模块配置为flash存储。
13.在一些实施方式中,所述维护逻辑模块进一步配置用于:监测所述协议逻辑模块是否运行出错;响应于监测到所述协议逻辑模块运行出错,则判断出错原因是否首次出现;响应于出错原因首次出现,则记录并存储状态信息。
14.在一些实施方式中,所述维护逻辑模块进一步配置用于:响应于出错原因不是首次出现,则基于记录的所述状态信息依照无目录一致性协议进行处理。
15.在一些实施方式中,所述状态信息包括出错地址、目录状态和外部访问情况。
16.在一些实施方式中,所述维护逻辑模块进一步配置用于:对所述协议逻辑模块的资源使用状况进行监测,记录并存储监测到的数据信息;基于所述数据信息判断所述协议逻辑模块是否存在性能隐患;响应于所述协议逻辑模块存在性能隐患,则对所述数据信息进行分析,并基于分析结果向所述协议逻辑模块发送新的调度策略。
17.在一些实施方式中,所述数据信息至少包括以下之一:系统带宽、数据处理时延和占用资源情况。
18.本发明实施例的另一方面,还提供了一种一致性维护服务器,包括如下所述的基于硬件numa的一致性维护系统:系统包括多个计算节点,每个所述计算节点包括:多个cpu;一个控制芯片,所述控制芯片在所述计算节点内与所述多个cpu相连,并与其他所述计算节点的控制芯片相连;其中,所述控制芯片包括协议逻辑模块和维护逻辑模块,所述协议逻辑模块配置用于连接所述计算节点内cpu和其他所述计算节点的cpu,以进行数据传输和处理,所述维护逻辑模块配置用于监测所述协议逻辑模块是否存在功能隐患/性能隐患,响应于监测到所述协议逻辑模块存在功能隐患/性能隐患,记录状态信息,并对所述协议逻辑模块调度策略进行调整。
19.在一些实施方式中,所述cpu配置为基于chi协议的cpu,所述控制芯片配置为chi协议控制芯片,所述协议逻辑模块配置为支持chi协议的协议逻辑模块。
20.在一些实施方式中,所述维护逻辑模块还包括存储模块,所述存储模块配置用于:存储所述维护逻辑模块记录的所述状态信息。
21.在一些实施方式中,所述存储模块配置为flash存储。
22.在一些实施方式中,所述维护逻辑模块进一步配置用于:监测所述协议逻辑模块是否运行出错;响应于监测到所述协议逻辑模块运行出错,则判断出错原因是否首次出现;响应于出错原因首次出现,则记录并存储状态信息。
23.在一些实施方式中,所述维护逻辑模块进一步配置用于:响应于出错原因不是首次出现,则基于记录的所述状态信息依照无目录一致性协议进行处理。
24.在一些实施方式中,所述状态信息包括出错地址、目录状态和外部访问情况。
25.在一些实施方式中,所述维护逻辑模块进一步配置用于:对所述协议逻辑模块的资源使用状况进行监测,记录并存储监测到的数据信息;基于所述数据信息判断所述协议逻辑模块是否存在性能隐患;响应于所述协议逻辑模块存在性能隐患,则对所述数据信息进行分析,并基于分析结果向所述协议逻辑模块发送新的调度策略。
26.在一些实施方式中,所述数据信息至少包括以下之一:系统带宽、数据处理时延和占用资源情况。
27.本发明具有以下有益技术效果:通过在控制芯片增加维护逻辑模块,统计总结系统的拥堵及隐患并提前做出调整,解决了在高性能计算系统中使用chi协议的硬件numa系统存在的性能和功能隐患,减少产品迭代次数,降低设计成本费用。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
29.图1为本发明提供的基于硬件numa的一致性维护系统的实施例的示意图;
30.图2为本发明提供的一致性维护服务器的实施例的示意图。
具体实施方式
31.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
32.需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
33.基于上述目的,本发明实施例的第一个方面,提出了基于硬件numa的一致性维护系统的实施例。图1示出的是本发明提供的基于硬件numa的一致性维护系统的实施例的示意图。如图1所示,本发明实施例包括多个计算节点,每个计算节点包括:
34.多个cpu;
35.一个控制芯片,控制芯片在计算节点内与多个cpu相连,并与其他计算节点的控制芯片相连;
36.其中,控制芯片包括协议逻辑模块和维护逻辑模块,协议逻辑模块配置用于连接计算节点内cpu和其他计算节点的cpu,以进行数据传输和处理,维护逻辑模块配置用于监测协议逻辑模块是否存在功能隐患/性能隐患,响应于监测到协议逻辑模块存在功能隐患/性能隐患,记录状态信息,并对协议逻辑模块调度策略进行调整。
37.在本发明的一些实施例中,cpu配置为基于chi协议的cpu,控制芯片配置为chi协议控制芯片,协议逻辑模块配置为支持chi协议的协议逻辑模块。
38.在本发明的一些实施例中,维护逻辑模块还包括存储模块,存储模块配置用于:存储维护逻辑模块记录的状态信息。
39.在本发明的一些实施例中,存储模块配置为flash存储。
40.在本发明的一些实施例中,维护逻辑模块进一步配置用于:监测协议逻辑模块是否运行出错;响应于监测到协议逻辑模块运行出错,则判断出错原因是否首次出现;响应于出错原因首次出现,则记录并存储状态信息。
41.在本发明的一些实施例中,维护逻辑模块进一步配置用于:响应于出错原因不是
首次出现,则基于记录的状态信息依照无目录一致性协议进行处理。
42.在本发明的一些实施例中,状态信息包括出错地址、目录状态和外部访问情况。
43.在本发明的一些实施例中,维护逻辑模块进一步配置用于:对协议逻辑模块的资源使用状况进行监测,记录并存储监测到的数据信息;基于数据信息判断协议逻辑模块是否存在性能隐患;响应于协议逻辑模块存在性能隐患,则对数据信息进行分析,并基于分析结果向协议逻辑模块发送新的调度策略。
44.在本发明的一些实施例中,数据信息至少包括以下之一:系统带宽、数据处理时延和占用资源情况。
45.下面根据具体实施例进一步阐述本发明的具体实施方式。系统包括三大部分:基于chi协议的cpu处理器、计算节点、基于chi协议的控制芯片。其中,cpu采用基于chi协议的通用产品。基于chi协议的控制芯片,包含支持chi协议的协议逻辑、支持chi协议的维护逻辑。其中协议逻辑实现chi协议的一致性,采用标准chi协议实现。chi协议的维护逻辑是本发明的核心,解决使用chi协议的硬件numa系统存在的性能和功能隐患等问题,进而减少产品迭代次数,降低设计费用。
46.在本实施例中,功能隐患指的是设计的协议逻辑模块出现功能错误导致协议运行出错,进而导致系统运行崩溃。出现此类错误是由于协议实现过程出现未知情况导致。维护逻辑模块记录出错时的地址、目录状态、外部访问情况等信息,各种记录信息存储到flash中。重启系统之后,再次遇到相同场景,报文通过维护逻辑模块执行协议,按照无目录一致性协议处理流程,规避实现缺陷。
47.在本实施例中,性能隐患指的是系统在运行到某种状态时,出现了数据处理能力下降,系统带宽急剧减小等状况。出现此类情况是由于控制芯片调度出现拥堵,导致报文数据处理转发不及时。维护逻辑模块实时监测协议逻辑各内部资源使用状况及依赖性。记录系统性能严重下降时的协议逻辑模块状态,各种记录信息存储到flash中。通过分析各报文依赖性大小及占用资源情况。维护逻辑模块提前判断拥堵的可能性,发送改变协议逻辑模块的调度策略,提高系统带宽。
48.基于上述目的,本发明实施例的第二个方面,提出了一种一致性维护服务器。图2示出的是本发明提供的一致性维护服务器的实施例的示意图。如图2所示,一致性维护服务器011包括如下的基于硬件numa的一致性维护系统012:系统包括多个计算节点,每个计算节点包括:多个cpu;一个控制芯片,控制芯片在计算节点内与多个cpu相连,并与其他计算节点的控制芯片相连;其中,控制芯片包括协议逻辑模块和维护逻辑模块,协议逻辑模块配置用于连接计算节点内cpu和其他计算节点的cpu,以进行数据传输和处理,维护逻辑模块配置用于监测协议逻辑模块是否存在功能隐患/性能隐患,响应于监测到协议逻辑模块存在功能隐患/性能隐患,记录状态信息,并对协议逻辑模块调度策略进行调整。
49.在本发明的一些实施例中,cpu配置为基于chi协议的cpu,控制芯片配置为chi协议控制芯片,协议逻辑模块配置为支持chi协议的协议逻辑模块。
50.在本发明的一些实施例中,维护逻辑模块还包括存储模块,存储模块配置用于:存储维护逻辑模块记录的状态信息。
51.在本发明的一些实施例中,存储模块配置为flash存储。
52.在本发明的一些实施例中,维护逻辑模块进一步配置用于:监测协议逻辑模块是
否运行出错;响应于监测到协议逻辑模块运行出错,则判断出错原因是否首次出现;响应于出错原因首次出现,则记录并存储状态信息。
53.在本发明的一些实施例中,维护逻辑模块进一步配置用于:响应于出错原因不是首次出现,则基于记录的状态信息依照无目录一致性协议进行处理。
54.在本发明的一些实施例中,状态信息包括出错地址、目录状态和外部访问情况。
55.在本发明的一些实施例中,维护逻辑模块进一步配置用于:对协议逻辑模块的资源使用状况进行监测,记录并存储监测到的数据信息;基于数据信息判断协议逻辑模块是否存在性能隐患;响应于协议逻辑模块存在性能隐患,则对数据信息进行分析,并基于分析结果向协议逻辑模块发送新的调度策略。
56.在本发明的一些实施例中,数据信息至少包括以下之一:系统带宽、数据处理时延和占用资源情况。
57.以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
58.应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
59.上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
60.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
61.所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献