一种内存报错漏斗方法、装置、终端及存储介质与流程

2022-12-03 00:39:59 来源：中国专利 TAG：

1.本发明涉及内存报错领域，具体涉及一种内存报错漏斗方法、装置、终端及存储介质。

背景技术：

2.arm架构的芯片由于低功耗、价格便宜、扩展性强等优势，使得arm服务器在服务器领域占比逐渐提高。内存作为服务器的重要部件，其可靠性在运维中占据重要位置。
3.当前，arm服务器对于内存的报错机制是内存产生一条可更正的错误，服务器报出一条，少量或者不频繁的内存可更正的报错对于服务器正常运行影响有限，只有当短时大量内存报错时才会影响服务器运行，这时需要更换内存或者升级固件进行修复。这就导致内存产生一条可更正的错误，服务器报出一条错误的方式，会影响服务器运维人员的判断，不能确定当前内存是否真正彻底故障，每条内存可更正故障报错都会记录，也会导致日志管理系统中当日志数量达到一定限额时将其他日志清除，会使运维人员漏掉其他部件或者系统性记录的日志问题。

技术实现要素：

4.为解决上述问题，本发明提供一种内存报错漏斗方法、装置、终端及存储介质，对内存的可更正报错进行遗漏处理，避免每条可更正错误都触发日志报警，同时当遇到大量报错时又能及时报出，提高运维人员判断准确性，减轻运维人员工作负担，减少其他部件或系统性记录日志遗漏问题。
5.第一方面，本发明的技术方案提供一种内存报错漏斗方法，包括以下步骤：配置单位时间内内存可更正错误遗漏数量，记为n；实时记录实际产生的内存可更正错误数量，记为n，每增加一条内存可更正错误，n的值增加1；计算内存可更正错误触发值，记为d，d=n-s*n；其中，s指当前阶段已记录时长，n的两次相邻清零操作之间为一个阶段；当d的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
6.进一步地，该方法还包括以下步骤：关闭漏斗机制，使n的值为0，此时当n的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
7.进一步地，配置单位时间内内存可更正错误遗漏数量，具体包括：配置控制时长，控制时长的单位为分钟；配置遗漏数量；根据控制时间和遗漏数量计算单位时间内内存可更正错误遗漏数量；其中，单位时间内内存可更正错误遗漏数量=遗漏数量/（控制时长*60）。
8.进一步地，该方法具体包括以下步骤：
将控制时长或遗漏数量配置为0，使单位时间内内存可更正错误遗漏数量为0，关闭漏斗机制。
9.进一步地，该方法具体包括以下步骤：在bios增加第一选项和第二选项，其中第一选项用于配置控制时长，第二选项用于配置遗漏数量。
10.进一步地，该方法具体包括以下步骤：在bios增设寄存器，用于实时记录实际产生的内存可更正错误数量。
11.第二方面，本发明的技术方案提供一种内存报错漏斗装置，包括，参数配置模块：配置单位时间内内存可更正错误遗漏数量，记为n；错误数量记录模块：实时记录实际产生的内存可更正错误数量，记为n，每增加一条内存可更正错误，n的值增加1；日志触发量计算模块：计算内存可更正错误触发值，记为d，d=n-s*n；其中，s指当前阶段已记录时长，n的两次相邻清零操作之间为一个阶段；日志报出模块：当d的值达到预设数量阈值时，触发报出一条日志，同时触发错误数量记录模块将n的值清零。
12.进一步地，参数配置模块配置单位时间内内存可更正错误遗漏数量，具体包括：配置控制时长，控制时长的单位为分钟；配置遗漏数量；根据控制时间和遗漏数量计算单位时间内内存可更正错误遗漏数量；其中，单位时间内内存可更正错误遗漏数量=遗漏数量/（控制时长*60）；将控制时长或遗漏数量配置为0时，使单位时间内内存可更正错误遗漏数量为0，关闭漏斗机制，此时日志报出模块在n的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
13.第三方面，本发明的技术方案提供一种终端，包括：存储器，用于存储内存报错漏斗程序；处理器，用于执行所述内存报错漏斗程序时实现如上述任一项所述内存报错漏斗方法的步骤。
14.第四方面，本发明的技术方案提供一种计算机可读存储介质，所述可读存储介质上存储有内存报错漏斗程序，所述内存报错漏斗程序被处理器执行时实现如上述任一项所述内存报错漏斗方法的步骤。
15.本发明提供的一种内存报错漏斗方法、装置、终端及存储介质，相对于现有技术，具有以下有益效果：根据配置的单位时间内内存可更正错误遗漏数量，对内存可更正错误进行遗漏处理，基于遗漏后的内存可更正错误数量触发日志报出操作，避免每条可更正错误都触发日志报警，同时当遇到大量报错时又能及时报出，提高运维人员判断准确性，减轻运维人员工作负担，减少其他部件或系统性记录日志遗漏问题。
附图说明
16.为了更清楚的说明本技术实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申
请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是本发明实施例提供的一种内存报错漏斗方法流程示意图。
18.图2是本发明实施例提供的一种内存报错漏斗装置结构示意框图。
19.图3是本发明实施例提供的一种终端的结构示意图。
具体实施方式
20.为了使本技术领域的人员更好地理解本技术方案，下面结合附图和具体实施方式对本技术作进一步的详细说明。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
21.图1是本发明实施例提供的一种内存报错漏斗方法流程示意图，如图1所示，该方法包括以下步骤。
22.s1，配置单位时间内内存可更正错误遗漏数量，记为n。
23.具体实施时，单位时间内内存可更正错误遗漏数量是指每秒内内存可更正错误遗漏数量，例如设置n=5，则每秒最终记录的内存可更正错误数量需要实际已记录数量减去5。
24.可以理解的是，可根据实际需要配置单位时间内内存可更正错误遗漏数量的实际取值，该实际取值的具体设定不影响本实施例的实施。
25.s2，实时记录实际产生的内存可更正错误数量，记为n，每增加一条内存可更正错误，n的值增加1。
26.监测服务器系统，每检测到服务器生产一个内存可更正错误，这里做记录的实际产生的内存可更正错误数量n的值就增加1，n是服务器系统实际产生的内存可更正错误数量。
27.s3，计算内存可更正错误触发值，记为d，d=n-s*n；其中，s指当前阶段已记录时长，n的两次相邻清零操作之间为一个阶段。
28.s4，当d的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
29.本实施例的漏斗机制是使用实际产生的内存可更正错误数量减去需遗漏的错误数量所得到的值作为触发日志条件。具体的，d=n-s*n，例如实际产生的内存可更正错误数量n为10个，此时已运行5秒，配置的每秒内存可更正错误遗漏数量n=1，则此时d=10-5*1=5个，之后判断d的值是否到达预设数量阈值，如果达到预设数量阈值，则会触发报出一条日志，同时将n的值清零。
30.需要说明的是，s指当前阶段已记录时长，n的两次相邻清零操作之间为一个阶段，即n每次清零后，s的值从0重新开始计算。
31.本发明实施例提供的一种内存报错漏斗方法，根据配置的单位时间内内存可更正错误遗漏数量，对内存可更正错误进行遗漏处理，基于遗漏后的内存可更正错误数量触发日志报出操作，避免每条可更正错误都触发日志报警，同时当遇到大量报错时又能及时报出，提高运维人员判断准确性，减轻运维人员工作负担，减少其他部件或系统性记录日志遗漏问题。
32.在上述实施例基础上，作为优选的实施方式，该方法还包括以下步骤：关闭漏斗机
制，使n的值为0，此时当n的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
33.用户可根据需要开启漏斗机制或关闭漏斗机制，关闭漏斗机制时，n的值为0，此时所记录的实际产生的内存可更正错误数量n即为触发条件，当n的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
34.在上述实施例基础上，作为优选的实施方式，配置单位时间内内存可更正错误遗漏数量，具体包括：配置控制时长，控制时长的单位为分钟；配置遗漏数量；根据控制时间和遗漏数量计算单位时间内内存可更正错误遗漏数量；其中，单位时间内内存可更正错误遗漏数量=遗漏数量/（控制时长*60）。
35.考虑到配置参数的便利性，作为优选的实施方式，设置两个配置选项，一个是控制时长，一个是遗漏数量，即控制时长内需要遗漏的数量，例如设置控制时长为1分钟，遗漏数量为60个，表示1分钟内需遗漏60个内存可更正错误。配置好这两个参数后，系统自动计算单位时间内可更正错误遗漏数量，这里单位时间是指1秒。
36.在上述实施例基础上，作为优选的实施方式，将控制时长或遗漏数量配置为0，使单位时间内内存可更正错误遗漏数量为0，关闭漏斗机制。
37.如果用户需要关闭漏斗机制，则将控制时长和遗漏数量这两个参数中的至少一个配置为0，系统自动计算出单位时间内内存可更正错误遗漏数量为0，从而关闭漏斗机制。
38.在上述实施例基础上，作为优选的实施方式，在bios增加第一选项和第二选项，其中第一选项用于配置控制时长，第二选项用于配置遗漏数量。进一步地，在bios增设寄存器，用于实时记录实际产生的内存可更正错误数量。
39.对bios的设置如下：1）bios新增寄存器 mce register，用于时时记录服务器系统中报出的内存可更正的错误数量，每新增一个内存可更正的错误，寄存器 mce register值加1。
40.2）bios新增选项mce threshold value，用于控制服务器报出内存可更正错误的临界值，当关闭漏斗机制的状态下，mce register值达到mce threshold value值时报出一条日志，然后 mce register清零重新开始计数。
41.3）bios新增选项 mce time ，该参数表示内存错误漏斗的时间，单位为分钟，即控制几分钟，比如1分钟内存报错漏掉60个，这里的1分钟就是mce time。
42.4）bios新增选项 mce count，该参数表示内存错误漏斗的次数，单位为个，即控制漏掉几个内存可更正错误，比如1分钟内存报错漏掉60个，这里的60个就是 mce count。
43.当 mce time为0时，不论mce count为多少，即0分钟漏掉n个内存可更正报错，这时内存报错漏斗机制不起作用，内存可更正报错数量mce register达到阈值mce threshold value时就会报出日志。
44.当 mcecount 为0时，不论mce time为多少，即n分钟漏掉0个内存可更正报错，这时内存报错漏斗机制不起作用，内存可更正报错数量mce register达到阈值mce threshold value时就会报出日志。
45.当mce time为n，mcecount为m时，即n分钟漏掉m个内存可更正报错，同时换算成1秒钟漏掉m1个内存可更正报错，bios寄存器根据mce time和mce count数值，每达到一秒钟
漏掉m1个内存可更正报错，即mce register-m1。寄存器不停累积，当mce register-s*m1达到mce threshold value时，系统报出一个内存可更正报错，此时 mce register清零处理，然后再次进行 mce register-m1累积计数。
46.上文中对于一种内存报错漏斗的方法的实施例进行了详细描述，基于上述实施例描述的内存报错漏斗的方法，本发明实施例还提供了一种与该方法对应的内存报错漏斗的装置。
47.图2是本发明实施例提供的一种内存报错漏斗装置结构示意框图，如图2所示，该装置包括：参数配置模块101、错误数量记录模块102、日志触发量计算模块103、日志报出模块104。
48.参数配置模块101：配置单位时间内内存可更正错误遗漏数量，记为n。
49.错误数量记录模块102：实时记录实际产生的内存可更正错误数量，记为n，每增加一条内存可更正错误，n的值增加1。
50.日志触发量计算模块103：计算内存可更正错误触发值，记为d，d=n-s*n；其中，s指当前阶段已记录时长，n的两次相邻清零操作之间为一个阶段。
51.日志报出模块104：当d的值达到预设数量阈值时，触发报出一条日志，同时触发错误数量记录模块102将n的值清零。
52.参数配置模块101配置单位时间内内存可更正错误遗漏数量，具体包括：配置控制时长，控制时长的单位为分钟；配置遗漏数量；根据控制时间和遗漏数量计算单位时间内内存可更正错误遗漏数量；其中，单位时间内内存可更正错误遗漏数量=遗漏数量/（控制时长*60）。
53.将控制时长或遗漏数量配置为0时，使单位时间内内存可更正错误遗漏数量为0，关闭漏斗机制，此时日志报出模块104在n的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
54.本实施例的内存报错漏斗装置用于实现前述的内存报错漏斗方法，因此该装置中的具体实施方式可见前文中的内存报错漏斗方法的实施例部分，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。
55.另外，由于本实施例的内存报错漏斗装置用于实现前述的内存报错漏斗方法，因此其作用与上述方法的作用相对应，这里不再赘述。
56.图3为本发明实施例提供的一种终端装置300的结构示意图，包括：处理器310、存储器320及通信单元330。所述处理器310用于实现存储器320中保存的内存报错漏斗程序时实现以下步骤：s1，配置单位时间内内存可更正错误遗漏数量，记为n；s2，实时记录实际产生的内存可更正错误数量，记为n，每增加一条内存可更正错误，n的值增加1；s3，计算内存可更正错误触发值，记为d，d=n-s*n；其中，s指当前阶段已记录时长，n的两次相邻清零操作之间为一个阶段；s4，当d的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
57.本发明根据配置的单位时间内内存可更正错误遗漏数量，对内存可更正错误进行
遗漏处理，基于遗漏后的内存可更正错误数量触发日志报出操作，避免每条可更正错误都触发日志报警，同时当遇到大量报错时又能及时报出，提高运维人员判断准确性，减轻运维人员工作负担，减少其他部件或系统性记录日志遗漏问题。
58.该终端装置300包括处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
59.其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器（sram），电可擦除可编程只读存储器（eeprom），可擦除可编程只读存储器（eprom），可编程只读存储器（prom），只读存储器（rom），磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
60.处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(integrated circuit，简称ic) 组成，例如可以由单颗封装的ic 所组成，也可以由连接多颗相同功能或不同功能的封装ic而组成。举例来说，处理器310可以仅包括中央处理器(central processing unit，简称cpu)。在本发明实施方式中，cpu可以是单运算核心，也可以包括多运算核心。
61.通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
62.本发明还提供一种计算机存储介质，这里所说的存储介质可为磁碟、光盘、只读存储记忆体（英文：read-only memory，简称：rom）或随机存储记忆体（英文：random access memory，简称：ram）等。
63.计算机存储介质存储有内存报错漏斗程序，所述内存报错漏斗程序被处理器执行时实现以下步骤：s1，配置单位时间内内存可更正错误遗漏数量，记为n；s2，实时记录实际产生的内存可更正错误数量，记为n，每增加一条内存可更正错误，n的值增加1；s3，计算内存可更正错误触发值，记为d，d=n-s*n；其中，s指当前阶段已记录时长，n的两次相邻清零操作之间为一个阶段；s4，当d的值达到预设数量阈值时，触发报出一条日志，同时将n的值清零。
64.本发明根据配置的单位时间内内存可更正错误遗漏数量，对内存可更正错误进行遗漏处理，基于遗漏后的内存可更正错误数量触发日志报出操作，避免每条可更正错误都触发日志报警，同时当遇到大量报错时又能及时报出，提高运维人员判断准确性，减轻运维人员工作负担，减少其他部件或系统性记录日志遗漏问题。
65.本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在
一个存储介质中如u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端（可以是个人计算机，服务器，或者第二终端、网络终端等）执行本发明各个实施例所述方法的全部或部分步骤。
66.在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
67.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
68.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
69.以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种内存报错漏斗方法、装置、终端及存储介质与流程

相关文献

最热文献