端到端的链路监控方法和装置与流程

2022-08-03 00:49:28 来源：中国专利 TAG：

1.本公开涉及云计算领域，具体涉及分布式链路监控技术领域，更具体地涉及一种端到端的链路监控方法、装置、设备、存储介质和程序产品。

背景技术：

2.随着分布式技术的不断发展，对分布式架构下运维的要求也越来越高，企业通常在不同分布式体系服务接入apms(application performance management&monitoring system，apms)系统，用于支撑该企业分布式体系应用级别的监控和告警。当企业需要引入新的独立的分布式体系时，在分布式运维方面，两个独立的分布式体系，无法对接完整的端到端链路，在进行服务调用时无法实现一体化的链路监控。
3.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

4.鉴于上述问题，本公开提供了端到端的链路监控方法、装置、设备、存储介质和程序产品。
5.根据本公开的第一个方面，提供了一种端到端的链路监控方法，应用于分布式系统，所述分布式系统包括第一分布式系统和第二分布式系统，包括：响应于服务调用请求，生成链路映射结构信息；
6.在预设时间后，根据所述链路映射结构信息确定待转换链路报文，所述待转换链路报文包括第一分布式系统的待转换链路报文和第二分布式系统的待转换链路报文；
7.根据预设转换算法对所述待转换链路报文进行报文转换，以生成目标链路报文；以及
8.将所述目标链路报文发送至消息中间件。
9.根据本公开的实施例，所述根据所述链路映射结构信息确定待转换链路报文包括：
10.根据所述链路映射结构信息确定链路标识；以及
11.根据所述链路标识确定待转换链路报文。
12.根据本公开的实施例，所述链路标识包括第一链路标识和第二链路标识，所述第一链路标识为第一分布式系统的链路标识，所述第二链路标识为第二分布式系统的链路标识，所述根据所述链路标识确定待转换链路报文包括：
13.根据第一链路标识在第一分布式系统的数据库中获取与所述第一链路标识相关联的所有链路报文数据；以及
14.过滤已转换的链路报文数据，以确定第一分布式系统的待转换链路报文。
15.根据本公开的实施例，所述根据所述链路标识确定待转换链路报文还包括：
16.在分布式缓存数据库中获取与第二链路标识相关联的所有链路报文数据作为第
二分布式系统的待转换链路报文。
17.根据本公开的实施例，所述目标链路报文包括第一分布式系统链路报文和第二分布式系统链路报文，所述将所述目标链路报文发送至消息中间件包括：
18.当确定所述目标链路报文为第一分布式系统链路报文时，将所述目标链路报文发送至第一消息中间件，所述第一消息中间件为所述第一分布式系统使用的消息中间件；以及
19.当确定所述目标链路报文为第二分布式系统链路报文时，将所述目标链路报文发送至第二消息中间件，所述第二消息中间件为所述第二分布式系统使用的消息中间件。
20.根据本公开的实施例，还包括：
21.响应于服务上线或下线的操作，获取所述服务的应用元数据；以及
22.将所述应用元数据发送至第三消息中间件。
23.根据本公开的实施例，还包括：
24.消费第二分布式系统的全量链路数据；以及
25.将所述全量链路数据缓存至所述分布式缓存数据库中。
26.根据本公开的实施例，还包括：
27.当确定报文转换失败时，生成异常信息；以及
28.根据所述异常信息调用报文转换节点接口进行报文转换操作。
29.本公开的第二方面提供了端到端的链路监控装置，应用于分布式系统，所述分布式系统包括第一分布式系统和第二分布式系统，包括：生成模块，用于响应于服务调用请求，生成链路映射结构信息；
30.确定模块，用于在预设时间后，根据所述链路映射结构信息确定待转换链路报文，所述待转换链路报文包括第一分布式系统的待转换链路报文和第二分布式系统的待转换链路报文；
31.报文转换模块，用于根据预设转换算法对所述待转换链路报文进行报文转换，以生成目标链路报文；以及
32.第一发送模块，用于将所述目标链路报文发送至消息中间件。
33.第一获取模块，用于响应于服务上线或下线的操作，获取所述服务的应用元数据；
34.第二发送模块，用于将所述应用元数据发送至第三消息中间件。
35.根据本公开的实施例，还包括：
36.第二获取模块，用于消费第二分布式系统的全量链路数据；以及
37.缓存模块，用于将所述全量链路数据缓存至分布式缓存数据库中。
38.根据本公开的实施例，确定模块包括：
39.第一确定子模块，用于根据所述链路映射结构信息确定链路标识；
40.第二确定子模块，用于根据所述链路标识确定待转换链路报文。
41.根据本公开的实施例，第二确定子模块包括：
42.第一获取单元，用于根据第一链路标识在第一分布式系统的数据库中获取与所述第一链路标识相关联的所有链路报文数据；
43.确定单元，用于过滤已转换的链路报文数据，以确定第一分布式系统的待转换链路报文。
44.根据本公开的实施例，第二确定子模块还包括：
45.第二获取单元，用于在分布式缓存数据库中获取与第二链路标识相关联的所有链路报文数据作为第二分布式系统的待转换链路报文。
46.根据本公开的实施例，第一发送模块包括：
47.第一发送子模块，用于当确定所述目标链路报文为第一分布式系统链路报文时，将所述目标链路报文发送至第一消息中间件，所述第一消息中间件为所述第一分布式系统使用的消息中间件；
48.第二发送子模块，用于当确定所述目标链路报文为第二分布式系统链路报文时，将所述目标链路报文发送至第二消息中间件，所述第二消息中间件为所述第二分布式系统使用的消息中间件。
49.本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述端到端的链路监控方法。
50.本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述端到端的链路监控方法。
51.本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述端到端的链路监控方法。
52.通过本公开实施例的端到端的链路监控方法，响应于服务调用请求，生成链路映射结构信息，根据链路映射结构信息触发报文转换任务，在预设时间延迟后，确定待转换链路报文和转换算法，执行报文转换任务对待转换链路报文进行转换，以得到目标链路报文，实现了端到端监控体系的链路tracing打通，从而实现了第一分布式系统和第二分布式系统相互提供各自收集的链路数据，并在前端展示完整链路，实现完整的链路监控适配。
附图说明
53.通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：
54.图1示意性示出了全息监控和分布式链路追踪的工作流程图；
55.图2示意性示出了根据本公开实施例的端到端的链路监控方法的系统架构图；
56.图3示意性示出了根据本公开实施例的端到端的链路监控方法的流程图；
57.图4a示意性示出了根据本公开实施例的根据链路映射结构信息确定待转换链路报文和转换算法的流程图；
58.图4b示意性示出了根据本公开实施例的根据服务调用方向确定待转换链路报文和转换算法的流程图。
59.图5示意性示出了根据本公开实施例的目标链路报文发送至消息中间件的流程图；
60.图6示意性示出了根据本公开实施例的应用元数据持久化的流程图；
61.图7示意性示出了根据本公开实施例的第二分布式系统的全量链路数据获取方法的流程图；
62.图8示意性示出了根据本公开实施例的报文转换失败后的补偿机制的流程图；
63.图9示意性示出了根据本公开实施例的端到端的链路监控装置的结构框图；以及
64.图10示意性示出了根据本公开实施例的适于实现端到端的链路监控方法的电子设备的方框图。
具体实施方式
65.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
66.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
67.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
68.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
69.首先对本公开实施例出现的术语进行解释：
70.第一分布式系统：一套独立的分布式系统，包括但不限于分布式服务、分布式消息、分布式事务、软负载、分布式数据库和分布式缓存。
71.第二分布式系统：第三方的分布式系统，类似于第一分布式系统，同样为独立的分布式系统；
72.hmp：holographic monitoring platform，全息监控，为第一分布式系统的运维态组件，能够用于监控第一分布式系统中服务的调用链路数据；
73.apms：application performance management&monitoring system，分布式链路追踪，为第二分布式系统的运维态组件，能够用于监控第二分布式系统中服务的调用链路数据。
74.opentracing：一种分布式链路追踪的规范和行业标准，它由完整的api规范、实现该规范的框架、库以及项目文档组成；
75.trace：链路，类似于树结构的span集合，表示一条链路，存在唯一的trace id；
76.span：跨度，基本工作单元，一次链路调用创建一个span，span中还有描述信息、时间戳等，通俗的理解一个span就是一次请求信息；
77.trace id：一条链路的唯一全局id；
78.span id：标识跨度的id，一条链路中每个跨度都有唯一的span id；
79.dag：directed acyclic graph有向无环图；
80.apms2hm：一种报文转换节点，专门用来转换apms的报文到hmp的报文；
81.hmp2apms：一种报文转换节点，专门用来转换hmp的报文到apms的报文；
82.trace consumer：一种消费链路报文的节点，并延时定时删除处理完的链路报文；
83.app consumer：一种持久化应用远数据的节点，apms的链路展示依赖各自应用的元数据；
84.compensate：一种用于链路报文转换失败后，进行人工触发里链路报文转换恢复的节点，同时提供了报文转换后的定时统计功能；
85.adapter：一个rpc(remote procedure call，rpc)适配和转换节点，专门用来对接两个系统的分布式服务，可以理解为对端服务的一个代理；
86.click house：一种基于列式的分布式数据库，大规模应用在互联网、金融、电信等关键基础设置当中；
87.grafana：一种可视化展示平台；
88.hmp portal：全息监控使用的一体化展示平台，嵌入了grafana页面，支持链路数据展示和查询；
89.apms portal：第三方的apms系统的一体化展示平台，支持链路数据展示和查询；
90.elasticsearch：一种基于lucene的搜索服务器，提供分布式多户用的全文检索能力。
91.基于opentracing的全息监控(hmp)作为独立产品以及作为第一分布式体系的一个运维态组件输出给其他企业时，该企业很可能在运维领域已有现成的apms系统。针对两个独立的分布式体系，如果要对接完整的端到端链路，传统的方式是只使用一套功能完善的apms系统。在不同分布式体系的服务，都各自全面接入这个apms系统。用户触发业务工作的过程中，后端进行跨节点、跨服务集群的远程调用。同时应用侧的各服务节点通过采集端收集链路数据到收集器，并最终落地到clickhouse或者elasticsearch以及其他的分布式数据库。如果一个企业已有现成的基于节点的apms系统，该系统是该企业自建分布式平台的一个商业外购产品，并进行过深度定制和体系融合，支撑该公司分布式体系应用级别的监控和告警。与此同时，因业务下主机和上私有云平台的现实迫切需求，当该企业准备引入另一套完整的分布式体系来支撑其对稳定性、并发性有高度要求的核心业务系统。第一分布式系统体系就包括运维态的应用级别监控和告警系统——全息监控。然而现实并不允许仅使用全息监控覆盖该企业所有分布式服务的应用级监控，因此，全息监控支撑的核心业务系统和商业版apms系统支撑的外围核心系统都会共存。那么如何有效整合两个通信协议不同、数据格式不同的分布式体系，尤其是在分布式运维方面整合端到端监控，构建一体化的链路监控来有效衔接现有监控系统是一个比较现实和急迫的技术问题。
92.基于上述技术问题，本公开的实施例提供了一种端到端的链路监控方法，应用于分布式系统，所述分布式系统包括第一分布式系统和第二分布式系统，包括：响应于服务调用请求，确定服务调用方向，其中所述服务调用方向包括第一分布式系统调用第二分布式系统和第二分布式系统调用第一分布式系统；根据所述服务调用方向生成链路映射结构信息；在预设时间后，根据所述链路映射结构信息确定待转换链路报文和转换算法；根据所述转换算法对所述待转换链路报文进行报文转换，以生成目标链路报文；以及将所述目标链路报文发送至消息中间件。
93.图1示意性示出了全息监控和分布式链路追踪的工作流程图。如图1所示，全息监
控的整体工作流程是通过应用侧的字节码注入或者拦截器的方式，收集用户的每个接口方法的span数据，并通过http方法发送到监控网关。监控网关是一个轻量级高性能的转发节点，对接http的短链接和kafka的长连接，支持限流，并把链路报文原封不动的转发到下游kafka消息中间件。zipkin_es是一个服务节点，消费kafka的链路数据并持久化到elasticsearch数据库。hmp portal是一个门户，提供查询链路的功能。
94.商业版apms系统的工作流程跟全息监控类似，也是通过采集端sdk收集节点级别的报文数据，并发送到kafka。clickhouse数据库提供了kafka引擎，会源源不断的消费来自kafka的数据并做持久化。apms portal和grafana会查询clickhouse数据库，并展示链路。a-b-adapter是运行态的第一分布式系统，而c和d假设是另外一个caas分布式体系，即第二分布式系统，中间通过反向代理(比如nginx等)进行转发。adapter节点是关键的rpc请求转发和转换的节点，同时对于a和b来说，也是一个服务提供者，简化和透明化对caas分布式服务的调用。
95.本公开实施例的目的在于将基于opentracing的全息监控(第一分布式系统)与非opentracing的apms系统(第二分布式系统)进行链路打通，在各自的管理平台展示完整的链路信息，即实现双向调用，比如a-b-adapter-c-d需要同时在第一分布式系统和第二分布式系统展示，并且是正确的展示时间耗时、异常信息、span的属性等所有链路分析所必要的上下文信息。
96.图2示意性示出了根据本公开实施例的端到端的链路监控方法的系统架构图。
97.如图2所示，在本公开实施例中，基于微服务的原则，在图1所示架构的基础上，新增5个独立组件，分别是apms2hm报文转换节点、hmp2apms报文转换节点、appconsumer节点、traceconsumer节点、compensate节点，当系统识别到存在服务调用请求时，adapter适配节点会生成链路映射结构信息trace mapping，并将该链路映射结构信息发送至消息中间件kafka，apms2hm报文转换节点和hmp2apms报文转换节点作为消费者，监听并消费kafka topic(hmp_apms_trace_mapping)中的消息，开始执行报文转换逻辑。
98.当由服务d调用服务a时，此时服务d调用服务c的链路数据为apms报文数据，服务b调用服务a的链路数据为hmp报文数据，将apms报文数据发送至第二分布式系统对应的消息中间件中，由traceconsumer节点消费缓存至分布式缓存数据库redis中，apms2hm报文转换节点从redis中获取apms链路报文数据，执行apms报文到hmp报文的转换算法，构建hmp的报文数组，通过后台队列异步发送到全息监控使用的kafka集群，最终由zipkines集群服务进行消费并持久化到elasticsearch数据库。
99.服务b调用服务a的链路数据由第一分布式系统的监控网关采集发送至第一分布式系统对应的消息中间件，由zipkin_es集群服务进行消费并持久化到elasticsearch数据库。hmp2apms报文转换节点根据链路映射结构信息查询链路数据elasticsearch，获取基于traceid的hmp报文列表数据，执行hmp报文到apms报文的转换算法，构建apms的报文数组，通过后台对立异步发送到apms系统使用的kafka集群，最终由apms系统的服务组件进行消费并持久化。这样使得第一分布式系统和第二分布式系统都能完整的展示正确的链路数据，实现独立分布式系统间的trace打通。
100.由于第二分布式系统的链路展示需要第一分布式系统中应用的元数据，因此设置appconsumer节点来获取应用元数据，具体的，通过两个不同的kafka topic(hmp_apms_
app_p和apms_hmp_app_p)感知第一分布式系统和第二分布式系统的特定app上线和下线的应用元数据。对于第一分布式系统，是由一个store_data监控节点添加了对于服务注册中心的监听器。只要服务上线或者下线，触发该监控器服务，并收集服务的元数据到kafka集群，以便给appconsumer节点消费。最终应用的元数据会持久化到数据库并被用于第二分布式系统中apms系统的链路展示。
101.本公开实施例还通过设置compensate节点提供补偿机制，具体的，通过traceconsumer节点的mongdb reactor客户端存储的第二分布式的全量链路数据，可以落库存储预设时间(作为过期时间，可根据实际需要进行调整)。提供手工介入的方式调用apms2hmp报文转换节点或者hmp2apms报文转换节点的api进行报文转换操作，来恢复因转换异常、redis数据丢失等各种异常的影响，提供了一种可恢复的机制，保障trace打通整体方案的可靠性。
102.需要说明的是，本公开实施例提供的端到端的链路监控方法和装置可用于金融领域在云计算技术领域的应用，也可用于除金融领域之外的任意领域，本公开实施例提供的端到端的链路监控方法和装置的应用领域不做限定。
103.以下将通过图3～图8对公开实施例的端到端的监控方法进行详细描述。
104.图3示意性示出了根据本公开实施例的端到端的链路监控方法的流程图。
105.如图3所示，该实施例的端到端的链路监控方法包括操作s210～操作s240，该监控方法可以由第一分布式系统执行。在本公开实施例中，第一分布式系统为基于opentracing的全息监控的分布式系统，第二分布式系统为基于非opentracing的apms系统，两分布式系统间存在双向服务调用，例如可以是第一分布式系统调用第二分布式系统，a服务调用b服务调用c服务调用d服务，其中服务a和服务b为第一分布式系统下的应用，服务c和服务d是第二分布式系统下的应用；也可以是第二分布式系统调用第一分布式系统，即服务d调用服务c调用服务b调用服务a，现有技术中，由于两个分布式系统的通信协议、数据格式不同，导致两调用链路报文数据无法互通，即第一分布式系统无法显示服务c调用服务d的链路数据，第二分布式系统无法显示服务a调用服务b的链路数据，通过本公开实施例提供的方法，这两种调用链路数据进行互相转换，使得两分布式系统在各自的管理平台展示完整的链路信息。
106.在操作s210，响应于服务调用请求，生成链路映射结构信息。
107.根据本公开实施例，所述待转换链路报文包括第一分布式系统的待转换链路报文和第二分布式系统的待转换链路报文。
108.一个示例中，第一分布式系统和第二分布式系统之间会存在服务调用关系，例如属于第一分布式系统的服务a和服务b调用属于第二分布式系统的服务c和服务d，此时服务调用方向为从第一分布式系统调用第二分布式系统，即调用链路为a-b-c-d，其中服务a-服务b产生的链路数据为hmp报文数据，能在第一分布式系统中的前端监控平台上显示，无法在第二分布式系统中显示，同样的服务c-服务d产生的链路数据为apms报文数据，能在第二分布式系统中显示，无法在第一分布式系统中显示。
109.在两个分布式系统互相调用时，adapter适配节点会产生tracemapping结构信息，即链路映射结构信息，并将链路映射结构信息发送给第一分布式系统使用的kafaka集群，供apms2hmp报文转换节点和hmp2apms报文转换节点消费。链路映射结构信息作为报文转换
的触发节点，触发apms2hm报文转换节点和hmp2apms报文转换节点执行报文转换逻辑。
110.在操作s220，在预设时间后，根据所述链路映射结构信息确定待转换链路报文。
111.根据本公开实施例，所述待转换链路报文包括第一分布式系统的待转换链路报文和第二分布式系统的待转换链路报文。
112.一个示例中，由于调用链路数据的收集需要消耗一定的时间，通常为30s，为了能够得到完整的链路数据，需要设置定时延迟任务，在预设时间后，例如在1分钟后，根据链路映射结构信息确定待转换链路报文，确定待转换链路报文的方法不同，对应的转换算法也不同，在实际执行的过程中，体现在执行报文转换的节点不同，例如待转换链路报文为apms链路报文时，即第二分布式系统的待转换链路报文，需要apms2hmp报文转换节点执行报文转换算法，将apms报文转换成hmp报文；待转换链路报文为hmp报文时，即第一分布式系统的待转换链路报文，需要hmp2apms报文转换节点执行报文转换算法，将hmp报文转换成apms报文。确定待转换链路报文的方法可参见图4a和图4b。
113.在操作s230，根据预设转换算法对所述待转换链路报文进行报文转换，以生成目标链路报文。
114.在操作s240，将所述目标链路报文发送至消息中间件。
115.一个示例中，在操作s240中，根据预设转换算法对操作s230中确定的待转换链路报文进行报文转换操作，在本实施例中，转换算法对待转换报文进行转换可以是由不同独立组件执行，例如hmp2apms报文转换节点和apms2hmp报文转换节点；也可以由同一个组件执行两种转换算法。生成目标链路报文之后，根据目标链路报文类型发送至不同的消息中间件，进行存储展示以便运维人员进行后续分析处理。目标链路报文发送至消息中间件的具体过程可参见图5所示的操作s241和操作s242，在此不再赘述。
116.通过本公开实施例的端到端的链路监控方法，响应于服务调用请求，生成链路映射结构信息，根据链路映射结构信息触发报文转换任务，在预设时间延迟后，确定待转换链路报文和转换算法，执行报文转换任务对待转换链路报文进行转换，以得到目标链路报文，实现了端到端监控体系的链路tracing打通，解决链路报文数据格式不匹配的问题，从而实现了第一分布式系统和第二分布式系统相互提供各自收集的链路数据，并在前端展示完整链路，实现完整的链路监控适配。
117.接下来将通过图4a和图4b介绍待转换链路报文的确定过程。
118.图4a示意性示出了根据本公开实施例的根据链路映射结构信息确定待转换链路报文和转换算法的流程图。图4b示意性示出了根据本公开实施例的根据服务调用方向确定待转换链路报文和转换算法的流程图。
119.如图4a所示，操作s220包括操作s221和操作s222。
120.在操作s221，根据所述链路映射结构信息确定链路标识。
121.根据本公开实施例，所述链路标识包括第一链路标识和第二链路标识，所述第一链路标识为第一分布式系统的链路标识，所述第二链路标识为第二分布式系统的链路标识。
122.一个示例中，链路映射结构信息中包括链路标识信息，其中该链路标识包括第一链路标识和第二链路标识，即第一分布式系统中使用的链路标识和第二分布式系统使用的链路标识，第一链路标识和第二链路标识间存在映射关系。
123.在操作s222，根据所述链路标识确定待转换链路报文。
124.如图4b所示，操作s222包括操作s2221～操作s2223。
125.在操作s2221，根据第一链路标识在第一分布式系统的数据库中获取与所述第一链路标识相关联的所有链路报文数据。
126.在操作s2222，过滤已转换的链路报文数据，以确定第一分布式系统的待转换链路报文。
127.在操作s2223，在分布式缓存数据库中获取与第二链路标识相关联的所有链路报文数据作为第二分布式系统的待转换链路报文。
128.一个示例中，根据第一链路标识向第一分布式系统的es数据库查询与第一链路标识相关的所有链路报文数据，由于apms2hm报文转换节点和hmp2apms报文转换节点为并行执行报文转换操作，两节点互不干预，转换后的报文数据都持久化到es数据库中，该链路报文数据有可能存在已经经过转换的报文数据，即经apms2hmp报文转换节点从apms报文转换成hmp报文，为了避免重复转换，需对链路报文数据进行筛选，过滤掉已经转换的报文数据，从而确定第一分布式系统的待转换链路报文。
129.对于第二分布式系统，由于第二分布式系统的链路数据单独缓存至分布式缓存数据库redis中，经由hmp2apms报文转换节点转换的apms报文持久化在第二分布式系统的数据库中，因此不存在上述报文数据重复转换的问题，无需进行过滤。在分布式缓存数据中根据第二链路标识获取与第二链路标识相关的所有链路报文数据，作为第二分布式系统的待转换链路报文。
130.图5示意性示出了根据本公开实施例的目标链路报文发送至消息中间件的流程图，如图5所示，操作s240包括操作s241和操作s242。
131.在操作s241，当确定所述目标链路报文为第一分布式系统链路报文时，将所述目标链路报文发送至第一消息中间件。
132.在操作s242，当确定所述目标链路报文为第二分布式系统链路报文时，将所述目标链路报文发送至第二消息中间件。
133.根据本公开实施例，第一消息中间件为所述第一分布式系统使用的消息中间件，第二消息中间件为所述第二分布式系统使用的消息中间件。
134.一个示例中，在生成目标链路报文之后，将目标链路报文发送至各分布式系统使用的消息中间件集群，由各分布式系统的服务组件进行消费并持久化保存至各分布式系统的数据库中，以便前端的展示和分析。
135.图6示意性示出了根据本公开实施例的应用元数据持久化的流程图。如图6所示，包括操作s310和操作s320。
136.在操作s310，响应于服务上线或下线的操作，获取所述服务的应用元数据。在操作s320，将所述应用元数据发送至第三消息中间件。
137.一个示例中，考虑到第二分布式系统的链路展示需要第一分布式系统支撑的应用的元数据，通过设置appconsumer服务节点，通过两个不同的kafka topic(hmp_apms_app_p和apms_hmp_app_p)感知两分布式系统的特定app上线和下线的应用元数据。对于第一分布式系统，是由一个store_data监控节点添加了对于服务注册中心的监听器。只要服务上线或者下线，触发该监控器服务，并收集服务的元数据到kafka集群，以便给appconsumer服务
节点消费。最终应用的元数据会持久化到数据库并被用于第二分布式系统的链路展示。
138.图7示意性示出了根据本公开实施例的第二分布式系统的全量链路数据获取方法的流程图。如图7所示，包括操作s410和操作s420。
139.在操作s410，消费第二分布式系统的全量链路数据。
140.在操作s420，将所述全量链路数据缓存至所述分布式缓存数据库中。
141.一个示例中，在apms2hmp的转换过程，需要apms的链路数据，该apms链路数据量是非常巨大的，出于效率和安全性考虑，本公开实施例采用traceconsumer节点对第二分布式系统的全量链路数据进行转发。traceconsumer节点一方面需要不断的消费caas分布式的kafka全量链路数据，同时要缓存这些数据到缓存数据库redis。由于apms2hmp节点报文转换流程的高性能的需求，采用redis分布式集群作为存储数据库。可选的，在redis报文缓存时间上设定为180秒(默认3分钟)，也可以根据实际业务需要进行调整，同时redis服务配置高频cpu以及少量的处理器，内存为128g，redis的持久化功能关闭，并提供3台服务器部署集群(cluster)模式。由于报文转算的处理以链路为基本单元，redis存储的报文数据采用无序集合set存储方式。同时，redis也支持reactor模式，整个工程都是采用响应式编程来实现的。
142.图8示意性示出了根据本公开实施例的报文转换失败后的补偿机制的流程图。如图8所示，包括操作s510和操作s520。
143.在操作s510，当确定报文转换失败时，生成异常信息。
144.在操作s520，根据所述异常信息调用报文转换节点接口进行报文转换操作。
145.一个示例中，设置compensate节点作为补偿节点，实现报文转换失败的补偿机制，compensate节点消费第二分布式系统的全量链路数据，落库保存预设时间，例如可以是3天、7天等等。由于转换异常、redis数据丢失等各种异常导致报文转换失败时，生成异常信息，根据异常信息确定异常链路标识，根据异常链路标识在数据库中获取链路数据，重新调用报文转换节点api进行报文转换操作，保障trace打通整体解决方案的可靠性。
146.基于上述端到端的链路监控方法方法，本公开还提供了一种端到端的链路监控装置。以下将结合图9对该装置进行详细描述。
147.图9示意性示出了根据本公开实施例的端到端的链路监控装置的结构框图。
148.如图9所示，该实施例的端到端的链路监控装置800包括生成模块810、确定模块820、报文转换模块830和第一发送模块840。
149.生成模块810用于响应于服务调用请求，生成链路映射结构信息。在一实施例中，生成模块810可以用于执行前文描述的操作s210，在此不再赘述。
150.确定模块820用于在预设时间后，根据所述链路映射结构信息确定待转换链路报文，所述待转换链路报文包括第一分布式系统的待转换链路报文和第二分布式系统的待转换链路报文。在一实施例中，确定模块820可以用于执行前文描述的操作s220，在此不再赘述。
151.报文转换模块830用于根据预设转换算法对所述待转换链路报文进行报文转换，以生成目标链路报文。在一实施例中，报文转换模块830可以用于执行前文描述的操作s230，在此不再赘述。
152.第一发送模块840用于将所述目标链路报文发送至消息中间件。在一实施例中，第
一发送模块840可以用于执行前文描述的操作s240，在此不再赘述。
153.根据本公开实施例，还包括第一获取模块850、第二发送模块860、第二获取模块870和缓存模块880。
154.第一获取模块850用于响应于服务上线或下线的操作，获取所述服务的应用元数据。在一实施例中，第一获取模块850可以用于执行前文描述的操作s310，在此不再赘述。
155.第二发送模块860用于将所述应用元数据发送至第三消息中间件。在一实施例中，第二发送模块860可以用于执行前文描述的操作s320，在此不再赘述。
156.第二获取模块870用于消费第二分布式系统的全量链路数据。在一实施例中，第二获取模块870可以用于执行前文描述的操作s410，在此不再赘述。
157.缓存模块880用于将所述全量链路数据缓存至所述分布式缓存数据库中。在一实施例中，缓存模块880可以用于执行前文描述的操作s420，在此不再赘述。
158.根据本公开的实施例，确定模块820包括第一确定子模块821和第二确定子模块822。
159.第一确定子模块821，用于根据所述链路映射结构信息确定链路标识。在一实施例中，第一确定子模块821可以用于执行前文描述的操作s221，在此不再赘述。
160.第二确定子模块822，用于根据所述链路标识确定待转换链路报文。在一实施例中，第二确定子模块822可以用于执行前文描述的操作s222，在此不再赘述。
161.根据本公开的实施例，第二确定子模块822包括第一获取单元8221、确定单元8222和第二获取单元8223。
162.第一获取单元8221，用于根据第一链路标识在第一分布式系统的数据库中获取与所述第一链路标识相关联的所有链路报文数据。在一实施例中，第一获取单元8221可以用于执行前文描述的操作s222，在此不再赘述。
163.确定单元8222，用于过滤已转换的链路报文数据，以确定第一分布式系统的待转换链路报文。在一实施例中，确定单元8222可以用于执行前文描述的操作s222，在此不再赘述。
164.第二获取单元8223，用于在分布式缓存数据库中获取与第二链路标识相关联的所有链路报文数据作为第二分布式系统的待转换链路报文。在一实施例中，第二获取单元8223可以用于执行前文描述的操作s222，在此不再赘述。
165.根据本公开的实施例，第一发送模块840包括第一发送子模块841和第二发送子模块842：
166.第一发送子模块841，用于当确定所述目标链路报文为第一分布式系统链路报文时，将所述目标链路报文发送至第一消息中间件，所述第一消息中间件为所述第一分布式系统使用的消息中间件。在一实施例中，第一发送子模块841可以用于执行前文描述的操作s241，在此不再赘述。
167.第二发送子模块842，用于当确定所述目标链路报文为第二分布式系统链路报文时，将所述目标链路报文发送至第二消息中间件，所述第二消息中间件为所述第二分布式系统使用的消息中间件。在一实施例中，第二发送子模块842可以用于执行前文描述的操作s242，在此不再赘述。
168.根据本公开的实施例，生成模块810、确定模块820、报文转换模块830和第一发送
模块840中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，第一确定模块810、生成模块820、第二确定模块830、报文转换模块840和发送模块850中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一确定模块810、生成模块820、第二确定模块830、报文转换模块840和发送模块850中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
169.图10示意性示出了根据本公开实施例的适于实现端到端的链路监控方法的电子设备的方框图。
170.如图10所示，根据本公开实施例的电子设备900包括处理器901，其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
171.在ram 903中，存储有电子设备900操作所需的各种程序和数据。处理器901、rom 902以及ram 903通过总线904彼此相连。处理器901通过执行rom 902和/或ram 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom 902和ram 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
172.根据本公开的实施例，电子设备900还可以包括输入/输出(i/o)接口905，输入/输出(i/o)接口905也连接至总线904。电子设备900还可以包括连接至i/o接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。
173.本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的端到端的链路监控方法。
174.根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可
以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom 902和/或ram 903和/或rom 902和ram 903以外的一个或多个存储器。
175.本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的端到端的链路监控方法。
176.在该计算机程序被处理器901执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
177.在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
178.在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
179.根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c ，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
180.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
181.本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
182.以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种时钟同步系统、方法、装置、设备及计算机存储介质与流程

端到端的链路监控方法和装置与流程

相关文献

最热文献