一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于分布式存储的大数据业务管理系统的制作方法

2022-11-12 20:20:04 来源:中国专利 TAG:


1.本发明涉及电数字数据处理技术领域,具体涉及一种基于分布式存储的大数据业务管理系统。


背景技术:

2.业务管理系统主要是客户关系管理crm,现在的crm会有实时客户对话的功能,对于一个工单,分布式存储系统不但需要承载较多的工单附件,还需要实时响应并尽快同步至其他节点,以保证crm能够在各地同步运行。分布式存储的时间同步情况会影响crm的数据状态同步是否正常,按照常规的情况,crm的工单会话数据一直在增加,但同时也会存在数据回退的情况,回退数据落盘时延可以较大,但一次同步会带来较多的io请求。
3.对于分布式存储系统,一般使用仲裁来从数据一致性层面解决,当存在较多工单会话同步而出现的较大io请求时,很难高效地将操作写入分布式存储的数据库,且可能会造成业务延迟较大,从而产生用户的误解或者业务逻辑的异常,因此需要对分布式存储中工单会话的同步策略进行确定,以使得业务能够快捷稳定的运行。


技术实现要素:

4.为了解决分布式存储的业务延迟大以及业务运行效率低的问题,本发明的目的在于提供一种基于分布式存储的大数据业务管理系统,该系统包括以下模块:时延适宜性获取模块,用于获取每个工单会话在上次同步后至下次同步前的时间段内的时延数据,将所有的时延数据构成数据集,基于数据集获取工单会话的时延适宜性;同步条件稳定性获取模块,用于获取每个工单会话在上次同步时的多个采样时刻的差分数据量,根据所述差分数据量以及所述时延适宜性获取工单会话的同步条件稳定性;分组模块,用于根据每个工单会话的时延适宜性和同步条件稳定性获取任意两个工单会话的差异距离,基于所述差异距离将所有工单会话划分为正常组和异常组;典型度获取模块,用于获取每个工单会话的工单语义描述子,对于正常组和异常组,基于分组内每个工单会话的所述工单语义描述子获取任意两个工单会话的差分数据变化趋势;根据分组内每个工单会话对应的所有差分数据变化趋势之和得到对应工单会话的典型度;同步策略确定模块,用于根据正常组内每个工单会话的典型度获取差分数据量的正常波动区间,根据异常组内每个工单会话的典型度获取差分数据量的异常波动区间;利用lstm预测网络获取工单会话待同步过程的预测差分数据量,基于所述预测差分数据量、所述正常波动区间以及所述异常波动区间确定同步策略。
5.优选的,所述时延适宜性获取模块中基于数据集获取工单会话的时延适宜性的方法,包括:获取所述数据集中所有时延数据的平均值与方差,计算所述平均值与预设的适宜
时延大小之间的差值,基于所述差值和所述方差获取所述时延适宜性;所述时延适宜性与所述差值呈负相关关系,所述时延适宜性与所述方差呈负相关关系。
6.优选的,所述同步条件稳定性获取模块中根据所述差分数据量以及所述时延适宜性获取工单会话的同步条件稳定性的方法,包括:获取所述工单会话对应的所有差分数据量的变化极差,所述变化极差是指最后一个采样时刻的差分数据量与第一个采样时刻的差分数据量的差值;获取所述工单会话对应的所有差分数据量中每相邻两个采样时刻对应的差分数据量的差值绝对值作为差分值,选取所有差分值中的最大值,计算差分值的最大值与所述变化极差的求和结果;根据所述求和结果与所述时延适宜性获取工单会话的同步条件稳定性,所述同步条件稳定性与所述求和结果呈负相关关系,所述同步条件稳定性与所述时延适宜性呈正相关关系。
7.优选的,所述分组模块中根据每个工单会话的时延适宜性和同步条件稳定性获取任意两个工单会话的差异距离的方法,包括:获取任意两个工单会话对应的同步条件稳定性之间的差值的平方结果,计算两个工单会话对应的动态时间规整距离;以所述平方结果的负数作为幂指数得到指数函数;根据所述指数函数以及所述动态时间规整距离得到所述差异距离;所述差异距离与所述指数函数呈正相关关系,所述差异距离与所述动态时间规整距离呈负相关关系。
8.优选的,所述典型度获取模块中基于分组内每个工单会话的所述工单语义描述子获取任意两个工单会话的差分数据变化趋势的方法,包括:计算分组中每两个工单会话对应差分数据量之间的形态相似距离;将两个工单会话对应的变化极差进行作差并求取绝对值得到差异值;获取两个工单会话对应语义描述子之间的相似性;以所述形态相似距离的负数作为幂指数构建指数函数,将所述指数函数与所述相似性相乘得到乘积结果,所述乘积结果与所述差异值的比值为两个工单会话的差异数据变化趋势。
9.优选的,所述同步策略确定模块中根据正常组内每个工单会话的典型度获取差分数据量的正常波动区间的方法,包括:将正常组中所有工单会话的典型度进行降序排列,降序排列后的前5个典型度对应的工单会话为参考样本,将参考样本对应的差分数据量构成差分数据量的正常波动区间。
10.优选的,所述同步策略确定模块中根据异常组内每个工单会话的典型度获取差分数据量的异常波动区间的方法,包括:将异常组中所有工单会话的典型度进行升序排列,升序排列后的前5个典型度对应的工单会话为异常样本,将异常样本对应的差分数据量构成差分数据量的异常波动区间。
11.优选的,所述同步策略确定模块中lstm预测网络的训练数据为正常组中工单会话对应的差分数据量。
12.本发明具有如下有益效果:本发明实施例中通过获取工单会话在上次同步后到下次同步前的时间段内的时延数据进行分析,以得到每个工单会话对应的时延适宜性;然后获取每个工单会话在上次同步时对应的差分数据量,基于差分数据量以及时延适宜性得到同步条件稳定性,使得后续的同步策略确定更加可靠;结合每个工单会话对应的时延适宜性和同步条件稳定性获取任意两个工单会话之间的差异距离,并基于差异距离将所有的工单会话划分为正常组和异常组;获取每个工单会话的工单语义描述子对每个分组中每两个工单会话之间的差分数据变化趋势进行获取,进而得到分组中每个工单会话的典型度;基于典型度获取正常波动区间和异常波动区间;根据lstm预测网络得到预测差分数据量,根据预测差分数据量和正常波动区间以及异常波动区间确定同步策略;以避免分布式存储的业务进行中出现数据堵塞,造成效率过低的问题,保证业务能够快捷稳定的运行。
附图说明
13.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
14.图1为本发明一个实施例所提供的一种基于分布式存储的大数据业务管理系统框图。
具体实施方式
15.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于分布式存储的大数据业务管理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
16.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
17.本技术适用于对分布式存储的业务中工单会话同步策略的确定;下面结合附图具体的说明本发明所提供的一种基于分布式存储的大数据业务管理系统的具体方案。
18.请参阅图1,其示出了本发明一个实施例提供的一种基于分布式存储的大数据业务管理系统框图,该系统包括以下模块:时延适宜性获取模块10,用于获取每个工单会话在上次同步后至下次同步前的时间段内的时延数据,将所有的时延数据构成数据集,基于数据集获取工单会话的时延适宜性。
19.分布式存储的区域在主干网络,且分布式存储的节点通过主干网络相互同步,一次同步意味着若干个工单状态被发送至远端的分布式存储系统,本发明实施例面向的分布式数据同步是以一个节点产生一定量的工单会话,以一个固定的会话数量进行同步,该方
法可以有效提高吞吐量,但带来的问题便是同步的数据存在立刻失效的情况,即工单回退的情况,从而加剧同步的io负载。
20.本发明实施例中同步是指一个服务器节点向其它服务器节点发送同步请求的动作,一次同步包括一次工单会话的状态,如果工单会话发生变化,工单会话将以一定的时间间隔进行同步;批量同步是指一个服务器节点针对符合条件的工单会话直接进行数据压缩打包,分发至其它存储节点,从而提高吞吐量并缩短同步时间。
21.由于工单会话的状态随时可能发生变化,尤其是在网络环境较差时会出现请求阻塞的情况,因此本发明实施例面向的终端需在提交工单会话时提供与cdn服务器的时延,在时延相对较大时容易出现两个请求连续到达节点的情况,从而导致在一批同步后仍需继续同步,因此需要对时延大小进行检测,确定当前提交工单会话的时延适宜性。
22.对每个工单会话在上一次同步之后以及下一次同步前的时间段内的时延数据进行采集,本发明实施例中设置采集频率为1hz,即每秒进行一次采集,依次获取工单会话在该时间段内的时延数据得到数据集。
23.获取数据集中时延数据的平均值,进而根据每个数据集中的平均值得到对应的方差,结合平均值和方差计算该数据集对应的工单会话的时延适宜性,时延适宜性的计算为:其中,表示工单会话的时延适宜性;表示数据集中时延数据的平均值;表示数据集中时延数据的方差;表示适宜时延大小,由实施者自行设定;表示松弛修正系数,本发明实施例中取0.2;表示指数函数;表示绝对值运算。
24.作为优选,本发明实施例中设置适宜时延大小为32ms。
25.当数据集中时延数据的平均值越接近适宜时延大小时,说明此时工单会话的适宜性较大;同时,在该数据集中的时延数据波动越小时,数据越稳定,工单会话对应的时延适宜性的取值越大。
26.同步条件稳定性获取模块20,用于获取每个工单会话在上次同步时的多个采样时刻的差分数据量,根据差分数据量以及时延适宜性获取工单会话的同步条件稳定性。
27.由于工单会话内的载荷数据大小会影响同步的性能,进一步影响到工单会话在分布式存储系统的同步是否可靠;因此基于工单会话内上次同步的数据,进行数据差分变动的数据量统计,获取工单会话在上次同步时每个采样时刻的差分数据量,采样频率同样为1hz,即每秒采集一次,进而得到工单会话在上次同步时每秒的差分数据量。
28.需要说明的是,本发明实施例中每秒的差分数据量是指累加数据,例如第三秒的差分数据量是指第一秒、第二秒以及第三秒对应的差分数据的累加值。基于工单会话在上次同步的差分数据量以及在上次同步之后与下次同步前的时延适宜性获取该工单会话的同步条件稳定性,同步条件稳定性的计算为:
其中,表示同步条件稳定性;表示工单会话在上次同步时的差分数据量的变化极差,即在上次同步时最后一秒采集的差分数据量与第一秒采集的差分数据量的差值;表示工单会话在上次同步时的差分数据量的差分值,即每一秒对应的差分数据量与下一秒对应的差分数据量之间的差值绝对值;表示最大值函数;表示在所有的差分值中选取最大值;表示工单会话的时延适宜性。
29.如果工单会话对应的差分数据量在一段时间内累积较多的数据,则该工单会话对应的差分数据量的变化极差较大,同步条件稳定性较差;如果工单会话对应的差分数据量的最大的差分值越大,则认为实际传输过程中存在较大的阻塞问题,进而使得服务器在后期可能还会遇到数据阻塞的问题,同步条件稳定性较差;工单会话对应的时延适宜性越大,则该工单会话同步条件稳定性越好。
30.分组模块30,用于根据每个工单会话的时延适宜性和同步条件稳定性获取任意两个工单会话的差异距离,基于差异距离将所有工单会话划分为正常组和异常组。
31.由于工单待同步过程中,网络环境直接影响工单同步是否能够有效进行,过差的网络环境会直接导致工单会话的差分数据量突变,甚至还伴随着工单会话的回退,大量的差分数据因回退而变得无效,若这种回退的工单会话大量出现在批量同步的任务中,会带来较严重的分布式存储的性能损耗。
32.因此对多个待同步过程中的工单会话的进行分析,建立差异距离函数,确定每个工单会话之间的差异距离,具体差异距离的计算为:其中,表示工单会话a与工单会话b之间的差异距离;表示工单会话a的同步条件稳定性;表示工单会话b的同步条件稳定性;表示工单会话a对应的时延数据的数据集;表示工单会话b对应的时延数据的数据集;表示动态时间规整距离的计算;表示以自然常数e为底的指数函数。
33.以此类推,可得到任意两个工单会话之间的差异距离;根据每个工单会话对应的差异距离可对所有的工单会话进行分组,本发明实施例中分组的方法采用经典的k-means聚类算法,根据工单会话之间的差异距离将所有的工单会话划分为两个分组。
34.进一步的,对两个分组进行区分,计算每个分组中所有工单会话对应的差分数据量的均值,均值大的分组为异常组,均值较小的分组为正常组。
35.典型度获取模块40,用于获取每个工单会话的工单语义描述子,对于正常组和异常组,基于分组内每个工单会话的工单语义描述子获取任意两个工单会话的差分数据变化趋势;根据分组内每个工单会话对应的所有差分数据变化趋势之和得到对应工单会话的典型度。
36.由于工单会话主要包括用户与客服的对话等,因此相较于上次同步时的工单会话差分数据中的明文对话可以体现出工单的语义特征,从而能够显著分辨出一些伴随着大量数据变动的特征,例如:截图、照片、录音、发语音等代表多媒体的词汇,或者是非特定词汇,
例如:固件、log、dump等,上述词汇很难人工构建,因此结合网络时延和差分数据量,可以很好地将工单会话待同步的情况在后续区分。
37.本发明实施例中利用词袋模型统计词频后,会得到该企业数据资源的文本中所有词的词频,除此之外,还需要对常见词汇和领域重复出现的词汇进行排除;对于业务内部所有工单会话的明文对话,对其进行文本词频统计;词袋模型在分词之后,通过统计每个词在文本中出现的次数,就可以得到该文本基于词的特征,该方法主要通过tf-idf进行次特征值的计算,及时去除了常用词和领域词,但由于工单会话的大数据的属性,从业务经验来说,词汇表很容易突破百万级别的词标签。考虑到文本的稀疏性,哈希后的特征能够很好代表哈希前的特征,因此通过hashingvectorizer来将词汇表编码为65536维的特征码,将该特征码记为工单会话的语义描述子。
38.分组模块30中将所有的工单会话划分为了正常组和异常组,由于工单会话中的差分数据量的变化过程是复杂的,因此对每个组内不同的工单会话进行分析。
39.以正常组为例,获取该组内任意两个工单会话之间的差分数据变化趋势,差分数据变化趋势的计算为:其中,表示正常组内工单会话与工单会话之间的差分数据变化趋势;表示工单会话对应所有的差分数据量;表示工单会话对应所有的差分数据量;表示工单会话对应所有的差分数据量的变化极差;表示工单会话对应所有的差分数据量的变化极差;表示形态相似距离计算;表示绝对值运算;表示工单会话对应的语义描述子;表示工单会话对应的语义描述子;表示相似性计算,本发明实施例中采用余弦相似度表示。
40.当两个工单会话对应的差分数据量的数据变化越接近,则两个工单会话的差分数据变化趋势越接近,对应的差分数据变化趋势的取值越大。
41.以此类推,获取正常组内每两个工单会话之间的差分数据变化趋势;相应的,基于与正常组内所有工单会话计算相同的方法,获取异常组内每两个工单会话之间的差分数据变化趋势。
42.进一步的,根据每个分组内每两个工单会话之间的差分数据变化趋势获取每个工单会话的典型度,以正常组内工单会话为例,工单会话的典型度计算为:其中,表示工单会话的典型度;表示正常组内工单会话与工单会话之间的差分数据变化趋势,工单会话代表的是正常组内除去工单会话以外的任意一个工单会话。
43.同理,基于获取工单会话的典型度相同的方法,获取正常组内每一个工单会话对应的典型度;相应的,获取异常组内每一个工单会话对应的典型度。
44.同步策略确定模块50,用于根据正常组内每个工单会话的典型度获取差分数据量的正常波动区间,根据异常组内每个工单会话的典型度获取差分数据量的异常波动区间;利用lstm预测网络获取工单会话待同步过程的预测差分数据量,基于预测差分数据量、正常波动区间以及异常波动区间确定同步策略。
45.由于工单会话中的数据主要是人与人交互产生的数据,人的行为各异,因此最终每个工单会话对应的差分数据量的变化会与预期的参考波动有明显差异,并且这种差异在每次工单待同步过程中可能都不一样,因此,根据多次正常过程中工单会话的差分数据量变化确定波动范围。
46.具体的,选取正常组中典型度较大的前5个工单会话,即将正常组中所有工单会话的典型度进行降序排列,降序排列后的前5个典型度对应的工单会话为参考样本,以参考样本对应的差分数据量构成差分数据量的正常波动区间,参考样本中差分数据量的最大值为差分数据量的正常波动上限,参考样本中差分数据量的最小值为差分数据量的正常波动下限;通过此方法确定的工单会话的差分数据量的正常波动区间能够更好的代表批量同步的差分变化数据,使得批量同步过程中差分数据量更为符合分布式存储的典型负载。
47.相应的,选取异常组中典型度较小的5个工单会话,即将异常组中所有工单会话的典型度进行升序排列,升序排列后的前5个典型度对应的工单会话为异常样本,将异常样本对应的差分数据量构成差分数据量的异常波动区间,异常样本中差分数据量的最大值为差分数据量的异常波动上限,异常样本中差分数据量的最小值为差分数据量的异常波动下限;基于异常样本的差分数据量的异常波动区间确定工单会话待同步过程的上下限制,当超过该限制时,则需要通过其他方式同步。
48.进一步的,根据正常组中所有工单会话对应的差分数据量训练lstm预测网络,以实现对后续的差分数据量大小的预测;将获取到的正常组中工单会话的差分数据量的变化序列打上标签,输入到lstm网络中,每个差分数据量为一个样本,将样本向未来移动10个检测次数,本发明实施例中设置移动10个检测次数,实施者可根据实际的性能表现和需求决定移动时间;删除经过移动后没有标签的一段样本,此处的移动是一种相位移动,正因如此lstm预测网络可以预测未来的工单会话内差分数据量的大小;对训练过程中每个样本产生的loss函数进行权重分配,训练过程中产生的误差为均方误差,损失函数为:,其中,表示第个样本对应的工单会话的典型度,典型度越大,说明对应的样本准确程度越高,从而使当前网络预测的更加准确。
49.通过神经网络的预测,对当前的工单会话中的差分数据量大小进行检测,及早的发现差分数据量的异常波动情况并对其进行比较判断。在实际使用过程中,根据lstm预测网络输出之后时刻的预测差分数据量的大小,与上述获取到的正常波动区间和异常波动区间进行比较,并确定对应的同步策略。
50.当预测差分数据量的大小大于正常波动上限或者不大于正常波动下限,即预测差分数据量不处于正常波动区间时,立即进行与批量同步异步的单个同步,这种差分数据是正常工单会话中常见的一种,对于差分数据较少的,立即同步的时间是极短的;而对于差分
数据较多的,立即同步可以避免数据的进一步增长。
51.当预测差分数据量的大小小于异常波动下限时,则推迟该工单会话的同步,并持续跟踪其变化,直至大于正常波动下限后进行立即同步,防止网络异常导致突然大量消息涌向服务器节点,从而导致后面的差分数据量过大,甚至超过异常波动上限。
52.当预测差分数据量的大小处于异常波动区间时,对该异常波动区间进行n等分的划分,并对每个等分的区间依次由小到大进行等级标注为,n为正整数,由实施者根据同步策略设定;则根据预测差分数据量可对应出在异常波动区间中的等级,根据所对应的等级获取不同的优先级。
53.作为一个示例,假设正常数据优先级为90,且异常数据优先级低于正常数据优先级,则处于异常波动区间中的预测差分数据量的优先级可以为:;其中,表示优先级;表示预测差分数据量处于异常波动区间中的等级;表示针对此种异常情况而手工调试的偏置值,本发明实施例中设置为1。
54.因此,当预测差分数据量处于异常波动区间中且越接近异常波动上限时,则该预测差分数据量对应的优先级越低;以同步优先级最低的方式做异步同步,从而减轻其它分布式存储节点的io压力;异步同步序列,是指无视分批同步的机制而排队进行同步的另一种机制,用于顺序处理异常情况下的请求。
55.当预测差分数据量的大小大于异常波动上限时,则令优先级从高到低进行异步同步。
56.当预测差分预测数据量处于正常波动区间时,按照队列中的优先级,在不超出队列的情况下直接进行批量同步;如果超出队列长度,则等待下次同步;队列的大小由实施者根据业务情况而定,本发明实施例中的队列大小为1000条。
57.需要说明的是,若正常波动区间与异常波动区间之间存在交集,而预测差分数据量的大小处于该交集时,则以该预测差分数据量处于正常波动区间内为标准进行处理。
58.综上所述,本发明实施例中包括时延适宜性获取模块10、同步条件稳定性获取模块20、分组模块30、典型度获取模块40以及同步策略确定模块50;时延适宜性获取模块用于获取每个工单会话在同步前的时延数据,根据所有的时延数据构成数据集,进而基于数据集中时延数据的均值和方差获取工单会话的时延适宜性;同步条件稳定性获取模块用于获取每个工单会话在上次同步时对应的差分数据量,根据差分数据量的变化以及时延适宜性获取对应的工单会话的同步条件稳定性;分组模块用于根据每个工单会话对应的时延适宜性和同步条件稳定性进行差异距离的获取,利用k-means聚类算法将所有的工单会话基于差异距离分为两个分组,并根据分组内每个工单会话对应的差分数据量将两个分组划分为正常组和异常组;典型度获取模块用于对分组中每个工单会话的典型度进行计算,典型度由工单会话对应的语义描述子和任意两个工单会话之间的差分数据变化趋势得到。进而通过同步策略确定模块结合每个工单会话的典型度获取差分数据变化量的正常波动区间和异常波动区间,并利用正常组中工单会话的差分数据对lstm预测网络训练以得到工单会话待同步过程中的预测差分数据量,根据该预测差分数据量与正常波动区间和异常波动区间的关系确定工单会话的同步策略,及时避免了由于网络异常等因素造成的io请求堆积的情
况,使得业务能够快捷稳定的运行。
59.需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
60.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
61.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献