一种基于异质信息融合的智能运维机器人构建方法及装置与流程

2022-07-30 13:15:45 来源：中国专利 TAG：

1.本发明涉及智能运维机器人构建的技术领域，尤其涉及一种基于异质信息融合的智能运维机器人构建方法及装置。

背景技术：

2.智能运维机器人通过接收运维问题，从基于语料库训练的知识图谱或信息网络中选取能够解决运维问题的解决方案，实现智能运维。目前现有的智能运维机器人在进行运维过程中依赖语料数据质量，成为制约运维机器人智能化、产业化的一个重要因素，语料数据质量高则进行运维时更加准确，否则容易出现较大错误。一方面，由于文本数据无法直接运用计算机进行处理，智能运维机器人需要先利用向量化表示方法将运维问题以及解决方案转换为向量形式，传统词向量表示方法包括word2vec模型、bert模型以及one-hot算法模型，其中word2vec模型、bert模型仅依据词的上下文特征进行词向量编码处理，同时需要消耗大量计算资源训练得到可用模型，one-hot算法模型需要消耗大量内存空间构建寄存器，利用寄存器的0/1表示实现词向量编码处理，且基于三种模型的词向量表示所蕴含的特征信息较少，对用于构建智能运维机器人词向量表示模型的语料库质量要求较高。另一方面，基于语料库训练的知识图谱或信息网络更加依赖语料数据质量，但是不同语料的质量存在较大差异，基于不同质量语料所训练出的运维机器人所给出的解决方案有效性差异较大，导致市面上运维机器人运维质量参差不齐，同时现有研究缺乏评估语料质量的方法，无法通过评估语料质量对运维机器人的运维质量进行评估，也无法选取能够实现更高机器人运维质量的语料库对运维机器人进行训练，从而实现最优运维机器人的智能化以及产业化。

技术实现要素：

3.有鉴于此，本发明提供一种基于异质信息融合的智能运维机器人构建方法及装置，目的在于(1)基于上下文外部信息以及部首的内部信息构建复合通道模型，利用复合通道模型实现运维数据的向量化表示，通过提取目标词的内部信息以及外部信息构建词向量，所得词向量蕴含了更复杂的特征信息，降低了用于构建智能运维机器人词向量表示模型的语料库质量要求，并通过对模型进行鲁棒优化，增强复合通道模型的鲁棒性，使得模型能够在不同场景下输出可靠的向量化表示结果；(2)基于多种不同质量语料融合的方法构建异质融合信息网络，所构建异质融合信息网络的实体节点包括运维问题向量化表示以及解决方案向量化表示，通过对来自不同质量语料库的解决方案向量表示进行语料质量评价，语料质量评价越高的解决方案越容易作为最优运维解决方案，能够从不同质量的语料中选取当前待解决运维问题的最优语料质量运维解决方案，降低了所构建信息网络对于语料质量的依赖，并实现语料质量评估。
4.实现上述目的，本发明提供的一种基于异质信息融合的智能运维机器人构建方法，包括以下步骤：
5.s1：基于中文字形特征和上下文特征构建复合通道模型的目标函数；
6.s2：对来自不同质量语料的运维数据进行分词处理，将分词结果输入到所构建的复合通道模型中，利用改进的鲸鱼优化算法对目标函数进行快速优化求解，求解得到运维数据的向量化表示；
7.s3：根据求解得到的运维数据向量化表示，基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络；
8.s4：将待处理的运维问题向量输入到所构建的异质融合信息网络中，对待处理运维问题向量进行基于关联路径的相似性度量，相似性度量结果最高的运维解决方案向量即为语料质量最优的运维解决方案。
9.作为本发明的进一步改进方法：
10.所述s1步骤中所构建的复合通道模型为：
11.所述复合通道模型的输入为中文分词后的运维数据[w1,w2,
…
,w
i-1
,wi,w
i 1
,
…
,wn]，输出为复合通道模型对应运维数据的向量化表示结果其中为词wi的词向量结果，wi为运维数据中的第i个词，n为运维数据的分词词数，所述运维数据包括运维问题以及运维解决方案，运维问题包括系统故障问题、业务问题、版本测试问题以及业务分析问题，运维解决方案为对应运维问题的解决方案，所述复合通道模型包括中文字形特征通道以及上下文特征通道，其中中文字形特征通道提取了运维实体中目标词的部首特征，上下文特征通道提取了运维实体中目标词的上下文特征；通过分别提取词的上下文特征以及部首特征，依据上下文外部信息以及部首的内部信息对词进行向量化表示，得到蕴含信息更为丰富的向量化表示结果。
[0012]
所述s1步骤中基于中文字形特征和上下文特征构建复合通道模型的目标函数，包括：
[0013]
所述基于中文字形特征和上下文特征构建复合通道模型的目标函数为：
[0014][0015][0016][0017][0018]
其中：
[0019]
为目标词wi的向量化表示结果；
[0020]
t为转置；
[0021]
d为用于构建复合通道模型的语料库；
[0022]
l(wi)为目标词向量化表示的目标函数，所述目标函数旨在使得目标词上下文向量的条件概率的似然函数最大；
[0023]
为上下文特征通道提取的上下文向量化表示均值；
[0024]
为中文字形特征通道提取的部首特征，为目标词的部首向量，为目标词部首向量长度；
[0025]
a表示对目标词进行向量化表示的不确定场景，a∈a，a为不确定场景空间，在本发明一个具体实施例中，所述不确定场景包括目标词的编码格式、字体大小以及文本格式等，例如对于采用不同编码格式的同一目标词，如ascii，unicode，gbk，utf-8编码格式，采用不同字体大小的同一目标词，采用不同文本格式的同一目标词，如全角格式或半角格式，目标词可能出现的特殊编码格式、字体大小以及文本格式即为目标词的不确定场景，通过对输入目标词进行编码格式等不确定场景的调整，对模型进行鲁棒优化，使得模型对同一目标词的不同场景所输出的词向量结果类似，以增强模型的鲁棒性；
[0026]
pa为不确定场景a的发生概率，将其设置为语料库d中不确定场景a的发生概率；
[0027]
la(wi)表示在不确定场景a发生时，目标词wi进行向量化表示的目标函数值；
[0028]
本方案算法的硬件测试环境为：inter(r)core(tm)i7-6700k cpu，软件为python，向量化表示模型的对比模型包括word2vec模型、bert模型、one-hot算法模型以及本方案所提出的鲁棒优化后的复合通道模型，其中word2vec模型、bert模型仅依据词的上下文特征进行词向量编码处理，one-hot算法模型需要消耗大量内存空间构建寄存器，利用寄存器实现词向量编码处理，未提取目标词特征，而本方案所述鲁棒优化后的模型通过依据上下文外部信息以及部首的内部信息对词进行向量化表示，得到蕴含信息更为丰富的词向量，所生成最优运维解决方案较高有效性，模型也具有较高鲁棒性，通过将中文分词后的运维数据文本输入到对比模型中，其中所输入的运维数据具有不同的编码格式、字体大小以及文本格式，对比发现，word2vec模型所生成向量化表示结果所对应异质融合信息网络中的最优运维解决方案的有效性为75，且98.6％的运维数据均能生成向量化表示结果，其中有效性越高表示最优运维解决方案解决运维实体问题的概率越大，bert模型所生成向量化表示结果所对应异质融合信息网络中的最优运维解决方案的有效性为85.2，且98.9％的运维数据均能生成向量化表示结果，one-hot算法模型所生成向量化表示结果所对应异质融合信息网络中的最优运维解决方案的有效性为62，且91.7％的运维数据均能生成向量化表示结果，复合通道模型所生成向量化表示结果所对应异质融合信息网络中的最优运维解决方案的有效性为81.2，且99.3％的运维数据均能生成向量化表示结果。
[0029]
所述s2步骤中对来自不同质量语料的运维数据进行分词处理，包括：
[0030]
从不同质量的语料库中获取运维数据，利用中文分词算法对不同语料质量的运维数据进行分词处理，所述中文分词处理流程为：
[0031]
构建运维实体分词词典，从左向右取待分词运维数据的m个字作为匹配字段，其中m为所构建词典中的最长词的长度，对匹配字段进行查找词典完成匹配，若匹配成功，则将该匹配字段作为一个词从运维实体中切分出去，若匹配不成功，则将该匹配字段最后一个字去掉，剩下的字作为新匹配字段，进行再次匹配；重复上述步骤，直到切分完成运维数据中的所有词。
[0032]
所述s2步骤中利用改进的鲸鱼优化算法对目标函数进行快速优化求解，包括：
[0033]
将分词后的运维数据输入到复合通道模型中，利用改进的鲸鱼优化算法对目标函数进行求解，所述目标函数的求解结果为输入模型运维数据的向量化表示结果，其中运维数据的向量化表示结果包括运维问题向量以及运维解决方案向量，所述基于改进鲸鱼优化
算法的目标函数求解流程为：
[0034]
1)设置算法的最大迭代次数为max，随机初始化大小为n的鲸鱼种群，其中第i只鲸鱼的位置坐标为xi，xi的维度数为n，n为模型所输入运维数据的分词词数，每只鲸鱼的位置坐标即对应一种向量化表示结果；
[0035]
2)设置算法的当前迭代次数为u，u的初始值为0，则第i只鲸鱼在第u 1次迭代时的位置更新为：
[0036]
xi(u 1)＝x
*
(u)-[(2
×
random1γ-γ)
×
|2
×
random2x
*
(u)-xi(u)|]
[0037]
γ＝2-(u 1)/max
[0038]
其中：
[0039]
γ为收敛因子；
[0040]
xi(u)＝(xi(u),yi(u))为第u次迭代时，第i只鲸鱼的位置坐标；
[0041]
random1,random2分别为[0,1]区间的随机数；
[0042]
x
*
(u)为第u次迭代过程中，将所有鲸鱼位置坐标所对应的词向量设置在目标函数f中，使得目标函数f最小的最优鲸鱼位置坐标；
[0043]
重复该步骤，直到更新完成n只鲸鱼的位置坐标，计算得到第u 1次迭代的最优鲸鱼位置坐标x
*
(u 1)；
[0044]
3)为xi(u 1)生成随机数rand，若生成随机数满足下述条件，则对xi(u 1)进行变异处理：
[0045][0046]
其中：
[0047]
rate
max
为所设置的最大变异率，rate
min
为所设置的最小变异率，在本发明一个具体实施例中，将rate
max
设置为0.9，将rate
min
设置为0.1；
[0048]
所述xi(u 1)的变异结果为：
[0049]
xi(u 1)
′
＝x
*
(u 1) rand[|x1(u 1)-x2(u 1)|]
[0050]
其中：
[0051]
x1(u 1),x2(u 1)为第u 1次迭代过程中的随机鲸鱼位置坐标，x1(u 1)≠x2(u 1)；
[0052]
重复该步骤，直到遍历完成所有鲸鱼的位置坐标，并更新第u 1次迭代后的最优鲸鱼位置坐标；
[0053]
4)判断u 1是否等于预设定的最大迭代次数max，若u 1＝max则终止迭代算法，输出最优鲸鱼位置坐标为运维数据的向量化表示结果；否则令u＝u 1，返回步骤2)执行算法迭代。本方案通过采用基于鲸鱼变异的鲸鱼优化算法对目标函数进行求解，提高了鲸鱼优化算法的全局搜索性，避免了传统鲸鱼优化算法收敛速度慢、容易陷入局部最优的问题，从而能够快速求解得到运维数据的向量化表示结果，为智能运维机器人实时解决运维问题提供支持；对于基于传统鲸鱼优化算法的目标函数求解流程，将运维数据转换为词向量表示的平均时间为0.28s，而对于本方案所采用基于鲸鱼变异的鲸鱼优化算法的目标函数求解流程，将运维数据转换为词向量表示的平均时间为0.19s，因此本方案所采用算法能够能快实现词向量表示，提高运维问题解决的实时性。
[0054]
所述s3步骤中基于多种不同质量语料向量化表示融合的方法构建异质融合信息
网络，包括：
[0055]
构建异质融合信息网络g＝(e,r)，其中e表示异质融合信息网络中的实体集，所述实体集中的实体包括运维问题向量以及运维解决方案向量，其中运维问题向量包括短语形式的运维问题向量以及句子形式的运维问题向量，在本发明一个具体实施例中，若运维问题向量的向量长度小于5，则认为该运维问题向量为短语形式的运维问题向量，否则认为该运维问题向量为句子形式的运维问题向量，r表示实体集中的不同实体的路径关系，若实体集中存在运维解决方案向量可以解决对应运维问题向量，则两者形成一条关联路径，在本发明一个具体实施例中，实体集中存在的关联路径为v
e1-ge，v
e2-g
′e，其中v
e1
为短语形式的运维问题向量，ge为v
e1
的运维解决方案向量，v
e2
为句子形式的运维问题向量，g
′e为v
e2
的运维解决方案向量；
[0056]
所述任意运维问题向量与多种运维解决方案向量存在关联路径，则与任意运维问题向量ve存在关联路径的运维解决方案向量集合为{g
1-e
,g
2-e
,
…
,g
z-e
}，其中g
z-e
为第z种可以解决运维问题向量ve的运维解决方案向量，z表示解决运维问题向量ve的解决方案向量总数，每种解决方案来自于不同质量的语料库，且每种解决方案可以解决多种运维问题，即任意运维解决方案向量可能与多种运维问题向量存在关联路径；
[0057]
所述异质融合信息网络的构建流程为：
[0058]
1)对于复合通道模型输出的语料质量不同的运维数据向量化表示，将不同语料质量的运维数据向量化表示构成数据集，所述数据集为：
[0059]
data＝{(q1,λ
1,1
,λ
1,2
,
…
,λ
1,b
),(q2,λ
2,1
,
…
),
…
,(qm,λ
m,1
,
…
)}
[0060]
其中：
[0061]
qm为第m组运维数据的运维问题向量，在本发明一个具体实施例中，每组运维数据包括一个运维问题向量以及对应的多种运维解决方案向量，每种运维解决方案向量可以同时存在不同组的运维数据中；
[0062]
(q1,λ
1,1
,λ
1,2
,
…
,λ
1,b
)为一组运维数据，λ
1,b
为来自第b个语料库的运维解决方案向量，其中每个解决方案可以对应多个运维问题向量；
[0063]
2)将数据集中的运维问题向量以及解决方案向量作为异质融合信息网络中的实体，并对存在路径关系的两个实体添加关联路径；
[0064]
3)构建语料质量评价模型，将来自任意语料库的运维解决方案向量λb输入到语料质量评价模型中，模型输出对运维解决方案向量λb的语料质量评价结果，所述语料质量评价模型为：
[0065][0066][0067]
其中：
[0068]
w(λb)为解决方案向量λb的语料质量评价结果，w(λb)的值越高，表示语料质量评价结果越高；
[0069]
表示解决方案向量λb的第i个编码，|λb|表示解决方案向量的向量长度；
[0070]
dict(λb)＝{0,1}，dict(λb)＝1表示所预构建的运维解决词典中存在向量λb，dict(λb)＝0表示所预构建的运维解决词典中不存在向量λb；
[0071]
表示语料库b中向量串出现的次数，numb表示语料库b中解决方案的总数；
[0072]
4)对于异质融合信息网络中的任意运维问题向量q1，计算与q1存在关联路径的来自不同质量语料库的解决方案向量语料质量评价结果{w(λ
1,1
),w(λ
1,2
),
…
,w(λ
1,b
)}，其中语料质量评价结果越高的解决方案向量，与q1的关联路径越短。
[0073]
在运维实际环境下，存在短语类型的运维实体问题和句子类型的运维实体问题，两种问题的语义表示不同，传统信息网络只能有一种实体节点和一种实体关系，无法表示出短语类型运维实体和句子类型运维实体与解决方案的对应关系，因为本方案建立了异质信息网络，以实现多种类型的实体节点和实体关系，表示更为丰富的语义信息；鉴于现有的智能运维机器人在运维过程中过于依赖语料数据质量，语料数据质量高则进行运维时更加准确，否则容易出现较大错误，但是不同语料的质量存在较大差异，现有研究缺乏评估语料质量的方法，因此本方案选择融合来自不同质量语料库的解决方案，构建语料质量评价模型对解决方案进行评价，评价结果越高，则更容易作为最优解决方案，降低了所构建运维机器人对高质量语料数据的依赖，避免了错误使用低质量语料数据量导致运维准确性下降的问题。
[0074]
所述s4步骤中将待处理的运维问题向量输入到所构建的异质融合信息网络中，对待处理运维问题向量进行基于关联路径的相似性度量，包括：
[0075]
利用余弦相似度算法对待处理的运维问题向量与异质融合信息网络中的运维问题向量进行相似性度量，将异质融合信息网络中相似性度量结果最高的运维问题向量作为待解决运维实体，并提取待解决运维实体的关联路径[r0,r1,r2,
…
,rq]，其中r0为待解决运维实体，[r1,r2,
…
,rq]为与r0存在关联路径的q组解决方案，则q组解决方案中，任意解决方案rq与待解决运维实体r0在异质融合信息网络的相似性度量公式为：
[0076]
sim(r0,rq)＝distance(r0,rq)
[0077]
其中：
[0078]
distance(r0,rq)表示在异质融合信息网络中，任意解决方案rq与待解决运维实体r0的关联路径距离；
[0079]
选取相似性度量最高的解决方案作为待解决运维问题的最优解决方案。
[0080]
此外，本发明还提供一种智能运维机器人构建装置，其特征在于，所述装置包括：
[0081]
运维实体接收构建装置，用于构建运维机器人的运维实体接收装置，运维实体接收装置接收待解决的运维问题；
[0082]
运维问题向量构建装置，用于构建运维机器人的中文分词算法，对运维实体进行中文分词，并构建运维机器人的复合通道模型，将中文分词结果向量化表示为运维实体向量；
[0083]
异质融合信息网络构建装置，用于建立基于运维关系的异质融合信息网络，将运维问题的向量化表示作为异质融合信息网络输入，信息网络输出最优运维解决方案。
[0084]
相对于现有技术，本发明提出一种基于异质信息融合的智能运维机器人构建方法，该技术具有以下优势：
[0085]
首先，本方案提出一种用于向量化表示的复合通道模型，所述复合通道模型的输入为中文分词后的运维数据[w1,w2,
…
,w
i-1
,wi,w
i 1
,
…
,wn]，输出为复合通道模型对应运维数据的向量化表示结果其中为词wi的词向量结果，wi为运维数据中的第i个词，n为运维数据的分词词数，所述运维数据包括运维问题以及运维解决方案，运维问题包括系统故障问题、业务问题、版本测试问题以及业务分析问题，运维解决方案为对应运维问题的解决方案，所述复合通道模型包括中文字形特征通道以及上下文特征通道，其中中文字形特征通道提取了运维实体中目标词的部首特征，上下文特征通道提取了运维实体中目标词的上下文特征；相较于传统方案仅依据上下文特征构建词向量，本方案通过分别提取词的上下文特征以及部首特征，依据上下文外部信息以及部首的内部信息对词进行向量化表示，得到蕴含信息更为丰富的向量化表示结果，降低了用于构建智能运维机器人词向量表示模型的语料库质量要求。所述基于中文字形特征和上下文特征构建复合通道模型的目标函数为：
[0086][0087][0088][0089][0090]
其中：为目标词wi的向量化表示结果；t为转置；d为用于构建复合通道模型的语料库；l(wi)为目标词向量化表示的目标函数，所述目标函数旨在使得目标词上下文向量的条件概率的似然函数最大；为上下文特征通道提取的上下文向量化表示均值；为中文字形特征通道提取的部首特征，为目标词的部首向量，为目标词部首向量长度；a表示对目标词进行向量化表示的不确定场景，a∈a，a为不确定场景空间，通过对输入目标词进行编码格式等不确定场景的调整，对模型进行鲁棒优化，使得模型对同一目标词的不同场景所输出的词向量结果类似，以增强模型的鲁棒性；pa为不确定场景a的发生概率，将其设置为语料库d中不确定场景a的发生概率；la(wi)表示在不确定场景a发生时，目标词wi进行向量化表示的目标函数值。
[0091]
同时，本方案提出一种改进的鲸鱼优化算法对鲁棒优化目标函数进行求解，所述目标函数的求解结果为输入模型运维数据的向量化表示结果，其中运维数据的向量化表示结果包括运维问题向量以及运维解决方案向量，所述基于改进鲸鱼优化算法的目标函数求解流程为：1)设置算法的最大迭代次数为max，随机初始化大小为n的鲸鱼种群，其中第i只鲸鱼的位置坐标为xi，xi的维度数为n，n为模型所输入运维数据的分词词数，每只鲸鱼的位置坐标即对应一种向量化表示结果；2)设置算法的当前迭代次数为u，u的初始值为0，则第i
只鲸鱼在第u 1次迭代时的位置更新为：
[0092]
xi(u 1)＝x
*
(u)-[(2
×
random1γ-γ)
×
|2
×
random2x
*
(u)-xi(u)|]
[0093]
γ＝2-(u 1)/max
[0094]
其中：γ为收敛因子；xi(u)＝(xi(u),yi(u))为第u次迭代时，第i只鲸鱼的位置坐标；random1,random2分别为[0,1]区间的随机数；x
*
(u)为第u次迭代过程中，将所有鲸鱼位置坐标所对应的词向量设置在目标函数f中，使得目标函数f最小的最优鲸鱼位置坐标；重复该步骤，直到更新完成n只鲸鱼的位置坐标，计算得到第u 1次迭代的最优鲸鱼位置坐标x
*
(u 1)；3)为xi(u 1)生成随机数rand，若生成随机数满足下述条件，则对xi(u 1)进行变异处理：
[0095][0096]
其中：rate
max
为所设置的最大变异率，rate
min
为所设置的最小变异率；所述xi(u 1)的变异结果为：
[0097]
xi(u 1)
′
＝x
*
(u 1) rand[|x1(u 1)-x2(u 1)|]
[0098]
其中：x1(u 1),x2(u 1)为第u 1次迭代过程中的随机鲸鱼位置坐标，x1(u 1)≠x2(u 1)；重复该步骤，直到遍历完成所有鲸鱼的位置坐标，并更新第u 1次迭代后的最优鲸鱼位置坐标；4)判断u 1是否等于预设定的最大迭代次数max，若u 1＝max则终止迭代算法，输出最优鲸鱼位置坐标为运维数据的向量化表示结果；否则令u＝u 1，返回步骤2)执行算法迭代。本方案通过采用基于鲸鱼变异的鲸鱼优化算法对目标函数进行求解，提高了鲸鱼优化算法的全局搜索性，避免了传统鲸鱼优化算法收敛速度慢、容易陷入局部最优的问题，从而能够快速求解得到运维数据的向量化表示结果，为智能运维机器人实时解决运维问题提供支持。
[0099]
最后，本方案提出一种异质融合信息网络，所构建异质融合信息网络g＝(e,r)，其中e表示异质融合信息网络中的实体集，所述实体集中的实体包括运维问题向量以及运维解决方案向量，其中运维问题向量包括短语形式的运维问题向量以及句子形式的运维问题向量，若运维问题向量的向量长度小于5，则认为该运维问题向量为短语形式的运维问题向量，否则认为该运维问题向量为句子形式的运维问题向量，r表示实体集中的不同实体的路径关系，若实体集中存在运维解决方案向量可以解决对应运维问题向量，则两者形成一条关联路径；所述任意运维问题向量与多种运维解决方案向量存在关联路径，则与任意运维问题向量ve存在关联路径的运维解决方案向量集合为{g
1-e
,g
2-e
,
…
,g
z-e
}，其中g
z-e
为第z种可以解决运维问题向量ve的运维解决方案向量，z表示解决运维问题向量ve的解决方案向量总数，每种解决方案来自于不同质量的语料库，且每种解决方案可以解决多种运维问题，即任意运维解决方案向量可能与多种运维问题向量存在关联路径；所述异质融合信息网络的构建流程为：1)对于复合通道模型输出的语料质量不同的运维数据向量化表示，将不同语料质量的运维数据向量化表示构成数据集，所述数据集为：
[0100]
data＝{(q1,λ
1,1
,λ
1,2
,
…
,λ
1,b
),(q2,λ
2,1
,
…
),
…
,(qm,λ
m,1
,
…
)}
[0101]
其中：qm为第m组运维数据的运维问题向量；(q1,λ
1,1
,λ
1,2
,
…
,λ
1,b
)为一组运维数据，λ
1,b
为来自第b个语料库的运维解决方案向量，其中每个解决方案可以对应多个运维问题向量；2)将数据集中的运维问题向量以及解决方案向量作为异质融合信息网络中的实
体，并对存在路径关系的两个实体添加关联路径；3)构建语料质量评价模型，将来自任意语料库的运维解决方案向量λb输入到语料质量评价模型中，模型输出对运维解决方案向量λb的语料质量评价结果，所述语料质量评价模型为：
[0102][0103][0104]
其中：w(λb)为解决方案向量λb的语料质量评价结果，w(λb)的值越高，表示语料质量评价结果越高；表示解决方案向量λb的第i个编码，|λb|表示解决方案向量的向量长度；dict(λb)＝{0,1}，dict(λb)＝1表示所预构建的运维解决词典中存在向量λb，dict(λb)＝0表示所预构建的运维解决词典中不存在向量λb；表示语料库b中向量串出现的次数，numb表示语料库b中解决方案的总数；4)对于异质融合信息网络中的任意运维问题向量q1，计算与q1存在关联路径的来自不同质量语料库的解决方案向量语料质量评价结果{w(λ
1,1
),w(λ
1,2
),
…
,w(λ
1,b
)}，其中语料质量评价结果越高的解决方案向量，与q1的关联路径越短。在运维实际环境下，存在短语类型的运维实体问题和句子类型的运维实体问题，两种问题的语义表示不同，传统信息网络只能有一种实体节点和一种实体关系，无法表示出短语类型运维实体和句子类型运维实体与解决方案的对应关系，因为本方案建立了异质信息网络，以实现多种类型的实体节点和实体关系，表示更为丰富的语义信息；鉴于现有的智能运维机器人在运维过程中过于依赖语料数据质量，语料数据质量高则进行运维时更加准确，否则容易出现较大错误，但是不同语料的质量存在较大差异，现有研究缺乏评估语料质量的方法，因此本方案选择融合来自不同质量语料库的解决方案，构建语料质量评价模型对解决方案进行评价，评价结果越高，则更容易作为最优解决方案，降低了所构建运维机器人对高质量语料数据的依赖，避免了错误使用低质量语料数据量导致运维准确性下降的问题。
附图说明
[0105]
图1为本发明一实施例提供的一种基于异质信息融合的智能运维机器人构建方法的流程示意图；
[0106]
图2为本发明一实施例提供的一种智能运维机器人构建装置的结构示意图；
[0107]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0108]
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0109]
s1：基于中文字形特征和上下文特征构建复合通道模型的目标函数，所构建复合通道模型分别提取词的上下文特征以及部首特征，依据上下文外部信息以及部首的内部信息对词进行向量化表示，得到蕴含特征信息更为丰富的词向量。
[0110]
所述s1步骤中所构建的复合通道模型为：
[0111]
所述复合通道模型的输入为中文分词后的运维数据[w1,w2,
…
,w
i-1
,wi,w
i 1
,
…
,
wn]，输出为复合通道模型对应运维数据的向量化表示结果其中为词wi的词向量结果，wi为运维数据中的第i个词，n为运维数据的分词词数，所述运维数据包括运维问题以及运维解决方案，运维问题包括系统故障问题、业务问题、版本测试问题以及业务分析问题，运维解决方案为对应运维问题的解决方案，所述复合通道模型包括中文字形特征通道以及上下文特征通道，其中中文字形特征通道提取了运维实体中目标词的部首特征，上下文特征通道提取了运维实体中目标词的上下文特征；通过分别提取词的上下文特征以及部首特征，依据上下文外部信息以及部首的内部信息对词进行向量化表示，得到蕴含信息更为丰富的向量化表示结果。
[0112]
所述s1步骤中基于中文字形特征和上下文特征构建复合通道模型的目标函数，包括：
[0113]
所述基于中文字形特征和上下文特征构建复合通道模型的目标函数为：
[0114][0115][0116][0117][0118]
其中：
[0119]
为目标词wi的向量化表示结果；
[0120]
t为转置；
[0121]
d为用于构建复合通道模型的语料库；
[0122]
l(wi)为目标词向量化表示的目标函数，所述目标函数旨在使得目标词上下文向量的条件概率的似然函数最大；
[0123]
为上下文特征通道提取的上下文向量化表示均值；
[0124]
为中文字形特征通道提取的部首特征，为目标词的部首向量，为目标词部首向量长度；
[0125]
a表示对目标词进行向量化表示的不确定场景，a∈a，a为不确定场景空间，在本发明一个具体实施例中，所述不确定场景包括目标词的编码格式、字体大小以及文本格式等，例如对于采用不同编码格式的同一目标词，如ascii，unicode，gbk，utf-8编码格式，采用不同字体大小的同一目标词，采用不同文本格式的同一目标词，如全角格式或半角格式，目标词可能出现的特殊编码格式、字体大小以及文本格式即为目标词的不确定场景，通过对输入目标词进行编码格式等不确定场景的调整，对模型进行鲁棒优化，使得模型对同一目标词的不同场景所输出的词向量结果类似，以增强模型的鲁棒性；
[0126]
pa为不确定场景a的发生概率，将其设置为语料库d中不确定场景a的发生概率；
[0127]
la(wi)表示在不确定场景a发生时，目标词wi进行向量化表示的目标函数值。
[0128]
s2：对来自不同质量语料的运维数据进行分词处理，将分词结果输入到所构建的复合通道模型中，利用改进的鲸鱼优化算法对目标函数进行快速优化求解，求解得到运维数据的向量化表示，其中运维数据包括运维问题以及运维解决方案。
[0129]
所述s2步骤中对来自不同质量语料的运维数据进行分词处理，包括：
[0130]
从不同质量的语料库中获取运维数据，利用中文分词算法对不同语料质量的运维数据进行分词处理，所述中文分词处理流程为：
[0131]
构建运维实体分词词典，从左向右取待分词运维数据的m个字作为匹配字段，其中m为所构建词典中的最长词的长度，对匹配字段进行查找词典完成匹配，若匹配成功，则将该匹配字段作为一个词从运维实体中切分出去，若匹配不成功，则将该匹配字段最后一个字去掉，剩下的字作为新匹配字段，进行再次匹配；重复上述步骤，直到切分完成运维数据中的所有词。
[0132]
所述s2步骤中利用改进的鲸鱼优化算法对目标函数进行快速优化求解，包括：
[0133]
将分词后的运维数据输入到复合通道模型中，利用改进的鲸鱼优化算法对目标函数进行求解，所述目标函数的求解结果为输入模型运维数据的向量化表示结果，其中运维数据的向量化表示结果包括运维问题向量以及运维解决方案向量，所述基于改进鲸鱼优化算法的目标函数求解流程为：
[0134]
1)设置算法的最大迭代次数为max，随机初始化大小为n的鲸鱼种群，其中第i只鲸鱼的位置坐标为xi，xi的维度数为n，n为模型所输入运维数据的分词词数，每只鲸鱼的位置坐标即对应一种向量化表示结果；
[0135]
2)设置算法的当前迭代次数为u，u的初始值为0，则第i只鲸鱼在第u 1次迭代时的位置更新为：
[0136]
xi(u 1)＝x
*
(u)-[(2
×
random1γ-γ)
×
|2
×
random2x
*
(u)-xi(u)|]
[0137]
γ＝2-(u 1)/max
[0138]
其中：
[0139]
γ为收敛因子；
[0140]
xi(u)＝(xi(u),yi(u))为第u次迭代时，第i只鲸鱼的位置坐标；
[0141]
random1,random2分别为[0,1]区间的随机数；
[0142]
x
*
(u)为第u次迭代过程中，将所有鲸鱼位置坐标所对应的词向量设置在目标函数f中，使得目标函数f最小的最优鲸鱼位置坐标；
[0143]
重复该步骤，直到更新完成n只鲸鱼的位置坐标，计算得到第u 1次迭代的最优鲸鱼位置坐标x
*
(u 1)；
[0144]
3)为xi(u 1)生成随机数rand，若生成随机数满足下述条件，则对xi(u 1)进行变异处理：
[0145][0146]
其中：
[0147]
rate
max
为所设置的最大变异率，rate
min
为所设置的最小变异率，在本发明一个具体实施例中，将rate
max
设置为0.9，将rate
min
设置为0.1；
[0148]
所述xi(u 1)的变异结果为：
[0149]
xi(u 1)
′
＝x
*
(u 1) rand[|x1(u 1)-x2(u 1)|]
[0150]
其中：
[0151]
x1(u 1),x2(u 1)为第u 1次迭代过程中的随机鲸鱼位置坐标，x1(u 1)≠x2(u 1)；
[0152]
重复该步骤，直到遍历完成所有鲸鱼的位置坐标，并更新第u 1次迭代后的最优鲸鱼位置坐标；
[0153]
4)判断u 1是否等于预设定的最大迭代次数max，若u 1＝max则终止迭代算法，输出最优鲸鱼位置坐标为运维数据的向量化表示结果；否则令u＝u 1，返回步骤2)执行算法迭代。本方案通过采用基于鲸鱼变异的鲸鱼优化算法对目标函数进行求解，提高了鲸鱼优化算法的全局搜索性，避免了传统鲸鱼优化算法收敛速度慢、容易陷入局部最优的问题，从而能够快速求解得到运维数据的向量化表示结果，为智能运维机器人实时解决运维问题提供支持。
[0154]
s3：根据求解得到的运维数据向量化表示，基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络，所构建异质融合信息网络的实体节点包括运维问题向量以及运维解决方案向量，通过对来自不同质量语料库的运维解决方案向量进行质量评价，质量评价越高的解决方案向量在异质融合信息网络中与对应运维问题向量的关联路径越短。
[0155]
所述s3步骤中基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络，包括：
[0156]
构建异质融合信息网络g＝(e,r)，其中e表示异质融合信息网络中的实体集，所述实体集中的实体包括运维问题向量以及运维解决方案向量，其中运维问题向量包括短语形式的运维问题向量以及句子形式的运维问题向量，在本发明一个具体实施例中，若运维问题向量的向量长度小于5，则认为该运维问题向量为短语形式的运维问题向量，否则认为该运维问题向量为句子形式的运维问题向量，r表示实体集中的不同实体的路径关系，若实体集中存在运维解决方案向量可以解决对应运维问题向量，则两者形成一条关联路径，在本发明一个具体实施例中，实体集中存在的关联路径为v
e1-ge，v
e2-g
′e，其中v
e1
为短语形式的运维问题向量，ge为v
e1
的运维解决方案向量，v
e2
为句子形式的运维问题向量，g
′e为v
e2
的运维解决方案向量；
[0157]
所述任意运维问题向量与多种运维解决方案向量存在关联路径，则与任意运维问题向量ve存在关联路径的运维解决方案向量集合为{g
1-e
,g
2-e
,
…
,g
z-e
}，其中g
z-e
为第z种可以解决运维问题向量ve的运维解决方案向量，z表示解决运维问题向量ve的解决方案向量总数，每种解决方案来自于不同质量的语料库，且每种解决方案可以解决多种运维问题，即任意运维解决方案向量可能与多种运维问题向量存在关联路径；
[0158]
所述异质融合信息网络的构建流程为：
[0159]
1)对于复合通道模型输出的语料质量不同的运维数据向量化表示，将不同语料质量的运维数据向量化表示构成数据集，所述数据集为：
[0160]
data＝{(q1,λ
1,1
,λ
1,2
,
…
,λ
1,b
),(q2,λ
2,1
,
…
),
…
,(qm,λ
m,1
,
…
)}
[0161]
其中：
[0162]
qm为第m组运维数据的运维问题向量，在本发明一个具体实施例中，每组运维数据包括一个运维问题向量以及对应的多种运维解决方案向量，每种运维解决方案向量可以同
时存在不同组的运维数据中；
[0163]
(q1,λ
1,1
,λ
1,2
,
…
,λ
1,b
)为一组运维数据，λ
1,b
为来自第b个语料库的运维解决方案向量，其中每个解决方案可以对应多个运维问题向量；
[0164]
2)将数据集中的运维问题向量以及解决方案向量作为异质融合信息网络中的实体，并对存在路径关系的两个实体添加关联路径；
[0165]
3)构建语料质量评价模型，将来自任意语料库的运维解决方案向量λb输入到语料质量评价模型中，模型输出对运维解决方案向量λb的语料质量评价结果，所述语料质量评价模型为：
[0166][0167][0168]
其中：
[0169]
w(λb)为解决方案向量λb的语料质量评价结果，w(λb)的值越高，表示语料质量评价结果越高；
[0170]
表示解决方案向量λb的第i个编码，|λb|表示解决方案向量的向量长度；
[0171]
dict(λb)＝{0,1}，dict(λb)＝1表示所预构建的运维解决词典中存在向量λb，dict(λb)＝0表示所预构建的运维解决词典中不存在向量λb；
[0172]
表示语料库b中向量串出现的次数，numb表示语料库b中解决方案的总数；
[0173]
4)对于异质融合信息网络中的任意运维问题向量q1，计算与q1存在关联路径的来自不同质量语料库的解决方案向量语料质量评价结果{w(λ
1,1
),w(λ
1,2
),
…
,w(λ
1,b
)}，其中语料质量评价结果越高的解决方案向量，与q1的关联路径越短。
[0174]
s4：将待处理的运维问题向量输入到所构建的异质融合信息网络中，对待处理运维问题向量进行基于关联路径的相似性度量，相似性度量结果最高的运维解决方案向量即为语料质量最优的运维解决方案。
[0175]
所述s4步骤中将待处理的运维问题向量输入到所构建的异质融合信息网络中，对待处理运维问题向量进行基于关联路径的相似性度量，包括：
[0176]
利用余弦相似度算法对待处理的运维问题向量与异质融合信息网络中的运维问题向量进行相似性度量，将异质融合信息网络中相似性度量结果最高的运维问题向量作为待解决运维实体，并提取待解决运维实体的关联路径[r0,r1,r2,
…
,rq]，其中r0为待解决运维实体，[r1,r2,
…
,rq]为与r0存在关联路径的q组解决方案，则q组解决方案中，任意解决方案rq与待解决运维实体r0在异质融合信息网络的相似性度量公式为：
[0177]
sim(r0,rq)＝distance(r0,rq)
[0178]
其中：
[0179]
distance(r0,rq)表示在异质融合信息网络中，任意解决方案rq与待解决运维实体r0的关联路径距离；
[0180]
选取相似性度量最高的解决方案作为待解决运维问题的最优解决方案。
[0181]
需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0182]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0183]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于异质信息融合的智能运维机器人构建方法及装置与流程

相关文献

最热文献