一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向电力变压器知识检索和问答的语义匹配方法及系统与流程

2022-02-21 07:58:09 来源:中国专利 TAG:


1.本发明涉及面向电力变压器知识检索和问答的语义匹配方法及系统,属于电力变压器设备技术领域。


背景技术:

2.在设备运检中存在大量的知识,如设备检修标准、导则、设备故障案例等,这些知识主要服务电力基层实际业务,从基层巡视、消缺、试验、检修等基础作业的角度出发,这些电力知识是基层运检人员在业务执行中频繁出现、重点关心的,目前对这些共性知识的应用形式以关键字检索为主,基于知识的搜索和问答等知识应用尚处于探索阶段。
3.进一步,电力企业围绕着变压器设备构建了垂直性的知识图谱,图谱包含了变压器相关的各类知识点,包括变压器台账、变压器故障、检测标准等,比如#1主变就是一个实体知识,该实体有各种属性值,比如电压等级,同时也有一些关系,比如所属电站,该关系指向一个变电站。
4.电力公司基层运检人员在开展日常的设备运维巡检工作时,需要对上述知识点进行灵活的检索,检索的形式包括检索引擎及问答机器人,但在进行检索/问答的过程中面临着以下挑战,包括:
5.1)查询形式不规范,存在口语化、简称、缩写等特点
6.一线员工在使用搜索和问答机器人时,输入的形式呈现出口语化、存在大量简称、近似名称的特点,比如查询某变电站1号变压器,输入形式包括了某变电站1号变、某站1号主变压器、某电站1#变、某变电站1号变等以及“图们220kv变电站”简称“图们站”等简称。
7.2)存在大量的近似问法
8.比如,查询某个变压器的生产厂家的情况存在很多近似性的问法,比如“某变电站1号变压器生产厂家”、“某变电站1号变压器是哪里生产的?”、“哪家厂子生产的某变电站1号变?”、“哪个厂子制造的某变电站1号变”等。
9.3)变压器问答语料较少
10.电力变压器问答属于很细分的垂直性领域,该领域公开的语料数据较少,属于小样本数据空间。
11.由于存在上述诸多问题,导致现有的面向电力变压器知识检索和问答的语义匹配方法,很难准确识别基层运检人员检索/问答语义,影响基层运检人员的运检效率。


技术实现要素:

12.针对现有技术的缺陷,本发明的目的在于提供一种基于小样本变压器问句模板的语料增强模型,并结合变压器知识图谱以及近义词库,实现变压器语料文本的增强以及数据增强;利用变压器语料数据以及人工神经网络技术,训练形成一体化识别模型;再通过一体化识别模型在语料基础上实现对用户查询意图和槽位的联合识别,进而能准确识别用户检索/问答语义,有效提高用户的运检效率的面向电力变压器知识检索和问答的语义匹配
方法以及系统。
13.为实现上述目的,本发明的技术方案为:
14.一种面向电力变压器知识检索和问答的语义匹配方法,
15.第一步,构建基于变压器的知识图谱kg;
16.第二步,根据第一步中的知识图谱kg以及近义词库,并利用小样本变压器问句模板,建立语料增强模型,快速构建变压器语料数据;
17.第三步,针对第二步中的变压器语料数据,利用人工神经网络技术,训练形成一体化识别模型;
18.所述一体化识别模型,利用双向长短期记忆网络bilstm以及注意力机制attention,对变压器问答意图进行判断,根据问答意图对输入语句的槽位进行有效识别;
19.并将识别出的槽位信息与第一步中的知识图谱kg的变压器进行链接,形成有效识别系统;
20.第四步,利用第三步中的一体化识别模型,对用户输入的检索或/和问答语句的语义进行有效匹配。
21.本发明经过不断探索以及试验,构建基于小样本变压器问句模板的语料增强模型,并结合变压器知识图谱以及近义词库,实现变压器语料文本的增强以及数据增强;然后利用变压器语料数据以及人工神经网络技术,训练形成一体化识别模型;再通过一体化识别模型在语料基础上实现对用户查询意图和槽位的联合识别,进而能准确识别用户检索/问答语义,有效提高用户的运检效率,特别适合应用在电力变压器知识检索和问答上。
22.作为优选技术措施:
23.所述第一步中的知识图谱为基于图的数据结构,采用三元组rdf的形式描述变压器的属性值、变压器与变压器的关系,其包括若干节点(point)和边(edge);
24.所述节点,用于表示某一变压器的各种属性值;
25.所述边,用于表示变压器与变压器之间的关系;
26.所述属性值包括变压器台账、变压器故障、检测标准。
27.作为优选技术措施:
28.所述第二步中的小样本变压器问句模板为基于槽位的问句模板,用于表达用户输入的语义,其包括用户输入的语句及对该语句的语义标注构成;
29.语料增强模型的构建方法如下:
30.利用深度学习方法,训练问答相关数据,进行小样本数据增强,并通过大量的专业性增强数据集合通用性的词库,增加小样本中的语料数据数量。
31.作为优选技术措施:
32.所述第三步中的注意力机制attention,通过快速扫描用户输入的检索或/和问答语句的语义,获得需要重点关注的目标区域,即注意力焦点;
33.然后对注意力焦点投入更多的注意力资源,以获得更多所需要关注的目标的细节信息,并抑制其它无用信息;
34.基于注意力机制,可以提升基于rnn(长短期神经网络lstm或gru)的encoder decoder模型的效果。
35.一体化识别模型,包括问题输入层、语义分析匹配层、查询检索层、答案显示层;
36.其前一层的输出作为后一层的输入;
37.所述问题输入层,用于接收用户输入,并对用户输入的语句进行分词,提取语句词汇;
38.针对用户输入呈现出模糊性、口语化、简写、同一问题存在各种近义表述、多次交互输入的问题;利用中文分词器jieba对输入语句进行切分,切词的策略是最长词汇策略,并去除掉停用词和无意义的词汇;
39.用户输入呈现出模糊性、口语化、简写、同一问题存在各种近义表述、多次交互输入等问题;例如,用户要查询“长春站1号主变生产厂家是哪里?”,该问题也可能输入为“长春220kv变电站1号主变压器生产厂家是哪家”、“哪家厂子制造的长春站1号变”等近义问句;
40.本发明基于中文分词器jieba对输入语句进行切分,切词策略是最长词汇策略,并去除掉停用词和无意义的词汇,比如“哪家厂子制造的长春站1号变”这句话中,需要去除“的”等无意义的词汇;
41.所述语义分析匹配层,用于对问题输入层传递的语句进行语义分析;
42.利用双向长短期记忆网络bilstm以及注意力机制attention,对输入语句语义的分析匹配;其具体包括以下步骤:
43.s1,对分词器形成的词汇用向量表示,并基于预训练模型bert计算每个词汇的词向量;
44.s2,通过双向长短期记忆网络bilstm以及注意力机制attention对s1中词向量的特征进行编码;
45.s3,将s2中编码后的词向量输入到语义意图分类器与语义槽位分类器中,通过变压器链接操作,输出查询的标准变压器名称或/和属性名称或/和关系名称信息;
46.查询检索层,用于根据意图识别与槽位提取层传递的概念、变压器、属性,构建查询子图;并将查询转换为搜索引擎(elasticsearch,es)查询语句,返回潜在的三元组或者答案q/a;
47.以上面的“长春站1号主变是哪家厂子制造的”这个列子为例,经过意图识别模型和槽位识别模型识别后;基于“长春220kv变电站

1号主变压器

生产厂家”先根据“长春220kv变电站

1号主变压器”按照如下es查询语句,可获得1号主变压器的详细信息;
48.答案显示层,用于根据答案的不同进行不同的展示,答案的类型分为集合类型查询、变压器类型查询、变压器属性查询三类。
49.作为优选技术措施:
50.所述语义分析匹配层包括词向量层、双向长短期神经网络bilstm编码层、注意力层、意图与槽位联合识别层;
51.词向量层为基于预训练模型bert表示词汇的向量,用于将文字转换成能计算的词向量模型;
52.通过词向量模型,将每个单词从一维空间转换为嵌入数字的具有连续向量的多维空间;
53.优选的,利用预训练模型bert对用户输入的词汇进行计算,计算词汇的向量表示,计算出的词向量的维度是204;
54.双向长短期记忆网络bilstm编码层由方向不同的两层长短期神经网络lstm的叠加而成;
55.每层的长短期神经网络lstm包括一组具有链状结构的人工神经网络单元;
56.注意力层,用于确定用户输入的关键特征,即计算出局部特征向量;
57.意图和槽位联合识别层,用于对基于注意力算出的词向量特征进行解码,对其进行分类,其包括意图分类模型与槽位分类模型;
58.采用的每层长短期神经网络lstm网络单元的数量是300个。
59.作为优选技术措施:
60.长短期神经网络lstm包括至少一个元胞状态组件、遗忘门、记忆门、输出门,通过元胞状态组件、遗忘门、记忆门、输出门的交互,实现对序列数据的长距离信息处理;
61.所述元胞状态组件为数据链,用于承载信息,并使得信息能不改变的传输;
62.所述遗忘门通过遗忘因子f
t
决定从元胞状态中遗忘或舍弃掉的信息;
63.遗忘因子f
t
的计算公式如下所示:
64.f
t
=σ(wf·
[h
t-1
,x
t
] bf)
[0065]
在上式中,w是权重矩阵,通过后续的模型训练计算而来,σ是一个激活函数,即ogistic函数,用于隐层神经元输出,取值范围为(0,1),它将一个实数映射到(0,1)的区间,用来做二分类;
[0066]
遗忘因子以h
t-1
和x
t
作为输入,通过σ神经网络进行计算,输出一个0-1之间的数字,1表示“完全保留该信息”,0表示“完全丢弃该信息”;
[0067]
元胞状态c
t-1
中的每一个元素,都会经过遗忘门进行判断,从而确定要保留和遗忘c
t-1
的哪个部分;例如,在自然语言模型中,想要通过一个词来预测下一个词,单元模块c
t-1
中包含的某个属性在下一个模块单元不需要,就可以将这个属性数据通过遗忘门丢弃;
[0068]
记忆门,用于决定将把哪些新信息存储到元胞状态中;
[0069]
记忆门计算方法如下:
[0070]
首先,利用一个σ神经网络层决定需要更新哪些信息,用i
t
进行表示;
[0071]it
的计算公式如下:
[0072]it
=σ(wi·
[h
t-1
,x
t
] bi)
[0073]
其中的wi是权重矩阵,是通过后续的数据训练可以计算出来的;
[0074]
其次,在函数tanh层创造了一个新的候选值,函数tanh是双曲函数中的一个;
[0075]
tanh()为双曲正切,函数过原点,产生的值的值域为(-1,1);
[0076]
函数tanh层产生的值被加入到元胞状态中,新的值用进行表示,输入是h
t-1
和x
t
,计算公式如下:
[0077][0078]
其中,wc是权重矩阵,通过训练可以得到,bc是线性偏移量。
[0079]
最后,在旧的细胞状态c
t-1
基础之上对其值进行更新,得到新的c
t
的值;
[0080]ct
的计算公式如下:
[0081][0082]
输出门,用于基于目前的元胞状态,加入一些过滤,输出想要输出的信息;
[0083]
输出门的计算公式如下:
[0084]
首先建立一个σ神经网络层的门,来决定将输出元胞的哪些部分,输出的信息用o
t
表示,o
t
的计算公式如下:
[0085]ot
=σ(wo·
[h
t-1
,x
t
] bo)
[0086]
其中,wo是权重矩阵,通过后续的训练计算出来,bo是线性偏移量。
[0087]
然后将元胞状态通过函数tanh激活处理之后,与o
t
相乘,然后输出想输出的部分h
t
,h
t
的计算公式如下:
[0088]ht
=o
t
×
tanh(c
t
)
[0089]
经过双向长短期记忆网络bilstm编码层编码后,实现对输入语句的全量特征的编码,输出全局特征向量;
[0090]
全局特征量包括当前词汇的文本值、词性、前1-50个词汇的文本值、词性、位置、后面50个词汇的文本值、词性、位置特征;
[0091]
然后将全局特征向量输入后,后续的注意力层进行局部关键特征提取。
[0092]
作为优选技术措施:
[0093]
注意力层的局部特征向量为c
t
,其计算方法如下:
[0094][0095][0096]eij
=v
at
tanh(wac
t-1
uahj);
[0097]
其中,t为双向长短期记忆网络bilstm层输出的向量序列个数,a
tj
为注意力层给所有的特征向量赋予的权重,e
ij
是输入和输出的关联能量,va是全局的特征向量,c
t-1
是注意力模型的上一时刻状态向量,hj为双向长短期记忆网络bilstm层输出的特征向量序列,ua为上一时刻特征向量的权值,wa为注意力机制上一时刻的权值。
[0098]
例如,查询语句“长春站1号主变生产厂家是哪里?”,“长春220kv变电站1号主变压器生产厂家是哪家”、“哪家厂子制造的长春站1号变”,尽管分词后的词汇不相同,但是三个句子的关键点都是“生产厂家”、“变压器”,这个关键点就是所谓的“注意力”,注意力层的作用在于形成局部特征向量。
[0099]
作为优选技术措施:
[0100]
意图和槽位联合识别层的两个分类模型基于softmax分类器生成;
[0101]
所述softmax分类器的计算公式如下:
[0102][0103]
其中zi为第i个节点的输出值,c为输出节点的个数,即分类的类别个数;
[0104]
意图分类模型,基于softmax分类器实现,用于确定用户意图的分类,其包括包括槽位分类模块、实体链接模块;
[0105]
槽位分类模块,用于表达自然语言语句的基本语义位置;
[0106]
槽位是nlp里面的一个基本概念,本发明基于槽位的思路,设计了基于槽位的问句模板,以表达用户输入的语义;比如“哪里的生产厂家制造的#1主变?”这个语句可以提取的槽位包括【生产厂家】、【制造】、【设备类型】这几个槽位;本发明通过对双向长短期记忆网络bilstm网络层的输出,基于softmax分类器完成输入数据到输出分类的拟合;
[0107]
实体链接模块,用于经过槽位分类模型,找出用户输入中存在的槽位,提取出槽位的信息,并通过文本相似度模型完成槽位信息与图谱库中变压器名称的对齐,即变压器链接,
[0108]
比如将“长春站”对齐到“长春220kv变电站”,“1号变”对齐到“1号主变压器”;本发明采用了基于余弦相似度的文本相似度模型解决变压器链接问题;
[0109]
文本相似度模型为基于余弦相似度的文本相似度模型;
[0110]
余弦相似度,即余弦距离,利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量;余弦值越接近1,就表明夹角越接近0度,表明两个向量越相似,即"余弦相似性";
[0111]
其向量夹角的余弦相似度计算公式如下:
[0112][0113]
其中,a、b分别短文本的句向量;
[0114]
a、b分别为n维向量,ai是a向量的第i个值,bi是b向量的第i个值;
[0115]
余弦相似度值的取值范围为[0,1],值越大相似度越高。
[0116]
本发明基于语言模型bert表示a与b两个短文本句子的句向量,向量的维度n为202维,通过计算a与b两个短文本的句向量的余弦相似度判断二者的相似化程度。
[0117]
作为优选技术措施:
[0118]
所述答案显示层,针对不同的分类,采用不同的显示策略;
[0119]
1)集合类型,其类型数据包括数字及集合;
[0120]
针对用户提问的是哪个集合类型的查询;
[0121]
比如“赤头青220kv变电站有哪些变压器”,则需要返回集合的数量及具体的集合数;
[0122]
2)变压器类型,其值为某个具体的变压器,显示变压器的详细属性;
[0123]
比如输入“赤头青220kv变电站#1主变生产厂家是哪里?”,则出来的是具体的变压器“达乌尔黄鼠有限责任公司”,并显示变压器的详细信息;
[0124]
3)变压器属性值类型,其值为具体的某个变压器的名称或者变压器的属性值;
[0125]
比如用户提问“赤头青220kv变电站#1主变电压等级”,则返回的值是#1主变这个变压器的电压等级属性的值。
[0126]
作为优选技术措施:
[0127]
一种面向电力变压器知识检索和问答的语义匹配系统,包括:
[0128]
一个或多个处理器;
[0129]
存储装置,用于存储一个或多个程序;
[0130]
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述的一种面向电力变压器知识检索和问答的语义匹配方法。
[0131]
本发明基于小样本变压器问句模板的语料增强方法,能快速构建变压器语料数据,并针对语料数据应用人工神经网络技术,对用户输入语句进行语义意图和语义槽位的联合识别,实体进行链接。
[0132]
本发明方案详尽,切实可行,便于应用,易于实现,具有重要的工程实践意义,能准确识别基层运检人员检索/问答语义,有效提高基层运检人员的检索/问答效率以及运检效率。
[0133]
与现有技术相比,本发明具有以下有益效果:
[0134]
本发明经过不断探索以及试验,构建基于小样本变压器问句模板的语料增强模型,并结合变压器知识图谱以及近义词库,实现变压器语料文本的增强以及数据增强;然后利用变压器语料数据以及人工神经网络技术,训练形成一体化识别模型;再通过一体化识别模型在语料基础上实现对用户查询意图和槽位的联合识别,进而能准确识别用户检索/问答语义,有效提高用户的运检效率,特别适合应用在电力变压器知识检索和问答上。
[0135]
进一步,本发明方案详尽,切实可行,便于应用,易于实现,具有重要的工程实践意义,有效提高基层运检人员的检索/问答效率以及运检效率。
附图说明
[0136]
图1为本发明用户输入的语义解析匹配过程示图;
[0137]
图2为本发明长短期神经网络lstm网络单元结构示图;
[0138]
图3为本发明长短期神经网络lstm结构示图;
[0139]
图4为本发明元胞状态结构示图;
[0140]
图5为本发明记忆门结构示图;
[0141]
图6为本发明输出门结构示图;
[0142]
图7为本发明按照es查询语句,获得1号主变压器信息的流程示图;
[0143]
图8为本发明按照es查询语句,获得生产厂家信息的流程示图;
[0144]
图9为本发明模型交互过程示图;
[0145]
图10为本发明门组件结构示图。
具体实施方式
[0146]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0147]
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
[0148]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文所使用的术语只是为了描述具体的实施例的目的,不
是旨在限制本发明。本文所使用的术语“或/和”包括一个或多个相关的所列项目的任意的和所有的组合。
[0149]
一种面向电力变压器知识检索和问答的语义匹配方法,
[0150]
第一步,构建基于变压器的知识图谱kg;
[0151]
第二步,根据第一步中的知识图谱kg以及近义词库,并利用小样本变压器问句模板,建立语料增强模型,快速构建变压器语料数据;
[0152]
第三步,针对第二步中的变压器语料数据,利用人工神经网络技术,训练形成一体化识别模型;
[0153]
所述一体化识别模型,利用双向长短期记忆网络bilstm以及注意力机制attention,对变压器问答意图进行判断,根据问答意图对输入语句的槽位进行有效识别;
[0154]
并将识别出的槽位信息与第一步中的知识图谱kg的变压器进行链接,形成有效识别系统;
[0155]
第四步,利用第三步中的一体化识别模型,对用户输入的检索或/和问答语句的语义进行有效匹配。
[0156]
本发明经过不断探索以及试验,构建基于小样本变压器问句模板的语料增强模型,并结合变压器知识图谱以及近义词库,实现变压器语料文本的增强以及数据增强;然后利用变压器语料数据以及人工神经网络技术,训练形成一体化识别模型;再通过一体化识别模型在语料基础上实现对用户查询意图和槽位的联合识别,进而能准确识别用户检索/问答语义,有效提高用户的运检效率,特别适合应用在电力变压器知识检索和问答上。
[0157]
本发明的一种最佳实施例:
[0158]
本发明基于变压器知识图谱kg、近义词库,提出了一种基于小样本变压器问句模板的语料增强方法,快速构建变压器语料数据,并针对语料数据应用人工神经网络技术,训练形成基于双向长短期记忆网络bilstm attention注意力机制的变压器问答意图和槽位一体化识别模型,对用户输入语句进行语义意图和语义槽位的联合识别,判断用户查询意图,识别语句槽位,提取槽位信息,将抽取完毕的槽位信息与图谱库中的实体进行链接,从而实现对用户输入的检索/问答语句的语义匹配。
[0159]
本发明电力变压器小样本领域语料增强的一种具体实施例:
[0160]
针对电力变压器小样本领域语料数据不足的问题,本发明提出了一种基于知识图谱kg 语义模板的语料快速增强机制,基于槽位的思路,设计了基于槽位的问句模板,以表达用户输入的语义。
[0161]
问句模板由用户输入的语句及对该语句的语义标注构成,比如问句模板“哪家厂子【/c生产厂家】制造【/r关系】的#1主变【/c变压器】”、“#1主变【/设备类型】的电压【属性,名称为“电压等级”】是多少”,其中的“【】”部分就是语义标注部分,分为三类:
[0162]
概念,以字母c开头,紧跟具体的概念名称。
[0163]
属性,以字母p开头,紧跟具体的属性名称。
[0164]
关系,以字母r开头,紧跟具体的关系名称。
[0165]
通过这样的标注结构可以将用户的问句模板进行语义结构表达,而语义标注部分所对应的词汇的位置就是槽位,即意义槽,槽位里面可填充不同的词汇。
[0166]
比如“哪家厂子【/c生产厂家】制造【/r关系】的#1主变【/c设备类型】”可以泛化为
以下几种:
[0167]
哪里的生产厂家制造的#1主变?
[0168]
#1主变是哪里制造的?
[0169]
#1主变是由哪家厂家生产的?
[0170]
本发明结合知识图谱kg,用知识图谱kg的数据填充问句模板,生成了大量的训练语句,构成了训练集,完成训练集准备。支持用户输入问答意图、意图的关键词槽,完成相关的训练模板配置。
[0171]
根据配置的训练模板,动态生成大量的语料数据。基于生成的训练语料,可以快速开展双向长短期记忆网络bilstm模型 注意力模型的训练。
[0172]
如图1所示,本发明构建一体化识别模型的一种具体实施例:
[0173]
一体化识别模型,用于对用户输入语句的语义进行解析匹配,其模型从上而下可以分为四层,上层的输出作为下层的输入,分为问题输入层、语义分析匹配层、查询检索层、答案显示层。
[0174]
1》问题输入层
[0175]
问题输入层定位于接收来自系统界面的用户输入,并对用户输入的语句进行分词,提取语句词汇。用户输入呈现出模糊性、口语化、简写、同一问题存在各种近义表述、多次交互输入等问题。例如,用户要查询“长春站1号主变生产厂家是哪里?”,该问题也可能输入为“长春220kv变电站1号主变压器生产厂家是哪家”、“哪家厂子制造的长春站1号变”等近义问句。
[0176]
本发明基于jieba中文分词器对输入语句进行切分,切词策略是最长词汇策略,并去除掉停用词和无意义的词汇,比如“哪家厂子制造的长春站1号变”这句话中,需要去除“的”等无意义的词汇。
[0177]
2》语义分析匹配层
[0178]
语义分析匹配层定位于对问题输入层传递的语句进行语义分析。在这一层本发明提出了基于双向长短期记忆网络bilstm 注意力的意图和槽位一体化识别模型实现了对输入语句语义的分析匹配。首先对分词器形成的词汇进行向量表示,基于预训练模型计算每个词汇的词向量,并通过双向长短期记忆网络bilstm 注意力层对向量的特征进行编码,将编码后的向量送入到语义意图分类器与语义槽位分类器,通过实体链接操作,输出查询的标准实体名称/属性名称/关系名称等信息。整个处理过程从上到下进行可进一步细分为词向量层、双向长短期神经网络lstm编码层、注意力层、意图与槽位联合识别层。其中:
[0179]
词向量层,基于预训练模型bert表示词汇的向量,从而将文字转换成可计算的数学模型。通过词向量模型,可以将每个单词从一维空间转换为连续向量空间的数学嵌入。本文基于预训练模型bert对用户输入的词汇进行计算,计算词汇的向量表示,计算出的词向量的维度是204。
[0180]
双向长短期神经网络lstm编码层:定位于对词向量的特征进行提取,编码形成新的向量。双向长短期神经网络lstm是方向不同的两层长短期记忆网络的叠加。每层的长短期神经网络lstm包含了一组具有链状结构的长短期神经网络lstm人工神经网络单元,本发明采用的每层长短期神经网络lstm网络单元的数量是300个,如图2所示。
[0181]
其中,长短期神经网络lstm作为rnn网络的一个典型结构,包括了一个元胞状态组
件、遗忘门、记忆门、输出门,通过他们的交互实现对序列数据的长距离信息处理。整个模型的结构如图3所示。
[0182]
其中各组件说明如下:
[0183]
元胞状态,有点像是传送带,它直接穿过整个链,同时只有一些较小的线性交互。上面承载的信息可以很容易地流过而不改变,如图4所示。
[0184]
遗忘门,长短期神经网络lstm通过遗忘因子f
t
决定从元胞状态中遗忘/舍弃掉哪些信息,遗忘因子f
t
的计算公式如下公式所示,其中的w是权重矩阵,通过后续的模型训练可以计算出来。
[0185]ft
=σ(wf·
[h
t-1
,x
t
] bf)
[0186]
在上式中,σ是一个激活函数,也叫logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。
[0187]
遗忘因子以h
t-1
和x
t
作为输入,通过σ神经网络进行计算,输出一个0-1之间的数字,1表示“完全保留该信息”,0表示“完全丢弃该信息”,元胞状态c
t-1
中的每一个元素,都会经过遗忘门进行判断,从而确定要保留和遗忘c
t-1
的哪个部分。
[0188]
例如,在自然语言模型中,想要通过一个词来预测下一个词,单元模块c
t-1
中包含的某个属性在下一个模块单元不需要,就可以将这个属性数据通过遗忘门丢弃。
[0189]
记忆门,这一步是决定将把哪些新信息存储到元胞状态中,记忆门的结构如图5所示。
[0190]
记忆门的计算分为三步:
[0191]
首先,利用一个σ神经网络层决定需要更新哪些信息,用i
t
进行表示。i
t
的公式定义如下,其中的w是权重矩阵,是通过后续的数据训练可以计算出来的。
[0192]it
=σ(wi·
[h
t-1
,x
t
] bi)
[0193]
其次,在一个tanh层创造了一个新的候选值,tanh是双曲函数中的一个,tanh()为双曲正切,函数过原点,产生的值的值域为(-1,1)。tanh层产生的值可能被加入到元胞状态中,新的值用进行表示,输入是h
t-1
和x
t
,计算公式如下:
[0194][0195]
最后,在旧的细胞状态c
t-1
基础之上对其值进行更新,得到新的c
t
的值,c
t
的计算公式如下:
[0196][0197]
输出门,基于目前的元胞状态,加入一些过滤,输出想要输出的信息,输出门的结构如图6所示。
[0198]
首先建立一个σ神经网络层的门,来决定将输出元胞的哪些部分,输出的信息用o
t
表示,o
t
的计算公式如下所示,其中的w是权重矩阵,是通过后续的训练可计算出来的。
[0199]ot
=σ(wo·
[h
t-1
,x
t
] bo)
[0200]
然后将元胞状态通过tanh激活函数处理之后,与o
t
相乘,这样就可以输出想输出的部分h
t
,h
t
的计算公式如下所示:
[0201]ht
=o
t
×
tanh(c
t
)。
[0202]
经过双向长短期记忆网络bilstm编码层编码后,实现对输入语句的全量特征的编
码,输出全局特征向量,全局特征量包括了当前词汇的文本值、词性、前1-50个词汇的文本值、词性、位置、后面50个词汇的文本值、词性、位置等特征,将全局特征向量输入后后续的注意力层进行局部关键特征提取。
[0203]
注意力层,该层的定位是确定用户输入的关键特征。
[0204]
例如,查询语句“长春站1号主变生产厂家是哪里?”,“长春220kv变电站1号主变压器生产厂家是哪家”、“哪家厂子制造的长春站1号变”,尽管分词后的词汇不相同,但是三个句子的关键点都是“生产厂家”、“变压器”,这个关键点就是所谓的“注意力”,注意力层的作用在于形成局部特征向量。
[0205]
定义x1,x2,

,x
t
为双向长短期记忆网络bilstm层输出的向量序列,a
tj
为注意力层给所有的特征向量赋予的权重,计算公式如下:
[0206][0207]
在上式中,e
ij
是输入和输出的关联能量,其定义如下所示:
[0208]eij
=v
at
tanh(wac
t-1
uahj)
[0209]
其中,va是全局的特征向量,c
t-1
是注意力模型的上一时刻状态向量,hi为双向长短期记忆网络bilstm层输出的特征向量序列,ua为上一时刻特征向量的权值,wa为注意力机制上一时刻的权值。
[0210]
经过注意力层处理后,输出的最后状态为c
t
,其计算公式如下:
[0211][0212]
意图和槽位联合识别层,该层的定位是基于注意力层算出的特征向量进行解码,对其进行分类,包含了两个分类模型,意图分类模型与槽位分类模型。这两个分类模型都是基于softmax分类器进行的。
[0213][0214]
其中zi为第i个节点的输出值,c为输出节点的个数,即分类的类别个数。
[0215]
意图分类模型,基于softmax分类器实现,用于确定用户意图的分类。
[0216]
槽位分类模型,槽位是nlp里面的一个基本概念,用于表达自然语言语句的基本语义位置,本发明基于槽位的思路,设计了基于槽位的问句模板,以表达用户输入的语义。
[0217]
比如“哪里的生产厂家制造的#1主变?”这个语句可以提取的槽位包括【生产厂家】、【制造】、【设备类型】这几个槽位。本发明通过对双向长短期记忆网络bilstm网络层的输出,基于softmax分类器完成输入数据到输出分类的拟合。
[0218]
实体链接,经过槽位分类模型,可以找出用户输入中存在的槽位,提取出槽位的信息,并通过文本相似度模型完成槽位信息与图谱库中实体名称的对齐,这个过程称为实体链接,比如将“长春站”对齐到“长春220kv变电站”,“1号变”对齐到“1号主变压器”。本发明采用了基于余弦相似度的文本相似度模型解决实体链接问题。
[0219]
余弦相似度,也称为余弦距离,是用向量空间中两个向量夹角的余弦值作为衡量
两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
[0220]
假定a和b是两个n维向量,ai是a向量的第i个值,bi是b向量的第i个值,则a与b的夹角的余弦计算公式如下式所示。
[0221][0222]
在上式中余弦相似度值的取值范围为[0,1],值越大相似度越高。本发明基于语言模型bert表示a与b两个短文本句子的句向量,向量的维度n为202维,通过计算a与b两个短文本的句向量的余弦相似度判断二者的相似化程度。
[0223]
3》查询检索层
[0224]
查询检索层根据意图识别与槽位提取层传递的概念、实体、属性,构建查询子图,将查询转换为搜索引擎(elasticsearch,es)查询语句,返回潜在的三元组或者q/a答案。
[0225]
以上面的“长春站1号主变是哪家厂子制造的”这个列子为例,经过意图识别模型和槽位识别模型识别后。基于“长春220kv变电站

1号主变压器

生产厂家”先根据“长春220kv变电站

1号主变压器”按照es查询语句,可获得1号主变压器的详细信息,如图7所示。
[0226]
然后基于“1号主变压器

生产厂家”,按照es查询语句,获得1号主变压器的生产厂家,如图8所示。
[0227]
4》答案显示层
[0228]
该层定位为根据答案的不同进行不同的展示,答案的类型可以分为集合类型查询、实体类型查询、实体属性查询三类。示例语句如下表1所示:
[0229]
表1
[0230][0231]
针对不同的分类,采用不同的显示策略。
[0232]
1)集合类型,该类型数据包括数字及集合。针对用户提问的是个集合类型的查询,比如“赤头青220kv变电站有哪些变压器”,则需要返回集合的数量及具体的集合数。
[0233]
2)实体类型,值为某个具体的实体,显示实体的详细属性。比如输入“赤头青220kv变电站#1主变生产厂家是哪里?”,则出来的是具体的实体“达乌尔黄鼠有限责任公司”,并显示实体的详细信息。
[0234]
3)实体属性值类型,值为具体的某个实体的名称或者实体的属性值,比如用户提
问“赤头青220kv变电站#1主变电压等级”,则返回的值是#1主变这个实体的电压等级属性的值。
[0235]
综上,本发明提出了一种基于小样本变压器问句模板的语料增强模型,基于小样本问句模板,结合变压器知识图谱,结合近义词库,自动实现大量的变压器语料文本,实现小样本空间下的数据增强,为通过深度学习训练生成意图识别模型和槽位识别模型提供训练语料。
[0236]
进一步,本发明提出了一种基于双向长短期记忆网络bilstm 注意力模型的意图和槽位一体化识别模型,基于该模型,可以在语料基础上快速实现对用户查询意图和槽位的联合识别。
[0237]
如图9所示,应用本发明的一种具体实施例:
[0238]
下面以“长春站1号主变是哪家厂子生产的?”这句话为例说明上述几个模型的交互过程。
[0239]
第一步:首先对用户输入的语句进行分词,提取里面的关键词:长春站、1号主变、生产、厂子。
[0240]
第二步:将提出来的关键词输入到意图识别模型和槽位识别模型中。识别意图的分类和槽位信息。
[0241]
比如用户输入的语句“长春站1号主变是哪家厂子制造的”,其中包含了三个槽位和一个关系槽位,三个概念槽位分别是“变电站”、“变压器”、“生产厂家”,关系槽位是“生产”。
[0242]
其中槽位的值如下表2所示。
[0243]
表2
[0244]
序号槽位类型槽位名称具体槽位值1概念变电站长春站2概念变压器1号主变3概念生产厂家厂子4关系生产制造
[0245]
将槽位值输入到实体链接模型中,输出与具体的词相对应的概念下的实体名称或者属性名称。实体链接是将槽位提取的值与知识库中已有实体的名称进行余弦相似度判断,比如上面“长春站1号主变是哪家厂子制造的”这个例子,里面的“长春站”在库中对应的实体名称是“长春220kv变电站”,“1号主变”在库里对应的实体名称是“1号主变压器”。
[0246]
第三步:根据提取的槽位信息,生成es查询脚本,执行es查询脚本,获取查询结果,查询结果类型为实体类型,调用实体类型界面进行展示。
[0247]
本发明提出的基于小样本变压器问句模板的语料增强方法,能快速构建变压器语料数据,并针对语料数据应用人工神经网络技术,对用户输入语句进行语义意图和语义槽位的联合识别,实体进行链接,该方法具有物理意义明晰、实际操作简便、易于操作等优点,具有重要的工程实践意义。
[0248]
应用本发明方法的一种装置实施例:
[0249]
一种计算机设备,其包括:
[0250]
一个或多个处理器;
[0251]
存储装置,用于存储一个或多个程序;
[0252]
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的一种面向电力变压器知识检索和问答的语义匹配方法。
[0253]
本发明涉及的专业术语解释:
[0254]
lstm,long short term memory networks
[0255]
长短期记忆网络,一种特殊的神经网络,能够学习到长期依赖关系。
[0256]
门组件
[0257]
一种选择性让信息通过的方法,门组件由一个sigmoid神经网络层和一个元素级相乘操作组成。通过sigmoid神经网络输出0-1之间的值,每个值表示对应的部分信息是否应该通过。0值表示不允许信息通过,1值表示让所有信息通过,如图10所示。
[0258]
bilstm bi-directional long short-term memory
[0259]
双向长短期神经网络lstm,是由前向长短期神经网络lstm与后向长短期神经网络lstm组合而成,两者在自然语言处理任务中都常被用来建模上下文信息。
[0260]
注意力机制
[0261]
注意力机制,该机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。例如人的视觉在处理一张图片时,会通过快速扫描全局图像,获得需要重点关注的目标区域,也就是注意力焦点。然后对这一区域投入更多的注意力资源,以获得更多所需要关注的目标的细节信息,并抑制其它无用信息,基于注意力机制,可以提升基于rnn(lstm或gru)的encoder decoder模型的效果。
[0262]
语义意图search intent
[0263]
用户输入信息真正的检索目标,比如输入“大姚篮球”,用的检索目标是并不是“大姚”与“篮球”这两个词汇,二者这两个词组合起来表达的意图目标“篮球运动员姚明”,语义意图根据信息交互形式的不同可以分为检索意图和问答意图。
[0264]
槽位
[0265]
可以理解为实体已明确定义的属性,例如打车场景中的,出发地点槽,目的地槽,出发时间槽中的属性分别是“出发地点”、“目的地”和“出发时间”等。
[0266]
语义匹配
[0267]
在语义上衡量本文相似度,将用户的短语词汇与知识点的名称、属性匹配的过程。
[0268]
jieba中文分词器
[0269]
一种开源的分词软件,可以对句子、段落进行切词,将语句转换为词语序列。
[0270]
词向量,word embedding
[0271]
自然语言处理(nlp)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。
[0272]
bert,bidirectional encoder representations from transformers
[0273]
指google提出的语言模型,可以提供词向量计算、阅读理解、分类等任务。
[0274]
实体链接
[0275]
指将自由文本中已识别的实体对象(例如:人名、地名、机构名等),无歧义的正确的指向知识库中目标实体的过程。比如将“大姚”指向“姚明”。
[0276]
知识图谱,knowledge graph
[0277]
简称知识图谱kg,本质上是语义网络,是一种基于图的数据结构,由节点(point)和边(edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。存储知识图谱数据的数据库简称为图谱库。
[0278]
全文搜索引擎
[0279]
目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序根据事先建立的索引进行查找,将结果反馈给用户的检索方式,常用组件包括elastic search(可简称es)。
[0280]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0281]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0282]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献