一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于冷启动的电网调度行为理解方法、系统和存储介质与流程

2022-07-31 05:10:23 来源:中国专利 TAG:


1.本发明属于自然语言处理与电网调度意图理解技术领域,具体涉及一种基于冷启动的电网调度行为理解方法、系统和存储介质。


背景技术:

2.随着我国交直流混联大电网的形成,电网结构日益复杂,运行方式灵活多变,导致调控业务日趋复杂。一方面电网事故、异常等关键场景下要求调度控制系统具有更快的信息调阅、功能操作响应速度,另一方面电网调控系统中信息量显著增加,调控画面日益增多,功能愈加丰富,功能操作难度加大。因此,在调控领域建设基于语音的人机对话系统对改变现有的调度工作模式,提升调度员处置业务的效果具有重要意义,电网调度行为理解作为人机对话系统的核心技术需要进一步研究。
3.现有技术中,电网调度行为理解的重点是调度意图识别,现有技术中调度意图识别的方法主要有基于规则模板的语义识别方法和基于数据标注的分类算法,基于规则模板的意图识别方法一般需要人为构建规则模板以及类别信息对调度意图文本进行分类。基于数据标注的分类方法,则需要对语料文本进行关键特征的提取,然后通过训练分类器实现意图分类。
4.使用规则模板进行电网调度意图识别完全依赖于模板制定,无法自动从数据中学习,对于小样本数据,该方法效果较好,但随着数据量的增长,采用规则模板难度也将随之提升。
5.使用神经网络等特征学习方法或深度学习方法往往需要有大规模训练数据的支撑才能达到较高的识别效果,对于部分小样本多意图的调度场景,使用该方法识别效果欠佳。


技术实现要素:

6.本发明的目的就是为了解决上述背景技术存在的不足,提供一种基于冷启动的电网调度行为理解方法、系统和存储介质,对各数量级样本的电网调度意图文本都能进行有效识别,进而提升电网调度意图识别整体性能。
7.本发明采用的技术方案是:一种基于冷启动的电网调度行为理解方法,包括以下步骤:
8.确定编写每个类别的电网调度意图的正则表达式;其中所述正则表达式用于根据预先设置的电网调度意图识别语料库中语料内容识别电网调度意图;
9.将所述正则表达式转换为电网调度意图识别的有限状态自动机,使正则表达式的规则文本表示转变为矩阵形式表示;
10.将所述有限状态自动机转换为电网调度意图的识别加权有限状态自动机,并通过矩阵秩分解和加入词向量,构建有限状态自动机循环神经网络;
11.使用电网调度意图识别语料库数据对有限状态自动机循环神经网络进行训练;
12.采用训练后的有限状态自动机循环神经网络识别输入的电网调度文本的电网调度意图。
13.上述技术方案中,编写每个类别的电网调度意图的正则表达式的过程包括:
14.将电网调度意图识别语料库中的电网调度语料按照电网调度意图类别进行归类,总结电网调度语料中的关键词和电网调度意图之间的关系并编写正则表达式,正则表达式通过特定字符和关键文本的组合表达关键词与电网调度意图之间的对应逻辑关系。
15.上述技术方案中,将电网调度意图识别的正则表达式转换为电网调度意图识别的有限状态自动机的过程包括:
16.有限状态自动机首先进入起始状态,输入多个电网调度意图识别正则表达式;有限状态自动机依次读取每个正则表达式;有限状态自动机每次读取完单个正则表达式均回到起始状态;
17.有限状态自动机读取单个正则表达式的过程包括:有限状态自动机依次读取正则表达式中的每个字符;当读取到待匹配的关键词内容时,有限状态自动机的状态发生转移,读取到其他内容时,有限状态自动机的状态不发生转移;当读取完正则表达中所有字符,有限状态自动机到达终止状态;
18.有限状态自动机读取所有的正则表达式后生成有限状态自动机状态转移矩阵;所述有限状态自动机状态转移矩阵用于判断有限状态自动机针对每个输入的电网调度语料产生的状态转移情况;有限状态自动机状态转移矩阵结合电网调度语料字符表,生成电网调度意图识别的有限状态自动机;
19.所述电网调度语料字符表由电网调度语料中包含的不重复的字符构成,所述电网调度语料字符表通过对电网调度语料的遍历,筛选出的不重复的字符形成。
20.上述技术方案中,电网调度意图识别有限状态自动机包含起始状态、多个终止状态及其中间其它若干状态,其状态数量由正则表达式的数量及正则表达式中待匹配的关键词决定。
21.上述技术方案中,电网调度意图识别有限状态自动机采用一个三维矩阵以及两个向量表示,三维矩阵的第一个维度是电网调度语料字符表大小,三维矩阵的另外两个维度都是有限状态自动机的状态数,两个向量分别表示了有限状态自动机的初始状态以及结束状态。
22.上述技术方案中,电网调度意图识别加权有限状态机用于为电网调度意图识别有限状态自动机每一次的状态转换分配一个权重;
23.电网调度意图识别加权有限状态机采用5元组a,a=(v,s,t,α0,α

)表示,其中,v表示电网调度语料字符表;s表示加权有限状态自动机的状态数;t表示加权有限状态自动机的状态转移矩阵;α0表示加权有限状态自动机起始状态,α

表示加权有限状态自动机结束状态;∞的取值由正则表达式中的关键词的数量决定。
24.上述技术方案中,通过矩阵秩分解和加入词向量构建有限状态自动机循环神经网络的过程包括:
25.采用张量秩分解技术将加权有限状态自动机状态转移矩阵t分解为三个二阶的矩阵,分别为电网调度语料字符表的词向量矩阵e、当前状态矩阵d1和下一时刻状态矩阵d2;
26.将电网调度语料字符表的词向量矩阵e与带有词信息的预训练词向量进行词嵌入
处理,使电网调度语料字符表的词向量矩阵获得词的语义信息;
27.所述带词信息的预训练词向量是使用电网调度语料库对word2vec语言模型训练后获得的word2vec语言模型权重参数作为电网调度语料字符表中字符的向量化表示;
28.令预训练词向量矩阵为w,设置超参数β,用超参数来决定词嵌入向量所占权重大小;所述词嵌入向量通过词向量矩阵e与5元组a进行加和处理获得;
29.采用下式计算电网调度语句读入过程中访问的状态转移矩阵的所有路径分数:
30.z
t
=βv
t
(1-β)w
t
[0031][0032][0033]
其中,z
t
表示拼接后的词向量矩阵,v
t
表示t时刻输入的电网调度语句的字符在词向量矩阵e中对应的词向量,w
t
表示t时刻输入的电网调度语句的字符在预训练词向量矩阵w中对应的词向量;f表示t时刻输输入的电网调度语句的字符状态转移前的得分数;h
t
表示电网调度语句在读取过程中,在t时刻的前向得分向量;
[0034]
将h
t
作为有限状态自动机循环神经网络中的隐状态向量,加入softmax函数,将电网调度语句的每条路径的得分数转为对应每种电网调度意图的概率大小;最终选取概率最大的电网调度意图作为输出结果。
[0035]
上述技术方案中,使用电网调度意图识别语料库数据对有限状态自动机循环神经网络进行训练的过程包括:
[0036]
对电网调度意图识别语料库中电网调度语料进行标记,生成电网调度文本和调度意图对的训练集,为第i个电网调度意图类别对应的第q个电网调度语料的文本,yi为第i个电网调度意图;j*q∈(1,n),n为训练集样例的数量;
[0037]
将训练集中文本数据和电网调度语料字符表的词向量矩阵进行转换,得到字符向量;然后将字符向量输入至有限状态自动机循环神经网络网络进行训练。
[0038]
本发明还提供了一种基于冷启动的电网调度行为理解系统,包括电网调度意图的正则表达式构建模块、电网调度意图识别有限状态自动机生成模块、有限状态自动机循环神经网络构建模块和有限状态自动机循环神经网络构模型训练模块;
[0039]
所述电网调度意图的正则表达式构建模块用于确定每个类别的电网调度意图的正则表达式;所述正则表达式用于根据电网调度意图识别语料库中语料内容识别电网调度意图;
[0040]
所述电网调度意图识别有限状态自动机生成模块用于将所述正则表达式转换为电网调度意图识别的有限状态自动机,使正则表达式的规则文本表示转变为矩阵形式表示;
[0041]
所述有限状态自动机循环神经网络构建模块用于将所述有限状态自动机转换为电网调度意图的识别加权有限状态自动机,并通过矩阵秩分解和加入词向量,构建有限状态自动机循环神经网络;
[0042]
所述有限状态自动机循环神经网络构模型训练模块用于使用电网调度意图识别语料库数据对有限状态自动机循环神经网络进行训练,并采用训练后的有限状态自动机循环神经网络识别输入的电网调度文本的电网调度意图。
[0043]
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有基于冷启动的电网调度行为理解方法程序,所述基于冷启动的电网调度行为理解方法程序被处理器执行时实现所述的基于冷启动的电网调度行为理解方法的步骤。
[0044]
本发明的有益效果是:将电网意图识别正则表达式转换成神经网络,并将其应用在电网调度意图识别分类任务上,使得转换后的网络在未经训练的情况下与正则表达式意图识别分类方法有着相似的准确率。同时转换后的网络兼备深度学习等方法的可训练、可泛化的优点。当在零样本或少量样本的其情况下,由于规则知识的融入,与一般的机器学习或深度学习方法相比有着明显的优势,在样本量充足的情况下,转换后的网络也有着和其它深度学习方法相当的性能,并且支持将新的正则表达式集成到训练后的网络模型中,通过本发明,不仅能明显提升小样本数据的意图识别准确率,还可以加速大规模数据训练时模型收敛速度,同时保证其意图识别准确率,进而全面提升电网调度意图识别整体性能。本发明编写的的正则表达式,用于电网调度语料的初步意图判别,是后续电网调度意图识别有限状态自动机生成的必要前置步骤,能够提升有限状态自动机形成的效率。本发明通过有限状态自动机的生成,能够将正则表达式的文字表述形式转换为有限状态自动机矩阵表达形式,提升了意图识别时的计算效率。本发明采用的有限状态自动机形式不仅能够表示正则表达式,而且只有在匹配到关键词时发生状态改变,能够在一定程度上减少空间复杂度;同时能够完整的表述一个有限状态自动机,而且上述矩阵还可以通过矩阵分解方式进行降维,表示灵活。本发明通过加权有限状态机的生成,使得每个电网调度语料文本,能以量化的方式计算出该文本对应每个电网调度意图的得分数,能够获取最大得分数对应的意图,提升了其意图识别的准确率。本发明通过矩阵秩分解和加入词向量构建有限状态自动机循环神经网络,矩阵秩分解将高维的状态转移矩阵低维化处理,能够减少电网调度意图识别推断的时间复杂度,词向量增加了语义信息后,可进一步提升意图识别的准确率,构建的有限状态自动机循环神经网络使原本不能训练的加权有限状态机具备了训练能力,能够通过学习的方式对识别效率进行提升。本发明对有限状态自动机循环神经网络进行训练,使有限状态自动机循环神经网络的意图识别准确定进一步增强,并且网络更具泛化能力,能够对更多电网调度意图进行识别。
附图说明
[0045]
图1为本发明的方法流程示意图;
[0046]
图2为具体实施例的有限状态自动机的转换过程示意图。
具体实施方式
[0047]
下面结合附图和具体实施例对本发明作进一步的详细说明,便于清楚地了解本发明,但它们不对本发明构成限定。
[0048]
实施例一
[0049]
本发明实施例一提供了一种基于冷启动的电网调度行为理解系统,包括电网调度意图识别语料库构建模块、电网调度意图的正则表达式构建模块、电网调度意图识别有限状态自动机生成模块、有限状态自动机循环神经网络构建模块和有限状态自动机循环神经网络构模型训练模块。
[0050]
所述电网调度意图识别语料库构建模块用于将每个类别的电网调度意图与电网调度语料中每种调度专业语言表述文本相关联,构建电网调度意图识别语料库。
[0051]
具体地,根据电网调度的业务需求,确定电网调度意图,依据调度员的业务语言表述方式习惯,电网调度意图识别语料库构建模块将电网调度意图泛化为不同的调度专业语言表述作为电网调度语料,并将每一种电网调度意图与对应的调度专业语言表述进行关联生成电网调度意图语料集。
[0052]
所述电网调度意图的正则表达式构建模块用于编写每个类别的电网调度意图的正则表达式;所述正则表达式用于根据电网调度意图识别语料库中语料内容识别电网调度意图。
[0053]
具体地,电网调度意图的正则表达式构建模块将电网调度意图识别语料库中的语料内容按照电网调度意图类别进行归类,总结语料中的关键成分和电网调度意图之间的关系,编写能够根据关键成分识别出调度意图的正则表达式,建立正则表达式和电网调度意图之间的对应关系。
[0054]
上述正则表达式是对字符串操作的一种逻辑公式,即用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
[0055]
所述电网调度意图识别有限状态自动机生成模块用于将电网调度意图识别的正则表达式转换为电网调度意图识别的有限状态自动机,使正则表达式的规则文本表示转变为矩阵形式表示。
[0056]
具体地,电网调度意图识别有限状态自动机包含起始状态、多个终止状态及其中间其它若干状态,它的状态数由电网调度意图识别正则表达式的数量及正则表达式中待匹配的关键词决定。
[0057]
所述有限状态自动机状态转移矩阵用于判断有限状态自动机针对每个输入的电网调度语料产生的状态转移情况。在有限状态自动机循环神经网络没有训练之前,部分电网调度语料是不能该神经网络预测出电网意图的,这些不能预测出意图的可能原因就是在有限状态自动机阶段无法从起始状态通过状态转移矩阵到达终止状态的。
[0058]
当有限状态自动机录入完所有的正则表达式后,产生一个状态转移矩阵,该状态转移矩阵记录了对于每个输入的电网调度语料,有限状态自动机的状态转移情况;并结合电网调度语料字符表,生成电网调度意图识别有限状态自动机。所述状态转移矩阵用于判断有限状态自动机针对每个输入的电网调度语料产生的状态转移情况。
[0059]
所述电网调度语料字符表由电网调度语料中包含的不重复的字符构成,所述电网调度语料字符表通过对电网调度语料的遍历,筛选出的不重复的字符形成。
[0060]
所述有限状态自动机循环神经网络构建模块用于将电网调度意图识别的有限状态自动机转换为电网调度意图的识别加权有限状态自动机,并通过矩阵秩分解和加入词向量,构建有限状态自动机循环神经网络。
[0061]
具体地,电网调度意图识别加权有限状态机是一个5元组a=(v,s,t,α0,α

)的形式,其中v表示电网调度语料字符表,大小由电网调度语料库的大小决定;s表示根据加权有限状态自动机的状态数,加权有限状态自动机的状态数和有限状态自动机的状态数是一致的,由所建电网调度意图识别正则表达式的数量及正则表达式中待匹配的关键词数量决
定;t表示加权有限状态自动机的状态转移矩阵;α0表示加权有限状态自动机起始状态,α

表示加权有限状态自动机结束状态;n的取值由正则表达式中的关键词的数量决定。
[0062]
加权有限状态机的组成的5元组中,s、α0,α

从有限状态自动机直接迁移获得。t的维度也和有限状态自动机的状态转移矩阵一致,只有其赋值发生了变化,状态转移较多的其权重会变大。
[0063]
加权有限状态机可以为每一次的状态转换分配一个权重,设置状态转移矩阵t的初始值为0,读取电网调度意图识别正则表达式中某个字符xi时,如果加权有限状态自动机的状态si能够转移到状态sj时则将状态转移矩阵中的对应位置值加1,最终录入完所有的正则表达式后对状态转移矩阵进行归一化处理,可以生成加权有限状态自动机的状态转移矩阵;α0表示有加权限状态自动机起始状态,将其初始化为1,α

表示加权有限状态自动机结束状态,将其初始化为1。
[0064]
上述电网调度意图识别加权有限状态机构建完成后,可以计算出每条电网调度语料通过加权有限状态自己机的路径数及其每条路径的得分数。加权有限状态机每条路径表示输入一条电网调度语料后,可以从起始状态达到最终的结束状态,它表示了该条电网调度语料能够匹配到对应的正则表达式。
[0065]
上述电网调度意图识别加权有限状态自动机中的状态转移矩阵t是一个三维矩阵,其计算时参数量过大,采用张量秩分解技术将用张量秩分解技术将状态转移矩阵t分解为三个二阶的矩阵表示原状态转移矩阵减少计算量,分别为电网调度语料字符表的词向量矩阵e和两个状态矩阵d1和d2,d1和d2则表示当前状态和下一时刻状态矩阵,经过该步骤处理后,上述分数计算过程表示如下:
[0066]
上述得到的字符表词向量矩阵e只包含规则信息,将带有词信息的预训练词向量与电网调度语料字符表的词向量矩阵e进行词嵌入处理,使电网调度语料字符表的词向量矩阵获得词的语义信息,所述预训练词向量是通过对word2vec语言模型建模过程获得,使用电网调度语料库作为训练集,在word2vec语言模型建模时,通过不断自学习调整word2vec语言模型权重参数,使得word2vec语言模型能够较好地适应电网调度语料,使用训练好的word2vec语言模型权重参数作为电网调度语料字符表中字符的向量化表示。
[0067]
令预训练词向量矩阵为w,设置超参数β,用该参数来决定嵌入词向量所占权重大小,β越大表示嵌入词向量所占权重越小,当β接近0时,我们可以将更多的外部词汇信息集成到模型中,所有路径分数计算公式改写为:
[0068]zt
=βv
t
(1-β)w
t
[0069][0070][0071]
其中,z
t
表示拼接后的词向量矩阵,v
t
表示t时刻输入的电网调度语句的字符在词向量矩阵e中对应的词向量,w
t
表示t时刻输入的电网调度语句的字符在预训练词向量矩阵w中对应的词向量;f表示t时刻输输入的电网调度语句的字符状态转移前的得分数;h
t
表示电网调度语句在读取过程中,在t时刻的前向得分向量;
[0072]
将h
t
作为有限状态自动机循环神经网络中的隐状态向量,加入softmax函数,将电网调度语句的每条路径的得分数转为对应电网调度意图的概率大小;最终选取概率最大的
电网调度意图作为输出结果。
[0073]
上述过程可以视为循环神经网络(rerrent neural network,rnn)的前向计算过程,h
t
为rnn中的隐状态向量,在该前向计算过程后加入softmax函数后,将每条路径的得分数转为对应标签的概率大小,进而可以通过神经网络的的训练,进一步提升意图识别的准确率。
[0074]
通过上述过程得到了有限状态自动机循环神经网络(fsa-rnn),由于是先经过正则表达式转换有限状态自动机,在通过有限状态自动机变换得到,所以在不经过训练的情况下,直接用该该网络进行意图识别预测,也具备一定的意图识别能力、
[0075]
所述有限状态自动机循环神经网络构模型训练模块用于使用电网调度意图识别语料库数据对有限状态自动机循环神经网络进行训练,并采用训练后的有限状态自动机循环神经网络识别输入的电网调度文本的电网调度意图。
[0076]
具体地,构建fsa-rnn神经网络训练数据集,对调度意图语料库中语料进行标记,生成电网调度文本和调度意图对的训练集,为第i个电网调度意图类别对应的第q个调度专业语言表述的文本,yi为第i个电网调度意图;j*q∈(1,n),n为训练集样例的数量。
[0077]
在fsa-rnn网络训练时,将训练集中文本数据和字符表词向量矩阵e进行转换,得到字符向量,然后将向量化后的数据输入至fsa-rnn网络模型中,由于fsa-rnn网络参数是通过正则表达式转化后得到的矩阵参数,在训练过程中网络可以快速收敛,经过训练后fsa-rnn网络模型能够对电网调度语料进行意图识别。
[0078]
在训练样本较少的情况下,由于神经网络fsa-rnn本身蕴含了规则知识,所以依然能够有效较好的识别效果,在样本量充足的情况下,该网络有着和其它机器学习或深度学习模型相近的识别效果,进而从整体上提升了电网调度意图识别效果,提升了电网调度行为理解能力。
[0079]
所述冷启动指通过构建完成有限状态自动机循环神经网络后,对于电网调度文本,在不经网络训练的情况下,直接用所建网络做意图识别,就具备一定的识别能力,该种情况称为冷启动。
[0080]
实施例二
[0081]
如图1所示,本发明实施例二提供了一种基于冷启动的电网调度行为理解方法,包括以下步骤:
[0082]
第一步,将每个类别的电网调度意图与电网调度语料中每种调度专业语言表述文本相关联,构建电网调度意图识别语料库。
[0083]
具体地,根据电网调度的业务需求,确定电网调度意图,依据调度员的业务语言表述方式习惯,将电网调度意图泛化为不同的调度专业语言表述作为电网调度语料,并将每一种电网调度意图与对应的调度专业语言表述进行关联生成电网调度意图语料集。
[0084]
第二步,编写每个类别的电网调度意图的正则表达式;所述正则表达式用于根据电网调度意图识别语料库中语料内容识别电网调度意图。
[0085]
具体地,将电网调度意图识别语料库中的语料内容按照电网调度意图类别进行归类,总结语料中的关键成分和电网调度意图之间的关系,编写能够根据关键成分识别出调度意图的正则表达式,建立正则表达式和电网调度意图之间的对应关系。
[0086]
上述正则表达式是对字符串操作的一种逻辑公式,即用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
[0087]
基于电网调度意图识别语料库,编写的一条正则表达式案例如下表所示,其中,正则表达式中“$”表示通配符,可以匹配任意字,“*”表示可以出现任意次数,“《bos》”文本开始标志位,“《eos》”文本结束标志位。
[0088]
意图标签打开厂站图正则表达式$*(打开)$*(厂站图)$*匹配文本《bos》打开三峡左岸厂站图《eos》
[0089]
第三步,将电网调度意图识别的正则表达式转换为电网调度意图识别的有限状态自动机(finite state automaton,fsa),使正则表达式的规则文本表示转变为矩阵形式表示。
[0090]
电网调度意图识别有限状态自动机包含起始状态、多个终止状态及其中间其它若干状态,它的状态数由电网调度意图识别正则表达式的数量及正则表达式中待匹配的关键词决定。
[0091]
在生成有限状态自动机的过程中,有限状态自动机首先进入起始状态,输入内容为多个电网调度意图识别正则表达式。有限状态自动机依次读取每个正则表达式,有限状态自动机每次读取完单个正则表达式均回到起始状态。有限状态自动机每次读取正则表达式中的一个字符,当读取到待匹配的关键词内容时,有限状态自动机的状态发生改变,读取到其他内容时,有限状态自动机的状态不发生改变,当读取完正则表达中所有字符,有限状态自动机到达终止状态。
[0092]
所述有限状态自动机状态转移矩阵用于判断有限状态自动机针对每个输入的电网调度语料产生的状态转移情况。在有限状态自动机循环神经网络没有训练之前,部分电网调度语料是不能该神经网络预测出电网意图的,这些不能预测出意图的可能原因就是在有限状态自动机阶段无法从起始状态通过状态转移矩阵到达终止状态的。
[0093]
当有限状态自动机录入完所有的正则表达式后,产生一个状态转移矩阵,该状态转移矩阵记录了对于每个输入的电网调度语料,有限状态自动机的状态转移情况;并结合电网调度语料字符表,生成电网调度意图识别有限状态自动机。所述状态转移矩阵用于判断有限状态自动机针对每个输入的电网调度语料产生的状态转移情况。
[0094]
所述电网调度语料字符表由电网调度语料中包含的不重复的字符构成,所述电网调度语料字符表通过对电网调度语料的遍历,筛选出的不重复的字符形成。
[0095]
该电网调度意图识别有限状态自动机使用一个三维矩阵以及两个向量表示,三维矩阵的第一个维度是电网调度语料字符表大小lv,三维矩阵的另外两个维度都是有限状态自动机的状态数s’,两个向量分别表示了有限状态自动机的初始状态α0’
以及结束状态α
∞’。
[0096]
对于表中的用例,如图2所示,其转换为有限状态自动机的过程如下:
[0097]
输入正则表达式:“$*(打开)$*(厂站图)$*”[0098]
有限状态自动机的起始状态设为α0’

[0099]
读取“$”时,状态不发生改变为α0’

[0100]
读取“打”时,状态由α0’
转变为α1’

[0101]
读取“开”时,状态由α1’
转变为α2’

[0102]
读取“$”时,状态不发生改变为α2’

[0103]
读取“厂”时,状态由α2’
转变为α3’

[0104]
读取“站”时,状态由α3’
转变为α4’

[0105]
读取“图”时,状态由α4’
转变为α5’

[0106]
所建有限状态自动机能够和正则表达式进行等价表示。
[0107]
有限状态自动机的原始功能为:从起始状态开始,有限状态自动机接收一个电网调度语料序列,对于每一个输入字符,可以根据当前的状态转移到一个新的状态,最终到达结束状态,表明该有限状态能够接受该条语料,该语料符合某个正则表达式,如果不能到达结束状态,则表示该有限状态自动机不能接受该条语料,该语料符合任何正则表达式。
[0108]
第四步,将电网调度意图识别的有限状态自动机转换为电网调度意图的识别加权有限状态自动机,并通过矩阵秩分解和加入词向量,构建有限状态自动机循环神经网络。
[0109]
具体地,电网调度意图识别加权有限状态机是一个5元组a=(v,s,t,α0,α

)的形式,其中v表示电网调度语料字符表,大小由电网调度语料库的大小决定;s表示根据加权有限状态自动机的状态数,加权有限状态自动机的状态数和有限状态自动机的状态数是一致的,由所建电网调度意图识别正则表达式的数量及正则表达式中待匹配的关键词数量决定;t表示加权有限状态自动机的状态转移矩阵;α0表示加权有限状态自动机起始状态,α

表示加权有限状态自动机结束状态;n的取值由正则表达式中的关键词的数量决定。
[0110]
加权有限状态机的组成的5元组中,s、α0,α

从有限状态自动机直接迁移获得。t的维度也和有限状态自动机的状态转移矩阵一致,只有其赋值发生了变化,状态转移较多的其权重会变大。
[0111]
加权有限状态机可以为每一次的状态转换分配一个权重,设置状态转移矩阵t的初始值为0,读取电网调度意图识别正则表达式中某个字符xi时,如果加权有限状态自动机的状态si能够转移到状态sj时则将状态转移矩阵中的对应位置值加1,最终录入完所有的正则表达式后对状态转移矩阵进行归一化处理,可以生成加权有限状态自动机的状态转移矩阵;α0表示有加权限状态自动机起始状态,将其初始化为1,α

表示加权有限状态自动机结束状态,将其初始化为1。
[0112]
上述电网调度意图识别加权有限状态机构建完成后,可以计算出每条电网调度语料通过加权有限状态自己机的路径数及其每条路径的得分数。
[0113]
加权有限状态机每条路径表示输入一条电网调度语料后,可以从起始状态达到最终的结束状态,它表示了该条电网调度语料能够匹配到对应的正则表达式。
[0114]
对于一个电网调度语句x,读入过程中访问的状态转移矩阵的索引路径为p=(u1,

,un),对于路径p使用如下公式来计算加权有限状态机可接收x的分数:
[0115][0116]
xi表示第i时刻输入的字符,ui为第i时刻状态的索引路径,t[xi,ui,u
i 1
]表示第i时刻状态转移矩阵对应的值,α0[u1]表示初始时刻状态值,α

[un]表示结束时刻状态值。该公式在于将从初始状态到终止状态所通过路径的分数进行乘积处理。
[0117]
采用前向算法计算意图识别语句x从起始状态α0开始并到达状态α

,n为输入的语句的长度;将所有路径分数计算过程写成一个循环的形式,其计算过程如下:
[0118][0119]ht
=h
t-1
·
t[x
t
],1≤t≤n
[0120][0121]
其中,h
t
表示意图识别语句x在读取过程中,在t时刻的前向得分向量;h
t
的每一个维度就表示在读了t个字符之后,有多少条路径能够从开始状态到当前维度对应的自动机状态;y表示最终每条路径的得分数,路径数决定了语句x匹配到意图标签数,每条路径的分数表示对应电网调度意图的可能性大小;x
t
表示t时刻,读取的字符为x;t[x
t
]表示读取到x
t
字符时得到的对应状态转移矩阵值。
[0122]
上述电网调度意图识别加权有限状态自动机中的状态转移矩阵t是一个三维矩阵,其计算时参数量过大,采用张量秩分解技术将用张量秩分解技术将状态转移矩阵t分解为三个二阶的矩阵表示原状态转移矩阵减少计算量,分别为电网调度语料字符表的词向量矩阵e和两个状态矩阵d1和d2,d1和d2则表示当前状态和下一时刻状态矩阵,经过该步骤处理后,上述分数计算过程表示如下:
[0123]
上述得到的字符表词向量矩阵e只包含规则信息,将带有词信息的预训练词向量与电网调度语料字符表的词向量矩阵e进行词嵌入处理,使电网调度语料字符表的词向量矩阵获得词的语义信息,所述预训练词向量是通过对word2vec语言模型建模过程获得,使用电网调度语料库作为训练集,在word2vec语言模型建模时,通过不断自学习调整word2vec语言模型权重参数,使得word2vec语言模型能够较好地适应电网调度语料,使用训练好的word2vec语言模型权重参数作为电网调度语料字符表中字符的向量化表示。
[0124]
令预训练词向量矩阵为w,设置超参数β,用该参数来决定嵌入词向量所占权重大小,β越大表示嵌入词向量所占权重越小,当β接近0时,我们可以将更多的外部词汇信息集成到模型中,所有路径分数计算公式改写为:
[0125]zt
=βv
t
(1-β)w
t
[0126][0127][0128]
其中,z
t
表示拼接后的词向量矩阵,v
t
表示t时刻输入的电网调度语句的字符在词向量矩阵e中对应的词向量,w
t
表示t时刻输入的电网调度语句的字符在预训练词向量矩阵w中对应的词向量;f表示t时刻输输入的电网调度语句的字符状态转移前的得分数;h
t
表示电网调度语句在读取过程中,在t时刻的前向得分向量;
[0129]
将h
t
作为有限状态自动机循环神经网络中的隐状态向量,加入softmax函数,将电网调度语句的每条路径的得分数转为对应电网调度意图的概率大小;最终选取概率最大的电网调度意图作为输出结果。
[0130]
上述过程可以视为循环神经网络(rerrent neural network,rnn)的前向计算过程,h
t
为rnn中的隐状态向量,在该前向计算过程后加入softmax函数后,将每条路径的得分数转为对应标签的概率大小,进而可以通过神经网络的的训练,进一步提升意图识别的准确率。
[0131]
通过上述过程得到了有限状态自动机循环神经网络(fsa-rnn),由于是先经过正则表达式转换有限状态自动机,在通过有限状态自动机变换得到,所以在不经过训练的情况下,直接用该该网络进行意图识别预测,也具备一定的意图识别能力。
[0132]
第五步,使用电网调度意图识别语料库数据对有限状态自动机循环神经网络进行训练;采用训练后的有限状态自动机循环神经网络识别输入的电网调度文本的电网调度意图。
[0133]
具体地,构建fsa-rnn神经网络训练数据集,对调度意图语料库中语料进行标记,生成电网调度文本和调度意图对的训练集,为第i个电网调度意图类别对应的第q个调度专业语言表述的文本,yi为第i个电网调度意图;j*q∈(1,n),n为训练集样例的数量。
[0134]
在fsa-rnn网络训练时,将训练集中文本数据和字符表词向量矩阵e进行转换,得到字符向量,然后将向量化后的数据输入至fsa-rnn网络模型中,由于fsa-rnn网络参数是通过正则表达式转化后得到的矩阵参数,在训练过程中网络可以快速收敛,经过训练后fsa-rnn网络模型能够对电网调度语料进行意图识别。
[0135]
在训练样本较少的情况下,由于神经网络fsa-rnn本身蕴含了规则知识,所以依然能够有效较好的识别效果,在样本量充足的情况下,该网络有着和其它机器学习或深度学习模型相近的识别效果,进而从整体上提升了电网调度意图识别效果,提升了电网调度行为理解能力。
[0136]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0137]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0138]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0139]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0140]
最后应当说明的是:以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当
理解:本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在发明待批的权利要求保护范围之内。
[0141]
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献