一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于语音转录与知识图谱的调度指令质检方法及系统与流程

2022-03-16 12:48:39 来源:中国专利 TAG:


1.本发明涉及调度指令质检技术领域,尤其涉及一种基于语音转录与知识图谱的调度指令质检方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.调度指令是电网调度之间进行事件汇报、沟通交流的命令。
4.现有技术中,对于电网调度系统的调度指令,往往存在如下技术问题:
5.(1)调度录音回溯查询困难。目前调度录音回溯查询方式主要依赖录音文件下载后,人工逐条试听,耗费大量人力物力,无法快速获取有效消息,不能满足电网调度指挥需求。
6.(2)电网调度由省调和地调组成,地调交流沟通时以当地方言为主,存在调度录音回溯时试听人员无法辨别问题,并且语音转文字也存在极大困难,制约电力调度交换网的智能化发展,降低了调度录音回溯查询效率。
7.(3)目前调度指令混乱,调度用语不规范,无法实现统一;各地调进行汇报时,多采用口语化表述,经常发生调度员对调度指令理解错误的情况,影响调度指令的准确下达与执行。


技术实现要素:

8.为了解决上述问题,本发明提出了一种基于语音转录与知识图谱的调度指令质检方法及系统,通过适配各地方言的语音转录,实现调度录音回溯搜索查询,确保电网调度事故追溯高效便捷;通过标准化调度指令,形成调度指令知识图谱,确保调度指令下达、执行时准确无误,提高调度系统稳定性。
9.在一些实施方式中,采用如下技术方案:
10.一种基于语音转录与知识图谱的调度指令质检方法,包括:
11.对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
12.确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
13.将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。
14.作为进一步地方案,构建调度系统知识图谱的过程包括:
15.通过检索相关文献梳理调度相关术语,生成调度系统共词矩阵,对文献信息进行聚类分析,降低共词矩阵维数;
16.将共词矩阵可视化为共词网络,基于蚁群算法将相似术语合并,简化共词网络;
17.以聚类模块值和轮廓值来评估图谱聚类效果,选择剪枝后聚类效果最佳的网络图
谱,形成调度系统知识图谱。
18.作为进一步地方案,所述聚类模块值具体为:
[0019][0020]
其中,e
ii
为集群i内所有的边数占整个网络所有边数的比值;ai为经过集群i内所有节点的边数占整个网络的所有边数的比值;q(i)值在0~1之间,其值越接近1,表示划分网络结构的强度越高。
[0021]
作为进一步地方案,所述轮廓值具体为:
[0022][0023]
其中,a(i)为内聚度,即i到同簇其他样本的平均距离;b(i)为分离度,即i到其他类簇的所有样本的平均距离;s(i)接近1,则说明样本i聚类合理轮廓越明显。
[0024]
作为进一步地方案,对于语音转录模型的训练过程包括:
[0025]
获取不同地域的历史调度指令录音文件,将录音文件转换成文本格式的文件,形成总样本库;
[0026]
将总样本库按照方言地区和普通话地区进行拆分,形成多个子样本库;
[0027]
分别用子样本库训练语音转录模型,形成多个训练完毕的子语音转录模型;根据新产生的录音所在地域,用对应的训练完毕的子语音转录模型进行转录,形成文本格式的文件。
[0028]
作为进一步地方案,将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,具体包括:
[0029]
运用对数似然比算法,评估一个词与调度场景类别词的相关程度,提取出具有类别区分能力的标签词;
[0030]
根据标签词,确定录音文件对应的调度场景;
[0031]
根据调度场景,与对应场景的调度系统知识图谱匹配,根据知识图谱里面的调度命令对文本文件进行修正。
[0032]
作为进一步地方案,运用对数似然比算法,评估一个词与调度场景类别词的相关程度,具体包括:
[0033]
假设h1表示元素x1、x2之间是相互独立的;h2表示元素x1、x2之间具有相关性;分别求取h1和h2的似然值l(h1)、l(h2);其中,x1为某一词语,x2为调度场景类别词;
[0034]
基于所述似然值确定x1和x2的关联程度,当关联程度大于阈值时,表明x1为具有类别区分能力的标签词。
[0035]
作为进一步地方案,每当有新的录音产生,通过训练过后的语音转录模型转录成文本格式的文件,并经调度系统知识图谱修正后,形成最终的文本格式文件,将其与录音文件一起加入对应的子样本库,持续训练子语音转录模型。
[0036]
在另一些实施方式中,采用如下技术方案:
[0037]
一种基于语音转录与知识图谱的调度指令质检系统,包括:
[0038]
知识图谱构建模块,用于对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
[0039]
文件转化模块,用于确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
[0040]
文本修正模块,用于将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。
[0041]
在另一些实施方式中,采用如下技术方案:
[0042]
一种终端设备,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,所述指令适于由处理器加载并执行上述的基于语音转录与知识图谱的调度指令质检方法。
[0043]
与现有技术相比,本发明的有益效果是:
[0044]
(1)本发明将调度录音语音转文字格式,通过与知识图谱进行匹配,进行寻错、纠错后,形成最终的文本格式文件;根据不同方言地区训练不同的语音转录循环神经网络,转录对应区域录音文件,同时结合调度场景,匹配调度指令知识图谱,提高转录准确率,有效提高电网调度故障回溯效率、准确度。
[0045]
(2)本发明收集设定地域的方言,形成方言训练样本,对语音转录模型进行持续训练,兼容性高,普适所有调度应用场景。
[0046]
(3)针对电力调度指挥场景,制定调度指令标准并形成调度指令知识图谱,能够提供调度指令查询、调度录音与调度指令一键匹配等特色功能。
[0047]
(4)本发明调度指令质检系统填补了应用空白。在减少对现有业务、系统产生重大影响或改动的前提下,对调度录音业务的智能化应用、推广具有里程碑意义。
[0048]
本发明的其他特征和附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本方面的实践了解到。
附图说明
[0049]
图1为本发明实施例中的基于语音转录与知识图谱的调度指令质检方法流程图;
[0050]
图2为本发明实施例中的知识图谱形成过程示意图;
[0051]
图3为本发明实施例中的神经网络训练过程示意图。
具体实施方式
[0052]
应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0053]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0054]
实施例一
[0055]
在一个或多个实施方式中,公开了一种基于语音转录与知识图谱的调度指令质检方法,参照图1,具体包括如下过程:
[0056]
(1)对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
[0057]
具体地,结合图2,构建调度系统知识图谱的过程如下:
[0058]
1):检索期刊数据库、专利数据库等调度相关文献。
[0059]
2):从海量文献信息中应用调度术语中的公共关键词或相同数字,列出矩阵,快速将调度场景分类,调度术语共词矩阵的排列,可以清晰看出调度术语之间的关联性与逻辑性,形成调度系统共词矩阵;
[0060]
运用log-likelihood ratio算法对海量文献信息进行聚类分析,降低矩阵维数。
[0061]
3):利用可视化技术将共词矩阵可视化为共词网络。
[0062]
具体地,对调度相关文档集合中关键词进行合并同义词、去除低频词后,按照关键词在每篇文章中的共现情况生成关键词共词网络。
[0063]
4):通过蚁群算法计算两个关键词之间的最优路径,从而简化共词网络。
[0064]
5):以聚类模块值和轮廓值来评估图谱聚类效果;
[0065]
计算聚类模块值和轮廓值,并与事先设定的阈值做比较,评估图谱聚类效果;选择剪枝后聚类效果最佳的网络图谱,形成调度系统知识图谱。
[0066]
本实施例中,聚类模块值是衡量网络结构强度的划分质量,其中模块值q(i)为:
[0067][0068]
其中,e
ii
为集群i内所有的边数占整个网络所有边数的比值;ai为经过集群i内所有节点的边数(包含一点在集群i内一点在集群i外的边)占整个网络的所有边数的比值。q(i)值在0~1之间,其值越接近1,表示划分网络结构的强度越高。
[0069]
轮廓值(silhouette)是评价聚类效果好坏的一种方式,它结合内聚度和分离度两种因素,轮廓值具体计算方法为:
[0070][0071]
其中,a(i)为内聚度,即i到同簇其他样本的平均距离;b(i)为分离度,即i到其他类簇的所有样本的平均距离。s(i)越接近1,则说明样本i聚类合理轮廓越明显。
[0072]
根据形成的调度系统知识图谱,从时间切片进行图谱解读,掌握调度演进趋势,制定适合当下的调度指令标准。
[0073]
(2)确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
[0074]
本实施例中,结合图3,对于语音转录模型的训练过程具体如下:
[0075]
1):收集设定地域的历史调度指令录音文件,并根据不同地区方言,翻译成文字形成总样本库。形成总样本库后,将样本库按照方言地区、普通话地区拆分,拆分后形成多个子样本库。
[0076]
2):分别用子样本库训练语音转录模型,形成多个训练完毕的语音转录模型。
[0077]
3):根据新产生的录音所在区域,用对应的训练完毕的子语音转录模型进行转录,形成文本文件。
[0078]
本实施例中,语音转录模型可以通过循环神经网络构建。
[0079]
(3)将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终形成最精确的录音转录文本文件,用于调度事件的回溯。
[0080]
具体地,调度录音文本与调度系统知识图谱匹配的具体过程如下:
[0081]
1):运用对数似然比算法,评估一个词与调度场景类别词的相关程度,提取出具有类别区分能力的标签词。
[0082]
对数似然比算法是一种用于信息检索与勘探的加权聚类技术,用以评估一个词对调度场景的相关程度,从而提取出具有类别区分能力的标签词。
[0083]
假设h1表示元素x1、x2之间是相互独立的;h2表示元素x1、x2之间具有相关性。h1和h2符合二项式分布,其似然值l(h1)、l(h2)分别为:
[0084]
l(h1)=b(p
12
;p1;q1)b(p
2-p
12
;n-p1;q1)
[0085]
l(h2)=b(p
12
;p1;q2)b(p
2-p
12
;n-p1;q
12
)
[0086]
其中,n为所有元素出现的总次;p1、p2和p
12
分别为元素x1、x2和x
12
在调度系统知识图谱中出现的次数;q1、q2和q
12
分别为采用极大似然估计法计算元素x1、x2和x
12
出现的概率;b(
·
)为二项式分布。
[0087]
h1和h2的关联程度表示为llr,其中似然比λ数值是以2为底,具体公式为:
[0088][0089]
当llr≥t时,x1为x2的特征词,表明x1为具有类别区分能力的标签词;t为设定的阈值。
[0090]
2):根据标签词,确定录音文件对应调度场景;比如:出现设备维修、更换等即定义为调度检修场景。
[0091]
3):根据调度场景,与对应场景的调度系统知识图谱匹配,根据知识图谱里面的调度命令等对文本文件寻错、纠错,当语音转录的文本与知识图谱里的调度命令不符时,更改为知识图谱里面的调度命令;进一步提高语音转录后文本文件的准确性。
[0092]
将最终形成的文本文件与录音文件一起,放入对应的子样本库,持续训练语音转录模型;每当有新的调度指令录音文件,通过训练过后的语音转录模型转录成文本,并经调度系统知识图谱寻错、纠错后,形成的最终文本文件与录音文件一起加入对应的子样本库,持续训练子循环神经网络。
[0093]
实施例二
[0094]
在一个或多个实施方式中,公开了一种基于语音转录与知识图谱的调度指令质检系统,包括:
[0095]
知识图谱构建模块,用于对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
[0096]
文件转化模块,用于确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
[0097]
文本修正模块,用于将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。
[0098]
需要说明的是,上述各模块的具体实现方式已经在实施例一中进行了说明,不再详述。
[0099]
实施例三
[0100]
在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存
储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的基于语音转录与知识图谱的调度指令质检方法。为了简洁,在此不再赘述。
[0101]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0102]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
[0103]
在实现过程中,上述方法的各步骤可以通过处理器中的硬件集成逻辑电路或者软件形式的指令完成。
[0104]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献