一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于变压器知识库的信息检索方法及系统与流程

2022-02-23 02:03:13 来源:中国专利 TAG:

技术特征:
1.一种基于变压器知识库的信息检索方法,其特征在于,包括以下步骤:步骤1、选取变压器运维、检修作业场景下常用的技术规范构成原始样本库;步骤2、通过光学字符识别技术将原始样本库转换成可用的语料库文件;步骤3、提取语料库中各章节标题中的关键词,形成变压器知识库初版词典;采用分词模型将语料库中的字串变成词串,提取句中关键词,迭代更新变压器知识库词典;步骤4、通过算法对文档中的单词进行量化,提取词频相关性特征;同时将语料库中不同长度的句子映射成固定维度的句向量,将句向量输入度量神经网络模型提取句子的语义表征,得到语义信息特征;步骤5、根据步骤3得到的分词模型及变压器知识库词典进行查询量分词;步骤6、首先,结合词频相关性特征及语义相似性特征的归一化结果对语料库中的句子进行精准检索粗排序;然后,将查询量输入度量神经网络与语料库中的句子语义表征进行相似度匹配,并根据该值进行语料库关联信息粗排序;步骤7、根据后处理逻辑策略调整检索排序。2.根据权利要求1所述的基于变压器知识库的信息检索方法,其特征在于,步骤3中所述的采用分词模型将语料库中的字串变成词串,提取句中关键词,迭代更新变压器知识库词典,包括以下步骤:步骤31、对语料库中30%的数据进行人工分词,根据停词表滤除句中无用的字词;步骤32、使用人工分词的结果增量训练分词模型;步骤33、根据训练好的分词模型,对语料库中所有的句子进行分词,滤除停词表中的无用字词;步骤34、对分词后的结果采用textrank算法进行关键词提取,并更新变压器知识库词典。3.根据权利要求1所述的基于变压器知识库的信息检索方法,其特征在于,步骤4中所述的提取词频相关性特征包括以下步骤:步骤411、以分词后的每个关键术语作为查询术语,使用tf-idf、bm25 okapi、bm25 或bm25f算法计算得到语料库中每一句话的查询术语词频相关性特征;步骤412、对标题和正文赋予不同的权重α和(1-α);步骤413、根据唯一检索号构建语料库词频相关性特征向量库。4.根据权利要求1所述的基于变压器知识库的信息检索方法,其特征在于,步骤4中所述的语义信息特征,其提取步骤包括:步骤421、对语料库中的分词术语通过word2vec算法计算256维词向量;步骤422、将词频相关性特征与词向量相乘,对句中每个术语的词向量进行加权平均,得到句向量;步骤423、构建基于孪生结构的度量神经网络,将两句话的句向量输入结构相同、参数共享的神经网络,通过三元组损失函数优化度量空间,使相关的语义表征尽量靠近,无关的语义表征尽量远离;步骤424、模型测试时,提取度量神经网络的最后一层神经元作为语义表征特征;步骤425、根据唯一检索号构建语义表征特征向量库;步骤426、进行关键术语检索时,使用向量间的余弦距离表征两个句子间的相似度。
5.根据权利要求1所述的基于变压器知识库的信息检索方法,其特征在于,所述步骤6包括:步骤61、根据用户键入查询量的分词结果,计算词频相关性tf
query
,如果一个查询量被分词模型分成多个术语,则计算术语词频相关性之和:其中tf
query
为词频相关性,i代表语料库中第i个句子,query代表键入查询量的分词结果,n代表分词词串,norm代表归一化后的相关性数值,归一化范围为[0.3,1];步骤62、根据步骤4所述的度量神经网络模型提取查询量的句向量,再经过度量神经网络计算查询量和语料库中句子的余弦距离,并将结果归一化到[0.3,1]范围;步骤63、结合词频相关性和语义相似度度量排序,分别形成精准检索和关联信息检索粗排序列表。6.根据权利要求1所述的基于变压器知识库的信息检索方法,其特征在于,步骤7中所述的后处理逻辑策略包括:步骤71、根据查询量是否包含于标题,二次调整检索排序;步骤72、如果分词结果包含多个术语,考虑术语之间的相互关系和在句中的间隔,微调相关性排序;步骤73、考虑标准/规范不同级标题对检索结果的影响、查询量分词术语在句子中出现的频率等因素,调整词频相关性和语义相似度的加权权重,调整检索排序;步骤74、考虑日常约束实现检索精排,所述日常约束包括:同一标准同一章节在系统返回结果中仅出现一次;电力行业标准优先级大于电力行业推荐标准优先级大于国家电网企业标准优先级。7.一种基于变压器知识库的信息检索系统,其特征在于:该系统包括存储器、处理器和交互展示装置,所述存储器中存有通过算法训练得到的分词模型、变压器知识库词典、词频相关性特征和语义信息特征,所述处理器根据交互展示装置发送的查询量,执行权利要求1所述的基于变压器知识库的信息检索方法中的步骤,并将最终的排序结果发送至所述交互展示装置展示。

技术总结
本发明公开了一种基于变压器知识库的信息检索方法及系统,包括:选取变压器运维检修领域常用的38个标准/规范构建样本库;结构化解析标准/规范文档,形成语料库;变压器知识库词典迭代及电力领域中文分词,提取语料库中句子的关键词,扩充迭代变压器知识库词典;词频特征库与语义特征库建立,根据词频相关性及语义相似性构建术语的特征向量库;集成学习粗排序,将用户键入的查询量与特征向量库进行匹配,得到归一化的度量数值,形成粗排序列表;后处理精排序,通过逻辑性策略筛选、调整粗排序列表。本发明具有检索结果排序准确率高、可扩展性好、词典及语料库扩充操作容易等优点,能够方便地纳入智慧运维检修业务流程,促进标准数字化建设。数字化建设。数字化建设。


技术研发人员:孙瀚 李坤仑 王晶 张庆伟 王力
受保护的技术使用者:国电南瑞科技股份有限公司
技术研发日:2021.11.10
技术公布日:2022/2/18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献