一种基于文本解析的电网规划智能问答系统的制作方法

2023-01-02 07:37:40 来源：中国专利 TAG：

1.本发明涉及智慧电网技术领域，更具体地说，涉及一种基于文本解析的电网规划智能问答系统。

背景技术：

2.目前，随着智慧电网的普及，各类电网信息都通过电网数据的方式进行汇总、分析为决策提供支持，而对于用电发展规划项目而言，需要调集大量的技术材料、政策文本等等，原有的电网发展规划的相关信息收集工作一直是目前的痛点所在，由于大量的政策文本时间性、有效性的不同，且政策文本专业性较高且存在大量细节，文本类型、遵循原则、适用范围、主体、要求，指标等等信息都存在不同，而此时就需要大量的专业人员进行阅读、归档，了解，而虽然有所有文本的电子数据留存，但是这些电子数据未经过分析，实际操作中也是发现问题时，开始查找和问题相关的大量文本，从而得到问题的答案，但是每个文本中都存在大量与该问题不相关的内容，会产生很多无效阅读，而针对上述问题，授权公告号为cn110909140b公开了一种图谱问答与检索问答结合的中枢路由方法及装置，通过构建知识图谱的方式结合对用户的语义识别，对用户提问进行回答，而这种方式虽然适用于普通电网问题，但是如果迁移到为电网规划进行信息调取，在信息粒度上仍然存在非常大的差距，因为电网规划相关文本信息专业性强，且面向电网发展规划部门对信息的准确性需求以及相关性需求较大，所以需要一种能够对电网文本进行更精细解析的智能问答系统。

技术实现要素：

3.有鉴于此，本发明目的是提供一种基于文本解析的电网规划智能问答系统。
4.为了解决上述技术问题，本发明的技术方案是：一种基于文本解析的电网规划智能问答系统，包括有应用层、支撑层、知识层和数据层，
5.所述的知识层配置有文本解析模块，所述文本解析模块用于解析数据层输入的文本信息并生成文本要素图谱；
6.所述文本解析模块包括结构解析单元、语义匹配单元以及信息关联单元；所述结构解析单元关联有结构特征库以及结构类型库，所述结构特征库存储有若干结构特征，所述结构类型库存储有结构类型信息，所述结构解析单元遍历对应的文本信息以通过结构特征库识别相同的结构特征，并根据对应结构特征在文本信息中的顺序以及位置关系从所述结构类型库中匹配最接近的结构类型信息；
7.所述语义匹配单元关联有行业术语库，所述行业术语库存储有电网行业用语以及对应每一电网行业用语配置有词性特征，所述语义匹配单元通过词性特征标记文本信息中与电网行业用语对应的词汇，并配置有语义识别算法从标记后的文本信息进行语义识别以生成若干知识信息要素；
8.所述信息关联单元包括第一关联策略以及第二关联策略，所述第一关联策略根据结构类型信息于知识信息要素之间建立第一关联标记，所述第二关联策略根据第一关联标
记从知识信息要素中筛选具有关联特征的知识信息要素，比对不同文本信息具有关联特征的知识信息要素以确定文本信息之间的文本关联关系，根据文本关联关系以在不同从属文本信息的知识信息要素之间建立第二关联标记，根据第一关联标记、第二关联标记以及知识信息要素组成所述文本要素图谱。
9.进一步的，所述知识层还配置有数据配置模块，所述数据配置模块包括特征配置单元，所述特征配置单元将所述结构类型库中的每一结构类型信息拆分为若干结构特征，所述结构特征库的每一结构特征配置特征优先值，有d＝a/(a1α1/β1 k anαn/βn)，其中d为特征优先值，a为预设的优先值配置参数，an为第n个具有该结构特征的结构类型信息的匹配关联值，所述匹配关联值反映该结构类型信息的匹配可靠程度，αn为第n个具有该结构特征的结构类型信息中所有结构特征的数量，βn为第n个具有该结构特征的结构类型信息中该结构特征的数量；
10.所述结构解析单元根据优先值大小确定结构特征在结构类型信息库中的匹配顺序。
11.进一步的，所述数据配置模块还包括类型关联单元，所述类型关联单元根据输入的文本样本配置每一结构类型信息的匹配关联值，有a＝1/[(t
0-t1)-cm]2χ1 k 1/[(t
0-tm)-cm]2χm，其中，a为匹配关联值，t0为当前时间，tm为第m个文本样本的创建时间，c为预设的敏感调节变量，m为文本样本的总量，χm为第m个文本样本对应与结构类型信息的已知匹配度；
[0012]
所述结构解析单元根据匹配关联值计算每一结构类型信息的匹配度，有δχ＝a(h1 k hg)，其中δχ为匹配度，hg为第g个结构特征的相似度，所述结构解析单元确定匹配度最高的结构类型信息为最接近的结构类型信息。
[0013]
进一步的，所述知识层还包括数据提取模块，所述数据提取模块包括词库提取单元、词性标记单元，所述词库提取单元关联所述数据层的若干行业术语数据库，并从所述行业术语数据库中提取电网行业用语，所述词性标记单元用于对提取的电网行业用语标记词性特征，所述词性特征包括行业用语数据库的类型。
[0014]
进一步的，所述数据提取模块还包括特征配置单元，所述特征配置单元用于配置每一词性特征的识别优先值；
[0015]
所述语义识别算法以识别优先值为顺序确定作为索引的词性特征，并根据确定的词性特征对文本信息进行语义识别，当识别结果满足第一识别条件时，输出对应的知识信息要素。
[0016]
进一步的，所述语义识别算法包括配置有若干结构化语段，每一结构化语段包括固定项和参数项，每一结构化语段都以词性特征为索引，所述语义识别算法包括
[0017]
步骤a1、以识别优先值大小的顺序选择词性特征以确定对应的结构化语段；
[0018]
步骤a2、确定目标语段中的固定项并计算其关联程度以生成第一识别值；
[0019]
步骤a3、根据确定的固定项在目标语段中的位置确定目标语段中的参数项，并验证其数据格式以生成第二识别值；
[0020]
步骤a4、确定目标语段中的剩余信息以生成第三识别值；
[0021]
步骤a5、求和第一识别值、第二识别值、第三识别值以获得语义识别值；
[0022]
步骤a6、判断语义识别值是否满足所述第一识别条件，若满足第一识别条件，则以该结构化语段从目标语段中提取参数项以生成所述知识信息要素；若不满足第一识别条
件，重新进入步骤a1。
[0023]
进一步的，所述的第一识别条件配置有第一识别阈值和第二识别阈值，若语义识别值超过第一识别阈值，或该结构化语段的语义识别值大于语义识别均值第二识别阈值时，视为满足第一识别条件，所述的语义识别均值为所有在先识别的结构化语段所获得的语义识别阈值的平均值。
[0024]
进一步的，所述的词性优先值为词语优先值和词库优先值加权和，所述特征配置单元包括词语优先算法和词库优先算法，所述词语优先算法为当一电网行业用语在文本信息中被识别时，增加预设的第一优先增量至该电网行业用语的词语优先值，同时根据电网行业用语之间的相似度权重增加预设的第二优先增量至其他电网行业用语的词语优先值；所述词库优先算法为当一电网行业用语在文本信息中被识别时，增加预设的第三优先增量至与该电网行业用语属于相同的行业术语数据库的所有电网行业用语的词库优先值。
[0025]
进一步的，所述第一关联策略包括根据结构类型信息确定知识信息要素之间的从属关系，并识别知识信息要素的要素缺失项，根据识别得到的要素缺失项以及从属关系生成第一关联标记。
[0026]
进一步的，所述第二关联策略包括根据第一关联标记确定作为基本信息的知识信息要素，并将不同文本信息的知识信息要素进行匹配以将匹配结果符合第二比对条件的知识信息要素中确定要素竞合项，根据第一关联标记调取对应的作为基本信息的知识信息要素以识别要素竞合项，根据要素竞合项生成对应的竞合条件，所述要素竞合项包括时间竞合项、政策等级竞合项、条例优先竞合项。
[0027]
本发明技术效果主要体现在以下方面：设置了专用于解析文本信息的文本解析模块，通过信息结构解析以及语义解析两个算法支持，完成了政策文本的知识信息难以提取的关键问题，并通过建立行业术语库标记每个电网行业用语的磁性特征，为语义识别算法提供实现的可能，另一方面，通过结构信息对知识信息要素进行关联，从而使整个文本信息形成网状拓扑结构，而根据这类网状拓扑结构就可以分析文本信息之间的关联性，生成新的关联关系，从而使知识图谱具备准确性，避免文本信息部分条款失效、时间覆盖、优先级不同导致回答信息出现错误。
附图说明
[0028]
图1：本发明一种基于文本解析的电网规划智能问答系统架构原理图；
[0029]
图2：本发明一种基于文本解析的电网规划智能问答系统的功能模块架构原理图。
具体实施方式
[0030]
以下结合附图，对本发明的具体实施方式作进一步详述，以使本发明技术方案更易于理解和掌握。
[0031]
参照图1所示，一种基于文本解析的电网规划智能问答系统，包括有应用层、支撑层、知识层和数据层，一般而言，现有的问答系统也是有四层架构组成，应用层主要功能是实现用户交互，例如关于政策法规，标准规范，系统功能，业务指标的问答，以及能源政策、发展标准规范的深度解析，然后运行监测和文本框架定义和维护的表示。而支撑层是为应用层提供服务，例如语义解析服务，解析用户提问的问题，信息提取服务，根据解析结果提
取信息，图片内容提取服务，根据输入的图片提取服务，文本分析服务根据上传的文本分析内容，知识推理服务，根据获得的内容推理对应的要素，支撑层还提供消息、工作流、安全、权限、监测等基础服务。数据层主要是提供数据基础，提供例如新闻、咨询、制度标准、分析报告、拓扑数据、项目数据、地图数据、政策法规、经验案例、专业文库、培训视频、电量数据、档案数据、实用化数据等；知识层主要是对数据进行提取，建立基础知识库，然后根据基础知识库构建知识图谱，通过算法模型为智能问答提供支撑，本发明的核心在于针对政策文本这类的信息，如何精确提取信息要素，并生成具有能够区分文本间的竞合关系的知识图谱，这样用户在提问时，可以从政策文本中精确找到对应元素进行回答。具体方案如下：
[0032]
所述的知识层配置有文本解析模块，所述文本解析模块用于解析数据层输入的文本信息并生成文本要素图谱；
[0033]
所述文本解析模块包括结构解析单元、语义匹配单元以及信息关联单元；所述结构解析单元关联有结构特征库以及结构类型库，所述结构特征库存储有若干结构特征，所述结构类型库存储有结构类型信息，所述结构解析单元遍历对应的文本信息以通过结构特征库识别相同的结构特征，并根据对应结构特征在文本信息中的顺序以及位置关系从所述结构类型库中匹配最接近的结构类型信息；所述知识层还配置有数据配置模块，所述数据配置模块包括特征配置单元，所述特征配置单元将所述结构类型库中的每一结构类型信息拆分为若干结构特征，所述结构特征库的每一结构特征配置特征优先值，有d＝a/(a1α1/β1 k anαn/βn)，其中d为特征优先值，a为预设的优先值配置参数，an为第n个具有该结构特征的结构类型信息的匹配关联值，所述匹配关联值反映该结构类型信息的匹配可靠程度，αn为第n个具有该结构特征的结构类型信息中所有结构特征的数量，βn为第n个具有该结构特征的结构类型信息中该结构特征的数量；首先对结构解析单元的内容作出详述，结构解析单元目的是识别文本信息的结构特征，一方面结构特征会与一般的文本相同，例如格式、字体、大小、标号等，也会存在电网发展文本独有的特征，例如表格、图表、分布图等图形特征，或者特殊的文本格式特征，预先通过结构特征库存储上述特征，然后先遍历整个文本信息从而标记这些特征的位置，标记完成后，根据特征之间的关系生成关系图，这个关系图是根据段落关系生成的，而本发明由于相较于一般的文本结构识别更加复杂，特征更多，所以文本识别错误率可能也会上升，所以本发明还提出了验证算法此方法的主要目的过滤无效规则，如何定义无效规则，无效规则体现在如非结构文本内容中出现的一些规则例如1.5亿，这种数字可以被规则1.匹配到，但是后面还接数字以及单位内容。以及非结构模板应具有的一些特点：针对反向检测模板规则我们设计了如下规则结构以及算法：为了满足算法设计了map与三结点链表相结合的结构：1.加载map《string,chains》结构的规则模板；2.定义栈；3.定义首规则变量初始化真firstrule＝true；4.for遍历当前非结构文档规则集合；5.获取规则对象；6.根据规则获取chains前后指针指向三结点链表；7.if规则是数值；8.校验当前数字是否是内容中的数字；9.if如果是内容中的数字10.将state设置为1标记当前规则为无效状态；11.非数字情况,首规则判断；12.if首规则前指针不为null；13.将state设置为1标记当前规则为无效状态；14.else首规则设置为假firstrule＝false，并将当前规则加入栈中；15.if非首规则判断；16.for遍历栈；17.if当前规则是与栈中最近类型相同的规则是前指向关系；18.将当前规则加入栈；19.else将state设置为1标记当前规则为无效状态。目的是为了将无效的结构特征剔除，而标记所有结构特征后，本发明还配置类型特征
数据库，用于确定这个文本信息的格式类型，进一步避免信息特征过于复杂导致格式类型无法确定，类型特征数据库也是预先进行配置，由于虽然特征要素较为复杂，但是一般政策文本在格式上相似性较高，格式特征较为统一，例如标记一、二后面会有数字标记1、2作为小项，而后是1.1这类标记，在一种政策性文本中较为常见，所以使用提前对结构类型进行录入，从而匹配最接近的结构类型，可以进一步降低错误率。
[0034]
所述数据配置模块还包括类型关联单元，所述类型关联单元根据输入的文本样本配置每一结构类型信息的匹配关联值，有a＝1/[(t
0-t1)-cm]2χ1 k 1/[(t
0-tm)-cm]2χm，其中，a为匹配关联值，t0为当前时间，tm为第m个文本样本的创建时间，c为预设的敏感调节变量，m为文本样本的总量，χm为第m个文本样本对应与结构类型信息的已知匹配度；具体的，所述结构解析单元根据优先值大小确定结构特征在结构类型信息库中的匹配顺序。通过这样设置，可以根据文本样本导入的方式计算每个结构类型信息的匹配关联值，也就是反映结构类型信息的出现的频次，如果某一结构特征的组合与多个结构类型信息相近，就可以根据匹配关联值确定最优的结构类型信息，时间变量可以保证文本样本格式更新时，模型可以进行自学习和优化，使得具有时间优势的文本结构类型能够对应较高的匹配关联值。
[0035]
所述结构解析单元根据匹配关联值计算每一结构类型信息的匹配度，有δχ＝a(h1 k hg)，其中δχ为匹配度，hg为第g个结构特征的相似度，所述结构解析单元确定匹配度最高的结构类型信息为最接近的结构类型信息。匹配度的计算是可以根据实际匹配结果进行计算，由于结构类型信息也是又若干结构特征组成的，所以通过特征匹配可以确定匹配结果，具体如下，为每一结构类型信息的结构特征设置相似度关系，例如同样是中文标号如果完全相同，则相似度值为1，而(二,)与(二：)相似度值为0.8，(二,)与(二)相似度值为0.6。而相似度关系可以人为进行配置，这样就可能根据结构特征的不同得到不同的结构，而确定每个文本信息和每个结构类型信息的匹配度，而a反应这个结构类型信息出现的频次，也就是信任值。通过上述方式就可以完成结构类型信息的识别。这样就可以确定文本信息的的结构类型，就可以按照结构类型对整个文本进行划分，这样就可以针对性的进行识别。这样的好处是，例如对电网行业信息的识别，对于一个语句的识别标准要求下，可能需要责任主体，但是由于该段落的上文已经介绍过责任主体，所以在语义识别时，可以缺失责任主体仍然能识别为对应的语义，所以预先对文本进行划分就起到了对语义识别的支持效果，而电网行业的文本的复杂性决定了仅仅有上述技术是无法完成知识图谱的构建的。
[0036]
所述语义匹配单元关联有行业术语库，所述行业术语库存储有电网行业用语以及对应每一电网行业用语配置有词性特征，所述语义匹配单元通过词性特征标记文本信息中与电网行业用语对应的词汇，并配置有语义识别算法从标记后的文本信息进行语义识别以生成若干知识信息要素；行业术语库目的是存储行业术语，因为一般的自然语言语义识别算法是在专业性较强的文本中是没有办法得到较好的应用的，所以需要构建行业术语库增加语义识别算法的适应能力，而行业术语库预先载入对应的电网行业用语的词性特征，然后根据这些词性特征标记对应的词汇，这样语义识别时就可以以词性特征为依据进行识别，具体的，所述知识层还包括数据提取模块，所述数据提取模块包括词库提取单元、词性标记单元，所述词库提取单元关联所述数据层的若干行业术语数据库，并从所述行业术语数据库中提取电网行业用语，所述词性标记单元用于对提取的电网行业用语标记词性特征，所述词性特征包括行业用语数据库的类型。而行业术语库是从数据层的若干行业术语
数据库中提取的，例如责任主体词汇数据库，信息系统词汇数据库、电力词汇数据库、变压器行业专业词汇数据库、电工常用词汇数据库、电力电气词汇数据库、电机电气词汇数据库、电机设计词汇数据库、电机专业术语库、电力安装词汇数据库、电力系统词汇数据库、电力行业设备词汇数据库、电气自动化专业行业词汇数据库、电站建设词汇数据库等等，而电力行业专业词汇就是汇总上述词汇信息形成的，但是对每一词汇配置对应的词性特征、例如名词、设备名称、变压相关。或者状态词、设备状态、配电相关。等等每个词汇可以有多个词性特征，根据词性特征可以对文本语句进行语义识别。具体的，所述数据提取模块还包括特征配置单元，所述特征配置单元用于配置每一词性特征的识别优先值；所述语义识别算法以识别优先值为顺序确定作为索引的词性特征，并根据确定的词性特征对文本信息进行语义识别，当识别结果满足第一识别条件时，输出对应的知识信息要素。所述语义识别算法包括配置有若干结构化语段，每一结构化语段包括固定项和参数项，每一结构化语段都以词性特征为索引，所述语义识别算法包括
[0037]
步骤a1、以识别优先值大小的顺序选择词性特征以确定对应的结构化语段；
[0038]
步骤a2、确定目标语段中的固定项并计算其关联程度以生成第一识别值；
[0039]
步骤a3、根据确定的固定项在目标语段中的位置确定目标语段中的参数项，并验证其数据格式以生成第二识别值；
[0040]
步骤a4、确定目标语段中的剩余信息以生成第三识别值；
[0041]
步骤a5、求和第一识别值、第二识别值、第三识别值以获得语义识别值；
[0042]
步骤a6、判断语义识别值是否满足所述第一识别条件，若满足第一识别条件，则以该结构化语段从目标语段中提取参数项以生成所述知识信息要素；若不满足第一识别条件，重新进入步骤a1。通过这样设置，可以在三个维度中判断目标语段的含义，目标语段是根据标点符号划分确定的，为现有技术，而语义识别的第一识别值对应固定项，而固定项可能和语义识别标准不同，可以根据固定项的关联程度计算第一识别值，例如变压器和变压设备具有对应的关联程度，这个关联程度可以预先配置在电网行业数据库中，而参数项例如具体的数值，这个可以验证数据格式，例如某数据的位数、后面的单位都可以判断这个参数项是否存在，而近似度越高，则可靠度越高，而另外的剩余信息越多，则说明这个目标语段的其他信息较多，偏差结果也较大，所以剩余信息少，则第三识别值高，这样就可以通过语义识别算法匹配结构化语段从而完成识别。具体的，所述的第一识别条件配置有第一识别阈值和第二识别阈值，若语义识别值超过第一识别阈值，或该结构化语段的语义识别值大于语义识别均值第二识别阈值时，视为满足第一识别条件，所述的语义识别均值为所有在先识别的结构化语段所获得的语义识别阈值的平均值。因为本发明配置了识别优先值，所以一般而言前面的识别匹配程度会高于后面，所以如果出现语义识别值特征高，也就是高于预设的第一识别阈值，则说明识别成功，无需进行后续识别，提高识别效率，如果出现了语义识别结果不高，但是高于前面的平均值并具有一定差值，则说明明目标语段较难识别，但是此时的识别结果应该接近最优结果，所以通过上述方式可以提高解析识别的效率。具体是通过词性优先值的先后顺序决定，所述的词性优先值为词语优先值和词库优先值加权和，所述特征配置单元包括词语优先算法和词库优先算法，所述词语优先算法为当一电网行业用语在文本信息中被识别时，增加预设的第一优先增量至该电网行业用语的词语优先值，同时根据电网行业用语之间的相似度权重增加预设的第二优先增量至其他电网行业
用语的词语优先值；所述词库优先算法为当一电网行业用语在文本信息中被识别时，增加预设的第三优先增量至与该电网行业用语属于相同的行业术语数据库的所有电网行业用语的词库优先值。词性优先值是根据通过两个维度计算获得，一个是该词在所有文本信息中出现的频次，以及其具有关联关系的词在文本信息中出现的频次，另一方面是这个底层数据库被对应的文本信息中对应词出现的次数。这样就能通过大量导出外部数据库优化电网行业数据库，而导入的词汇也不会产生数据冗余。
[0043]
所述信息关联单元包括第一关联策略以及第二关联策略，所述第一关联策略根据结构类型信息于知识信息要素之间建立第一关联标记，所述第二关联策略根据第一关联标记从知识信息要素中筛选具有关联特征的知识信息要素，比对不同文本信息具有关联特征的知识信息要素以确定文本信息之间的文本关联关系，根据文本关联关系以在不同从属文本信息的知识信息要素之间建立第二关联标记，根据第一关联标记、第二关联标记以及知识信息要素组成所述文本要素图谱。所述第一关联策略包括根据结构类型信息确定知识信息要素之间的从属关系，并识别知识信息要素的要素缺失项，根据识别得到的要素缺失项以及从属关系生成第一关联标记。由于知识信息要素中存在缺失项，例如标题中提出的责任主体，后续可能都会用代称表示，所以这个代称就会作为要素缺失项呈现，该要素缺失项可以通过第一关联标记被补全成完整的信息，所述第二关联策略包括根据第一关联标记确定作为基本信息的知识信息要素，并将不同文本信息的知识信息要素进行匹配以将匹配结果符合第二比对条件的知识信息要素中确定要素竞合项，根据第一关联标记调取对应的作为基本信息的知识信息要素以识别要素竞合项，根据要素竞合项生成对应的竞合条件，所述要素竞合项包括时间竞合项、政策等级竞合项、条例优先竞合项。由于通过第一关联标记可以确定基础信息而根据基础信息或其他的知识信息要素可以确定存在竞合关系的两个知识信息要素，例如不同时间的政策、或者不同等级的政策、或者明确标识出，有争议采用本方案的信息，这样就可以利用这些知识信息要素的关系确定争议关系，形成对应的知识图谱，在提问时可以得到精确答案。而在上述基础上，可以构成例如关键词分析、时间分析、年份分析。
[0044]
当然，以上只是本发明的典型实例，除此之外，本发明还可以有其它多种具体实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明要求保护的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种非均匀雾密度分布先验的遥感影像去雾方法

一种基于文本解析的电网规划智能问答系统的制作方法

相关文献

最热文献