一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于知识图谱的高校专业智能问答系统及方法

2022-05-31 22:54:15 来源:中国专利 TAG:


1.本发明属于人工智能和机器学习领域,更具体的说是涉及一种基于知识图谱的高校专业智能问答系统及其方法。


背景技术:

2.随着教育水平的提高,高考人数屡创新高,而人们对互联网的应用也越来越多,高校专业大数据也逐渐走入人们的日常生活。如何对体积庞大、结构复杂的数据进行分析,从中获取有利于考生报考专业的信息,是高校专业大数据实际应用的关键。高校专业问答系统旨在回答每个考生的个性化问题,帮助考生获取自己所需要的信息。知识图谱以图结构形式对数据进行存储和处理,可以从海量的的数据中抽取出有用的信息,有效处理海量高校专业数据。目前一些门户网站对用户提出的个性化问题不能给出针对性强的回答,而高校专业问答系统可以解决此类问题。
3.现有的问答系统只能够根据使用者输入的关键词进行查询,无法实现对用户输入的自然语言进行识别搜索,智能化程度较低,查询结果片面,与问题匹配准确率低,结果答非所问。本发明基于知识图谱通过构建一个垂直领域的智能问答系统,将该领域碎片化的知识充分合理地整理到一起,形成一个大的语义网,基于hanlp的加载自定义词典的中文分词方法和技术,定义查询语句,更加快速、准确地对用户的个性化问题进行分词,提高分词结果的准确性和可靠性。


技术实现要素:

4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供的一种将知识图谱技术和朴素贝叶斯分类算法相结合的高校专业智能问答系统和方法,通过所建立的人工智能问答系统帮助用户在专业和与专业有关的11个属性之间进行智能问答,为高考填报提供了新的途径,满足考生个性化问题需求,提升了用户使用体验感。
5.本发明的目的可以通过以下技术方案来实现:
6.一种基于知识图谱的高校专业智能问答系统及方法,包括知识图谱构建模块、问题分类模块、数据库查询模块和结果反馈模块:
7.所述知识图谱构建模块,用于根据中国教育在线这一垂直网站获取的数据构建高校专业知识图谱;
8.所述问题分类模块,用于获取用户输入的问题文本,识别用户问句的命名实体和问题类型,其中问题类型共有16类,是由我们预先根据问卷调查结果划分而来;
9.所述数据库查询模块,用于根据问题分类的结果和识别出的关键词,将其转换为对应的图形数据库查询语句,并送入数据库查询获取结果;
10.所述结果反馈模块,用于整理返回的结果,将查询内容组装为符合自然语言的答案,显示于前端对话框。
11.优选的,所述知识图谱构建模块包括专业数据爬取单元、结构调整单元、专业数据
存储单元;
12.所述专业数据爬取单元,用于对网页端中国教育在线网站的文本数据进行爬取,并传递至结构调整单元;
13.所述结构调整单元,用于对专业数据爬取单元所获得文本数据进行整理,将其按照数据库要求的格式进行转换,映射为专业所属学科、专业名称、专业课程、工作方向、高中相关课程、专业热门高校六大实体及六个专业属性;
14.所述专业数据存储单元,用于创建实体、实体属性和实体间的关系,将按要求整理好的json数据按照《实体,关系,实体》三元组进行存储,生成高校专业知识图谱。
15.优选的,所述问题分类模块包括识别关键词单元、判断问题类型单元;
16.所述识别关键词单元,用于识别问句中的命名实体,对用户问句进行解析时,采用hanlp工具对问句进行词语分割和词性标注;
17.所述判断问题类型单元,用于识别用户输入问题类型,使用预训练的朴素贝叶斯分类算法对问题分类,获取其问题标签。
18.优选的,所述系统还包括数据库查询模块,所述数据库查询模块用于接收问题分类模块的数据,根据问题类型和关键词生成对应的结构化语句,将其转换为对应的数据库查询语言,在高校专业知识图谱中查询结果。
19.一种基于知识图谱的高校专业智能问答方法包括以下步骤:
20.s1.采集各高校专业信息,构建高校专业知识图谱;
21.s2.获取并解析用户查询文本,识别出关键词并判断问题类型;
22.s3.选择问题类型对应的结构化模板,结合关键词生成结构化语句,进行查询获取相关结果;
23.s4.整合检索结果,生成答复语句,将其反馈给用户。
24.具体地说,所述步骤s1中高校专业知识图谱的构建,具体包括以下步骤:
25.s1.1收集专业信息,整理并抽取可用知识单元,形成结构化数据,主要包括:专业所属学科、专业名称、专业id、专业年限、专业描述、工作方向、高中相关课程、男女比例、文理比例、考研相关方向、专业课程以及专业热门高校信息;
26.s1.2将高校专业信息映射为实体及专业属性,确定各实体间的关系,形成《实体,关系,实体》三元组;
27.s1.3根据结构化json数据,构建一个整合“新工科、新医科、新农科、新文科”专业相关数据信息的高校专业知识图谱。
28.所述s2的过程为:
29.s2.1获取用户问题文本,基于hanlp工具对用户问句进行分词和词语标注,识别问题文本中的关键词;
30.s2.2使用预训练的朴素贝叶斯分类算法对问题分类。
31.所述s3的过程为:
32.s3.1调用对应结构化问题模版,将提取出的关键词与问题模板匹配,生成知识图谱库中检索语句;
33.s3.2在高校专业知识图谱中获取查询结果。
34.与现有技术相比,本发明的有益效果是:
35.(1)本发明利用海量文本采集融合轻量级可视化爬虫设计技术,选择neo4j图形数据库作为存储介质,将大量繁杂无序且毫无联系的专业数据进行一定的梳理和融合,构建国内独一无二的高校专业知识图谱平台,共覆盖“新工科、新医科、新农科、新文科”全部726个专业,实现了高校专业数据资源的整合和关联性分析;
36.(2)本发明通过知识图谱和贝叶斯分类算法的结合,目前支持16大类问题的问答,可以更快速准确地识别用户个性化问题;
37.(3)本发明改变传统的搜索输入局限性,可支持任意专业相关问题的提问,支持考生及考生家长随时随地获取专业信息。
附图说明
38.图1是本发明所述高校专业问答系统的整体结构示意图。
39.图2是本发明所述高校专业问答方法的整体流程示意图。
40.图3是本发明所构建的高校专业知识图谱部分实例示意图。
41.图4是本发明所述高校专业问答系统的答案检索流程示意图。
具体实施方式
42.下面结合附图对本发明作进一步详细的说明。
43.如图1所示,一种基于知识图谱的高校专业问答系统,包括知识图谱构建模块、问题分类模块、数据库查询模块和结果反馈模块;
44.所述知识图谱构建模块,用于根据中国教育在线这一垂直网站获取的数据构建高校专业知识图谱;
45.所述问题分类模块,用于获取用户输入的问题文本,识别用户问句的命名实体和问题类型,其中问题类型共有16类,例如某专业从事什么工作、某专业所学课程、某学科下有哪些专业等,是由我们预先根据问卷调查结果划分而来;
46.所述数据库查询模块,用于根据问题分类的结果和识别出的关键词,将其转换为对应的图形数据库查询语句,并送入数据库查询获取结果;
47.所述结果反馈模块,用于整理返回的结果,将查询内容组装为符合自然语言的答案,显示于前端对话框。
48.优选的,所述知识图谱构建模块包括专业数据爬取单元、结构调整单元、专业数据存储单元;
49.所述专业数据爬取单元,用于对网页端中国教育在线网站的文本数据进行爬取,并传递至结构调整单元;
50.所述结构调整单元,用于对专业数据爬取单元所获得文本数据进行整理,将其按照数据库要求的格式进行转换,映射为专业所属学科、专业名称、专业课程、工作方向、高中相关课程、专业热门高校六大实体及六个专业属性;
51.所述专业数据存储单元,用于创建实体、实体属性和实体间的关系,将按要求整理好的json数据按照《实体,关系,实体》三元组进行存储,生成高校专业知识图谱。
52.优选的,所述问题分类模块包括识别关键词单元、判断问题类型单元;
53.所述识别关键词单元,用于识别问句中的命名实体,对用户问句进行解析时,采用
hanlp工具对问句进行词语分割和词性标注,其中,六大实体中的词语已被分别设置了词性,例如专业名称中的词语词性为“ma”,专业课程中的词语词性为“co”等;
54.所述判断问题类型单元,用于识别用户输入问题类型,使用预训练的朴素贝叶斯分类算法对问题分类,获取其问题标签,以用户输入问句文本“管理科学学哪些课程”为例,分类器将其判断为专业下设课程,其标签为2。
55.优选的,所述系统还包括数据库查询模块,所述数据库查询模块用于接收问题分类模块的数据,根据问题类型和关键词生成对应的结构化语句,将其转换为对应的数据库查询语言,在高校专业知识图谱中查询结果。
56.如图2所示,一种基于知识图谱的高校专业问答方法,包括以下步骤:
57.s1.从某在线教育网站上采集相关的专业信息(包括专业简介、所学课程、所属学科、男女比例、文理比例、工作方向、热门院校等),通过数据清洗与处理转化为结构化的知识,以此构建高校专业知识图谱,用于支持问题答案检索;
58.s2.对于用户输入的问句,使用hanlp分词工具对其进行词语分割和词性标注,识别出句子当中的关键词,并使用训练好的朴素贝叶斯分类器对问题分类;
59.s3.根据问题的分类结果,套用相应的结构化问题模板,生成结构化语句,并将其转化为在高校专业知识图谱库中的查询语句,获取查询结果;
60.s4.将在高校专业知识图谱库中检索到的答案进行整合,以文字形式反馈给用户。
61.所述步骤s1具体为:
62.s1.1以中国教育在线这一垂直网站对专业信息进行爬虫操作,收集所有专业相关的数据,整理并抽取可用知识单元,形成json结构化数据。最终获得专业数量726个,专业属性12种,分别包括专业所属学科、专业名称、专业id、专业年限、专业描述、工作方向、高中相关课程、男女比例、文理比例、考研相关方向、专业课程、专业热门高校;
63.s1.2将高校专业信息映射为实体及专业属性,确定各个实体间的关系。其中,以专业所属学科、专业名称、专业课程、工作方向、高中相关课程、专业热门高校作为六大实体,以专业id、专业年限、专业描述、男女比例、文理比例、考研相关方向作为专业的六大属性,以专业名称为纽带,确定专业名称与其他五个实体的关系,将其与专业所属学科、专业课程、工作方向、高中相关课程、专业热门高校的关系分别定义为belong_to、learn_course、get_job、related_to、hot_univ;
64.s1.3选择neo4j图形数据库作为存储介质,将获取的专业信息构建为高校专业知识图谱。该知识图谱由多个三元组《h,r,t》组成,其中h是头实体,为专业名称,t是尾实体,为专业所属学科、专业课程、工作方向、高中相关课程、专业热门高校,r是连接头实体h和尾实体t的关系,为步骤s1.1中定义的五大关系。以哲学和逻辑学专业为例,如图3所示,不同颜色代表不同实体与关系。下面两类专业类别都属于哲学,逻辑学要学习的课程有集合论、逻辑哲学、应用逻辑等等,未来的工作方向为深造考研或教育培训,热门大学包括中山大学、北京大学等。
65.所述步骤s2如图4所示,具体为:
66.s2.1获取用户端输入的自然语言问句,采用hanlp工具对问句进行词语分割和词性标注。具体地,在步骤s1.2构建专业知识图谱的过程中,生成了包含每个实体值的六大实体文件,譬如major文本文件中是726个专业名称,并设置此文件中的词语词性为ma,加入到
hanlp分词过程中以便分词时能识别专业名。对于其他五大实体中的词语,也分别进行了类似的词性设置,所以分词时可从句子当中识别出实体作为关键词;
67.s2.2使用训练好的朴素贝叶斯分类算法对问题分类,获取其问题标签,其中,朴素贝叶斯分类器的训练集文本与标签是我们人为确定的。我们做了“假如你是一名高考生,面临大学选专业的问题,你会提出与专业相关的什么问题”的调查问卷,并对调查问卷结果进行详细的分类汇总,最终得出询问人数前三名的问题是某专业的就业、某专业学习的课程、某专业的简介,其次还有专业的考研方向、男女比例、文理比例、热门院校等问题。基于此,我们设置了16类问题,根据问卷中收集的问题文本确定训练集,问题标签用0-15表示,用于训练朴素贝叶斯分类器。以用户输入问句文本“管理科学是什么”为例,分类器将其判断为专业简介,其标签为0。
68.所述步骤s3如图4所示,具体为:
69.s3.1根据标签所对应的结构化问题模板,将提取出的关键词与问题模板匹配,从而生成结构化语句,进而转化为查询语句。例如问题0(专业的简介)的结构化问题模板为“ma简介”,将用户问句文本中提取出来的专业名称“管理科学”替换掉模板中的ma,生成结构化语句“管理科学简介”,再转化为neo4j查询语句。
70.s3.2从高校专业知识图谱中获取查询结果。
71.以上详细描述了本发明的具体实施步骤,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献