一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于BERT模型的新冠知识智能问答系统及方法

2022-10-26 07:44:34 来源:中国专利 TAG:

技术特征:
1.一种基于bert模型的新冠知识智能问答系统,其特征在于,包括:数据采集模块、数据存储模块、自然语言处理模块、服务器模块、网页前端模块;所述数据采集模块用于采集有关新冠疫情日常防护、治疗、新冠疫苗及新冠病理特征的问题和答案;所述数据存储模块用于将采集到的问题和答案一一对应存储在数据库中;所述自然语言处理模块用于将非结构化数据转换为特征向量,并将特征向量与数据库中问题进行相似度检索处理;所述服务器模块用于前后端交互,根据用户输入的问题返回数据库数据给前端;所述网页前端模块用于生成新冠疫情防控的聊天界面,实现以对话形式的问答功能。2.根据权利要求1所述的一种基于bert模型的新冠知识智能问答系统,其特征在于,所述自然语言处理模块包括:特征向量生成模块、向量索引建立模块、相似度匹配模块;所述特征向量生成模块用于通过bert模型将非结构化数据提取为特征向量;所述向量索引建立模块用于通过向量搜索引擎milvus对特征向量进行计算并建立向量索引;所述相似度匹配模块用于实现特征向量的分析与检索。3.一种基于bert模型的新冠知识智能问答方法,其特征在于,包括:步骤1:采集有关新冠疫情日常防护、治疗、新冠疫苗及新冠病理特征的问题和答案;步骤2:将采集到的问题和答案一一对应存储在数据库中;步骤3:将非结构化数据转换为特征向量,并将特征向量与数据库中问题进行相似度检索处理;步骤4:前后端交互,根据用户输入的问题返回数据库数据给前端;步骤5:生成新冠疫情防控的聊天界面,实现以对话形式的问答功能。4.根据权利要求3所述的一种基于bert模型的新冠知识智能问答方法,其特征在于,所述步骤1包括:步骤1.1:针对全球新冠肺炎共享实战平台,用urllib模拟浏览器向服务器发送请求,从而获取相应网页源码;步骤1.2:在pycharm中输入xpath语句解析网页源码,解析服务器响应的文本,从而获取有关新冠疫情日常防护、治疗、新冠疫苗及新冠病理特征的问题和答案数据。5.根据权利要求3所述的一种基于bert模型的新冠知识智能问答方法,其特征在于,所述步骤2包括:步骤2.1:首先初始化属性,指定本地ip、mysql启动端口、用户名、密码、数据库名称;步骤2.2:链接相应的数据库对应的表格,输入本地ip、mysql启动端口、用户名、密码、数据库名称,规定编码格式;步骤2.3:连接数据库,在数据库中生成问题和答案后,调用数据插入方法,创建实例化对象,最后设定循环次数,在mysql数据库的表格中插入一定数量的数据。6.根据权利要求3所述的一种基于bert模型的新冠知识智能问答方法,其特征在于,所述步骤3包括:步骤3.1:调用bert模型将非结构化数据转换为特征向量;步骤3.2:通过milvus对获取的特征向量进行计算并建立向量索引;
步骤3.3:利用ivf_sq8算法对特征向量进行分析与检索。7.根据权利要求6所述的一种基于bert模型的新冠知识智能问答方法,其特征在于,所述步骤3.1包括:步骤3.1.1:调用包模型sentencetransformer,并用数据预处理工具metricsklearn.preprocessing调用包normalize进行规范化处理,调用模型路径model_path,工具包gdown在网址上下载压缩的sentencetransformer的bert模型;步骤3.1.2:提取数据库中问题列的已有数据;步骤3.1.3:对从爬虫到数据库中得到的问题列的语句进行编码操作。8.根据权利要求6所述的一种基于bert模型的新冠知识智能问答方法,其特征在于,所述步骤3.2包括:步骤3.2.1:将特征向量和问题数据合并到一个列表中,分别将特征向量导入数据预处理函数,问题数据导入mysql;步骤3.2.2:将特征向量转为二维向量;步骤3.2.3:对特征向量存储并建立向量索引。9.根据权利要求6所述的一种基于bert模型的新冠知识智能问答方法,其特征在于,所述步骤3.3包括:步骤3.3.1:针对用户输入的问句,经过bert和池化层将其转成定长特征向量,将特征向量转换为二维向量;步骤3.3.2:在milvus的集合中搜索相似向量索引。10.根据权利要求9所述的一种基于bert模型的新冠知识智能问答方法,其特征在于,所述步骤3.3.2包括:c1)将二维向量进行标量量化;c2)用k-means算法将n个y向量分为16384个聚类,分别获得聚类中心c1,c2,
……
,c
16384
,将输入特征向量x与n个y向量的距离记为x与y向量所在的聚类中心的距离;c3)比对输入特征向量x与16384个聚类中心的距离,找到和输入特征向量距离最小的16个聚类,然后对这16个聚类中全部的向量通过内积执行距离比对;c4)在milvus中检索查询记录得到与该向量组相似度最高的top_k个向量并打印其在集合中对应的序号,返回序号数值;c5)连接mysql数据库,建游标,若表格不存在则创建mysql表,将milvus序号和镜像文件路径批量插入mysql,根据milvus序号获取镜像文件路径,用sql语句在对应的表格中选择问句文本内容;c6)将对应的一系列问题返回前端,点击相似问题会返回对应答案。

技术总结
本发明提供一种基于BERT模型的新冠知识智能问答系统及方法,所述系统包括数据采集模块、数据存储模块、自然语言处理模块、服务器模块、网页前端模块;通过BERT模型将非结构化数据提取为特征向量,然后通过Milvus对这些特征向量进行计算并建立向量索引,最后利用IVF_SQ8算法实现对非结构化数据的检索。本发明一方面用BERT模型提高了特征词向量转化的准确度,去除了繁杂的预处理工作,解决了传统NLP模型训练速度较慢、计算量大、人工操作复杂、词向量转换效果较差的问题,另一方面用高性能Milvus向量搜索引擎实现了高维向量的存储与检索工作,应用IVF_SQ8基于量化的索引算法提升了匹配精准度,并减小了内存,降低了人力、时间、资金等成本。资金等成本。


技术研发人员:郑子昂 冯玺匀 贾同 陈馨怡
受保护的技术使用者:东北大学
技术研发日:2022.07.19
技术公布日:2022/10/25
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献