一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种自然语言处理及其知识图谱构筑系统的制作方法

2022-03-31 10:21:45 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,具体为一种自然语言处理及其知识图谱构筑系统。


背景技术:

2.自然语言通常是指一种自然地随文化演化的语言。例如,英语、汉语、日语为自然语言的例子,而世界语则为人造语言,即是一种为某些特定目的而创造的语言。 不过,有时所有人类使用的语言(包括上述自然地随文化演化的语言,以及人造语言)都会被视为“自然”语言,以相对于如编程语言等为计算机而设的“人造”语言。这一种用法可见于自然语言处理一词中。自然语言是人类交流和思维的主要工具。
3.目前,现有自然语言处理及其知识图谱构筑系统在于运作时,其缺乏良好的数据两级处理模块,实际进行自然语言处理及其知识图谱构筑的数据处理工作时,其缺乏良好的两级分类数据处理,不利于后续高效的自然语言处理及其知识图谱构筑工作,且缺乏良好的知识推理程序与知识图谱构建程序,其ai处理单元内驱动知识推理程序与知识图谱构建程序进行知识推理程序与知识图谱构建工作时,其无法进行细致的知识推理与全面的知识图谱构筑。
4.为此,我们研发出了新的一种自然语言处理及其知识图谱构筑系统。


技术实现要素:

5.(一)解决的技术问题针对现有技术的不足,本发明提供了一种自然语言处理及其知识图谱构筑系统,解决了上述问题。
6.(二)技术方案为实现以上目的,本发明通过以下技术方案予以实现:一种自然语言处理及其知识图谱构筑系统,包括ai处理单元,所述ai处理单元连接有数据预处理模块与数据综合处理模块,所述内建运行有知识推理程序与知识图谱构建程序;所述数据预处理模块的数据输入端连接有数据输入模块,所述数据预处理模块的数据输出端连接有数据综合处理模块;所述数据综合处理模块内建运行有数据分类程序,且分类程序包括主体分类、概念分类、实物分类与事件分类。
7.优选的,所述数据预处理模块内建有数据预处理程序,可对经由数据输入模块传输而来的数据进行预处理工作,即先对数据进行初步分析,分析其自然语言的语境,即包括物理语境、言语语境、知识语境与语境的生命周期,其中物理语境包括时间、地点、天气、情绪情感与设备显示感知等,其中言语语境包括上下文、主体与设备反馈,其中知识语境包括常识共识、专业领域知识、agent画像、设备信息库与用户画像,其中语境的生命周期包括请求氛围、会话场景与长期会话。
8.优选的,所述数据综合处理模块可对数据预处理模块传输而来的预处理数据进行二次处理,即对其进行再次细分,并运行其分类程序,进行主体分类、概念分类、实物分类与事件分类,其中主题分类包括科技技术分类,囊括互联网技术分类、通信技术分类与手机信息分类等,其中概念分类包括人工智能分类与手机分类,囊括深度学习、自动驾驶、自动化机器、智能手机与非智能手机等,其中实体分类包括智能车辆分类与数码相关产品分类等,其中事件包括智能车辆相关事件与数码产品相关事件分类。
9.优选的,一种自然语言处理及其知识图谱构筑系统,其系统运行步骤如下:s1.数据输入,经由数据输入模块进行数据向系统的输入,其中数据输入模块运行,可进行io设备的数据输入、语音设备的语音输入与网络移动端的在线数据导入等多种数据输入,完成数据输入后,其数据输入模块可对输入的数据进行基本的安全审核,确保数据安全性后,将数据传输至数据预处理模块;s2.数据预处理,数据传输至数据预处理模块,可建立mention-》entity的关系表,抽取entity相关特征,实现实体上下文次分布与篇章的主题词分布,进行实体之间的语义关联度,发现文本中的mention,并找到候选词实体,对候选词实体排序,返回最有可能的实体,确认实体本身的信息,确定实体与实体之间协同关系;s3.数据处理,数据综合处理模块对数据预处理后的信息进行二次处理,运行其分类程序,进行主体分类、概念分类、实物分类与事件分类,进而进行分词工作,将每个句子切割为词语,然后进行词性标注,接着对标注过的句子进行命名实体识别,最后搜索实体间可能存在的关系,所以在对文句子进行命名实体识别之前必须对进行分词和词性标注,其中包括对分词粒度、语境歧义与未录入词语的分析;s4.ai处理单元运行知识推理程序,构建本体层,进行实体抽取,再进行关系抽取,构建知识抽取框架,基于深度学习端到端的联合标注,将抽取问题转换成标注任务,训练一个端到端标注模型来抽取关系,根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,实体对齐,将实体归并成代表真实世界同一对象的具有全局唯一标识的实体对象,具有相同描述的实体可能是同一实体,具有相同属性-值的实体可能是相同对象,具有相同邻居的实体可能是同一实体,考虑数据源的可靠性以及不同信息,在各个数据源中出现频度来决定最终选用哪个类别和哪个属性值,进行知识推理,基于符号的推理,基于owl本体的推理,基于图的方法,将量级两个实体的路径作为特征来预测其之间的可能存在的关系,基于分布式知识语义表达的方法,将实体和关系映射到一个低纬度embedding空间中;s5.ai处理单元运行知识图谱构建程序,模式设计,其中属性定义,约束及规则的定义与模式精简,其数据来源包括领域百科表格、通用百科导出、业务系统导出与外部系统的输入,以及词汇挖掘,同义词挖掘、缩率词挖掘、 短语挖掘与情感词挖掘,实体发现,其中包括实体实现、实体归类与实体链接,关系发现囊括关系分类,而知识融合包括实体对齐、属性融合与值规范化,最终构筑知识图谱。
10.(三)有益效果本发明提供了一种自然语言处理及其知识图谱构筑系统。具备以下有益效果:1、该一种自然语言处理及其知识图谱构筑系统,通过设置有良好的数据两级处理模块,实际进行自然语言处理及其知识图谱构筑的数据处理工作时,其缺乏良好的两级分
类数据处理,利于后续高效的自然语言处理及其知识图谱构筑工作。
11.2、该一种自然语言处理及其知识图谱构筑系统,通过设置有良好的知识推理程序与知识图谱构建程序,其ai处理单元内驱动知识推理程序与知识图谱构建程序进行知识推理程序与知识图谱构建工作时,其无法进行细致的知识推理与全面的知识图谱构筑。
附图说明
12.图1为本发明示意图。
具体实施方式
13.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
14.实施例一:如图1所示,本发明实施例提供一种自然语言处理及其知识图谱构筑系统,包括ai处理单元,ai处理单元连接有数据预处理模块与数据综合处理模块,内建运行有知识推理程序与知识图谱构建程序,数据预处理模块的数据输入端连接有数据输入模块,数据预处理模块的数据输出端连接有数据综合处理模块,数据综合处理模块内建运行有数据分类程序,且分类程序包括主体分类、概念分类、实物分类与事件分类,数据预处理模块内建有数据预处理程序,可对经由数据输入模块传输而来的数据进行预处理工作,即先对数据进行初步分析,分析其自然语言的语境,即包括物理语境、言语语境、知识语境与语境的生命周期,其中物理语境包括时间、地点、天气、情绪情感与设备显示感知等,其中言语语境包括上下文、主体与设备反馈,其中知识语境包括常识共识、专业领域知识、agent画像、设备信息库与用户画像,其中语境的生命周期包括请求氛围、会话场景与长期会话,数据综合处理模块可对数据预处理模块传输而来的预处理数据进行二次处理,即对其进行再次细分,并运行其分类程序,进行主体分类、概念分类、实物分类与事件分类,其中主题分类包括科技技术分类,囊括互联网技术分类、通信技术分类与手机信息分类等,其中概念分类包括人工智能分类与手机分类,囊括深度学习、自动驾驶、自动化机器、智能手机与非智能手机等,其中实体分类包括智能车辆分类与数码相关产品分类等,其中事件包括智能车辆相关事件与数码产品相关事件分类。
15.实施例二:本实施例与实施例一的不同之处在于:一种自然语言处理及其知识图谱构筑系统,其系统运行步骤如下:s1.数据输入,经由数据输入模块进行数据向系统的输入,其中数据输入模块运行,可进行io设备的数据输入、语音设备的语音输入与网络移动端的在线数据导入等多种数据输入,完成数据输入后,其数据输入模块可对输入的数据进行基本的安全审核,确保数据安全性后,将数据传输至数据预处理模块;s2.数据预处理,数据传输至数据预处理模块,可建立mention-》entity的关系表,抽取entity相关特征,实现实体上下文次分布与篇章的主题词分布,进行实体之间的语义
关联度,发现文本中的mention,并找到候选词实体,对候选词实体排序,返回最有可能的实体,确认实体本身的信息,确定实体与实体之间协同关系;s3.数据处理,数据综合处理模块对数据预处理后的信息进行二次处理,运行其分类程序,进行主体分类、概念分类、实物分类与事件分类,进而进行分词工作,将每个句子切割为词语,然后进行词性标注,接着对标注过的句子进行命名实体识别,最后搜索实体间可能存在的关系,所以在对文句子进行命名实体识别之前必须对进行分词和词性标注,其中包括对分词粒度、语境歧义与未录入词语的分析;s4.ai处理单元运行知识推理程序,构建本体层,进行实体抽取,再进行关系抽取,构建知识抽取框架,基于深度学习端到端的联合标注,将抽取问题转换成标注任务,训练一个端到端标注模型来抽取关系,根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,实体对齐,将实体归并成代表真实世界同一对象的具有全局唯一标识的实体对象,具有相同描述的实体可能是同一实体,具有相同属性-值的实体可能是相同对象,具有相同邻居的实体可能是同一实体,考虑数据源的可靠性以及不同信息,在各个数据源中出现频度来决定最终选用哪个类别和哪个属性值,进行知识推理,基于符号的推理,基于owl本体的推理,基于图的方法,将量级两个实体的路径作为特征来预测其之间的可能存在的关系,基于分布式知识语义表达的方法,将实体和关系映射到一个低纬度embedding空间中;s5.ai处理单元运行知识图谱构建程序,模式设计,其中属性定义,约束及规则的定义与模式精简,其数据来源包括领域百科表格、通用百科导出、业务系统导出与外部系统的输入,以及词汇挖掘,同义词挖掘、缩率词挖掘、 短语挖掘与情感词挖掘,实体发现,其中包括实体实现、实体归类与实体链接,关系发现囊括关系分类,而知识融合包括实体对齐、属性融合与值规范化,最终构筑知识图谱。
16.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献