一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种事件文本数据处理方法、装置及电子设备与流程

2022-03-23 07:47:45 来源:中国专利 TAG:


1.本发明涉及文本数据处理技术领域,具体涉及一种事件文本数据处理方法、装置及电子设备。


背景技术:

2.通常情况下,在进行文本数据处理时,首先要对文本数据进行预处理,接着进行中文分词,中文nlp很重要的一部就是分词,分词的好坏会直接影响后续的模型训练效果;然后进行特征处理,特征处理也叫词向量编码,将文本数据转换成计算机能识别的数据,便于计算,一般是转换成数值型数据;最后进行机器学习,词向量进行编码之后,便可以将文本数据转换成数值数据,输入到机器模型进行计算训练。这种文本数据处理方法在进行数据分析时,无法准确对事件文本数据进行处理,进而无法应用于综合治理数据的处理分析。


技术实现要素:

3.因此,本发明要解决的技术问题在于克服现有无法准确对事件文本进行处理的缺陷,从而提供一种事件文本数据处理方法、装置及电子设备。
4.根据第一方面,本发明实施例公开了一种事件文本数据处理方法,包括:获取待分析事件文本数据;利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。
5.可选地,所述利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取之前,所述方法还包括:获取文本数据;利用预设分词算法对所述文本数据进行分词操作并利用初始关键字提取模型进行目标关键字提取操作;当提取结果不满足要求时对提取出的目标关键字进行扩展和数据增强操作;利用扩展和增强处理后的数据对所述初始关键字模型进行训练直至满足目标关键字提取要求。
6.可选地,所述方法还包括:利用预先训练好的危险事件预测模型对所述待分析事件文本数据进行分析;当所述待分析事件文本数据包含危险事件,在所述知识图谱中标记出所述危险事件。
7.可选地,所述方法还包括:根据所述危险事件的目标关键字,利用聚类算法确定所述危险事件的类型;按照所述危险事件的类型从专家知识库中获取解决方案并将所述解决方案推送至用户端。
8.根据第二方面,本发明实施例还公开了一种事件文本数据处理装置,包括:第一获取模块,用于获取待分析事件文本数据;第一提取模块,用于利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;构建模块,用于将所述事件主体和事件作为数
据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;处理模块,用于利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。
9.可选地,所述装置还包括:第二获取模块,用于获取文本数据;第二提取模块,用于利用预设分词算法对所述文本数据进行分词操作并利用初始关键字提取模型进行目标关键字提取操作;扩展模块,用于当提取结果不满足要求时对提取出的目标关键字进行扩展和数据增强操作;训练模块,用于利用扩展和增强处理后的数据对所述初始关键字模型进行训练直至满足目标关键字提取要求。
10.可选地,所述装置还包括:分析模块,用于利用预先训练好的危险事件预测模型对所述待分析事件文本数据进行分析;标记模块,用于当所述待分析事件文本数据包含危险事件,在所述知识图谱中标记出所述危险事件。
11.可选地,所述装置还包括:确定模块,用于根据所述危险事件的目标关键字,利用聚类算法确定所述危险事件的类型;推送模块,用于按照所述危险事件的类型从专家知识库中获取解决方案并将所述解决方案推送至用户端。
12.根据第三方面,本发明实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的事件文本数据处理方法的步骤。
13.根据第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的事件文本数据处理方法的步骤。
14.本发明技术方案,具有如下优点:
15.本发明提供的事件文本数据处理方法/装置,包括:获取待分析事件文本数据;利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。本方法应用于综合治理数据的分析处理,将获取的事件文本数据利用预先训练的关键词提取模型提取出事件主体、事件及事件主体与事件之间的关系,然后构建图数据库,生成对应的知识图谱,准确地完成了对事件文本数据的处理。
附图说明
16.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本发明实施例中事件文本数据处理方法的一个具体示例的流程图;
18.图2为本发明实施例中事件文本数据处理装置的一个具体示例的原理框图;
19.图3为本发明实施例中电子设备的一个具体示例图。
具体实施方式
20.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
22.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
23.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
24.本发明实施例公开了一种事件文本数据处理方法,如图1所示,该方法包括如下步骤:
25.步骤101,获取待分析事件文本数据。
26.示例性地,获取的事件文本数据可以是一些包含人和人的数据关系和人和事的数据关系的文本数据,本具体实施例中,事件文本数据可以包括但不限于矛盾纠纷排查信息表、社区民意信息表、网格上报线索信息表中的文本数据。
27.步骤102,利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字。
28.示例性地,预先训练好的关键词提取模型根据一定的规则对获取的事件文本数据进行关键词提取,得到对应的事件文本中的事件主体、事件以及二者之间的关系。本具体实施例中,事件主体可以是事件人员,利用预先训练好的关键词提取模型对事件文本数据进行关键词抽取,得到文本数据中事件关键词、事件人员关键词和事件人员与事件人员、事件人员与事件的数据关系。
29.步骤103,将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库。
30.示例性地,本具体实施例中,将关键词提取模型提取到的事件关键词、事件人员关键词和事件人员与事件人员、事件人员与事件的数据关系,转化成事件人员、事件的数据顶点和数据关系边,构建一个图数据库。
31.步骤104,利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。
32.示例性地,使用预设图算法分析图数据库中复杂的数据关系,生成待分析事件文本对应的可视化知识图谱。本技术实施例对该预设图算法的类型不作限定,本领域技术人
员可以根据所需的知识图谱的形式对图数据库中的数据进行综合处理分析。
33.本发明提供的事件文本数据处理方法,包括:获取待分析事件文本数据;利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。本方法应用于社会综合治理数据的分析处理,将获取的事件文本数据利用预先训练的关键词提取模型提取出事件主体、事件及事件主体与事件之间的关系,然后构建图数据库,生成对应的知识图谱,准确地完成了对事件文本数据的处理。
34.作为本发明一个可选实施方式,所述利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取之前,所述方法还包括:获取文本数据;利用预设分词算法对所述文本数据进行分词操作并利用初始关键字提取模型进行目标关键字提取操作;当提取结果不满足要求时对提取出的目标关键字进行扩展和数据增强操作;利用扩展和增强处理后的数据对所述初始关键字模型进行训练直至满足目标关键字提取要求。
35.示例性地,在对事件本本数据进行关键词提取之前,要先获取文本数据,利用预设分词算法对文本数据进行分词操作并利用初始关键词提取模型提取目标关键词,本具体实施例中,预设分词算法可以包括但不限于textrank算法、lda算法模型、embedrank算法、sifrank模型。当关键词提取的效果一般时,对提取出的目标关键词进行扩展和数据增强操作,本具体实施例中,对提取出的目标关键词进行扩展和数据增强操作的方法包括使用一些在实践中发现的和人工制定的同类词进行扩展、使用知网的义原知识库对关键词进行扩张、使用同义词和词性进行扩展;利用扩展和增强处理后的数据对初始关键词模型进行训练,本具体实施例中,使用roberta crf等dl模型对初始关键词模型进行训练。
36.作为本发明一个可选实施方式,所述方法还包括:利用预先训练好的危险事件预测模型对所述待分析事件文本数据进行分析;当所述待分析事件文本数据包含危险事件,在所述知识图谱中标记出所述危险事件。
37.示例性地,在本具体实施例中,预先训练好的危险事件预测模型的建立方法为:根据历史矛盾数据中已经转化为危险案件的矛盾纠纷事件抽取矛盾纠纷事件文本特征和现有字段特征,形成样本数据集,进而建立svm模型,训练svm模型得到危险事件预测模型。当待分析事件文本数据经过预先训练好的危险事件预测模型分析后确定其中包含危险事件,将危险事件在知识图谱中标记出来。
38.作为本发明一个可选实施方式,所述方法还包括:根据所述危险事件的目标关键字,利用聚类算法确定所述危险事件的类型;按照所述危险事件的类型从专家知识库中获取解决方案并将所述解决方案推送至用户端。
39.示例性地,将危险事件的目标关键词利用聚类算法确定危险事件的类型,在本具体实施例中,使用分词、词频、聚类算法把已经化解的矛盾纠纷数据进行分类,聚类算法为无监督算法,不需要提前打标签;已化解矛盾纠纷数据分类后,每一类包括几条或几十条已经化解矛盾纠纷事件,以及对应的解决方案,作为专家知识库;有新矛盾纠纷事件需要推荐化解方案时,先使用相同的聚类算法确定分类,然后把从专家知识库获取到的解决方案推送到客户端。综合矛盾纠纷基本情况,矛盾纠纷调解历史、矛盾纠纷调解结果、时间、空间等
多维因素,建立多维因素关系,形成矛盾纠纷调解知识关联,针对新发矛盾纠纷利用ai算法进行最优调解方案关联。
40.本发明实施例还公开了一种事件文本数据处理装置,如图2所示,该装置包括:第一获取模块201,用于获取待分析事件文本数据;第一提取模块202,用于利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;构建模块203,用于将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;处理模块204,用于利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。
41.本发明提供的事件文本数据处理装置,包括:第一获取模块,用于获取待分析事件文本数据;第一提取模块,用于利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;构建模块,用于将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;处理模块,用于利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。本装置应用于社会综合治理数据的分析处理,将获取的事件文本数据利用预先训练的关键词提取模型提取出事件主体、事件及事件主体与事件之间的关系,然后构建图数据库,生成对应的知识图谱,准确地完成了对事件文本数据的处理。
42.作为本发明一个可选实施方式,所述装置还包括:第二获取模块,用于获取文本数据;第二提取模块,用于利用预设分词算法对所述文本数据进行分词操作并利用初始关键字提取模型进行目标关键字提取操作;扩展模块,用于当提取结果不满足要求时对提取出的目标关键字进行扩展和数据增强操作;训练模块,用于利用扩展和增强处理后的数据对所述初始关键字模型进行训练直至满足目标关键字提取要求。
43.作为本发明一个可选实施方式,所述装置还包括:分析模块,用于利用预先训练好的危险事件预测模型对所述待分析事件文本数据进行分析;标记模块,用于当所述待分析事件文本数据包含危险事件,在所述知识图谱中标记出所述危险事件。
44.作为本发明一个可选实施方式,所述装置还包括:确定模块,用于根据所述危险事件的目标关键字,利用聚类算法确定所述危险事件的类型;推送模块,用于按照所述危险事件的类型从专家知识库中获取解决方案并将所述解决方案推送至用户端。
45.本发明实施例还提供了一种电子设备,如图3所示,该电子设备可以包括处理器401和存储器402,其中处理器401和存储器402可以通过总线或者其他方式连接,图3中以通过总线连接为例。
46.处理器401可以为中央处理器(central processing unit,cpu)。处理器401还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
47.存储器402作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的事件文本数据处理方法对应的程序
指令/模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的事件文本数据处理方法。
48.存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器401所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至处理器401。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
49.所述一个或者多个模块存储在所述存储器402中,当被所述处理器401执行时,执行如图1所示实施例中的事件文本数据处理方法。
50.上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
51.本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
52.虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献