一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种事件文本数据处理方法及相关装置与流程

2022-06-01 11:22:13 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,特别涉及一种事件文本数据处理方法、事件文本数据处理装置、服务器以及计算机可读存储介质。


背景技术:

2.随着信息技术的不断发展,目前常采用数据识别技术对获取到的各类知识进行识别处理,以便有效的存储于信息系统中。其中,知识分为事实类知识和事件类知识。事实类知识主要表示的“是什么”,“有什么”的问题,也就是看见即所得。事件类知识主要表示的是“为什么”“怎么样”的问题,解决的是看见背后的原因。事实类知识也是我们常规的通用知识图谱,是目前最多的一种知识图谱表示方法,用实体关系属性的三元组来表示。事件类知识,常规的事件是依据ace(axle counter events,计轴事件)规定的事件模板作为基础,在新闻文本中抽取事件。但是税收领域的事件和ace事件也有很大区别,业界目前还没有任何关于税收事件的表示方法。下面分别详细阐述事件类知识与事实类知识,以及税收事件类知识与ace事件类知识的区别。
3.相关技术中,一般是对ace时间进行识别处理。其中,ace事件定义了一系列的事件模板,如结婚事件、死亡事件等,定义了每类事件的参与主体、客体,事件的触发词,描述的是事件的发生结果。如王xx在2019年12月和李xx领取了结婚证,就是ace结婚事件的一种实例。但是,针对其他事件时,该其他事件中包括了更多的逻辑内容在其中。例如,税收事件包括了多个逻辑性的内容表达。无法将此类事件中的内容进行准确的表达和处理,降低了事件文本数据中对知识进行处理的准确性。
4.因此,如何提高对逻辑性的文本数据进行识别处理的准确性是本领域技术人员关注的重点问题。


技术实现要素:

5.本技术的目的是提供一种事件文本数据处理方法、事件文本数据处理装置、服务器以及计算机可读存储介质,通过先识别谓语中心词,然后提取元事件,最后抽取事件链关系图,实现了对存在逻辑内容的事件文本进行识别,提高了对于事件文本识别的准确率。
6.为解决上述技术问题,本技术提供一种事件文本数据处理方法,包括:
7.根据训练出的深度学习神经网络模型对获取到的事件文本数据进行谓语中心词识别,得到谓语中心词;
8.根据所述谓语中心词对所述事件文本数据进行元事件提取,得到元事件;
9.根据所述事件文本数据对所述元事件进行事件链抽取处理,得到事件链关系图。
10.可选的,还包括:
11.通过预设路径获取所述事件文本数据。
12.可选的,根据训练出的深度学习神经网络模型对获取到的事件文本数据进行谓语中心词识别,得到谓语中心词,包括:
13.根据训练出的深度学习神经网络模型对所述事件文本数据进行谓语中心词识别,得到初级谓语中心词;
14.根据接收到的审核信息对所述初级谓语中心词进行修改,得到所述谓语中心词。
15.可选的,根据所述谓语中心词对所述事件文本数据进行元事件提取,得到元事件,包括:
16.对所述事件文本数据进行依存句法分析,得到元事件实体;
17.将所述元事件实体和所述谓语中心词进行组合,得到所述元事件。
18.可选的,根据所述事件文本数据对所述元事件进行事件链抽取处理,得到事件链关系图,包括:
19.采用动态多池化卷积神经网络对所述事件文本数据进行关系抽取,得到元事件关系;
20.将所述元事件关系和所述元事件进行组合,得到所述事件链关系图。
21.可选的,还包括:
22.将所述事件链关系图保存至图数据库中。
23.本技术还提供一种事件文本数据处理装置,包括:
24.中心词识别模块,用于根据训练出的深度学习神经网络模型对获取到的事件文本数据进行谓语中心词识别,得到谓语中心词;
25.元事件抽取模块,用于根据所述谓语中心词对所述事件文本数据进行元事件提取,得到元事件;
26.事件链提取模块,用于根据所述事件文本数据对所述元事件进行事件链抽取处理,得到事件链关系图。
27.可选的,还包括:
28.文本数据获取模块,用于通过预设路径获取所述事件文本数据。
29.本技术还提供一种服务器,包括:
30.存储器,用于存储计算机程序;
31.处理器,用于执行所述计算机程序时实现如上所述的事件文本数据处理方法的步骤。
32.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的事件文本数据处理方法的步骤。
33.本技术所提供的一种事件文本数据处理方法,包括:根据训练出的深度学习神经网络模型对获取到的事件文本数据进行谓语中心词识别,得到谓语中心词;根据所述谓语中心词对所述事件文本数据进行元事件提取,得到元事件;根据所述事件文本数据对所述元事件进行事件链抽取处理,得到事件链关系图。
34.通过先识别谓语中心词,然后提取元事件,最后抽取事件链关系图,实现了对存在逻辑内容的事件文本进行识别,提高了对于事件文本识别的准确率。
35.本技术还提供一种事件文本数据处理装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
36.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
37.图1为本技术实施例所提供的一种事件文本数据处理方法的流程图;
38.图2为本技术实施例所提供的一种事件文本数据处理装置的结构示意图。
具体实施方式
39.本技术的核心是提供一种事件文本数据处理方法、事件文本数据处理装置、服务器以及计算机可读存储介质,通过先识别谓语中心词,然后提取元事件,最后抽取事件链关系图,实现了对存在逻辑内容的事件文本进行识别,提高了对于事件文本识别的准确率。
40.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
41.相关技术中,一般是对ace时间进行识别处理。其中,ace事件定义了一系列的事件模板,如结婚事件、死亡事件等,定义了每类事件的参与主体、客体,事件的触发词,描述的是事件的发生结果。如王xx在2019年12月和李xx领取了结婚证。就是ace结婚事件的一种实例。但是,针对其他事件时,该其他事件中包括了更多的逻辑内容在其中。例如,税收事件包括了多个逻辑性的内容表达。无法将此类事件中的内容进行准确的表达和处理,降低了事件文本数据中对知识进行处理的准确性。
42.因此,本技术实施例提供一种事件文本数据处理方法,通过先识别谓语中心词,然后提取元事件,最后抽取事件链关系图,实现了对存在逻辑内容的事件文本进行识别,提高了对于事件文本识别的准确率。
43.以下通过一个实施例,对本技术提供的一种事件文本数据处理方法进行说明。
44.请参考图1,图1为本技术实施例所提供的一种事件文本数据处理方法的流程图。
45.本实施例中,该方法可以包括:
46.s101,根据训练出的深度学习神经网络模型对获取到的事件文本数据进行谓语中心词识别,得到谓语中心词;
47.本步骤旨在采用已经训练出得深度学习神经模型对获取到得事件文本数据进行谓语中心词。由于需要对事件文本数据中的逻辑信息进行理解,就是要理解文本数据中的谓语逻辑结构。相应的,在谓语逻辑结构中,最重要的就是谓语中心词。
48.在本实施例中可以将谓语中心词分为三类,包括但不限于动词性谓语、介词性谓语以及连词性谓语。
49.相应的,先采用想用的谓语词汇对模型进行训练后,得到相应的深度学习模型,然后再采用该类模型对文本数据中谓语进行识别。
50.可选的,本实施例中,还可以包括:
51.通过预设路径获取事件文本数据。
52.本实施例中,在本步骤之前还可以包括通过预设路径获取到对应的事件文本数据。例如,可以从税法事件库中获取到事件文本数据,也可以从网络中获取到对应的事件文本数据,还可以从社交媒体网络中获取到需要识别处理的事件文本数据。
53.进一步的为了提高谓语中心词进行识别的准确性,本步骤可以包括:
54.步骤1,根据训练出的深度学习神经网络模型对事件文本数据进行谓语中心词识别,得到初级谓语中心词;
55.步骤2,根据接收到的审核信息对初级谓语中心词进行修改,得到谓语中心词。
56.可见,本可选方案中主要是如何识别出谓语中心词做进一步说明。本实施例中首先根据训练出的深度学习神经网络模型对事件文本数据进行谓语中心词识别,得到初级谓语中心词;然后,根据接收到的审核信息对初级谓语中心词进行修改,得到谓语中心词。也就是,在通过深度学习神经网络模型进行识别的基础上,在通过审核信息对初级谓语中心词进行审核修改,避免出现错误的谓语中心词。其中,审核信息可以是技术人员对初级谓语中心词进行审核后,向设备输入的审核信息。
57.s102,根据谓语中心词对事件文本数据进行元事件提取,得到元事件;
58.在s101的基础上,本步骤旨在根据该谓语中心词对该事件文本数据进行元事件提取,得到元事件。其中,元事件是根据谓语中心词展开的基本时间。而对元事件进行提取的过程就是对元事件中的元素进行提取,及对元事件的实体进行识别的过程。其中,元事件的实体。即元事件的论元,包括事件主体和事件客体。并且,还需要将元事件对应的句子结构进行标注,即标注为主谓宾或其他结构。
59.进一步的,为了提高本实施例中对于元事件进行提取的准确性,本步骤中可以采用依存句法分析进行分析后再进行元事件进行提取,得到各个元事件。
60.可选的,本步骤可以包括:
61.步骤1,对事件文本数据进行依存句法分析,得到元事件实体;
62.步骤2,将元事件实体和谓语中心词进行组合,得到元事件。
63.可见,本可选方案中主要是对如何获取到元事件做进一步说明。本可选方案中,首先对事件文本数据进行依存句法分析,得到元事件实体;然后,将元事件实体和谓语中心词进行组合,得到元事件。
64.s103,根据事件文本数据对元事件进行事件链抽取处理,得到事件链关系图。
65.在s102的基础上,本步骤旨在在获取到元事件的基础上,根据该事件文本数据对各个元事件之间的事件链进行抽取,得到事件链关系图,以便确定各个元事件之间的关系。其中,关系包括但不限于条件关系、顺承关系、因果关系以及转折关系。
66.也就是说,单个的谓语中心词抽取后,只能显示多个零散的动作行为。单个元事件抽取后,只是对多个零散的动作行为增加了主语谓语和程度等。但是元事件能够发挥推理和判断的作用,还需要进行元事件之间的关系抽取操作,因此,本步骤中将各个元事件之间的事件链进行相应的抽取处理。
67.进一步的,本步骤可以包括:
68.步骤1,采用动态多池化卷积神经网络对事件文本数据进行关系抽取,得到元事件关系;
69.步骤2,将元事件关系和元事件进行组合,得到事件链关系图。
70.可见,本可选方案主要是对如何得到事件链关系图进行说明。本可选方案中,首先采用动态多池化卷积神经网络对事件文本数据进行关系抽取,得到元事件关系;也就是,先提取出对应的元事件关系。然后,将元事件关系和元事件进行组合,得到事件链关系图。
71.进一步为了提高存储事件链关系图的存储性能,本实施例还可以包括:
72.将事件链关系图保存至图数据库中。
73.可见,可选方案中将该事件链关系图保存至图数据库中,以便提高存储该事件链关系图的存储性能。
74.综上,本实施例通过先识别谓语中心词,然后提取元事件,最后抽取事件链关系图,实现了对存在逻辑内容的事件文本进行识别,提高了对于事件文本识别的准确率。
75.以下通过一个具体的实施例,对本技术提供的一种事件文本数据处理方法做进一步说明。
76.本实施例中,以对税法中的事件文本进行说明为例,该方法可以包括:
77.步骤1,从税法事件数据库获取税法中判断类事件文本数据。
78.税法主要是税收的17个法规、暂行条例、实施细则。增值税、个人所得税、企业所得税、房产税、契税等等。税法文本中存在很多判断类的条款,也即是税法的适用性问题。
79.可以获取到例如如下文本:
80.(1)条款:《中华人民共和国增值税暂行条例》
81.第一条:在中华人民共和国境内销售货物或者加工、修理修配劳务(以下简称劳务),销售服务、无形资产、不动产以及进口货物的单位和个人,为增值税的纳税人,应当依照本条例缴纳增值税。
82.(2)条款:《中华人民共和国个人所得税法》
83.第一条:在中国境内有住所,或者无住所而一个纳税年度内在中国境内居住累计满一百八十三天的个人,为居民个人。居民个人从中国境内和境外取得的所得,依照本法规定缴纳个人所得税。
84.在中国境内无住所又不居住,或者无住所而一个纳税年度内在中国境内居住累计不满一百八十三天的个人,为非居民个人。
85.非居民个人从中国境内取得的所得,依照本法规定缴纳个人所得税。”86.针对上述文本,从业务角度解析,是一个单位和个人,再满足相应条件下,可以被认定为增值税的纳税人,需要缴纳增值税。其中根据条件来进行判断,判断税法的适用性问题。
87.步骤2,谓语中心词抽取
88.针对上述事件文本,对该文本进行谓语中性词提取。
89.17个税种的谓语中心词标注如下:
90.主要分为三种类型,一种是动词性谓语、一种介词性谓语、一种连词性谓语。
91.其中,动词性谓词,可以包括:销售、加工修理修配、认定、为、认定为、应当、应当依照、依照、按照、缴纳、有、无、累计大于、累计小于、从

所得、自有、全民所有、未确定、未解决、让、转让、出售、赠与、交换、转移、权属、买卖、取得、生产、委托加工、进口、开采、书立、领受、收购、占用、建设、从事、使用、购买、自产、受赠、获奖、其他方式取得、自用、所有、管理;
92.其中,介词性谓语,可以包括:在...居住、在

不居住、在

成立、在...、不在




未设立、在

设立、不在、由

缴纳、向...、直接排放、除

外;
93.其中,连词性谓语,可以包括:或、和从

所得、但、但在

设立、但有所得、与

有联系、和、和

所得。
94.其中,谓语中心词抽取可以采用深度学习神经网络的模型。
95.进一步的,抽取步骤可以包括:首先,通过预选练模型word2vec对文本进行词向量训练;然后,通过已训练出的深度学习模型对句子进行句法分析;再然后,采用dropout方法和早停止方法,对模型进行限定,得到最优参数;最后,对提取出的谓语中心词进行人工审核和标注,得到谓语中心词。
96.步骤3,元事件抽取。
97.针对上述的谓语中心词,同时需要抽取元事件的元素。抽取元事件的元素是一个命名实体识别的过程。元事件的论元,主要是事件主体、事件客体。同时,元事件的抽取也需要对句子结构进行标注。句子结构初步依据的是依存句法分析来进行表示和抽取。
98.其中,在依存句法中,共同的基本假设是:句法结构本质上包含词和词对之间的关系。这种关系就是依存关系。其中一个依存关系连接两个词,一个是核心词一个是修饰词。依存句法分析结果的一种典型表示形式为依存句法树。
99.其中,依存句法分析的任务是针对已经分词和词性标注完的句子,进行其依存句法结构的分析。给定输入为一个分词、词性标注完的句子,进行依存句法分析后,得到一个依存句法树。一般的,进行句法分析后的结果可以包括主谓宾结构、主谓宾宾补结构、多介词主谓宾结构。
100.进一步的,依存句法分析可以采用哈工大ltp自然语言处理工具接口进行的抽取。接口可以包括:
101.from ltp import ltp
102.ltp=ltp()
103.seg,hidden=ltp.seg(["非居民个人从中国境内取得的所得。"])
[0104]
dep=ltp.dep(hidden)。
[0105]
经过谓语中心词抽取和元事件的抽取,目前能得到的元事件样例可以如下表1。
[0106]
表1谓语中心词与元事件样例表
[0107][0108][0109]
步骤4,基于谓语中心词的关系抽取
[0110]
关系抽取,即元事件之间的关系,如条件关系、顺承关系、因果关系和转折关系等。单个的谓语中心词抽取后,只能显示多个零散的动作行为,单个元事件抽取后,只是对多个零散的动作行为增加了主语谓语和程度等。但是元事件能够发挥推理和判断的作用,还需要进行元事件之间的关系抽取操作。
[0111]
多个元事件之间的关系组成一个完成的事件链条,一个完整的事件链条才能组成一个能够还原真实税法逻辑要求的内容。
[0112]
关系的抽取,是保证完整性和可用性最关键的一步。
[0113]
目前元事件关系抽取,采用动态多池化的卷积神经网络进行抽取。
[0114]
其中,本实施例可以采用的argument classification,该过程可以包括,利用一个相似的dmcnn去识别arguments,然后识别出这些arguments对应的roles。
[0115]
其中,采用的argument classification的结构,可以包括4个部分:
[0116]
第一部分,word-embedding learning:以非监督的方式得到词的嵌入向量;
[0117]
第二部分,lexical-level feature representation:直接用词嵌入向量组成词汇线索;
[0118]
第三部分,sentence-level feature extraction:用一个dmcnn网络学习句子的语义特征;
[0119]
第四部分,argument classifier output:为参数的每个候选角色计算了置信度。
[0120]
采用该结构网络抽取出的关系组成上述元事件之间的事件链关系图。
[0121]
步骤5,存储进图数据库
[0122]
事件的存储,主要存储在图数据库中,相关的谓语中心词词表等存储在oracle的二维数据表中。事件文本数据存储在文本管理系统中。
[0123]
其中,抽取的元事件组成的事件链是图形式的存储,主要存储在图数据库中,方便查询、计算和可视化,同时图模式的存储也压缩了空间占用,支撑了计算大脑的调用计算,推理引擎等。
[0124]
关系数据库主要存储一些单元的内容,如谓语中心词词表,近义词表。元事件的论元表示,如元事件的主体(单位、个人),元事件的客体(增值税、个人所得税)。由于关系数据库存储的稳定性和安全性,事件的单元信息存储在关系数据库中是比较合理的。
[0125]
事件的文本库属于事件的知识源系统,一方面文本库系统可以存储具体的office文档形式的内容,一方面也可以存储xml、html文件。在进行事件的抽取标注的时候,直接从事件文本库批量读取处理。
[0126]
其中,三种存储库之间有定期的同步和调用机制。
[0127]
可见,本实施例通过先识别谓语中心词,然后提取元事件,最后抽取事件链关系图,实现了对存在逻辑内容的事件文本进行识别,提高了对于事件文本识别的准确率。
[0128]
下面对本技术实施例提供的事件文本数据处理装置进行介绍,下文描述的事件文本数据处理装置与上文描述的事件文本数据处理方法可相互对应参照。
[0129]
请参考图2,图2为本技术实施例所提供的一种事件文本数据处理装置的结构示意图。
[0130]
本实施例中,该装置可以包括:
[0131]
中心词识别模块100,用于根据训练出的深度学习神经网络模型对获取到的事件
文本数据进行谓语中心词识别,得到谓语中心词;
[0132]
元事件抽取模块200,用于根据谓语中心词对事件文本数据进行元事件提取,得到元事件;
[0133]
300,用于根据事件文本数据对元事件进行事件链抽取处理,得到事件链关系图。
[0134]
可选的,该装置还可以包括:
[0135]
文本数据获取模块,用于通过预设路径获取事件文本数据。
[0136]
本技术实施例还提供一种服务器,包括:
[0137]
存储器,用于存储计算机程序;
[0138]
处理器,用于执行所述计算机程序时实现如以上实施例所述的事件文本数据处理方法的步骤。
[0139]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的事件文本数据处理方法的步骤。
[0140]
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0141]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0142]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0143]
以上对本技术所提供的一种事件文本数据处理方法、事件文本数据处理装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献