一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种事件处理方法、设备及计算机可读存储介质与流程

2023-01-05 18:02:09 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种事件处理方法、装置、设备及计算机可读存储介质。


背景技术:

2.世界上无时无刻都在发生着各种不同的事件,提取事件对梳理事件发展的脉络,事件跟人物、企业、行业等的关系都尤其重要,它可以帮助人们快速了解事件发展的过程,还可以促进智能搜索、问答系统、推荐和文本生成等自然语言的应用。然而对于同一个事件来说,有多种描述的方式,特别是中文,而这些描述方式在网络上更是显得千奇百怪,如果不合并这些相同的事件,将不利于事件在下游的应用,例如智能搜索:通过关键字搜索出来的结果,很有可能是相同事件的不同描述,这很不利于用户筛选自己想要的结果。因此如何合并相同的事件,也显得尤其重要了。
3.现有的事件合并方法是通过字符的边界距离来合并相似事件,但边界距离非常耗时,而且对于有一两个不同字符的不同事件,会认为是相似的事件,例如:“苹果发布iphone12
”ꢀ

ꢀ“
苹果发布iphone13”这两个事件只有一个字符不相同,但计算其边界距离会认为“苹果发布iphone12
”ꢀ

ꢀ“
苹果发布iphone13”这两个事件是同一个事件。


技术实现要素:

4.本发明实施例提供一种事件处理方法、设备及计算机可读存储介质,其能有效提高事件提取和合并的准确率。
5.第一方面,本发明实施例提供了一种事件处理方法,包括:获取文本信息,并采用事件提取模型对所述文本信息进行事件提取,得到事件信息;采用实体识别模型对所述文本信息进行实体提取,得到所述文本信息中的实体;根据所述事件信息和所述实体,确定目标事件;计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前k个历史事件;根据选取的前k个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前k个历史事件中任意一个历史事件是否为同一个事件;若否,将所述目标事件增量更新到所述事件数据库中;若是,更新所述事件数据库中与所述目标事件属于同一个事件的历史事件。
6.作为上述方案的改进,所述事件信息包括事件及其事件类型、事件类型的概率。
7.作为上述方案的改进,所述根据所述事件信息和所述实体,确定目标事件,包括:判断当前提取出的事件的事件类型的概率是否大于设定的概率阈值;若否,则丢弃当前提取出的事件;若是,则判断当前提取出的事件中是否存在所述实体;
当当前提取出的事件中存在所述实体时,输出当前提取出的事件作为目标事件;当当前提取出的事件中不存在所述实体时,丢弃当前提取出的事件。
8.作为上述方案的改进,所述计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前k个历史事件,包括:将所述目标事件输入到向量模型,得到所述目标事件的事件向量;计算所述事件向量与事件数据库中各个历史事件之间的余弦相似度;从所述事件数据库中选取余弦相似度最高的前k个历史事件。
9.作为上述方案的改进,所述方法还包括:通过预设的归一化码表对当前提取出的实体进行标准化处理。
10.作为上述方案的改进,所述根据选取的前k个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前k个历史事件中任意一个历史事件是否为同一个事件,包括:对于前k个历史事件,判断第i个历史事件与所述目标事件之间的余弦相似度是否大于预设的相似度阈值;若否,确定所述目标事件与第i个历史事件不是同一个事件;若是,判断标准化后的实体与第i个历史事件对应的实体是否相同;当标准化后的实体与第i个历史事件对应的实体不相同时,提取第i 1个历史事件,并返回余弦相似度判断流程;1≤i≤k-1;当标准化后的实体与第i个历史事件对应的实体相同时,将所述目标事件和第i个历史事件输入到事件相似判断模型,得到事件判断结果;其中,所述事件判断结果包括是同一个事件、不是同一个事件。
11.作为上述方案的改进,在提取第i 1个历史事件之间,还包括:判断第i个历史事件是否为前k个历史事件中的最后一个历史事件;若是,则确定所述目标事件与第i个历史事件不是同一个事件;若否,则提取第i 1个历史事件。
12.作为上述方案的改进,所述更新所述事件数据库中与所述目标事件属于同一个事件的历史事件,包括:对于所述事件数据库中与所述目标事件属于同一个事件的历史事件,更新所述历史事件的字段;其中,所述字段包括对应事件的发生时间和声量。
13.第二方面,本发明实施例提供了一种事件处理设备,包括:处理器;处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的事件处理方法。
14.第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的事件处理方法。
15.相对于现有技术,本发明实施例的有益效果在于:通过获取文本信息,并采用事件提取模型对所述文本信息进行事件提取,得到事件信息;采用实体识别模型对所述文本信息进行实体提取,得到所述文本信息中的实体;根据所述事件信息和所述实体,确定目标事
件;计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前k个历史事件;根据选取的前k个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前k个历史事件中任意一个历史事件是否为同一个事件;若否,将所述目标事件增量更新到所述事件数据库中;若是,更新所述事件数据库中与所述目标事件属于同一个事件的历史事件;本发明采用事件提取模型进行事件提取,实体识别模型进行实体提取,并结合事件的余弦相似度、实体相似来综合判断事件相似性;对于判断为属于同一个事件,则直接更新所述事件数据库中对应的历史事件,对于判断为不属于同一个事件,则将事件增量更新到所述事件数据库中,从而可以提高事件提取和合并的准确率。
附图说明
16.为了更清楚地说明本发明的技术方案,下面将对实施方式中所占据要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1是本发明实施例提供的一种事件处理方法的流程图;图2是本发明实施例提供的事件提取的流程图;图3是本发明实施例提供的事件合并的流程图;图4是本发明实施例提供的一种事件处理设备的示意图。
具体实施方式
18.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.实施例一请参阅图1,其是本发明实施例提供的一种事件处理方法的流程图,所述事件处理方法包括:s1:获取文本信息,并采用事件提取模型对所述文本信息进行事件提取,得到事件信息;示例性,可以采用api工具从网站、微博、微信公众号等网页上爬取文本信息,例如:#龚x徐xx品牌代言人#夏至//@重生之我是帝承恩:#龚x徐xx品牌代言人#美味留唇间,幸福放心里。把香甜的祝福送给你,让最好的口感融化你~和徐xx@徐xx中国品牌代言人龚x@龚xsimon一起,祝大家夏至快乐!将爬取到的文本信息输入至预先构建的事件提取模型中,提取所述文本信息的事件信息。所述事件提取模型采用bert模型构建。需要说明的是,bert模型属于现有技术,在本发明实施例中不进行展开说明。
20.其中,所述事件信息包括事件及其事件类型、事件类型的概率。事件包括主语、谓语、宾语这三个元素。以上述文本信息为例,将上述文本信息输入到bert模型中,可以得到事件为:“龚x”、“代言”、徐xx”,事件类型为:代言,事件类型的概率为:0.9988。需要说明的
是,可以预先定义事件类型,并配置到事件提取模型中,以对输入的文本信息进行事件类型的分类和概率预测。
21.s2:采用实体识别模型对所述文本信息进行实体提取,得到所述文本信息中的实体;在本发明实施例中,将上述文本信息输入到实体识别模型,可以得到实体,例如:{品牌:徐xx,人名:龚x}。
22.s3:根据所述事件信息和所述实体,确定目标事件;s4:计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前k个历史事件;s5:根据选取的前k个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前k个历史事件中任意一个历史事件是否为同一个事件;s6:若否,将所述目标事件增量更新到所述事件数据库中;s7:若是,更新所述事件数据库中与所述目标事件属于同一个事件的历史事件。
23.在本发明实施例中,采用事件提取模型进行事件提取,实体识别模型进行实体提取,并结合事件的余弦相似度、实体相似来综合判断事件相似性;对于判断为属于同一个事件,则直接更新所述事件数据库中对应的历史事件,对于判断为不属于同一个事件,则将事件增量更新到所述事件数据库中,从而可以提高事件提取和合并的准确率。
24.在一种可选的实施例中,所述根据所述事件信息和所述实体,确定目标事件,包括:判断当前提取出的事件的事件类型的概率是否大于设定的概率阈值;若否,则丢弃当前提取出的事件;若是,则判断当前提取出的事件中是否存在所述实体;当当前提取出的事件中存在所述实体时,输出当前提取出的事件作为目标事件;当当前提取出的事件中不存在所述实体时,丢弃当前提取出的事件。
25.示例性,所述实体识别模型采用bert模型构建。事件的提取流程如图2所示,将文本信息输入到事件提取模型中,得到事件和事件类型的概率;将文本信息输入到实体识别模型中,得到实体;其中,为了减少计算,可以先判断事件类型的概率是否大于预设的概率阈值,若否,直接丢弃事件,不将对应的文本信息输入到实体识别模型中进行实体提取;若是,则保留事件,同时将对应文本信息输入到实体识别模型中,得到实体;然后判断保留的事件是否存在实体识别模型输出的实体,若否,则丢弃事件,若是,则输出该事件为目标事件。例如设置概率阈值为0.7,此时,上述事件“龚x代言徐xx”被保留下来,且当前保留的事件中存在所述实体{品牌:徐xx,人名:龚x},输出当前提取出的事件作为目标事件。在本发明实施例中,利用事件提取模型,实体识别模型和事件概率阈值共同来提取事件,可以提高事件提取的准确率。
26.在一种可选的实施例中,所述计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前k个历史事件,包括:将所述目标事件输入到向量模型,得到所述目标事件的事件向量;计算所述事件向量与事件数据库中各个历史事件之间的余弦相似度;从所述事件数据库中选取余弦相似度最高的前k个历史事件。
27.示例性,所述向量模型采用bert模型构建,通过将目标事件“龚x代言徐xx”输入到向量模型,可以得到表征该目标事件的768维的事件向量,然后计算所述事件向量与事件数据库中各个历史事件之间的余弦相似度,并选取余弦相似度最高的topk个历史事件,然后按照余弦相似度从大到小对topk事件极性排序。其中,所述事件向量与历史事件的余弦相似度distance计算公式如下:;其中,n表示所述事件向量的维度,xi表示目标事件对应目标向量的第i个分量,yi表示历史时间对应的时间向量的第i个分量。需要说明的是,可以通过将历史事件输入到所述向量模型,同样可以得到表征该历史事件的768维的事件向量。为了减少数据展显,将k设置为3,此时,选取余弦相似度最大的前3个历史事件,并余弦相似度从大到小进行排序,例如:历史事件1:龚x成为徐xx品牌代言人,实体:龚x、徐xx,余弦相似度:0.98。
28.历史事件2:龚x代言舒xx,实体:龚俊、舒xx,余弦相似度:0.62。
29.历史事件3:龚x代言charlotte tilbury,实体:龚x、charlotte tilbury,余弦相似度:0.45。
30.在一种可选的实施例中,所述方法还包括:通过预设的归一化码表对当前提取出的实体进行标准化处理。
31.其中,所述归一化码表记录了品牌实体的不同别称及其标准名称。例如所述归一化码表包括记录了标准名称的key列和记录了该标准名称的别称的word列;如果目标事件中存在品牌实体,并且该品牌实体存在在所述归一化码表的word列中,那么该品牌实体将被替换成key列对应的标准名称,实现事件实体的标准化处理,以方便合并相似的事件。
32.进一步,所述根据选取的前k个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前k个历史事件中任意一个历史事件是否为同一个事件,包括:对于前k个历史事件,判断第i个历史事件与所述目标事件之间的余弦相似度是否大于预设的相似度阈值;若否,确定所述目标事件与第i个历史事件不是同一个事件;若是,判断标准化后的实体与第i个历史事件对应的实体是否相同;当标准化后的实体与第i个历史事件对应的实体不相同时,提取第i 1个历史事件,并返回余弦相似度判断流程;1≤i≤k-1;当标准化后的实体与第i个历史事件对应的实体相同时,将所述目标事件和第i个历史事件输入到事件相似判断模型,得到事件判断结果;其中,所述事件判断结果包括是同一个事件、不是同一个事件。
33.进一步,在提取第i 1个历史事件之间,还包括:判断第i个历史事件是否为前k个历史事件中的最后一个历史事件;若是,则确定所述目标事件与第i个历史事件不是同一个事件;若否,则提取第i 1个历史事件。
34.事件合并的流程如图3所示,将所述目标事件输入到向量模型中,得到事件向量,
然后计算与事件数据库中的历史事件之间的余弦相似度,并选取topk历史事件;同时采用所述归一化码表对对所述实体识别模型输出的实体进行标准化处理,得到标准化后的实体。然后按照余弦相似度从大到小的顺序取一个历史事件,判断该历史事件的余弦相似度是否大于预设的相似度阈值,若否,则说明该目标事件为新事件,增量保存到事件数据库中;若是,则进一步判断该历史事件中实体与标准化后的实体是否相同;如果实体相同,还需要采用事件相似判断模型判断所述目标事件和该历史事件是否为同一个事件;若为同一个事件,则合并目标事件和历史事件,若不是同一个事件,则说明该目标事件为新事件,增量保存到事件数据库中。如果实体不相同,则判断该历史事件是否topk历史事件中最后一个事件;若否,则说明该目标事件为新事件,增量保存到事件数据库中;若是,则从topk历史事件中取下一个历史事件,重复上述合并流程。
35.其中,所述事件相似判断模型采用bert模型构建。例如,所述相似度阈值设置为0.85。对于上述的topk历史事件:历史事件1、历史事件2、历史事件3;选取历史事件1:龚x成为徐xx品牌代言人,该历史事件与目标事件的余弦相似度:0.98,大于预设的相似度阈值0.85;历史事件1:龚x成为徐xx品牌代言人中的实体为:龚x、徐xx,目标事件“龚x代言徐xx”的实体为:徐xx、龚x,即历史事件1与目标事件的实体相同,合并历史事件1与目标事件,已更新时间数据库中历史事件1的相关信息。在本发明实施例中,利用余弦相似度、事件相似判断模型、实体相似来综合判断事件相似,从而合并相似的事件,可以进一步提高事件合并的准确率,避免相似事件重复保留。
36.在一种可选的实施例中,所述更新所述事件数据库中与所述目标事件属于同一个事件的历史事件,包括:对于所述事件数据库中与所述目标事件属于同一个事件的历史事件,更新所述历史事件的字段;其中,所述字段包括对应事件的发生时间和声量。
37.在本发明实施例中,所述事件数据库保存的历史事件设有用于表征事件的发生时间和声量的字段;对于识别出所述目标事件与所述事件数据库中某一个历史事件为同一事件的情况,更新对应历史事件的字段的事件的发生时间和声量;其中,每识别出一个与历史事件相似的事件,其声量加1。
38.相对于现有技术,本发明实施例的有益效果在于:在事件提取阶段设置概率阈值来对事件提取模型输出的事件进行过滤,可以过滤掉置信度小的事件,设置实体识别可以过滤掉非关注事件,从而避免事件提取模型的错误提取、不完整提取和不重要的事件提取;在事件合并阶段,使用余弦相似度和品牌实体来判断事件是否是同一个事件,同时使用品牌实体进行标准化,防止重复提取相同的事件,有效地提高了事件提取的准确率和事件合并的准确率。
39.实施例二参见图4,其是本发明实施例提供的一种事件处理设备的示意图,该实施例的事件处理设备包括:处理器100,存储器200,用于储存一个或多个计算机程序;例如事件处理程序。当所述一个或多个计算机程序被所述处理器100执行,使得所述处理器100实现如实施例一中任意一项所述的事件处理方法,例如图1所示的步骤s1-s7,且能达到相同的技术效果,为避免重复,这里不再赘述。或者,所述处理器执行所述计算机程序时实现上述各装置
实施例中各模块/单元的功能。
40.示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述事件处理设备中的执行过程。
41.所述事件处理设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述事件处理设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是事件处理设备的示例,并不构成对事件处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述事件处理设备还可以包括输入输出设备、网络接入设备、总线等。
42.所述处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器 (digital signal processor,dsp)、专用集成电路 (application specific integrated circuit,asic)、现成可编程门阵列 (field-programmable gate array,fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述事件处理设备的控制中心,利用各种接口和线路连接整个事件处理设备的各个部分。
43.所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述事件处理设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card, smc),安全数字(secure digital, sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
44.其中,所述事件处理设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
45.实施例三本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如实施例一中任一所述的事件处理方法,且能达到相同的技术效果,为避免重复,这里不再赘述。
46.需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
47.以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出多台改进和润饰,这些改进和润饰也视为本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献