一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

事件信息处理方法、装置、计算机设备和存储介质与流程

2023-02-19 09:42:51 来源:中国专利 TAG:

事件信息处理方法、装置、计算机设备和存储介质
1.本技术要求于2021年08月04日提交中国专利局,申请号为2021108899398,申请名称为“事件信息处理方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本技术中。
技术领域
2.本技术涉及计算机技术领域,特别是涉及一种事件信息处理方法、装置、计算机设备和存储介质。


背景技术:

3.随着计算机技术以及互联网技术的发展,在很多情况下都需要对事件信息进行处理,如对事件描述文本例如新闻进行处理,以得到事件描述文本中的关键事件信息。
4.然而,目前在对事件描述文本进行处理时,通常是直接从事件描述文本中获取其中的描述主体,例如,将新闻中出现的主体名词作为新闻描述的主体,导致得到的事件信息的准确率较低。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够有效提高事件信息处理准确率的事件信息的处理方法、装置、计算机设备和存储介质。
6.一种事件信息处理方法,所述方法包括:获取事件描述文本,对所述事件描述文本进行主体识别,得到所述事件描述文本对应的第一事件主体;基于所述第一事件主体,获取对实体描述内容进行搜索的内容搜索条件;基于所述第一事件主体以及所述内容搜索条件进行内容搜索,得到内容搜索文本;对所述内容搜索文本进行主体识别,得到第二事件主体;计算所述第二事件主体与候选主体集合中的各个候选主体之间的主体相似度;基于所述主体相似度从所述候选主体集合中筛选得到与所述第二事件主体相关的目标主体,将所述目标主体作为所述事件描述文本对应的事件描述主体。
7.一种事件信息处理装置,所述装置包括:获取模块,用于获取事件描述文本;识别模块,用于对所述事件描述文本进行主体识别,得到所述事件描述文本对应的第一事件主体;所述获取模块还用于基于所述第一事件主体,获取对实体描述内容进行搜索的内容搜索条件;搜索模块,用于基于所述第一事件主体以及所述内容搜索条件进行内容搜索,得到内容搜索文本;所述识别模块还用于对所述内容搜索文本进行主体识别,得到第二事件主体;计算模块,用于计算所述第二事件主体与候选主体集合中的各个候选主体之间的主体相似度;筛选模块,用于基于所述主体相似度从所述候选主体集合中筛选得到与所述第二事件主体相关的目标主体,将所述目标主体作为所述事件描述文本对应的事件描述主体。
8.在一个实施例中,获取模块还用于根据所述目标实体类型获取对应的目标搜索词,所述目标搜索词包括所述目标实体类型对应的实体类型词以及描述内容搜索词;所述内容搜索条件包括所述目标搜索词;搜索模块还用于将所述第一事件主体以及所述目标搜
索词作为组合搜索词,基于组合搜索词进行内容搜索,得到内容搜索文本。
9.在一个实施例中,该装置还包括:组合模块。获取模块还用于获取所述目标实体类型对应的实体类型词,以及获取所述目标实体类型对应的描述内容搜索词;组合模块用于将所述实体类型词以及所述描述内容搜索词进行组合,得到所述目标搜索词。
10.在一个实施例中,该装置还包括:输入模块。获取模块还用于获取所述目标实体类型对应的搜索范围限定条件,所述搜索范围限定条件限定在所述目标实体类型对应的实体描述内容的范围内进行搜索;所述内容搜索条件包括所述搜索范围限定条件;输入模块用于在所述搜索范围限定条件对应的搜索词输入位置中输入所述第一事件主体,以触发基于所述第一事件主体在所述搜索范围限定条件所限定的搜索范围内进行内容搜索,得到内容搜索文本。
11.在一个实施例中,该装置还包括:切分模块和对比模块。切分模块用于基于实体切分方式对所述第二事件主体进行切分,得到第一切分词集合;基于所述实体切分方式对所述候选主体进行切分,得到第二切分词集合;对比模块用于将所述第一切分词集合中的切分词与所述第二切分词集合中的切分词进行对比,得到对比一致的切分词;获取模块还用于获取对比一致的切分词的词数量,作为第一词数量;计算模块还用于基于所述第一词数量得到所述第二事件主体与所述候选主体之间的主体相似度;所述主体相似度与所述第一词数量成正相关关系。
12.在一个实施例中,获取模块还用于获取所述第一切分词集合与所述第二切分词集合所包含的切分词数量,作为第二词数量;计算模块还用于基于所述第一词数量以及所述第二词数量得到所述第二事件主体与所述候选主体之间的主体相似度;所述主体相似度与所述第二词数量成负相关关系。
13.在一个实施例中,该装置还包括:成分分析模块。切分模块还用于对所述事件描述文本进行切分,得到切分词序列;成分分析模块用于对所述切分词序列进行成分分析,得到所述切分词序列中各个切分词对应的成分;获取模块还用于从所述切分词序列中获取为主体成分的切分词,作为所述事件描述文本对应的第一事件主体。
14.在一个实施例中,该装置还包括:选取模块。成分分析模块还用于对所述切分词序列进行成分分析,得到切分词序列中各个切分词为候选成份的成分可能度;计算模块还用于基于所述切分词序列中各个切分词对应的成分可能度以及成分转移可能度,得到所述切分词序列对应的候选成分序列的序列可能度;选取模块用于选取序列可能度最大的候选成分序列,作为所述切分词序列对应的目标成分序列,所述切分词对应的成分为所述目标成分序列中对应顺序的目标成分。
15.在一个实施例中,获取模块还用于对于候选成分序列,获取所述候选成分序列中的当前候选成分对应的切分词为所述当前候选成分的当前成分可能度;获取所述候选成分序列中的后向候选成分对应的切分词为所述后向候选成分的后向成分可能度,所述后向候选成分为所述候选成分序列中,所述当前候选成分的下一成分;获取所述当前候选成分转移到所述后向候选成分的成分转移可能度;计算模块还用于基于所述当前成分可能度、所述后向成分可能度以及所述成分转移可能度得到所述候选成分序列的序列可能度。
16.在一个实施例中,筛选模块还用于从候选主体集合中,筛选满足相似度条件候选主体,作为与所述第二事件主体相关的目标主体;所述相似度条件包括相似度大于相似度
阈值或者相似度排序大于排序阈值的至少一个。
17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取事件描述文本,对所述事件描述文本进行主体识别,得到所述事件描述文本对应的第一事件主体;基于所述第一事件主体,获取对实体描述内容进行搜索的内容搜索条件;基于所述第一事件主体以及所述内容搜索条件进行内容搜索,得到内容搜索文本;对所述内容搜索文本进行主体识别,得到第二事件主体;计算所述第二事件主体与候选主体集合中的各个候选主体之间的主体相似度;基于所述主体相似度从所述候选主体集合中筛选得到与所述第二事件主体相关的目标主体,将所述目标主体作为所述事件描述文本对应的事件描述主体。
18.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取事件描述文本,对所述事件描述文本进行主体识别,得到所述事件描述文本对应的第一事件主体;基于所述第一事件主体,获取对实体描述内容进行搜索的内容搜索条件;基于所述第一事件主体以及所述内容搜索条件进行内容搜索,得到内容搜索文本;对所述内容搜索文本进行主体识别,得到第二事件主体;计算所述第二事件主体与候选主体集合中的各个候选主体之间的主体相似度;基于所述主体相似度从所述候选主体集合中筛选得到与所述第二事件主体相关的目标主体,将所述目标主体作为所述事件描述文本对应的事件描述主体。
19.上述事件信息处理方法、装置、计算机设备和存储介质,通过获取事件描述文本,对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体;基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件,基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本,对内容搜索文本进行主体识别,得到第二事件主体,计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度,基于主体相似度从候选主体集合中筛选得到与第二事件主体相关的目标主体,并将目标主体作为事件描述文本对应的事件描述主体。由于内容搜索条件是对实体描述内容进行搜索的搜索条件,因此基于事件描述文本中的第一事件主体以及内容搜索条件搜索得到内容搜索文本,是与该第一事件主体有关联的第二事件主体的描述文本,故基于内容搜索文本进行主体识别,能够得到与第一事件主体有关联的第二事件主体,故基于第二事件主体与候选主体集合中的各个候选主体之间的主体相似度,能够从候选主体集合中筛选得到事件描述文本对应的事件描述主体,从而提高了所得到的事件描述文本对应的事件描述主体的准确性。
附图说明
20.图1为一个实施例中事件信息处理方法的应用环境图;
21.图2为一个实施例中事件信息处理方法的流程示意图;
22.图3为一个实施例中基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件步骤的流程示意图;
23.图4为一个实施例中对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体步骤的流程示意图;
24.图5为一个实施例中对事件描述文本进行成分预测的成分路径示意图;
25.图6为一个实施例中识别模型的原理示意图;
26.图7为一个实施例中预编码模型的的编码原理示意图;
27.图8为一个实施例中上下文编码模型的编码原理示意图;
28.图9为一个实施例中lstm模型的编码原理示意图;
29.图10为一个实施例中爬取搜索文本的界面显示示意图;
30.图11为一个实施例中事件信息处理装置的结构框图;
31.图12为一个实施例中计算机设备的内部结构图。
具体实施方式
32.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
33.本技术提供的事件信息处理方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括终端102和服务器104,应用环境可为终端102与服务器104交互的环境。即服务器104获取到事件描述文本对应的事件描述主体后,可以对各个事件描述主体对应的事件信息进行统计,得到统计结果,并将统计结果发送到对应的终端102中。其中,终端102通过网络与服务器104进行通信。服务器104可以利用爬虫技术爬取得到事件描述文本。服务器104对获取到的事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体。服务器104基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件,服务器104基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本。服务器104对内容搜索文本进行主体识别,得到第二事件主体,服务器104计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度,服务器104基于主体相似度从候选主体集合中筛选得到与第二事件主体相关的目标主体,服务器104将目标主体作为事件描述文本对应的事件描述主体。服务器104获取到事件描述文本对应的事件描述主体后,服务器104可以对各个事件描述主体对应的事件信息进行统计,得到统计结果,并将统计结果发送到对应的终端102中。或者当统计结果达到监测预警条件时,服务器104向终端102发送对应的预警信息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解,本技术实施例提供的事件信息处理方法也可以是由终端执行的。
34.如本技术所公开的事件信息处理方法或装置,其中多个服务器可组成为一区块链,而服务器为区块链上的节点。本技术中的服务器可以作为区块链上的某个节点。当服务器获取到事件描述文本对应的事件描述主体后,服务器可以对各个事件描述主体对应的事件信息进行统计,得到对应的统计结果,并将统计结果储存在区块链中。其中,每个统计结果有对应的标识信息或者查询码,当需要获取某个统计结果时,终端可以发送数据获取请求至服务器,数据获取请求中携带查询码或者标识信息,使得服务器可以从区块链中根据查询码或者标识信息查询得到对应的统计结果,并将查询得到的统计结果返回至对应的终端。
35.本技术实施例涉及自然语言处理,可以是基于机器学习对自然语言进行处理。自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方
法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本技术实施例提供的方案涉及自然语言处理技术中的多种类型,在此不做具体限定。
36.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本技术实施例提供的方案涉及机器学习技术中的多种类型,在此不做具体限定。
37.在一个实施例中,如图2所示,提供了一种事件信息处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
38.步骤202,获取事件描述文本,对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体。
39.其中,事件描述文本是对事件信息进行描述的文本,例如可以是描述某个公司发生的突发事件的一篇文章。事件描述文本可以是预设类型的描述文本,文本的类型可以根据文本的来源或者文本的类型标识的至少一个确定,其中文本的来源可以是发布该文本的文本发布主体,文本发布主体可以是发布该文本的互联网平台。文本的类型标识例如可以是表示该描述文本为新闻的类型标识。
40.事件主体是指事件描述文本所描述的事件对应的描述对象,第一事件主体是指事件描述文本中识别出的事件主体。事件描述主体可以是事件描述文本中预设词语成分的主体,例如事件描述文本中的主语。例如假设事件描述文本是关于某个公司的新闻,则该新闻的事件描述主体为该公司。事件主体还可以是事件描述文本中预设类型的主体,例如可以是人名、公司名或者地名的至少一个。
41.主体识别是指对文本中的主体进行识别,从而抽取出事件描述文本所描述的主体词。例如,本技术实施例中的服务器可以采用自然语言处理(nlp)中的命名实体识别(named entity recognition,ner)对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体。其中,服务器可以利用深度学习来实现命名实体识别。命名实体识别(named entity recognition,简称ner)是信息提取、问答系统、句法分析和机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、等价物和百分比)命名实体。
42.具体地,可以通过启动服务器的监测功能(例如,启动监测应用程序),使得服务器可以自动从网络上爬取得到事件描述文本,并对事件描述文本进行实体识别,得到该事件描述文本中的主体词,作为第一事件主体。
43.举个例子,假设服务器获取到的事件描述文本为“a公司开始关店,零售行业路在何方”,服务器对上述事件描述文本进行命名实体识别,得到的提取信息可以包括公司名称:a公司,即可得到该事件描述文本对应的第一事件主体可以包括“a公司”。可以理解的
是,本实施例中的命名实体识别包括但不限于预先训练好的各种神经网络模型,也可以是各种神经网络模型的组合,这里对命名实体识别的实现方式不做限定。
44.步骤204,基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件。
45.对实体描述内容进行搜索的内容搜索条件是指该条件是用于搜索实体描述内容的,实体描述内容是对实体进行描述的内容,例如实体描述内容可以是一个公司的公司简介或者一个人物的人物生平介绍。内容搜索条件可以包括目标搜索词或者搜索范围限定条件的至少一种。例如,可以基于第一事件实体获取对该第一事件主体的实体描述内容进行搜索的搜索词,也可以基于第一事件实体获取该第一事件主体的实体描述内容的存储范围,将该存储范围作为搜索范围。其中,目标搜索词又可以包括实体类型词或者描述内容搜索词的至少一种。
46.具体的,服务器获取事件描述文本,对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体之后,服务器可以基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件。例如,内容搜索条件可以包括第一事件主体对应的目标搜索词或者搜索范围限定条件的至少一种等。
47.举个例子,假设服务器得到事件描述文本对应的第一事件主体为“a公司”,服务器可以基于“a公司”,获取对实体描述内容进行搜索的内容搜索条件为搜索词“公司简介”,表示要对该a公司的“公司简介”进行搜索。可以理解的是,本实施例中获取的内容搜索条件包括但不限于为“公司简介”,也可以是其他的内容搜索条件,例如还可以是“商户介绍”,这里对内容搜索条件的具体表现形式不做限定。
48.步骤206,基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本。
49.其中,内容搜索是指基于第一事件主体以及内容搜索条件在搜索引擎、浏览器或者其他平台的至少一种中进行相关内容的搜索。例如,服务器可以使用爬虫技术,基于第一事件主体以及内容搜索条件从网页中进行实时搜索。
50.内容搜索文本是指搜索到的符合搜索条件的文本。例如,内容搜索文本可以包括关键字文本、关键句子文本或者关键段落文本的至少一种。
51.具体的,服务器可以基于第一事件主体以及内容搜索条件进行内容搜索,得到一个或者多个的内容搜索文本,例如可以基于目标搜索词以及第一事件主体进行内容搜索。“多个”是指至少两个。
52.举个例子,假设服务器得到事件描述文本对应的第一事件主体为a商户,服务器基于“a商户”,获取对实体描述内容进行搜索的内容搜索条件为搜索词“公司简介”,则服务器可以基于“a商户”以及搜索词“公司简介”进行内容搜索,得到与“a商户公司简介”相关的文本内容,该文本内容为内容搜索文本。
53.步骤208,对内容搜索文本进行主体识别,得到第二事件主体。
54.第二事件主体是从内容搜索文本中识别得到的事件主体。例如假设内容搜索文本是关于某个公司的公司简介,则该内容搜索文本的事件描述主体为该公司。例如,第二事件主体可以是人名、公司名或者地名的至少一个。
55.具体的,服务器基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本之后,服务器可以对内容搜索文本进行主体识别,得到多个第二事件主体。
56.举个例子,服务器基于服务器可以基于“a商户”以及“公司简介”进行内容搜索,得到与“a商户公司简介”相关的文本内容为“a公司的子公司“abc”在福州开业”,“a公司的子公司“abc”在福州开业”即为内容搜索文本。进一步的,服务器对内容搜索文本“a公司的子公司“abc”在福州开业”进行主体识别,得到第二事件主体包括公司名:abc。
57.步骤210,计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度。
58.候选主体是指服务器中需要监测的主体对象。例如,候选主体可以包括人物主体、商户主体或者企业主体的至少一种等。候选主体集合是指服务器中需要监测的主体对象的集合,包括多个主体对象。例如,候选主体集合中可以包括a公司、b公司以及c公司。候选主体可以是预先配置的,也可以是实时获取的当前时刻需要监测的主体对象。
59.相似度用于比较两个事物的相似性,表示两个事物的相似程度。主体相似度是指比较两个主体之间的相似性。例如,比较“a子公司”与候选主体“a公司”之间的主体相似性,即可得到“a子公司”与候选主体“a公司”之间的主体相似度。
60.具体的,服务器可以基于预设的文本相似度计算方法,计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度。本实施例中计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度的方式也可以是其他计算词向量相似度的方式,例如,基于word2vector、bert或者bidirectional encoder representation from transformers等算法的至少一种对主体词进行词向量编码,计算词向量间的相似度,这里对主体相似度的计算方式不做限定。
61.步骤212,基于主体相似度从候选主体集合中筛选得到与第二事件主体相关的目标主体,将目标主体作为事件描述文本对应的事件描述主体。
62.目标主体是指按照相似主体筛选策略,筛选得到的与第二事件主体匹配的候选主体。事件描述主体是指事件描述文本对应的描述对象,例如描述对象可以是人名、公司名或者地名的至少一个。
63.具体的,服务器获取得到第二事件主体与候选主体集合中的各个候选主体之间的主体相似度之后,服务器可以基于预设相似主体筛选策略,从候选主体集合中筛选得到与第二事件主体相似的目标主体,将目标主体作为事件描述文本对应的事件描述主体。相似主体筛选策略可以包括相似度阈值条件或者相似度排序条件的至少一个,比如相似度阈值条件为大于相似度阈值,相似度排序条件为相似度排序在预设排序之前,其中相似度按照从大到小的顺序进行排序。例如当服务器检测到第二事件主体与至少一个候选主体之间的相似度值大于相似度阈值时,则服务器将至少一个候选主体作为与第二事件主体相关的目标主体,并将目标主体作为事件描述文本对应的事件描述主体。
64.举个例子,假设候选主体集合中包括三个候选主体分别为a公司、b公司以及c公司,服务器计算第二事件主体与上述候选主体集合中的各个候选主体之间的主体相似度之后,得到第二事件主体与a公司之间的主体相似度为0.5;第二事件主体与b公司之间的主体相似度为0.7;第二事件主体与c公司之间的主体相似度为0.9。服务器可以根据基于上述计算的主体相似度,从候选主体集合中筛选相似度最大值对应的候选主体,得到与第二事件主体相关的目标主体为c公司,将目标主体“c公司”作为事件描述文本对应的事件描述主体。
65.可以理解的是,本实施例中基于主体相似度从候选主体集合中筛选目标主体的方式包括但不限于筛选相似度最大值对应的候选主体的方法,也可以是其他筛选方式,比如,将计算得到的主体相似度与预设相似度阈值进行比较,得到对应的比计结果,基于比较结果,将满足相似度阈值条件的候选主体作为目标主体,相似度阈值条件可以为大于预设相似度阈值,这里对筛选目标主体的方式不做限定。
66.上述事件信息处理方法中,通过获取事件描述文本,对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体;基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件,基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本,对内容搜索文本进行主体识别,得到第二事件主体,计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度,基于主体相似度从候选主体集合中筛选得到与第二事件主体相关的目标主体,并将目标主体作为事件描述文本对应的事件描述主体。由于内容搜索条件是对实体描述内容进行搜索的搜索条件,因此基于事件描述文本中的第一事件主体以及内容搜索条件搜索得到内容搜索文本,是与该第一事件主体有关联的第二事件主体的描述文本,故基于内容搜索文本进行主体识别,能够得到与第一事件主体有关联的第二事件主体,故基于第二事件主体与候选主体集合中的各个候选主体之间的主体相似度,能够从候选主体集合中筛选得到事件描述文本对应的事件描述主体,从而提高了所得到的事件描述文本对应的事件描述主体的准确性。
67.在一个实施例中,如图3所示,基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件的步骤,包括:
68.步骤302,获取第一事件主体所属的目标实体类型。
69.步骤304,获取对目标实体类型对应的实体描述内容进行搜索的内容搜索条件。
70.实体类型可以根据实体的性质进行分类,例如实体类型可以划分为企业、人物或者地区等中的至少一种。实体(entity)是指具有特定意义的事物,例如可以包括人名、地名或者机构名等专有名词等中的至少一种。
71.具体的,服务器获取事件描述文本,对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体之后,服务器可以获取第一事件主体所属的目标实体类型,并获取对目标实体类型对应的实体描述内容进行搜索的内容搜索条件。由于第一事件主体可以包括多种类型,因此服务器可以通过获取第一事件所属的类型确定对应的内容搜索条件。例如,第一事件主体可以包括人物主体、地区主体或者企业主体的至少一种等。不同的实体类型对应的内容搜索条件可以不同,可以预先设置不同实体类型对应的内容搜索条件。例如,若服务器获取第一事件主体所属的目标实体类型为企业主体,则服务器可以进一步获取对企业主体对应的实体描述内容进行搜索的内容搜索条件。例如,企业主体对应的实体描述内容进行搜索的内容搜索条件可以为:与企业相关的目标搜索词如“公司简介”。若服务器获取第一事件主体所属的目标实体类型为人物主体,则服务器可以进一步获取对人物主体对应的对实体描述内容进行搜索的内容搜索条件。例如,人物主体对应的对实体描述内容进行搜索的内容搜索条件可以为与人物相关的目标搜索词:例如“人物生平”。
72.本实施例中,通过第一事件主体所属的类型确定对应的内容搜索条件,使得得到的不同类型的主体对应的内容搜索条件更为准确,为后续内容搜索提供了精准的内容搜索条件,从而有效提高了后续搜索文本的准确性。
73.在其中一个实施例中,获取对目标实体类型对应的实体描述内容进行搜索的内容搜索条件的步骤,包括:
74.根据目标实体类型获取对应的目标搜索词,目标搜索词包括目标实体类型对应的实体类型词以及描述内容搜索词,内容搜索条件包括目标搜索词;
75.基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本包括:将第一事件主体以及目标搜索词作为组合搜索词,基于组合搜索词进行内容搜索,得到内容搜索文本。
76.目标搜索词是指与目标实体类型对应的搜索词。目标搜索词可以包括目标实体类型对应的实体类型词以及描述内容搜索词,实体类型词是指与实体类型对应的词,即用于描述实体类型的词,例如,人名对应的实体类型词可以是“人物”,公司名对应的实体类型词可以是“企业”或者“商户”等,即实体类型词可以包括“企业”、“人物”或者“商户”的至少一种等。目标搜索词可以是预先配置好的,即可以预先配置实体类型与对应的搜索词之间具有映射关系的配置表。目标搜索词也可以是基于实体类型实时生成的。
77.描述内容搜索词是指该搜索词是用于搜索描述内容的,描述内容是对主体进行描述的内容,例如,描述内容搜索词可以包括“简介”、“介绍”、“公开信息”或者“基本信息”的至少一种等。从而使得基于该描述内容搜索词进行搜索时,搜索到的是对一个主体的信息进行描述的内容。
78.组合搜索词是指将词与词之间进行组合后得到的词,例如,将实体类型词“企业”与描述内容搜索词“简介”进行组合,得到组合搜索词为“企业简介”。
79.具体的,服务器获取事件描述文本,对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体之后,服务器可以根据目标实体类型获取对应的目标搜索词。进一步的,服务器可以将第一事件主体以及目标搜索词作为组合搜索词,并基于组合搜索词进行内容搜索,得到内容搜索文本。
80.举个例子,假设第一事件主体为a企业,服务器获取“a企业”所属的目标实体类型为企业主体,则服务器可以根据企业主体获取对应的目标搜索词为“企业简介”。进一步的,服务器可以将“a企业”以及目标搜索词“企业简介”作为组合搜索词“a企业企业简介”,并基于组合搜索词“a企业企业简介”进行内容搜索,得到对应的内容搜索文本。服务器基于组合搜索词“a企业企业简介”进行内容搜索时,可以是在搜索引擎中进行内容搜索,得到对应的内容搜索文本。可以理解的是,本实施例中对基于组合搜索词进行搜索的工具包括但不限于搜索引擎中,这里对其采用的搜索工具或者搜索平台不做限定。
81.本实例中,通过将第一事件主体以及目标搜索词作为组合搜索词,并基于组合搜索词进行内容搜索,使得搜索到的文本更加准确,同时也满足了用于反映部分事件时效性的要求。
82.在其中一个实施例中,根据目标实体类型获取对应的目标搜索词的步骤,包括:
83.获取目标实体类型对应的实体类型词,以及获取目标实体类型对应的描述内容搜索词。
84.将实体类型词以及描述内容搜索词进行组合,得到目标搜索词。
85.具体的,假设服务器获取第一事件主体为a企业,服务器获取a企业所属的目标实体类型为企业主体,则服务器可以获取企业主体对应的实体类型词为“企业”,以及获取企
业主体对应的描述内容搜索词为“基本信息”。进一步的,服务器可以将上述实体类型词“企业”以及描述内容搜索词“基本信息”进行组合,得到目标搜索词为“企业基本信息”。本技术实施例中的目标搜索词无需人为预先进行设置,服务器可以根据获取到的实体类型词以及描述内容搜索词自动进行组合,得到目标搜索词,后续基于目标搜索词实时搜索相关文本,再从搜索文本中提取主体成分,能有效解决传统方式中基于整段文本计算相似度带来的匹配结果不稳定问题,能够为后续的相似度匹配提供更加准确的主体成分。
86.在一个实施例中,获取对目标实体类型对应的实体描述内容进行搜索的内容搜索条件的步骤,还包括:
87.获取目标实体类型对应的搜索范围限定条件,搜索范围限定条件限定在目标实体类型对应的实体描述内容的范围内进行搜索;内容搜索条件包括搜索范围限定条件;
88.基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本包括:
89.在搜索范围限定条件对应的搜索词输入位置中输入第一事件主体,以触发基于第一事件主体在搜索范围限定条件所限定的搜索范围内进行内容搜索,得到内容搜索文本。
90.搜索范围限定条件是指对搜索范围进行限定的条件,搜索范围限定条件限定在目标实体类型对应的实体描述内容的范围内进行搜索是指搜索时,所限定的搜索范围是目标实体类型对应的实体描述内容。可以理解,在进行搜索时,搜索范围限定条件还可以包括非实体描述内容对应的搜索范围限定条件,例如非实体描述内容对应的搜索范围限定条件可以包括时间范围或者格式范围等中的至少一种限定条件。搜索词输入位置可以是搜索词对应的代码的位置或者搜索词输入框。搜索词对应的代码为用于对搜索词进行搜索的代码。该代码中搜索词是空值,当在代码中对应位置输入搜索词,则可以触发执行该代码,对输入的搜索词进行搜索。
91.服务器可以预先获取各种不同实体类型对应的实体描述文本,并对文本对应的实体类型进行标记。从而在进行搜索时,可以是在该实体类型对应的实体描述文本范围内进行检索。举个例子,可以获取介绍各种公司的文本以介绍各种人物的文本,并标记介绍公司的文本对应的实体类型为“公司”以及介绍人物的文本对应的实体类型为“人物”。可以提供“公司简介”对应的“搜索词输入框”或者代码位置,以及“人物介绍”对应的“搜索词输入框”或者代码位置,如果要搜索公司简介,则在“公司简介”对应的“搜索词输入框”输入公司的名称,或者“公司简介”对应的代码位置中输入公司的名称,并触发执行该对应的用于搜索的代码,从而可以在实体类型为“公司”的文本中搜索得到与该公司有关的公司简介文本。如果要搜索人物介绍,则在“人物介绍”对应的“搜索词输入框”输入人物的名称,或者“人物介绍”对应的代码位置中输入人物的名称,并触发执行该对应的用于搜索的代码,从而可以在实体类型为“人物”的文本中搜索得到与该人物有关的人物生平介绍。
92.具体的,假设服务器获取第一事件主体为a企业,服务器获取a企业所属的目标实体类型为企业主体,则服务器可以获取企业主体对应的搜索范围限定条件为时间范围“一周内”、格式范围“所有网页和文件”、目标实体类型对应的搜索词输入框为“公司简介”对应的搜索词输入框,则服务器在“公司简介”对应的搜索词输入框输入a企业的名称,以触发基于a企业在搜索范围限定的时间范围限定条件:“一周内”以及格式范围条件:“所有网页和文件”的搜索范围内进行内容搜索,得到对应的内容搜索文本。可以理解的是,本实施例中的搜索范围限定条件可以是通过交互界面实时获取的目标对象设置的搜索范围限定条件,
也可以是预先设置好的与目标实体类型具有映射关系的搜索范围限定条件,这里对搜索限定条件的获取方式不做限定。
93.本实施例中,通过在搜索范围限定条件对应的搜索词输入位置中输入第一事件主体,以触发基于第一事件主体在搜索范围限定条件所限定的搜索范围内进行内容搜索,能够使得搜索条件的限定更加精准,从而得到更加准确的内容搜索文本,同时也满足了不同类型事件时效性的要求。
94.在一个实施例中,计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度的步骤,包括:
95.基于实体切分方式对第二事件主体进行切分,得到第一切分词集合;
96.基于实体切分方式对候选主体进行切分,得到第二切分词集合;
97.将第一切分词集合中的切分词与第二切分词集合中的切分词进行对比,得到对比一致的切分词;
98.获取对比一致的切分词的词数量,作为第一词数量;
99.基于第一词数量得到第二事件主体与候选主体之间的主体相似度;主体相似度与第一词数量成正相关关系。
100.实体切分方式是指用于切分实体词的方式,例如,实体切分方式可以包括一元切分方式、二元切分方式或者其他切分方式的至少一种等。
101.切分词集合是指基于实体切分方式对实体词进行切分后,得到的切分词的集合,切分词是指切分后的词。例如,对实体词“abc”进行一元切分,得到的切分词集合包括“a”、“b”以及“c”。
102.具体的,假设服务器基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本之后,服务器对内容搜索文本进行主体识别,得到第二事件主体为a2034g公司。预设的候选主体集合中包括三个候选主体分别为a309公司、a20公司以及b公司,服务器可以基于预设策略,计算a2034g公司与上述候选主体集合中的各个候选主体之间的主体相似度。其中,服务器可以基于实体切分方式对a2034g进行切分,得到第一切分词集合。例如,服务器可以基于一元模型的切分方式,将a2034g进行切分,得到第一切分词集合为(a、2、0、3、4、g)。进一步的,服务器可以基于一元模型的切分方式,对候选主体集合中的各个候选主体进行切分,得到第二切分词集合。即服务器分别对三个候选主体a309公司、a20公司以及b公司进行切分,得到第二切分词集合有3个:为(a、3、0、9)、(a、2、0)以及(b)。服务器将上述第一切分词集合中的切分词与第二切分词集合中的切分词进行对比,得到与(a、2、0)对比一致的切分词为a、2、0。服务器获取对比一致的切分词a、2、0的词数量为2、3、0,并将上述词数量2、3、0作为第一词数量。可以理解的是,本实施例中的实体切分方式可以是基于一元模型的切分方式,也可以是基于二元模型、三元模型的切分方式或者其他切分方式,这里对实体切分方式不做限定。
103.服务器得到第一词数量之后,服务器可以基于第一词数量得到第二事件主体与候选主体之间的主体相似度,由于主体相似度与第一词数量成正相关关系,则服务器可以进一步判断第一词数量为3时对应的候选主体a20公司与第二事件主体的相似度值最大,服务器可以选取a20公司作为与a2034g公司相关的目标主体,并将a20公司作为事件描述文本对应的事件描述主体。由此使得,基于实体切分方式分别对搜索文本中的主体以及候选主体
进行切分,得到切分词,综合考虑搜索文本中切分词出现频数及其与候选主体中切分词的相似度匹配得到事件描述主体,在满足不同事件描述主体匹配的时效性要求的同时,有效提高了事件描述主体匹配的准确性。
104.在其中一个实施例中,基于第一词数量得到第二事件主体与候选主体之间的主体相似度的步骤,包括:
105.获取第一切分词集合与第二切分词集合所包含的切分词数量,作为第二词数量;
106.基于第一词数量以及第二词数量得到第二事件主体与候选主体之间的主体相似度;主体相似度与第二词数量成负相关关系。
107.其中,第一切分词集合是指对第二事件主体进行切分得到的切分词集合。第二切分词集合是指对候选主体进行切分得到的切分词集合。第一词数量是指对比一致的切分词的词数量,即两个集合取交集的词数量。第二词数量是指第一切分词集合与第二切分词集合所包含的切分词数量,即两个集合取并集的词数量。其中,主体相似度与第二词数量成负相关关系,主体相似度与第一词数量成正相关关系。
108.服务器可以获取上述实施例中第一切分词集合(a、2、0、3、4、g)与第二切分词集合(a、2、0)所包含的切分词数量为6,将6作为第二词数量。进一步的,服务器可以基于第一词数量(2、3、0)以及第二切分词数量得到第二事件主体与候选主体之间的主体相似度,即得到第二事件主体与候选主体a309公司的相似度为(2/7);第二事件主体与候选主体a20公司的相似度为(3/6);第二事件主体与候选主体b公司的相似度为(0/7)。服务器基于上述计算得到的主体相似度,从三个候选主体集合中筛选得到与第二事件主体相关的目标主体为a20公司,并将a20公司作为事件描述文本对应的事件描述主体。即服务器可以基于预设策略(例如选取相似度值的最大值),确定候选主体a20公司与第二事件主体之间的相似度值最大,则服务器可以选取a20公司作为与a2034g公司相关的目标主体,并将a20公司作为事件描述文本对应的事件描述主体。由此使得,基于实体切分方式分别对搜索文本中的主体以及候选主体进行切分,得到切分词,综合考虑搜索文本中切分词出现频数及其与候选主体中切分词的相似度,得到匹配事件描述的主体,在满足不同事件描述主体匹配的时效性要求的同时,有效提高了事件描述主体匹配的准确性。
109.在一些实施例中,计算相似度的公式可以如下所示,其中gn(a)、gn(b)分别表示主体a、b中,n为所切分得到的词的字符的个数时,对应的切分词集合。例如每个字符划分为一个词(一元切分方式),则n=1,其中n可以取值为1、2以及3。θn为相应切方方式的相似度权重,“∪”表示求交集,“∩”表示求并集。s(a,b)表示主体a与主体b的相似度。
[0110][0111]
在一个实施例中,如图4所示,对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体的步骤,包括:
[0112]
步骤402,对事件描述文本进行切分,得到切分词序列。
[0113]
步骤404,对切分词序列进行成分分析,得到切分词序列中各个切分词对应的成分。
[0114]
步骤406,从切分词序列中获取为主体成分的切分词,作为事件描述文本对应的第一事件主体。
[0115]
切分词序列是指对事件描述文本进行切分后得到的序列。成分分析是指对切分词序列中的词的成分进行分析,例如,“a公司”对应的成分可以是名词,或者“a公司”对应的成分还可以是主体成分。
[0116]
具体的,假设服务器获取的事件描述文本为“a公司举办宴会”,则服务器可以对上述事件描述文本进行切分,得到切分词序列为(a公司举办宴会)。进一步的,服务器可以对切分词序列进行成分分析,得到切分词序列中各个切分词对应的成分。例如,a公司对应的成分为名词、举办对应的成分为动词、宴会对应的成分为名词。服务器从切分词序列中获取作为主体成分的切分词为“a公司”,并将“a公司”作为事件描述文本对应的第一事件主体。其中,服务器可以利用预先训练好的神经网络模型对上述事件描述文本的词成分进行标注,以完成对上述事件描述文本的成分标注。服务器也可以利用预先训练好的神经网络模型对上述事件描述文本进行进行成分分析,得到切分词序列中各个切分词对应的成分。由此使得,通过对事件描述文本进行切分,得到切分词序列,并基于切分词序列提取事件描述主语,使得得到的事件描述主语更加准确。
[0117]
在其中一个实施例中,对切分词序列进行成分分析,得到切分词序列中各个切分词对应的成分的步骤,包括:
[0118]
对切分词序列进行成分分析,得到切分词序列中各个切分词为候选成份的成分可能度;
[0119]
基于切分词序列中各个切分词对应的成分可能度以及成分转移可能度,得到切分词序列对应的候选成分序列的序列可能度;
[0120]
选取序列可能度最大的候选成分序列,作为切分词序列对应的目标成分序列,切分词对应的成分为目标成分序列中对应顺序的目标成分。
[0121]
其中,成分可能度是用于表示词向量输出的成分标签分数,即表示当前词与当前词成分的关系的分数。成分可能度对应的成分标签分数表示词向量的输出为候选成分的可能程度(似然程度)。分数越大,则表示可能性越大。成分转移可能度是用于表示相邻词向量从一种成分变为另一种成分的可能度评分。成分转移可能度的评分分数越大,则表示可能性越大。例如,成分转移可能度可以用于表示当前词的词性与上一个词的词性的关系。成分可能度以及成分转移可能度可以理解为两类特征,由不同的特征函数计算得到。序列可能度与成分可能度以及成分转移可能度成正相关关系,例如序列可能度可以是该序列对于的成分可能度以及成分转移可能度之和。
[0122]
序列可能度是用于表示序列对应的成分路径的评分,如图5所示,为对事件描述文本进行成分预测的成分路径示意图。其中,一个节点表示一个词,t代表时刻,一个时刻可以对应有多个候选的词。词与词之间的连线代表边,边具有成分转移可能度,表示由前一个词向量转移到下一个词向量的可能度,边代表连线的起点所连接的词,所对应的下一个词是连线的终点连接的词的概率。例如,b1与c1之间的边表示词b1的下一个词为c1的可能度。成分路径p-real由a1、b2、c3以及d3组成,可以表示为“a1-b2-c3-d3”。
[0123]
具体的,假设服务器获取的事件描述文本为上述实施例中的“a公司举办宴会”,则服务器可以对上述事件描述文本进行切分,得到切分词序列为(a公司举办宴会)。进一步的,服务器可以基于ner技术对切分词序列进行成分分析,得到切分词序列中各个切分词为候选成份的成分可能度。即可以将切分词序列作为输入序列输入预先训练好的成分预测模
型中,经过成分预测模型的识别处理,输出为词性(词成分)序列。
[0124]
例如,服务器可以利用预先训练好的成分分析模型或者成分预测模型对切分词序列进行成分分析,得到切分词序列中各个切分词为候选成份的成分可能度(e),即得到a公司的成分可能度e1为0.8,举办的成分可能度e2为0.007,宴会的成分可能度e3为0.45。进一步的,服务器基于切分词序列中各个切分词对应的成分可能度以及成分转移可能度,得到切分词序列对应的候选成分序列的序列可能度,即服务器得到各个成分路径的评分。服务器选取序列可能度最大的候选成分序列,即服务器选取各个成分路径的评分中评分最大值对应的候选成分序列,作为切分词序列对应的目标成分序列,切分词对应的成分为目标成分序列中对应顺序的目标成分。
[0125]
举个例子,如图5所示,假设“a公司8点举办宴会”的成分路径评分为所有成分路径评分中的最大值,则可以将该切分词序列作为目标成分序列。假设“a公司8点举办宴会”的成分路径p-real由a1、b2、c3以及d3组成,表示为“a1-b2-c3-d3”,则a1对应的词为“a公司”,b2对应的词为“8点”,c3对应的词为“举办”,d3对应的词为“宴会”。其中,a公司对应的成分为地点名词、举办对应的成分为动词、宴会对应的成分为名词。在预先对成分分析模型进行训练时,使得该模型能够从训练数据中获得约束性的条件或规则,即通过构建一些约束来保证预测的标签是合法或者合理的。例如:约束条件可能是:句子中第一个词的标签应以名词开始,而不能是动词。在实际应用中,可以预先定义词成分约束条件,即可以预先设置特征模板,特征模板用于生成多个特征函数,由不同特征函数计算出对应的成分可能度评分及成分转移可能度评分。基于上述两个评分矩阵可以得到句子成分路径p-real,假设每条可能的路径都有一个分数pi,所有路径的总分数是p-total=p1 p2

pn,模型的损失函数可构建为:lossfunction=p-real/p-total。由此使得,通过对句子成分间构建约束条件,实现对句子成分的有效预测,即通过对切分词序列进行成分分析,能够得到更为准确的成分预测结果,从而能有效解决基于整段文本计算相似度带来的匹配结果不稳定问题,有效提高了事件描述主体匹配的准确性。
[0126]
在一个实施例中,基于切分词序列中各个切分词对应的成分可能度以及成分转移可能度,得到切分词序列对应的候选成分序列的序列可能度的步骤,包括:
[0127]
对于候选成分序列,获取候选成分序列中的当前候选成分对应的切分词为当前候选成分的当前成分可能度;
[0128]
获取候选成分序列中的后向候选成分对应的切分词为后向候选成分的后向成分可能度,后向候选成分为候选成分序列中,当前候选成分的下一成分;
[0129]
获取当前候选成分转移到后向候选成分的成分转移可能度;
[0130]
基于当前成分可能度、后向成分可能度以及成分转移可能度得到候选成分序列的序列可能度。
[0131]
具体的,服务器对于候选成分序列,服务器按照顺序,将候选成分序列中的成分序列都作为当前候选成分。服务器获取候选成分序列中的当前候选成分对应的切分词为当前候选成分的当前成分可能度,进一步的,服务器获取候选成分序列中的后向候选成分对应的切分词为后向候选成分的后向成分可能度,后向候选成分为候选成分序列中,当前候选成分的下一成分。服务器获取当前候选成分转移到后向候选成分的成分转移可能度,服务器基于当前成分可能度、后向成分可能度以及成分转移可能度得到候选成分序列的序列可
能度。
[0132]
举个例子,如图5所示,假设候选成分序列为图5中“a1-b2-c3-d3”,服务器可以获取候选成分序列中的当前候选成分对应的切分词a1为当前候选成分的当前成分可能度e1,进一步的,服务器获取候选成分序列中的后向候选成分对应的切分词b2为后向候选成分的后向成分可能度e2,后向候选成分为候选成分序列中,当前候选成分a1的下一成分即b2。服务器获取当前候选成分a1转移到后向候选成分b2的成分转移可能度t12,服务器基于当前成分可能度e1、后向成分可能度e2以及成分转移可能度t12得到候选成分序列的序列可能度。由此使得,通过对句子成分间构建约束条件,实现对句子成分的有效预测,即通过对切分词序列进行成分分析,能够得到更为准确的成分预测结果,从而能有效解决基于整段文本计算相似度带来的匹配结果不稳定问题,有效提高了事件描述主体匹配的准确性。
[0133]
在一个实施例中,基于主体相似度从候选主体集合中筛选得到与第二事件主体相关的目标主体的步骤,包括:
[0134]
从候选主体集合中,筛选满足相似度条件候选主体,作为与第二事件主体相关的目标主体;相似度条件包括相似度大于相似度阈值或者相似度排序大于排序阈值的至少一个。
[0135]
其中,相似度条件包括相似度大于相似度阈值或者相似度排序大于排序阈值的至少一个,相似度排序按照从大到小的顺序进行排列。
[0136]
具体的,服务器计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度之后,服务器可以从候选主体集合中,筛选满足相似度条件候选主体,作为与第二事件主体相关的目标主体。
[0137]
举个例子,假设服务器计算得到第二事件主体(a2034g公司)与候选主体a309公司的相似度为0.45;第二事件主体(a2034g公司)与候选主体a20公司的相似度为0.8;第二事件主体(a2034g公司)与候选主体b公司的相似度为0.07。当相似度阈值条件为大于相似度阈值(0.75)时,由于0.8大于0.75,因此服务器可以从候选主体集合中,筛选满足相似度条件候选主体为a20公司,并将a20公司作为与第二事件主体相关的目标主体。当相似度阈值条件为相似度排序大于排序阈值的至少一个候选主体时,由于0.8大于0.45大于0.07,即相似度排序按照从大到小的顺序进行排列,则服务器可以从候选主体集合中,筛选满足相似度条件候选主体为a20公司,并将a20公司作为与第二事件主体相关的目标主体。由此使得,针对不同类型的场景设置不同的相似度条件,使得基于主体相似度从候选主体集合中能够筛选得到与第二事件主体相关的目标主体,将目标主体作为事件描述文本对应的事件描述主体,即能够匹配得到更加准确的事件描述主体。
[0138]
本技术还提供一种应用场景,该应用场景应用上述的事件信息处理方法。
[0139]
具体地,该事件信息处理方法在该应用场景的应用如下:
[0140]
本技术实施例提供的方法,可以应用于商户主体与事件信息匹配的场景中。以下以商户主体与事件信息匹配为例,对本技术实施例提供的事件信息处理方法进行说明,包括以下步骤:
[0141]
1)获取事件描述文本,对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体。
[0142]
如图6所示,为识别模型的原理示意图。本实施例中采用的识别模型中可以包括成
分标注模块、预编码模块、上下文编码模块以及成分预测模块,在模型训练的过程中分别承担成分标注、预编码、上下文编码及句子成分学习的功能。成分标注模块用于实现token处理,预编码模块可以用bert(bidirectional encoder representations from transformers)深度语言表示模型来实现,上下文编码模块可以用两个lstm模型即长短记忆神经网络模型结合使用来实现。lstm模型是对文本单向编码的过程,t时刻的输出只会受到t时刻的输入xt及前一个细胞状态ct-1输出的影响,而本实施例中可以将两个lstm模型进行结合使用。
[0143]
例如,如图6所示,将文本输入成分标注模块中进行token处理,输出已标注成分的切分词序列为tok1、tok2

tokn。进一步的,将上述已标注成分的切分词序列tok1、tok2

tokn输入bert模型中进行预编码处理,输出预编码后的各个分词对应的分词编码向量t1、t2

tn。进一步的,将bert模型输出的各个分词对应的分词编码向量t1、t2

tn输入lstm模型中,输出分词编码向量c1、c2

cn。最后,将分词编码向量c1、c2

cn输入crf模型中,输出每个分词对应的成分预测结果,即得到的输出序列为相应的词性(词成分)。例如,分词编码向量c1输出的成分预测结果为b,分词编码向量c2输出的成分预测结果为i。
[0144]
其中,图6中圆圈代表lstm模型,两个圆圈代表两个lstm模型结合使用。箭头表示数据的流向。弧形箭头表示编码的方向。每箭头都携带一个向量,表示从上一个节点的输出到其他节点的输入。
[0145]
如图7所示,为预编码模型的编码原理示意图。服务器可以对文本进行切分,得到n个分词(token),n为正整数,表示为tok1、tok2
……
tokn。在tok1之前加入“[cls]”的标记,[cls]表示“classification”分类,e表示某个嵌入向量,例如[cls]的嵌入向量为e[cls],t表示编码得到的编码向量,c为语义向量,为[cls]对应的语义表示式,即语义编码向量。即服务器可以将包括n个分词的文本输入到预编码模型中,预编码模型输出文本对应的[cls]的语义表示式c(称为目标语义向量),以及各个分词对应的分词编码向量t。其中,服务器可以利用成分标注模块实现对文本中的词成分打标,完成成分标注,例如:对文本“b超市22点关店”中的词成分进行打标,可以得到tok1“b超市”对应的词成分为名词,tok2“22点”为介词,tok3“关店”为动词。
[0146]
当成分标注模块实现对文本中的词成分打标,完成成分标注之后,预编码模块对已经完成成分标注的文本进行预编码处理,输出预编码后的文本。其中,本实施例中的预编码模块在训练参数的过程具有三大技术优势,一是句子中词成分间的self-attention编码即自注意力机制编码,可以实现在词编码的过程中综合考虑上下文;二是损失函数中增加了句子之间的上下文标签,实现句子间上下文理解;三是随机过滤掉句子中的部分词使得参数更新过程中更具有鲁棒性,防止过拟合。该模型在训练过程中涉及的参数量非常巨大,本实施例中将其作为预训练工具对文本进行编码,在训练过程中不对其参数进行梯度更新。
[0147]
进一步的,上下文编码模块对前一个模块(预编码模型)输出的预编码后的文本进行上下文编码,得到上下文编码后的文本。其中,如图8所示,为上下文编码模型的编码原理示意图。图8中圆圈代表lstm模型,两个圆圈代表两个lstm模型结合使用。箭头表示数据的流向。弧形箭头表示编码的方向,每箭头都携带一个向量,从上一个节点的输出到其他节点的输入。例如,使用两个lstm模型分别从前到后、从后到前对分词编码向量t1进行编码,并
将两个编码结果进行横向拼接作为最终编码结果c1,例如:“a企业成立100周年”,第一个lmst模型从前到后编码分词“a”得到向量c11,第二个从后到前编码分词“a”得到向量c12,最终该词的编码c1为[c11,c12]。即上下文编码模块可以是使用预先构建的一套双向传播的词向量编码模型来实现。一套双向传播的词向量编码模型是指分别从句子两个方向对词的编码结果拼接,实现对词的上下文理解。例如,商户系统中可以使用两个神经网络模型相结合,分别从句子两个方向对词的编码结果拼接,实现对词上下文理解。
[0148]
如图9所示,为lstm模型的编码原理示意图。图9中lstm模型是由t时刻的输入词xt、细胞状态ct、隐藏层ht、遗忘门ft、记忆门it以及输出门ot组成。lstm的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用信息被丢弃,并在每个时间步都会输出隐层状态ht,其中遗忘、记忆与输出由通过这个时刻的隐层状态ht-1和当前xt计算出来的遗忘门ft、记忆门it以及输出门ot来控制。
[0149]
图9中,一块神经网络a查看一些输入xt并输出一个值ht。循环允许信息从网络的一个步骤传递到下一个步骤。lstm也是具有神经网络重复模块链的形式,即具有这种类似链的结构,但重复模块具有不同的结构。图9中的符号所表示含义如下:每箭头都携带一个向量,从上一个节点的输出到其他节点的输入。圆圈表示逐点运算,如矢量加法和逐点乘法运算。圆圈里有“ ”表示矢量加法,圆圈里有
“×”
表示逐点乘法运算。方框表示神经网络层,方框里有“σ”表示西格玛(sigmoid)神经网络层。tanh表示tanh层,箭头合并表示连接,箭头分叉表示其内容被复制,副本将转移到不同的位置。lstm的关键是单元状态,水平线贯穿图的顶部。它直接沿着整个链运行,只有一些次要的线性交互,信息很容易沿着它不变地流动。lstm能够移除或添加信息到结点来改变信息流状态,由称为门(gate)的结构精心调节。门是一种可选择通过信息的节点。门由西格玛(sigmoid)神经网络层和逐点乘法运算组成。
[0150]
最后,成分预测模块对上下文编码模块输出的上下文编码后的文本的成分进行预测,得到文本对应的主语(主体)。成分预测模块是通过对句子成分间构建约束条件,实现对句子成分的有效预测。该模块涉及的初始参数包括成分可能度评分及成分转移可能度评分。成分可能度评分是由前一个模块(即上下文编码模块)输出的每个标签的分数。其中,对句子成分间构建约束条件可以是词成分约束条件。例如,约束条件可能是:句子中第一个词的标签应以名词开始,而不能是动词。即“b超市22点关店”是有效的,但是“关店b超市22点”是无效的。一个命名实体的第一个标签应该以“名词”而不是“介词”开头,可以理解的是,对句子成分间构建约束条件包括但不限于上述举例说明的词成分约束条件,还可以为其他的词成分约束条件,对其不做具体限定。在实际应用中,可以预先定义词成分约束条件,即可以预先设置特征模板,特征模板用于生成多个特征函数,由不同特征函数计算出对应的成分可能度评分及成分转移可能度评分。成分预测模块也可以是使用预先训练好的神经网络模型来实现。训练成分预测模型时,为每个特征函数赋上权重进行训练。即输入成分预测模块一个句子(输入序列),经过成分预测模块的处理后,得到的输出序列为相应的词性(词成分)。
[0151]
例如:“你好小马”其标注为o o p p,上下文编码模块输出成分可能度评分矩阵[(0.7,0.3),(0.6,0.4),(0.2,0.8),(0.1,0.9)],成分转移可能度评分初始化矩阵[(0.1,0.2,0.3,0.4),(0.1,0.2,0.3,0.4),(0.1,0.2,0.3,0.4),(),(0.1,0.2,0.3,0.4)],则成
分可能度评分得分为3,真实路径为t(s,o) t(o,o) t(o,p) t(p,p) t(p,e),对应评分1.4,损失函数评分loss(成分可能度评分,成分转移可能度评分),通过训练成分转移可能度评分的参数使得真实路径评分最大化,实现对句子成分的约束。
[0152]
2)基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件;基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本。
[0153]
具体的,商户系统可以使用爬虫技术,爬取“文本主语 内容搜索条件”在搜索引擎中的搜索文本。如图10所示,为爬取搜索文本的界面显示示意图。其中,图10中的显示的内容搜索条件除了包括目标搜索词之外,还可以包括其他类型的内容搜索条件,例如,按自定义时间范围进行搜索以及选取不同类型的搜索工具进行搜索等。搜索到的搜索文本可以显示在搜索文本框里,也可以批量下载搜索到的文本或者文件。可以理解,在采用爬虫技术爬取内容时,该示意图可以并不是真实存在的,而是用于对本技术实施例提供的方案原理进行示例性说明,假设基于步骤1)中提取的主语为“b超市”,进一步的,商户系统基于提取得到的主语“b超市”,获取对该实体描述内容进行搜索的内容搜索条件,内容搜索条件可以包括目标搜索词、搜索范围限定条件。假设商户系统基于提取得到的主语“b超市”,获取进行搜索的内容搜索条件为“超市简介”、“站点内搜索”、时间范围:“一周内”,则商户系统可以使用爬虫技术,在某个代码位置中输入“b超市 超市简介”,以触发在搜索引擎中搜索与“b超市 超市简介”相关的搜索文本。
[0154]
3)对内容搜索文本进行主体识别,得到第二事件主体。
[0155]
其中,内容搜索文本可以是关键字文本。商户系统可以基于爬虫文本,使用ner技术提取爬虫文本中的商户全称。商户系统基于步骤2)中爬取的“b超市 超市简介”的搜索文本,商户系统再次使用步骤1)中提及的ner技术解析出爬虫文本中出现的商户主体,例如:“b超市”或者“b超级物种”的至少一种等。举个例子,若商户系统爬取到的搜索文本为“b11超市关店”,则商户系统基于上述爬虫技术得到的搜索文本“b11超市关店”,再次使用ner技术提取搜索文本中的商户全称为“b11超市”,即商户系统使用ner技术先识别该文本中的主语“b超市”进而才能在搜索引擎中找到描述商户主体全称为“b11超市”。
[0156]
4)计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度;基于主体相似度从候选主体集合中筛选得到与第二事件主体相关的目标主体,将目标主体作为事件描述文本对应的事件描述主体。
[0157]
商户系统可以基于爬虫文本中的商户主体及其与候选主体相似度,筛选得到文本匹配的商户主体。具体的,商户系统计算商户全称“b11超市”与系统中预设的候选商户集合中的各个候选商户主体之间的主体相似度。假设系统中预设的候选商户集合中的候选商户主体包括:b112超市和a超市,则商户系统基于计算得到主体相似度,从候选商户主体集合中筛选得到与商户全称相关的目标主体为b112超市,将目标主体(b112超市)作为文本匹配的商户主体。
[0158]
其中,商户系统可以基于n-gram文本相似度计算方法,分别计算步骤3)中提取的商户主体与候选主体间的1-gram、2-gram及3-gram相似度,而后计算该相似度加权平均值,其计算逻辑如下:
[0159]
[0160]
其中,a表示文本a;b表示文本b;s(a,b)表示文本a、b之间的相似度加权平均值;gn(a)、gn(b)分别表示文本a、b中以n为划分词的集合且n=1,2,3;θn为相应的n-gram相似度权重。上述公式综合考虑主体间相似度及提取商户主体出现次数,最终得到匹配事件描述文本的商户主体。
[0161]
应该理解的是,虽然图1-10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0162]
在一个实施例中,如图11所示,提供了一种事件信息处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1102、识别模块1104、搜索模块1106、计算模块1108和筛选模块1110,其中:
[0163]
获取模块1102,用于获取事件描述文本。
[0164]
识别模块1104,用于对事件描述文本进行主体识别,得到事件描述文本对应的第一事件主体。
[0165]
获取模块1102还用于基于第一事件主体,获取对实体描述内容进行搜索的内容搜索条件。
[0166]
搜索模块1106,用于基于第一事件主体以及内容搜索条件进行内容搜索,得到内容搜索文本。
[0167]
识别模块1104还用于对内容搜索文本进行主体识别,得到第二事件主体。
[0168]
计算模块1108,用于计算第二事件主体与候选主体集合中的各个候选主体之间的主体相似度。
[0169]
筛选模块1110,用于基于主体相似度从候选主体集合中筛选得到与第二事件主体相关的目标主体,将目标主体作为事件描述文本对应的事件描述主体。
[0170]
在一个实施例中,获取模块还用于获取第一事件主体所属的目标实体类型;以及获取对目标实体类型对应的实体描述内容进行搜索的内容搜索条件。
[0171]
在一个实施例中,获取模块还用于根据目标实体类型获取对应的目标搜索词,目标搜索词包括目标实体类型对应的实体类型词以及描述内容搜索词;内容搜索条件包括目标搜索词。搜索模块还用于将第一事件主体以及目标搜索词作为组合搜索词,基于组合搜索词进行内容搜索,得到内容搜索文本。
[0172]
在一个实施例中,该装置还包括:组合模块。
[0173]
获取模块还用于获取目标实体类型对应的实体类型词,以及获取目标实体类型对应的描述内容搜索词。组合模块用于将实体类型词以及描述内容搜索词进行组合,得到目标搜索词。
[0174]
在一个实施例中,该装置还包括:输入模块。
[0175]
获取模块还用于获取目标实体类型对应的搜索范围限定条件,搜索范围限定条件限定在目标实体类型对应的实体描述内容的范围内进行搜索,内容搜索条件包括搜索范围限定条件。输入模块用于在搜索范围限定条件对应的搜索词输入位置中输入第一事件主
体,以触发基于第一事件主体在搜索范围限定条件所限定的搜索范围内进行内容搜索,得到内容搜索文本。
[0176]
在一个实施例中,该装置还包括:切分模块和对比模块。
[0177]
切分模块用于基于实体切分方式对第二事件主体进行切分,得到第一切分词集合;基于实体切分方式对候选主体进行切分,得到第二切分词集合。对比模块用于将第一切分词集合中的切分词与第二切分词集合中的切分词进行对比,得到对比一致的切分词。获取模块还用于获取对比一致的切分词的词数量,作为第一词数量。计算模块还用于基于第一词数量得到第二事件主体与候选主体之间的主体相似度,主体相似度与第一词数量成正相关关系。
[0178]
在一个实施例中,获取模块还用于获取第一切分词集合与第二切分词集合所包含的切分词数量,作为第二词数量。计算模块还用于基于第一词数量以及第二词数量得到第二事件主体与候选主体之间的主体相似度,主体相似度与第二词数量成负相关关系。
[0179]
在一个实施例中,该装置还包括:成分分析模块。
[0180]
切分模块还用于对事件描述文本进行切分,得到切分词序列。成分分析模块用于对切分词序列进行成分分析,得到切分词序列中各个切分词对应的成分。获取模块还用于从切分词序列中获取为主体成分的切分词,作为事件描述文本对应的第一事件主体。
[0181]
在一个实施例中,该装置还包括:选取模块。
[0182]
成分分析模块还用于对切分词序列进行成分分析,得到切分词序列中各个切分词为候选成份的成分可能度。计算模块还用于基于切分词序列中各个切分词对应的成分可能度以及成分转移可能度,得到切分词序列对应的候选成分序列的序列可能度。选取模块用于选取序列可能度最大的候选成分序列,作为切分词序列对应的目标成分序列,切分词对应的成分为目标成分序列中对应顺序的目标成分。
[0183]
在一个实施例中,获取模块还用于对于候选成分序列,获取候选成分序列中的当前候选成分对应的切分词为当前候选成分的当前成分可能度;获取候选成分序列中的后向候选成分对应的切分词为后向候选成分的后向成分可能度,后向候选成分为候选成分序列中,当前候选成分的下一成分;获取当前候选成分转移到后向候选成分的成分转移可能度。计算模块还用于基于当前成分可能度、后向成分可能度以及成分转移可能度得到候选成分序列的序列可能度。
[0184]
在一个实施例中,筛选模块还用于从候选主体集合中,筛选满足相似度条件候选主体,作为与第二事件主体相关的目标主体,相似度条件包括相似度大于相似度阈值或者相似度排序大于排序阈值的至少一个。
[0185]
关于事件信息处理装置的具体限定可以参见上文中对于事件信息处理方法的限定,在此不再赘述。上述事件信息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0186]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易
失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储事件信息处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种事件信息处理方法。
[0187]
本领域技术人员可以理解,图12中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0188]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0189]
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0190]
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
[0191]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0192]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。可以理解的是,在本技术的具体实施方式中,涉及到的数据,当本技术的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0193]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献