一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本事件确定方法、装置、电子设备及存储介质与流程

2022-05-26 20:33:50 来源:中国专利 TAG:


1.本发明实施例涉及数据处理技术领域,尤其涉及一种文本事件确定方法、装置、电子设备及存储介质。


背景技术:

2.随着信息技术的飞速发展,在不同的领域中均存储了海量的文本数据,文本信息爆炸式、多样式的增长,给希望通过文本数据获取重要信息的决策者造成了极大不便。因此,确定文本数据的事件,以使决策者通过事件了解文本表达的信息成为当前迫切需求。
3.目前,确定文本数据中表达的事件通常都依赖专业分析人员辅助各种工具进行人工分析。但是,人工分析的方式需要保证分析人员具有相关专业知识,对人员要求较高;且人工分析费时费力,易出错,分析效果较差。


技术实现要素:

4.本发明实施例提供了一种文本事件确定方法、装置、电子设备及存储介质,以实现通过文本主题模型和聚类模型确定出文本的事件及描述关键词,提高确定事件的准确率和效率。
5.第一方面,本发明实施例提供了一种文本事件确定方法,包括:
6.获取待确定事件的原始文本数据,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语,基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语;其中,原始文本数据中包括至少一个原始文本;
7.基于预先建立的文本主题模型和原始词语,确定所述原始文本数据中存在的主题、与所述主题相关的原始文本及与各所述主题相关的所述原始文本中的文本词;
8.针对各主题,基于预先建立的聚类模型和与所述主题相关的原始文本,确定出所述主题中包含的事件及与所述事件相关的事件相关文本,基于所述事件相关文本与所述文本词,确定出所述事件的描述关键词。
9.第二方面,本发明实施例还提供了一种文本事件确定装置,该装置包括:
10.获取原始文本数据模块,用于获取待确定事件的原始文本数据,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语,基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语;其中,原始文本数据中包括至少一个原始文本;
11.确定主题模块,用于基于预先建立的文本主题模型和原始词语,确定原始文本数据中存在的主题、与主题相关的原始文本及与各主题相关的所述原始文本中的文本词;
12.确定事件模块,用于针对各主题,基于预先建立的聚类模型和与所述主题相关的原始文本,确定出所述主题中包含的事件及与所述事件相关的事件相关文本,基于所述事件相关文本与所述文本词,确定出所述事件的描述关键词。
13.第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
14.一个或多个处理器;
15.存储装置,用于存储一个或多个程序,
16.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的文本事件确定方法。
17.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的文本事件确定方法。
18.本发明实施例所提供的一种文本事件确定方法,获取待确定事件的原始文本数据,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语;基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语;其中,原始文本数据中包括至少一个原始文本;基于预先建立的文本主题模型和原始词语,确定原始文本数据中存在的主题、与主题相关的原始文本及与各主题相关的原始文本中的文本词;针对各主题,基于预先建立的聚类模型和与主题相关的原始文本,确定出主题中包含的事件及与事件相关的事件相关文本,基于事件相关文本与文本词,确定出事件的描述关键词。本发明实施例可删除与突发词无关的词语,并通过文本主题模型和聚类模型确定出文本的事件及描述关键词,无需进行人工分析,提高了确定事件的准确率和效率。
19.此外,本发明所提供的一种文本事件确定装置、电子设备及存储介质与上述方法对应,具有同样的有益效果。
附图说明
20.为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的一种文本事件确定方法的流程图;
22.图2为本发明实施例提供的一种政务服务领域文本事件确定过程的示意图;
23.图3为本发明实施例提供的另一种文本事件确定方法的流程图;
24.图4为本发明实施例提供的一种文本事件确定装置的结构图;
25.图5为本发明实施例提供的一种电子设备的结构图。
具体实施方式
26.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
27.另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
28.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式
对本发明作进一步的详细说明。
29.实施例一
30.图1为本发明实施例提供的一种文本事件确定方法的流程图。该方法可以由文本事件确定装置来执行,该装置可以通过软件和/或硬件来实现,可配置于终端和/或服务器中来实现本发明实施例中的文本事件确定方法。
31.如图1所示,本实施例的方法具体可包括:
32.s101、获取待确定事件的原始文本数据,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语,基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语。
33.其中,原始文本数据中包括至少一个原始文本;示例性的,原始文本可为公共卫生领域的文本内容,如医疗机构报告、疾病预防控制中心公告、学校报告等文本;原始文本还可为政府服务领域的文本内容,如政务热线工单、舆情分析报告等。图2为本发明实施例提供的一种政务服务领域文本事件确定过程的示意图,可从数据仓库中获取到待确定事件的政务热线工单数据,政务热线工单数据中包括至少一个政务工单。
34.在具体实施中,可通过数据仓库技术获取原始文本数据,原始文本数据中包含的原始文本可为不同领域的原始文本,用于确定不同领域事件;也可为相同领域的原始文本,则确定出的事件为同一领域的事件。
35.在具体实施中,为提高确定主题的准确性,可预先对原始文本数据中的各原始文本进行分词处理,去除原始文本中无意义的停用词及无用词。在具体实施中,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语的实施方式如下:基于预先建立的词库,对原始文本数据进行分词处理,得到与原始文本数据对应的分词词语;基于预先建立的停用词文件,对分词词语中的停用词进行删除操作,生成原始词语。
36.如图2所示,以政务服务领域为例,可预先建立词库和停用词文件,基于词库将各政务热线工单的内容进行分词处理,根据各分词词语的词性,确定是否为无用词语,如可将形容词、副词作为无用词语,进行删除操作。进一步的,还可将停用词作为无用词语进行删除操作,将删除后的剩余的分词词语确定为原始词语。
37.在本实施例中,对原始文本数据进行分词处理,包括:确定原始文本数据中的各原始文本的时间信息和地址信息,基于时间信息和地址信息将原始文本数据进行分类,得到至少一个文本数据桶;对各文本数据桶中对应的原始文本数据进行分词处理。
38.需要说明的是,为了体现原始文本数据中反映的事件的时间、地点等信息,可对原始文本数据进行分类,基于各原始文本产生的时间信息,将同一时间段的原始文本存储至相同的文本数据桶中;进一步的,对原始文本中包含相同地址信息的原始文本,可存储至相同的文本数据桶中。
39.如图2所示,对于政府服务领域,可通过预训练的命名实体识别模型,结合历史积累的地址库文本构建的地址实体识别模型,确定出政务热线工单中存在的地址信息。进一步的,如果原始文本中存在行政编码信息,则可作为地址相关信息,基于地址相关信息确定出原始文本对应的地址信息。
40.需要说明的是,本领域技术人员可根据实际应用情况划分时间段,如若原始文本数据的数据量较大,可将同一天的原始文本存储至同一文本数据桶中;若原始文本数据的
数据量较小,可将同一周或同一月产生的原始文本存储至同一文本数据桶中。
41.进一步的,为更突出原始文本数据中的突发事件,从而便于工作人员从原始文本数据中获取到突发信息,可基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语。
42.在本实施例中,突发词检测算法包括kleinberg突发词算法,kleinberg突发词算法是kleinberg于2002年提出的话题突发监测(burst detection)算法,kleinberg认为话题的文献数量不是平滑增长,而是在不同水平之间跃迁。kleinberg基于自动机队不同时间段上词出现的频次进行建模。词突发时,自动机处于高频状态。给定文本数据集合,确定状态的个数,状态差异的大小,以及状态改变的成本,利用viterbi动态建模法对状态改变的概率模型求最优解,便可得出自动机状态变化的最优时序序列。
43.如图2所示,提取各文本数据桶对应的政务热线工单中的突发词后,可在原始词语中,确定出与突发词无关的原始词语。具体的,可确定各原始词语与突发词之间的相关性值,将相关性值小于预设阈值的原始词语确定为与突发词无关的原始词语,并对无关的原始词语进行删除操作。基于政务热线工单对应的删除后得到的原始词语和文本主题模型,进行主题分析和事件聚类操作。
44.s102、基于预先建立的文本主题模型和原始词语,确定原始文本数据中存在的主题、与主题相关的原始文本及与各主题相关的原始文本中的文本词。
45.在具体实施中,可确定各原始词语对应的词向量,将词向量输入至预先建立的文本主题模型中,确定原始文本数据中存在的主题。例如,当原始文本数据为政府服务领域的数据时,主题可为“工资拖欠”、“城市管理”及“异地就医”等内容。文本主题模型包括隐含狄利克雷分布(latent dirichlet allocation,lda)模型。
46.进一步的,可通过文本主题模型输出的结果,确定出各主题相关的原始文本,并确定出各主题相关的原始文本中的文本词。例如,对于“工资拖欠”这一主题,对应的文本词可为“拖欠”、“工资”、“支付”等,对于“城市管理”这一主题,对应的文本词可为“占道经营”、“摊贩”、“通行”和“交通”等文本词;对于“异地就医”这一主题,对应的文本词可为“就医”、“异地”、“备案”和“医保”等。
47.示例性的,以政务服务领域为例,将政务热线工单作为文本主题模型的训练数据,获取到政务热线工单中原始词语到主题的概率分布,其中主题均为数字编号,同时获取到政务热线工单与主题的概率分布,选取概率较高的部分原始词语作为主题对应的文本词,选取政务热线工单对应的最高概率的主题作为政务热线工单所属的主题,文本词-主题概率分布可如下所示:
48.主题1:支付(0.095)、拖欠(0.092)、工资(0.089)、0.087(事发)
49.主题2:占道经营(0.096)、摊贩(0.086)、匿名(0.084)、通行(0.048)
50.主题3:就医(0.230)、异地(0.213)、备案(0.035)、医保(0.023)
51.主题4:医保(0.211)、城乡(0.210)、缴纳(0.042)、缴费(0.029)
52.其中,括号中的数值表示文本词属于对应主题的概率。
53.s103、针对各主题,基于预先建立的聚类模型和与主题相关的原始文本,确定出主题中包含的事件及与事件相关的事件相关文本,基于事件相关文本与文本词,确定出事件的描述关键词。
54.其中,聚类模型包括k均值聚类模型,获取对应聚类结果,选取聚类中心对应的文本内容作为事件。k均值聚类模型基于k均值聚类算法训练得到,k均值聚类算法是一种无监督的聚类算法,运用于数据挖掘和模式识别中。其使用目的是对集合进行等价类的划分,即对一组具有相同数据结构的记录按照某种分类准则进行分类,以获取若干个同类记录集。在给定的样本集中,将样本划分为k个簇,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。
55.需要说的的是,k均值聚类算法实现原理包括如下流程:1、获取特征向量集合{v1、v2、v3、..、vi、..、vn},将特征向量集合作为输入,其中n为某个主题下文本数量,两两特征向量之间计算欧式距离。2、根据确定的轮廓系数,对各特征向量进行kmeans聚类,确定出各类事件。3、剔除离群样本,确定同一类别下的文本作为同一事件的描述。
56.进一步的,可通过计算轮廓系数和平均语义相似度的加权平均,自适应确定聚类数量。轮廓系数适用于实际类别信息未知的情况。轮廓系数的确定公式为:
[0057][0058]
其中,s表示轮廓系数,a为每个特征向量与同类别其他特征向量的平均距离,b是与每个特征向量距离最近的不同类别中特征向量的平均距离。需要说明的是,对于一个特征向量集合,轮廓系数是所有特征向量的轮廓系数的平均值,轮廓系数的取值范围是[-1,1],同类别的特征向量之间的距离越相近且不同类别样本距离越远,轮廓系数值越高。
[0059]
在具体实施中,在确定主题中包含的事件之前,通过预先训练的词向量模型,将各主题相关的原始文本转化为对应维度的特征向量。针对各主题,可将对应的特征向量输入至聚类模型中,基于聚类结果,将聚类中心对应的类别名称确定为事件名称,确定各事件对应的相关文本,基于事件相关文本与文本词,确定出事件的描述关键词。
[0060]
在本实施例中,可将事件相关文本与文本词之间的相关的词语确定为事件的描述关键词。为了提高描述关键词的准确性,可确定事件相关文本和文本词之间的交集词语,将交集词语确定为事件的描述关键词。
[0061]
本发明实施例所提供的一种文本事件确定方法,获取待确定事件的原始文本数据,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语;基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语;其中,原始文本数据中包括至少一个原始文本;基于预先建立的文本主题模型和原始词语,确定原始文本数据中存在的主题、与主题相关的原始文本及与各主题相关的原始文本中的文本词;针对各主题,基于预先建立的聚类模型和与主题相关的原始文本,确定出主题中包含的事件及与事件相关的事件相关文本,基于事件相关文本与文本词,确定出事件的描述关键词。本发明实施例可删除与突发词无关的词语,并通过文本主题模型和聚类模型确定出文本的事件及描述关键词,无需进行人工分析,提高了确定事件的准确率和效率。
[0062]
实施例二
[0063]
图3为本发明实施例提供的另一种文本事件确定方法的流程图。本实施例以上述各技术方案为基础进行优化。可选的,在确定出事件的描述关键词之后,还包括:确定各事件的描述关键词中是否包含预设的敏感词语;如果是,则将敏感词语对应的事件确定为敏感事件,并生成包含敏感事件的预警信息进行反馈。其中,与上述各实施例相同或相应的术
语的解释在此不再赘述。
[0064]
如图3所示,本实施例的方法具体可包括:
[0065]
s201、获取待确定事件的原始文本数据,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语,基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语。
[0066]
s202、基于预先建立的文本主题模型和原始词语,确定原始文本数据中存在的主题、与主题相关的原始文本及与各主题相关的原始文本中的文本词。
[0067]
s203、针对各主题,基于预先建立的聚类模型和与主题相关的原始文本,确定出主题中包含的事件及与事件相关的事件相关文本,基于事件相关文本与文本词,确定出事件的描述关键词。
[0068]
需要说明的是,为提高确定的事件的精确性,可对确定出的事件进行筛选。如图2所示,可通过地址信息、相似度情况对事件进行筛选。按照地址信息筛选时,可确定各事件的地址信息,统计具有相同地址信息的事件的事件数量,将事件数量小于预设事件阈值的事件,确定为无效事件进行删除。按照相似度情况进行筛选时,确定各事件之间的相似度情况,将与各事件的相似度值均小于预设相似度值的事件,确定为无效事件进行删除,最终统计有效事件的数量。
[0069]
在本实施例中,为便于用户查看,还可对确定出的事件的事件性质进行确定,事件性质可包括平缓事件和突发事件。可统计各事件的时间信息、地址信息,根据同一事件的持续时间长度、地址变化及描述关键词等,确定该事件为平缓事件还是突发事件。
[0070]
s204、确定各事件的描述关键词中是否包含预设的敏感词语;如果是,则进入s205。
[0071]
在具体实施中,对于用户比较关心的敏感事件,当原始文本对应的事件反映出是敏感事件时,可进行预警提示,以便于用户及时对敏感事件进行关注,提高用户的体验感。
[0072]
具体的,在确定事件是否为敏感事件时,可通过预设用于表达敏感事件的敏感词语,确定各事件的描述关键词中是否包含预设的敏感词语的方式进行确定。如果描述关键词中存在敏感词语,则说明当前事件中存在敏感事件,则进入s205;如果描述关键词中不存在敏感词语,则说明当前事件中不存在敏感事件,则对各事件名称及各事件对应的描述关键词进行存储即可。
[0073]
s205、将敏感词语对应的事件确定为敏感事件,并生成包含敏感事件的预警信息进行反馈。
[0074]
在具体实施中,可确定出与敏感词语一致的描述关键词描述的事件,将该事件确定为敏感事件,基于该敏感事件成预警信息反馈至用户终端。示例性的,可确定敏感事件对应的原始文本、原始文本的时间信息、地址信息等内容,基于原始文本、时间信息和地址信息生成预警信息。
[0075]
进一步的,可预先存储用户的联系方式,如电话号码、邮箱地址等方式,根据所述联系方式将预警信息发送至用户终端,以及时对用户进行提示,尽早关注到敏感事件。进一步的,对于确定文本事件的过程中,可定时将确定进程发送至用户终端,以使用户可随时了解确定情况;并将最后的确定结果在用户终端进行展示。
[0076]
本发明实施例中,对于确定出的事件还可进一步筛选,便于用户查看及了解事件
情况,能够更精准地为用户进行事件推荐;对于敏感事件,可通过预警信息及时为用户进行反馈,提高了用户查看事件的便利性;有助于及时对舆情危机进行处理,更好地监管各领域产生的文本数据。
[0077]
实施例三
[0078]
图4为本发明实施例提供的一种文本事件确定装置的结构图,该装置用于执行上述任意实施例所提供的文本事件确定方法。该装置与上述各实施例的文本事件确定方法属于同一个发明构思,在文本事件确定装置的实施例中未详尽描述的细节内容,可以参考上述文本事件确定方法的实施例。该装置具体可包括:
[0079]
获取原始文本数据模块10,用于获取待确定事件的原始文本数据,对所述原始文本数据进行分词处理,得到与所述原始文本数据对应的原始词语,基于突发词检测算法,确定所述原始词语中的突发词,在所述原始词语中筛除掉与各所述突发词无关的原始词语;其中,原始文本数据中包括至少一个原始文本;
[0080]
确定主题模块11,用于基于预先建立的文本主题模型和原始词语,确定所述原始文本数据中存在的主题、与所述主题相关的原始文本及与各所述主题相关的所述原始文本中的文本词;
[0081]
确定事件模块12,用于针对各主题,基于预先建立的聚类模型和与所述主题相关的原始文本,确定出所述主题中包含的事件及与所述事件相关的事件相关文本,基于所述事件相关文本与所述文本词,确定出所述事件的描述关键词。
[0082]
在本发明实施例中任一可选技术方案的基础上,可选的,所述获取原始文本数据模块10包括:
[0083]
删除停用词单元,用于基于预先建立的词库,对所述原始文本数据进行分词处理,得到与所述原始文本数据对应的分词词语;基于预先建立的停用词文件,对所述分词词语中的停用词进行删除操作,生成所述原始词语。
[0084]
在本发明实施例中任一可选技术方案的基础上,可选的,获取原始文本数据模块10包括:
[0085]
分类单元,用于确定原始文本数据中的各原始文本的时间信息和地址信息,基于时间信息和地址信息将原始文本数据进行分类,得到至少一个文本数据桶;对各文本数据桶中对应的原始文本数据进行分词处理。
[0086]
在本发明实施例中任一可选技术方案的基础上,可选的,确定事件模块12,包括:
[0087]
确定事件单元,用于确定所述事件相关文本和所述文本词之间的交集词语,将所述交集词语确定为所述事件的描述关键词。
[0088]
在本发明实施例中任一可选技术方案的基础上,可选的,该装置还包括:
[0089]
预警模块,用于在所述确定出所述事件的描述关键词之后,确定各所述事件的描述关键词中是否包含预设的敏感词语;如果是,则将所述敏感词语对应的事件确定为敏感事件,并生成包含所述敏感事件的预警信息进行反馈。
[0090]
本发明实施例所提供的文本事件确定装置可执行本发明任意实施例所提供的文本事件确定方法,具备执行方法相应的功能模块和有益效果。
[0091]
值得注意的是,上述文本事件确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另
外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0092]
实施例四
[0093]
图5为本发明实施例提供的一种电子设备的结构图。图5示出了适于用来实现本发明实施例实施方式的示例性电子设备20的框图。显示的电子设备20仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0094]
如图5所示,电子设备20以通用计算设备的形式表现。电子设备20的组件可以包括但不限于:一个或者多个处理器或者处理单元201,系统存储器202,连接不同系统组件(包括系统存储器202和处理单元201)的总线203。
[0095]
总线203表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
[0096]
电子设备20典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备20访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0097]
系统存储器202可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)204和/或高速缓存存储器205。电子设备20可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统206可以用于读写不可移动的、非易失性磁介质。可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线203相连。存储器202可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0098]
具有一组(至少一个)程序模块207的程序/实用工具208,可以存储在例如存储器202中,这样的程序模块207包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块207通常执行本发明所描述的实施例中的功能和/或方法。
[0099]
电子设备20也可以与一个或多个外部设备209(例如键盘、指向设备、显示器210等)通信,还可与一个或者多个使得用户能与该电子设备20交互的设备通信,和/或与使得该电子设备20能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口211进行。并且,电子设备20还可以通过网络适配器212与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器212通过总线203与电子设备20的其它模块通信。应当明白,可以结合电子设备20使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0100]
处理单元201通过运行存储在系统存储器202中的程序,从而执行各种功能应用以及数据处理。
[0101]
本发明所提供的一种电子设备,能够实现如下方法:获取待确定事件的原始文本数据,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语;基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语;其
中,原始文本数据中包括至少一个原始文本;基于预先建立的文本主题模型和原始词语,确定原始文本数据中存在的主题、与主题相关的原始文本及与各主题相关的原始文本中的文本词;针对各主题,基于预先建立的聚类模型和与主题相关的原始文本,确定出主题中包含的事件及与事件相关的事件相关文本,基于事件相关文本与文本词,确定出事件的描述关键词。本发明实施例可删除与突发词无关的词语,并通过文本主题模型和聚类模型确定出文本的事件及描述关键词,无需进行人工分析,提高了确定事件的准确率和效率。
[0102]
实施例五
[0103]
本发明实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文本事件确定方法,该方法包括:
[0104]
获取待确定事件的原始文本数据,对原始文本数据进行分词处理,得到与原始文本数据对应的原始词语;基于突发词检测算法,确定原始词语中的突发词,在原始词语中筛除掉与各突发词无关的原始词语;其中,原始文本数据中包括至少一个原始文本;基于预先建立的文本主题模型和原始词语,确定原始文本数据中存在的主题、与主题相关的原始文本及与各主题相关的原始文本中的文本词;针对各主题,基于预先建立的聚类模型和与主题相关的原始文本,确定出主题中包含的事件及与事件相关的事件相关文本,基于事件相关文本与文本词,确定出事件的描述关键词。本发明实施例可删除与突发词无关的词语,并通过文本主题模型和聚类模型确定出文本的事件及描述关键词,无需进行人工分析,提高了确定事件的准确率和效率。
[0105]
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本事件确定方法中的相关操作。
[0106]
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0107]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0108]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0109]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、
smalltalk、c ,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0110]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献