一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于新闻稿件标注的事件分割方法及系统与流程

2023-01-15 09:10:28 来源:中国专利 TAG:


1.本发明涉及新闻稿件标注技术领域,具体涉及一种用于新闻稿件标注的事件分割方法及系统。


背景技术:

2.新闻稿件用于体现新闻的客观事实,一般由题目、引言、主题、背景和结论五个部分组成。在完成新闻稿件后,需要通过计算机根据标注内容生成知识图谱,对稿件中的主旨部分进行标注,使得计算机可以清楚快速的获知稿件的主旨内容。在现有技术中,新闻稿件的标注多为工作人员按照标注经验进行新闻稿件的标注,标注效率较低且需要耗费大量的时间和人力资源。
3.因此,在现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低,且需要耗费大量的时间和人力资源的技术问题。


技术实现要素:

4.本技术提供一种用于新闻稿件标注的事件分割方法及系统,用于针对解决现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
5.鉴于上述问题,本技术提供了一种用于新闻稿件标注的事件分割方法及系统。
6.本技术的第一个方面,提供了一种用于新闻稿件标注的事件分割方法,所述方法包括:采集获得新闻稿件数据;构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;通过所述新闻稿件数据的拆分前排布构建层级关联关系;对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
7.本技术的第二个方面,提供了一种用于新闻稿件标注的事件分割系统,所述系统包括:新闻稿件数据采集模块,用于采集获得新闻稿件数据;初始层级拆分模块,用于构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;层级关联关系构建模块,用于通过所述新闻稿件数据的拆分前排布构建层级关联关系;层级特征词标识集合获取模块,用于对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;关联评价结果获取模块,用于基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;关联度评价模块,用于通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;标注结果反馈模块,用于通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
8.本技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:
9.本技术实施例提供的方法通过采集获得新闻稿件数据。构建初始分级特征,对新闻稿件数据的识别划分,获得初始层级拆分结果。通过新闻稿件数据的拆分前排布构建层级关联关系。对初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合,对初始层级拆分结果进行结构化关联评价,生成结构化关联评价结果。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行所述初始层级拆分结果的关联度评价。通过关联度评价结果进行事件划分聚合标注。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。解决了现有技术新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
10.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
11.图1为本技术提供的一种用于新闻稿件标注的事件分割方法流程示意图;
12.图2为本技术提供的一种用于新闻稿件标注的事件分割方法中获取结构化特征的流程示意图;
13.图3为本技术提供的一种用于新闻稿件标注的事件分割方法中获取事件划分聚合标注结果的流程示意图;
14.图4为本技术提供了一种用于新闻稿件标注的事件分割系统结构示意图。
15.附图标记说明:新闻稿件数据采集模块11,初始层级拆分模块12,层级关联关系构建模块13,层级特征词标识集合获取模块14,关联评价结果获取模块15,关联度评价模块16,标注结果反馈模块17。
具体实施方式
16.本技术提供一种用于新闻稿件标注的事件分割方法及系统,用于针对解决现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
17.下面将参考附图对本技术中的技术方案进行清楚、完整地描述。所描述的实施内容例仅为本技术所能实现的部分内容,而不是本技术的全部内容。
18.实施例一
19.如图1所示,本技术提供了一种用于新闻稿件标注的事件分割方法,所述方法包括:
20.步骤100:采集获得新闻稿件数据;
21.步骤200:构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;
22.步骤300:通过所述新闻稿件数据的拆分前排布构建层级关联关系;
23.具体的,采集获取新闻稿件数据,构建初始分级特征,其中初始分级特征用于对新
闻稿件数据根据文稿章节或其他标识新闻稿件层级顺序的方式,进行层级划分。根据初始分级特征对新闻稿件数据进行识别划分,将新闻稿件数据根据初始分级特征拆分为多个层级。通过新闻稿件数据的拆分前排布构建层级关联关系,其中层级关联关系,为各层级之间的关联关系,如包含、并列、顺序等层级之间的关联关系,即根据新闻稿件数据拆分前排布顺序获取各层级之间的关联关系。由于稿件撰写完成后计算机并不能直接识别层级之间的关系,因此需要通过初始分级特征对稿件进行初步拆分,并获取拆分结果之间的关联关系,便于后续对稿件进行进一步标注。
24.步骤400:对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;
25.步骤500:基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;
26.步骤600:通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;
27.步骤700:通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
28.具体的,对初始层级拆分结果进行逐层级特征词识别,即根据初始层级拆分结果逐级对拆分结果进行特征词识别,识别其中包含该层级主旨的特征词,在进行特征词识别时可以通过文本关键词提取算法进行特征词提取,根据提取结果生成层级特征词标识集合。随后基于结构化特征对初始层级拆分结果进行结构化关联评价,其中结构化特征为内容设计语义结构,即评价该层级中的语义关系,形成语义层次网络,便于根据语义层次关系进行后续的新闻稿件事件划分聚合标注。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行初始层级拆分结果的关联度评价,评价初始层级拆分结果之间是否存在关联度。在进行关联度获取时,通过获取被拆分层级之间的关联关系,以及各层级特征词标识集合和结构化关联评价结果,对初始层级拆分结果之间的关联程度进行评价。最后,通过关联度评价结果进行事件划分聚合标注,即根据各初始层级拆分结果的关联程度对新闻稿件初始层级拆分结果进行聚合,将初始层级拆分结果中关联程度较高的内容进行聚合,将事件划分聚合标注结果反馈至标注用户,完成对新闻稿件的标注。由于在进行计算机自动化标注时,计算机并不能直接获知标注的具体内容,因此需要根据上述构建好的处理方法和程序对稿件内容进行逐步处理,最终转化成可以量化的数据,进而实现对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
29.如图2所示,本技术实施例提供的方法步骤500还包括:
30.步骤510:构建结构化特征分类标签,其中,所述结构化特征分类标签包括组成标签、包含标签、种属标签、嵌套标签;
31.步骤520:通过大数据进行所述结构化特征分类标签的数据特征填充,生成初始特征填充结果;
32.步骤530:对所述初始特征填充结果进行人工标识修正,通过人工标识修正结果生成所述结构化特征。
33.具体的,构建结构化特征分类标签,其中结构化特征分类标签包括组成标签、包含
标签、种属标签、嵌套标签。随后,通过大数据对结构化特征分类标签进行数据特征填充,填充上述组成标签、包含标签、种属标签、嵌套标签中的标签特征,其中组成标签为语义段之间具有局部功能组成整体功能的关系,如计算机由显示器,主机等组成、包含标签为客观存在的空间形式逻辑关系定义下的局部与整体关系,如交通工具包含汽车、飞机、轮船等、种属标签为按相同分类特征定义下的一事物类与其子类的关系,如汽车、飞机、轮船均具备运输的功能因此其均属于运输工具、嵌套标签为根据事物或事件有时序,因而组成关系表示为嵌套关系,如医院看病过程包括分诊、挂号、诊断的流程,而分诊、挂号、诊断的流程和看病过程为嵌套关系。随后填充结构化特征分类标签,生成初始特征填充结果。最后对初始特征填充结果进行人工标识修正,通过人工标识修正结果生成所述结构化特征,在结构化特征中包含各标签的具体数据填充结果,通过获取结构化特征为后续评价各层级拆分结果的关联性提供了支持。
34.如图3所示,本技术实施例提供的方法步骤700还包括:
35.步骤710:构建事件关键词特征;
36.步骤720:通过所述事件关键词特征进行所述层级特征词标识集合的特征词聚合,获得初始聚合结果;
37.步骤730:对所述初始层级拆分结果进行指代特征词识别,生成指代特征词识别集合;
38.步骤740:根据所述层级关联关系进行所述指代特征词识别集合的事件关键词特征匹配,获得匹配结果;
39.步骤750:通过所述匹配结果进行所述初始聚合结果的聚合补充,得到所述事件划分聚合标注结果。
40.具体的,构建事件关键词特征,其中事件关键词特征为新闻稿件事件的关键词所构成的特征。通过事件关键词特征进行层级特征词标识集合的特征词聚合,即聚合层级特征词标识集合中与事件关键词特征相同的特征词,获得初始聚合结果。随后,对初始层级拆分结果进行指代特征词识别,即识别初始层级拆分结果中的指代词,并生成指代特征词识别集合。在指代特征词识别集合中包含各初始层级拆分结果中的指代词。进一步,通过层级之间的关联关系,对指代特征词识别集合进行事件关键词特征匹配,匹配每个指代特征词识别集合中元素所指代的事件关键词特征,获取匹配结果。最后,通过匹配结果进行初始聚合结果的聚合补充,即补充指代事件关键词特征,得到事件划分聚合标注结果。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
41.本技术实施例提供的方法步骤700还包括:
42.步骤760:对所述初始层级拆分结果进行句用识别,生成句用分类识别结果;
43.步骤770:基于所述句用分类识别结果进行所述初始层级拆分结果的句用标识;
44.步骤780:将句用标识结果添加至所述事件划分聚合标注结果中。
45.具体的,对初始层级拆分结果进行句用识别,其中句用为句子的具体类型,按照表达方式分类句用可分为引导句、疑问句、事件句、比较句等。以事件句句用为例,事件中包含事件的描述、定义、评价、状态、关系等。通过对句子的句用进行识别,生成句用分类结果。在进行句用识别时,通过构建句用神经网络模型进行句用识别,通过大数据获取不同句用的
句子,标识各句子的具体句用,随后将句子作为训练数据,将标识的句用作为监督数据,输入未经训练的神经网络模型对模型进行训练,并通过上述句子进行验证。当验证结果达到预定准确率阈值时完成训练,获取句用神经网络模型。基于句用分类识别结果进行初始层级拆分结果的句用标识,标识该句用的具体类型。最后将句用标识结果添加至所述事件划分聚合标注结果中。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
46.本技术实施例提供的方法步骤700还包括:
47.步骤781:判断所述句用标识结果是否存在疑问句;
48.步骤782:当存在疑问句时,则对所述疑问句进行问体和问题识别,获得问体识别结果和问题识别结果;
49.步骤783:将所述问体识别结果和所述问题识别结果添加至所述事件划分聚合标注结果。
50.具体的,判断句用标识结果是否存在疑问句,即判断获取的句用是否包含疑问句。当存在疑问句时,则对疑问句进行问体和问题识别,其中问体为疑问聚焦的对象,问题为所问的具体内容。由于疑问句在进行标注时,不仅仅需要对所问的具体内容进行标注,还需要对疑问的聚焦对象进行获取,这样的标注才可以完整的体现疑问的具体主旨。最后,将所述问体识别结果和所述问题识别结果添加至所述事件划分聚合标注结果。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
51.本技术实施例提供的方法步骤700还包括:
52.步骤800:对所述层级特征词标识集合进行主体人物、客体人物和相关人物识别,得到人物标识结果;
53.步骤810:对所述层级特征词标识集合进行环境特征识别,得到环境特征识别结果;
54.步骤820:将所述人物标识结果和所述环境特征识别结果作为事件划分聚合标注结果的参考特征。
55.具体的,对层级特征词标识集合进行主体人物、客体人物和相关人物识别,得到人物标识结果。由于在进行新闻稿件中可能出现多个人物类型,需要对该新闻稿件中的人物进行识别,识别主体人物、客体人物和相关人物识别,得到人物标识结果。随后,对层级特征词标识集合进行环境特征识别,得到环境特征识别结果,即识别层级特征词标识集合中的环境特征,即人物所处的具体环境信息,如位置,场合等环境特征。最后,将所述人物标识结果和所述环境特征识别结果作为事件划分聚合标注结果的参考特征。以便于在事件划分聚合标注结果中更清楚的体现人物关系以及人物所处的具体环境特征。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
56.本技术实施例提供的方法步骤700还包括:
57.步骤830:构建所述事件关键词特征的相关关键词特征;
58.步骤840:基于所述相关关键词特征进行所述层级特征词标识集合的特征词聚合,获得辅助聚合结果;
59.步骤850:通过所述匹配结果进行所述辅助聚合结果的聚合补充,得到所述事件划分聚合标注结果。
60.具体的,构建事件关键词特征的相关关键词特征,其中相关关键词特征为事件关键词特征的相似或相近意的关键词。随后,基于所述相关关键词特征进行层级特征词标识集合的特征词聚合,聚合层级特征词标识集合中与相关关键词特征一致的特征词,得到辅助聚合结果。通过获取辅助聚合结果,便于对事件进行辅助标注。最后,通过所述匹配结果进行所述辅助聚合结果的聚合补充,得到所述事件划分聚合标注结果,在原有标注的基础上进行辅助补充,以保证新闻稿件标注的完成性。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
61.综上所述,本技术实施例提供的方法通过采集获得新闻稿件数据。构建初始分级特征,对新闻稿件数据的识别划分,获得初始层级拆分结果。通过新闻稿件数据的拆分前排布构建层级关联关系。对初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合,对初始层级拆分结果进行结构化关联评价,生成结构化关联评价结果。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行所述初始层级拆分结果的关联度评价。通过关联度评价结果进行事件划分聚合标注。通过获取关联度评价结果对新闻稿件进行事件划分聚合标注,完成了对初始层级拆分结果中关联程度较高的内容进行聚合标注。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。解决了现有技术新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
62.实施例二
63.基于与前述实施例中一种用于新闻稿件标注的事件分割方法相同的发明构思,如图4所示,本技术提供了一种用于新闻稿件标注的事件分割系统,所述系统包括:
64.新闻稿件数据采集模块11,用于采集获得新闻稿件数据;
65.初始层级拆分模块12,用于构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;
66.层级关联关系构建模块13,用于通过所述新闻稿件数据的拆分前排布构建层级关联关系;
67.层级特征词标识集合获取模块14,用于对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;
68.关联评价结果获取模块15,用于基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;
69.关联度评价模块16,用于通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;
70.标注结果反馈模块17,用于通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
71.进一步地,所述关联评价结果获取模块15还用于:
72.构建结构化特征分类标签,其中,所述结构化特征分类标签包括组成标签、包含标签、种属标签、嵌套标签;
73.通过大数据进行所述结构化特征分类标签的数据特征填充,生成初始特征填充结
果;
74.对所述初始特征填充结果进行人工标识修正,通过人工标识修正结果生成所述结构化特征。
75.进一步地,所述标注结果反馈模块17还用于:
76.构建事件关键词特征;
77.通过所述事件关键词特征进行所述层级特征词标识集合的特征词聚合,获得初始聚合结果;
78.对所述初始层级拆分结果进行指代特征词识别,生成指代特征词识别集合;
79.根据所述层级关联关系进行所述指代特征词识别集合的事件关键词特征匹配,获得匹配结果;
80.通过所述匹配结果进行所述初始聚合结果的聚合补充,得到所述事件划分聚合标注结果。
81.进一步地,所述标注结果反馈模块17还用于:
82.对所述初始层级拆分结果进行句用识别,生成句用分类识别结果;
83.基于所述句用分类识别结果进行所述初始层级拆分结果的句用标识;
84.将句用标识结果添加至所述事件划分聚合标注结果中。
85.进一步地,所述标注结果反馈模块17还用于:
86.判断所述句用标识结果是否存在疑问句;
87.当存在疑问句时,则对所述疑问句进行问体和问题识别,获得问体识别结果和问题识别结果;
88.将所述问体识别结果和所述问题识别结果添加至所述事件划分聚合标注结果。
89.进一步地,所述标注结果反馈模块17还用于:
90.对所述层级特征词标识集合进行主体人物、客体人物和相关人物识别,得到人物标识结果;
91.对所述层级特征词标识集合进行环境特征识别,得到环境特征识别结果;
92.将所述人物标识结果和所述环境特征识别结果作为事件划分聚合标注结果的参考特征。
93.进一步地,所述标注结果反馈模块17还用于:
94.构建所述事件关键词特征的相关关键词特征;
95.基于所述相关关键词特征进行所述层级特征词标识集合的特征词聚合,获得辅助聚合结果;
96.通过所述匹配结果进行所述辅助聚合结果的聚合补充,得到所述事件划分聚合标注结果。
97.上述实施例二用于执行如实施例一中的方法,其执行原理以及执行基础均可以通过实施例一中记载的内容获取,在此不做过多赘述。尽管结合具体特征及其实施例对本技术进行了描述,但本技术不受这里描述的示例实施例的限制。基于本技术的实施例,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的范围,这样获取的内容也属于本技术保护的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献