一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于NLP的场景特征标注方法与流程

2023-02-04 12:58:01 来源:中国专利 TAG:

一种基于nlp的场景特征标注方法
技术领域
1.本发明涉及场景特征标注技术领域,具体涉及一种基于nlp(nlp,自然语言处理,是计算机科学领域与人工智能领域中的一个重要方向)的场景特征标注方法。


背景技术:

2.一系列不同的场景,但是通过特征分析,存在联系,而将这些场景放在一起检测。
3.在有关部门的特定场景联系研判工作当中,目前主流仍以人工方式对场景进行特征分析,根据特点给场景标上特征标签,进而作是否存在联系分析。这种在大量场景中通过人工来分析场景特征的传统方式工作量大、效率低和难度大。


技术实现要素:

4.本发明需要解决的技术问题是提供一种基于nlp的场景特征标注方法,可解决在大量特定场景中通过人工来分析场景特征的传统方式工作量大、效率低和难度大的问题。
5.为解决上述技术问题,本发明所采取的技术方案如下。
6.一种基于nlp的场景特征标注方法,包括以下步骤:
7.s1.采集现场勘察结果信息;
8.s2.建立对场景进行特征标注的场景特征字典;
9.s3.建立可匹配出对应步骤s2中场景特征字典值的标注关键词库;
10.s4.对步骤s1中采集的现场勘察结果信息进行nlp特征分析;
11.s5.进行场景特征标注;
12.s6.对场景特征标注结果进行nlp机器学习,更新步骤s3中的标注关键词库。
13.优选的,所述步骤s1中的现场勘察结果信息是有关部门对特定场景进行现场勘察后,记录的现场勘察分析意见结果。
14.优选的,所述步骤s3包括以下步骤:
15.s31.提取关键词;
16.s32.定义分词词性组合表达式;
17.s33.标注对应场景特征:在某一个词性组合表达式组合下,给目标场景标注上对应特征,而这些特征在步骤s2中场景特征字典中定义。
18.优选的,所述步骤s4中nlp特征分析过程,包括以下步骤:
19.s41.分词处理;
20.s42.词性分析处理;
21.s43.分词和词性组合集合;
22.s44.自动场景特征标注:将步骤s43得到的分词和词性组合集合,与步骤s3标注关键词库中定义的分词词性组合表达式进行匹配,将匹配结果中含有的对应场景特征,标注到目标场景上。
23.优选的,所述步骤s5为包括步骤s4对目标场景做自动化场景特征标注得到的结果
集合以及以人工方式在对目标场景做场景特征标注得到的结果集合的总集合。
24.优选的,所述步骤s6中nlp机器学习包括以下步骤:
25.s61.反向分词处理:对经过人工场景特征方式标注过的目标场景中的现场勘查结果信息,以及目标场景已标注的场景特征集合进行词语提取得到词语集合;
26.s62.词性分析处理:分析经过人工场景特征方式标注过的目标场景中的现场勘查结果信息提取出的每一个词语在目标句子语境中的词性,以及分析目标场景中的场景特征集合进行词语提取得到每一个词语在目标句子语境中的词性;
27.s63.关键词、词性组合表达式以及对应场景特征结果集:将步骤s62得到的词语以及词性组合的集合,与目标已标注的场景特征进行匹配,匹配结果中含有关键词、词性组合表达式集合。
28.由于采用了以上技术方案,本发明所取得技术进步如下。
29.本发明本发明采用基于nlp的场景特征标注方法,对大批量的特定场景先进行人工智能自动化特征标注,在自动化特征标注结果的基础上可进一步可选择性做人工特征标注,进而在人工特征标注结果的基础上进行机器学习,并将学习结果应用到下一次自动化场景特征标注,实现人工智能自动场景特征标注闭环。
30.本发明通过提供一种基于nlp的场景特征标注方法,很好地解决在大量特定场景中通过人工来分析场景特征的传统方式工作量大、效率低和难度大的问题,进而可以有效提高有关部门的工作效率。
附图说明
31.图1为本发明的流程图;
32.图2为本发明的现场勘察结果信息示意图;
33.图3为本发明的标注关键词库示意图;
34.图4为本发明的nlp特征分析过程示意图;
35.图5为本发明的场景特征标注过程示意图;
36.图6为本发明的nlp机器学习过程示意图。
具体实施方式
37.下面将结合附图和具体实施方式对本发明进行进一步详细说明。
38.一种基于nlp的场景特征标注方法,具体方法包括:根据现场勘察结果信息、场景特征字典以及标注关键词库,发起nlp特征分析后,再进行场景特征标注,最后基于标注结果进行nlp机器学习。结合图1所示,包括以下步骤:
39.s1.采集现场勘察结果信息。
40.现场勘察结果信息,是有关部门对特定场景进行现场勘察后,将现场勘察分析意见结果记录为现场勘察结果信息,包括但不限于简要情况、场景发生时间、场景发生地点、场景发生过程、场景发生特点等。
41.如图2所示,步骤s1包括以下步骤:
42.s11.采集现场勘察信息。
43.现场勘察信息是场景发生现场的相关信息,包括但不限于勘验时间、勘验地点、勘
验检查情况等。
44.s12.采集场景信息。
45.场景信息是场景的相关信息,包括但不限于简要情况、场景发生时间、场景发生地点等。
46.s13.采集现场分析意见信息。
47.现场分析意见信息是有关部门对特定场景进行现场勘察后,对现场勘察结果进行分析意见并记录分析结果信息,包括但不限于简要情况、场景发生时间、场景发生地点、场景性质、场景发生入口、场景发生方式、场景发生诱因、场景发生过程、场景发生特点等。
48.s2.建立对场景进行特征标注的场景特征字典。
49.场景特征字典,是用于对场景进行特征标注的字典,包括但不限于字典代码、字典分类和字典名称等。
50.s3.建立可匹配出对应步骤s2中场景特征字典值的标注关键词库。
51.标注关键词库,是关键词和词性组合的集合,用于对场景进行自动特征标注时,需要根据关键词和词性组合进行上下文匹配,匹配结果含有对应的场景特征字典值。
52.如图3所示,步骤s3包括以下步骤:
53.s31.提取关键词。
54.关键词,是人类自然语言中的词语,在本发明中是用于nlp特征分析的最小单位。
55.s32.定义分词词性组合表达式。
56.分词词性组合表达式,是词语与词性的组合,词性即词语为名词、动词或形容词等等。词性组合表达式即词语 词性的组合。
57.s33.标注对应场景特征。
58.对应场景特征,是在某一个词性组合表达式组合下,要给目标场景标注上有哪些特征,而这些特征在步骤s2中场景特征字典中定义。
59.比如,某起特定场景中的简要情况如下:2022年6月1日凌晨2点15分,张某住所防盗门锁被非自然打开,室内手机、首饰、现金被拿取,价值8000元余元。
60.按照本发明的方法,在步骤s3中,定义分词词性组合表达式为:非自然[形容词] (?)开[动词] 锁[名词](?表示任意单个字),对应到步骤s2的场景特征字典中的场景特征:[场景发生方式]非自然开锁。
[0061]
s4.对步骤s1中采集的现场勘察结果信息进行nlp特征分析。
[0062]
具体的是对步骤s1中采集的现场勘察结果信息进行分词处理以及词性分析,再将分析结果中含有的分词与词性组合集合,与步骤s3标注关键词库中的词性组合表达式进行匹配,将匹配结果中含有对应的场景特征标注信息,对目标场景进行特征标注处理的整个过程。
[0063]
如图4所示,步骤s4中nlp特征分析过程,包括以下步骤:
[0064]
s41.分词处理。
[0065]
分词处理是运用nlp自然语言处理技术,对目标句子进行词语提取得到词语集合的过程。
[0066]
s42.词性分析处理。
[0067]
词性分析处理,是运用nlp自然语言处理技术,对目标句子提取出的每一个词语,
分析该词语在目标句子语境中的词性的过程。
[0068]
s43.分词和词性组合集合。
[0069]
分词和词性组合集合,是运用nlp自然语言处理技术,对目标句子提取出的每一个词语,分析该词语在目标句子语境中的词性,得到所有词语以及词性组合的集合。
[0070]
s44.自动场景特征标注。
[0071]
自动场景特征标注,是将步骤s43得到的词语以及词性组合的集合,与步骤s3标注关键词库中定义的分词词性组合表达式进行匹配,将匹配结果中含有的对应场景特征,标注到目标场景上的过程。
[0072]
比如某起特定场景中的简要情况如下:2022年6月1日凌晨2点15分,张某住所防盗门锁被非自然打开,室内手机、首饰、现金被拿取,价值8000元。
[0073]
按照本发明的方法,经过分词和词性分析处理后的集合为:
[0074]
2022年[量词]、6月[量词]、1日[量词]、凌晨[名词]、2点[量词]、15分[量词]、张某[名词]、住所[名词]、防盗门[名词]、锁[名词]、被[介词]、非自然[形容词]、打开[动词]、室内[名词]、手机[名词]、首饰[名词]、现金[名词]、被拿取 [动词]、价值[名词]、8000元[量词]。
[0075]
在s44自动场景特征标注过程中,与定义在步骤s3标注关键词库中的非自然[形容词] (?)开[动词] 锁[名词]匹配命中,因此可将目标场景的特征标注为: [场景发生方式]非自然开锁。
[0076]
s5.进行场景特征标注。
[0077]
如图5所示,步骤s5包括以下步骤:
[0078]
s51.采集自动场景特征标注结果集。
[0079]
自动场景特征标注结果集,是经过步骤s4中nlp特征分析处理,对目标场景做自动化场景特征标注得到的结果集合c1。
[0080]
s52.人工特征标注。
[0081]
人工特征标注,是以人工方式在对目标场景做场景特征标注得到的结果集合c2。
[0082]
s53.场景特征标注结果集。
[0083]
场景特征标注结果集,是上述c1、c2两个集合合并后得到的总集合。
[0084]
s6.对场景特征标注结果进行nlp机器学习,更新步骤s3中的标注关键词库。
[0085]
具体的是在步骤s52人工特征标注处理后的步骤s53得到的场景特征标注结果集,以及步骤s1中对应的现场勘察结果信息进行反向分词处理以及词性分析处理,分析结果含有关键词、词性组合表达式以及对应场景特征结果集,最后将该分析结果集纳入步骤s3中的标注关键词库的过程。
[0086]
如图6所示,步骤s6中nlp机器学习过程,包括以下步骤:
[0087]
s61.反向分词处理s61。
[0088]
反向分词处理,是运用nlp自然语言处理技术,对经过人工场景特征方式标注过的目标场景中的现场勘查结果信息,以及目标场景已标注的场景特征集合进行词语提取得到词语集合的过程。
[0089]
s62.词性分析处理。
[0090]
词性分析处理,是运用nlp自然语言处理技术,对经过人工场景特征方式标注过的
目标场景中的现场勘查结果信息提取出的每一个词语,以及目标场景中的场景特征集合进行词语提取得到每一个词语,分析每一个词语在目标句子语境中的词性的过程。
[0091]
s63.关键词、词性组合表达式以及对应场景特征结果集。
[0092]
关键词、词性组合表达式以及对应场景特征结果集,是将步骤s62得到的词语以及词性组合的集合,与目标已标注的场景特征进行匹配,匹配结果中含有关键词、词性组合表达式集合。
[0093]
比如某起特定场景中的简要情况如下:2022年6月1日凌晨2点15分,张某住所防盗门锁被非自然打开,室内手机、首饰、现金被拿取,价值8000元。
[0094]
在该场景还没有进行自动或人工特征标注,然后以人工方式将该场景的特征标注为[场景发生方式]非自然开锁。
[0095]
按照本发明的方法,分为3个步骤:
[0096]
步骤1:对简要案情进行分词和词性分析处理,得到的集合为:
[0097]
2022年[量词]、6月[量词]、1日[量词]、凌晨[名词]、2点[量词]、15分[量词]、张某[名词]、住所[名词]、防盗门[名词]、锁[名词]、被[介词]、非自然[形容词]、打开[动词]、室内[名词]、手机[名词]、首饰[名词]、现金[名词]、被拿取 [动词]、价值[名词]、8000元[量词]。
[0098]
步骤2:对已标注的场景特征进行分词和词性分析处理,得到的集合为:
[0099]
非自然[形容词] 开[动词] 锁[形容词]
[0100]
步骤3:将步骤1和步骤2得到的集合取交集,其中开[动词]被包含在打开[动词]中,因此可得到的关键词、词性组合表达式为:非自然[形容词] 打开[动词] 锁[形容词]。
[0101]
本发明采用基于nlp的场景特征标注方法,对大批量的特定场景先进行人工智能自动化特征标注,在自动化特征标注结果的基础上可进一步可选择性做人工特征标注,进而在人工特征标注结果的基础上进行机器学习,并将学习结果应用到下一次自动化场景特征标注,实现人工智能自动场景特征标注闭环。
[0102]
本发明通过提供一种基于nlp的场景特征标注方法,很好地解决在大量特定场景中通过人工来分析场景特征的传统方式工作量大、效率低和难度大的问题,进而可以有效提高有关部门的工作效率。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献