一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

交通事故报告提取与场景类型推理方法、系统及存储介质与流程

2022-03-16 15:18:27 来源:中国专利 TAG:


1.本发明属于智能车路系统技术领域,具体涉及一种交通事故报告提取与场景类型推理方法、系统及存储介质。


背景技术:

2.智能网联汽车作为自动驾驶技术现阶段的产物,在汽车领域已经发展成为了全球型的热门话题,车路协同系统(cvis)是目前智能网联车领域内的重点研究方向之一。车路协同通信(v2x)是实现cvis的重要手段,v2v(vehicle-to-vehicle)作为v2x的一种重要手段,也受到了学术界的重点关注。在车路协同环境下,无论人、车、路以及路边设施皆可以通过车路协同系统感知环境信息与其他参与者信息,同时也能与其他单元进行信息交互,实现真正意义上的车联万物。但目前而言,车路协同领域在其发展过程中还面临着许多安全性的问题,导致人们对车路协同系统仍然存在着些许质疑。因此,降低智能网联车的安全风险成为了现如今车路协同研究中的重中之重。
3.数据驱动的场景构建技术是目前智能网联车测试领域中的研究热点。目前,研究人员大多选用结构化的自然驾驶数据进行场景研究,而忽略了数据量丰富的非结构化交通事故报告,且场景构建过程中往往离不开人工分析,导致场景构建周期较长、效率不高。


技术实现要素:

4.本发明的目的在于针对上述现有技术中的问题,提供一种交通事故报告提取与场景类型推理方法、系统及存储介质,提高了交通事故报告数据集在场景构建技术中的利用率和自动化程度,辅助智能网联车领域数据驱动场景的构建。
5.为了实现上述目的,本发明有如下的技术方案:
6.一种交通事故报告提取与场景类型推理方法,包括:
7.对交通事故场景的实体进行分类,对v2v事故领域本体进行构建;
8.对交通事故报告进行数据预处理;
9.对数据预处理后的交通事故报告进行事故信息提取,获取事故场景的具体信息;
10.推理得到本体中隐含的其他关联结构,输出结构化场景信息所对应的场景类型。
11.作为优选,在所述对交通事故场景的实体进行分类,对v2v事故领域本体进行构建的步骤中,设计出v2v事故领域本体的类属结构、对象属性和若干实例,通过owl语言和本体构建工具对基本体进行构建;v2v事故领域的核心本体包括以下模块:vehicle、obstacle、object behavior、environment、road network和accident scenario type;其中,vehicle描述主要的交通参与者;obstacle通过其状态分为两种对象:静态障碍物和动态障碍物;所述的obstacle和vehicle通过抽取出共同的行为属性,衍生出object behavior,用于描述实体的行为动作;environment作为事故场景中的环境要素,描述天气状态和光照条件;road network作为描述道路路网的模块,包含路网形状及其物理结构;accident scenario type是事故场景类别模块,标识事故场景的类型。
12.作为优选,所述对交通事故报告进行数据预处理的内容包括特定领域词汇处理、指代消解、句子边界检测以及依存关系分析;对于v2v事故领域的核心本体设置如表1所示对象关联结构以及如表2所示数据关联结构:
13.表1
[0014][0015][0016]
表2
[0017]
属性名称定义域值域speed_isspeeddoublemove_direction_isdirectionstringlane_width_islanedoublescenario_type_isaccidentscenariostringrelative_direction_isaccidentscenariostringhas_traffic_lightroadnetworkbooleanhas_stop_signroadnetworkboolean
[0018]

[0019]
作为优选,在所述对数据预处理后的交通事故报告进行事故信息提取的步骤中,对数据预处理后的交通事故报告经过本体解析后,依据提取规则对信息进行提取。
[0020]
作为优选,所述对数据预处理后的交通事故报告进行事故信息提取的具体步骤包括:
[0021]
定义一个特定领域词典,然后通过正则匹配,将报告中满足匹配条件的特定词汇“a”和“b”,转换成“a-b”的形式,使之成为一个整体;
[0022]
将文本中的指代词还原为其原本所指代的对象;
[0023]
进行句子边界检测,将文本转换为若干的单句;
[0024]
利用自然语言处理工具包对非结构化的事故报告进行依存分析,获得句子中词与词之间的依存关系。
[0025]
作为优选,所述获取事故场景的具体信息的步骤包括:
[0026]
本体解析,导入实体中的类、属性关系、实例信息;
[0027]
导入交通事故报告经关系抽取模块后的分析结果,包含经分组处理后的单句以及单句中词与词的依存关系;
[0028]
对交通事故报告进行单句信息提取,每次只对交通事故报告中的一个句子进行内容抽取,遍历完交通事故报告中的所有句子后,抽取结束;
[0029]
创建对象列表并置为空,所述对象列表中存放的是从句子中识别出的类或实例的实例化对象,若识别为实例,则先通过本体查找到其所属的父类类型,然后在查询对象列表,判断对象列表中是否存在该类的实例,若存在,则进行下一步,若不存在,则先生成该类的实例化对象,将对象添加到列表中后再进行下一步;
[0030]
遍历实体的依存关系,包括对依存关系的查找,以及实例对象的属性填充。
[0031]
作为优选,在所述推理得到本体中隐含的其他关联结构的步骤中,用swrl语言描述场景推理规则,并使用软件对规则进行编辑,通过推理引擎自动化推理得到本体中隐含的其他关联结构。
[0032]
作为优选,所述通过推理引擎自动化推理得到本体中隐含的其他关联结构的步骤包括:
[0033]
导入owl本体文件;
[0034]
导入场景信息:将非结构化事故报告所转化为的结构化场景信息,在推理场景类型之前导入场景信息列表;
[0035]
构建实例:将场景信息列表中的场景内容创建为对应类的实例的工作;
[0036]
添加实例间的关联结构:将所有实例间的关联关系也填充到本体中;
[0037]
用推理引擎:推理引擎根据实例化的本体信息,在规则库中进行查找,并返回满足条件的推理结果;
[0038]
输出推理结果:输出结构化场景信息所对应的场景类型。
[0039]
本发明还提出一种交通事故报告提取与场景类型推理系统,包括:
[0040]
事故本体构建模块,用于对交通事故场景的实体进行分类,对v2v事故领域本体进行构建;
[0041]
数据预处理模块,用于对交通事故报告进行数据预处理;
[0042]
事故信息提取模块,用于对数据预处理后的交通事故报告进行事故信息提取,获取事故场景的具体信息;
[0043]
场景类型输出模块,用于推理得到本体中隐含的其他关联结构,输出结构化场景信息所对应的场景类型。
[0044]
本发明还提出一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述交通事故报告提取与场景类型推理方法中的步骤。
[0045]
相较于现有技术,本发明至少具有如下有益效果:
[0046]
本发明提出的交通事故报告提取与场景类型推理方法,采用领域本体与自然语言处理技术相结合,根据事故报告中所涵盖的知识体系与本体的应用范围,设计构建出事故领域本体,并在分析事故报告的文本特性之后,提出了领域本体与关系抽取相结合的信息提取框架,初步完成了从事故报告中提取场景信息的自动化过程。提高了交通事故报告数据集在场景构建技术中的利用率和自动化程度,能够辅助智能网联车领域的数据驱动场景构建。
附图说明
[0047]
图1是本发明交通事故报告提取与场景类型推理方法的流程图;
[0048]
图2是本发明方法本体中类的树状结构示意图;
[0049]
图3是本发明方法中的事故信息抽取算法流程图;
[0050]
图4是本发明方法中场景推理流程图;
[0051]
图5是本发明实施例v2v事故领域本体的实例界面图;
[0052]
图6是本发明实施例本体的owl文件内容展示界面图;
[0053]
图7是本发明实施例事故报告示例界面图;
[0054]
图8是本发明实施例自定义特定领域词典部分内容界面图;
[0055]
图9是本发明实施例数据预处理结果界面图;
[0056]
图10是本发明实施例文本关系抽取结果界面图;
[0057]
图11是本发明实施例事故场景提取结果界面图;
[0058]
图12是本发明实施例场景推理结果界面图。
具体实施方式
[0059]
下面结合附图及实施例对本发明做进一步的详细说明。
[0060]
参见图1,本发明实施例交通事故报告提取与场景类型推理方法,包括以下步骤:
[0061]
步骤一、对交通事故场景的实体进行分类,设计出v2v事故领域本体的类属结构、对象属性和若干实例,通过owl语言和本体构建工具对基本体进行构建与保存
[0062]
步骤二、对事故报告进行数据预处理,包括特定领域词汇处理,指代消解、句子边界检测及依存关系分析;
[0063]
步骤三、对事故报告进行事故信息提取,经过本体解析后,依据提取规则对信息进行提取,得到事故场景的具体信息;
[0064]
步骤四、用swrl语言描述场景推理规则,并使用软件对规则进行编辑。通过推理引擎自动化推理得到本体中隐含的其他关联结构。
[0065]
其中,步骤一中v2v事故领域的核心本体包括6大模块:vehicle、obstacle、object behavior、environment、road network和accident scenario type。
[0066]
其中,vehicle主要描述车辆类,也即主要的交通参与者,本发明中指机动车辆。obstacle通过其状态可分为两种,静态障碍物和动态障碍物。obstacle和vehicle可以抽取出共同的行为属性,衍生出object behavior,负责描述实体的行为动作。environment作为事故场景中的环境要素,主要描述天气状态和光照条件。road network作为描述道路路网的模块,主要包含路网形状及其物理结构。accident scenario type是事故场景类别模块,
借鉴了国外事故报告中的17类v2v场景类别,用来标识事故场景的类型。
[0067]
步骤二中针对事故领域本体共设计了6个类,包括vehicle、obstacle、object behavior、environment、road network和accident scenario type。
[0068]
构建17种对象关联结构和7种数据关联结构,如下表所示。
[0069]
表1对象关联结构
[0070]
属性名称定义域值域has_lanesroadlaneis_on_lanevehicle/obstaclelanehas_speedobjectbehaviorspeedhas_directionobjectbehaviordirectionhas_lateral_actionobjectbehaviorlateralactionhas_longi_actionobjectbehaviorlongitudinalactionexecutevehicle/obstacleobjectbehaviorhit_positionvehicleroad/lane/junctionhas_f_obstaclevehicleobstaclehas_lf_obstaclevehicleobstaclehas_rf_obstaclevehicleobstaclehas_r_obstaclevehicleobstaclehas_l_obstaclevehicleobstaclehas_b_obstaclevehicleobstaclehas_rb_obstaclevehicleobstaclehas_lb_obstaclevehicleobstacleis_part_ofvehicle/obstacle/vehicleaction/is_part_of
[0071]
表2数据关联结构
[0072][0073][0074]
其中,步骤三具体包括以下步骤:
[0075]
定义一个特定领域词典,然后通过正则匹配,将报告中满足匹配条件的特定词汇“a”和“b”,转换成“a-b”的形式,使之成为一个整体;
[0076]
指代消解,将文本中的指代词还原为其原本所指代的对象;
[0077]
对文本的句子进行边界划分处理,即进行句子边界检测,将文本转换为若干的单句,方便后续处理;
[0078]
利用自然语言处理工具包对非结构化的事故报告进行依存分析,获得句子中词与词之间的依存关系;
[0079]
步骤三中的本体解析旨在从定义好的本体中获取类、属性、实体以及类的继承关系等,是实现本体与事故报告映射过程的基础,图2展示了本发明方法本体中类的树状结构,提取规则是信息提取过程的核心环节,图3展示了事故信息抽取算法流程图,具体包括以下步骤:
[0080]
本体解析,导入实体中的类、属性关系、实例等信息;
[0081]
导入事故报告经关系抽取模块后的的分析结果。包含两部分内容:经分组处理后的单句、单句中词与词的依存关系;
[0082]
对事故报告进行单句信息提取,每次只对报告中的一个句子进行内容抽取,遍历完报告中的所有句子后,抽取结束;
[0083]
创建对象列表并置为空。对象列表中存放的是从句子中识别出的类或实例的实例化对象。若识别为实例,则还需要先通过本体查找到其所属的父类类型,然后在查询对象列表,判断对象列表中是否存在该类的实例,若存在,则进行下一步工作,若不存在,则先生成该类的实例化对象,将对象添加到列表中后再进行下一步;
[0084]
遍历实体的依存关系。通过之前的工作,已经通过本体识别出了句中存在的所有实体,并对其进行了实例化,实例化对象存储在了对象列表中。在接下来的遍历依存关系部分中,主要工作分为两部分,分别是:依存关系的查找、实例对象的属性填充。
[0085]
推理引擎自动化推理如图4所示,具体包括以下步骤:
[0086]
导入owl本体文件;
[0087]
导入场景信息。在之前的工作中,经过数据预处理、文本关系抽取以及信息提取三大模块的处理,将非结构化事故报告转化为结构化的场景信息,在推理场景类型之前导入场景信息列表,以便执行自动化推理过程;
[0088]
构建实例。场景信息列表中包含完整的事故场景信息,如车辆、天气、道路设施等因素,结合工具完成将场景中的内容创建为对应类的实例的工作;
[0089]
添加实例间的关联结构。完成实例创建任务之后,将所有实例间的关联关系也填充到本体中;
[0090]
用推理引擎。推理引擎是实现推理任务的核心步骤,推理引擎会根据实例化的本体信息,在规则库中进行查找,并返回满足条件的推理结果;
[0091]
输出推理结果。输出结构化场景信息所对应的场景类型。
[0092]
与现有技术相比,本发明采用领域本体与自然语言处理技术相结合的方法,结合事故报告中所涵盖的知识体系与本体的应用范围,设计构建出事故领域本体,并在分析事故报告的文本特性之后提出了领域本体与关系抽取相结合的信息提取框架,初步完成了从事故报告中提取场景信息的自动化过程。提高了交通事故报告数据集在场景构建技术中的利用率和自动化程度,能够辅助智能网联车领域的数据驱动场景构建。
[0093]
本发明的事故报告信息提取主要针对车车事故报告,因此,在准备事故报告数据集的过程中,遵循两个准则:一是,事故车辆类型均为机动车辆,不涉及行人和非机动车事故;二是,事故发生时的主要事故车辆数目至多为两辆。
[0094]
本发明构建的本体内容与实例如图5所示,本体的owl文件部分内容如图6所示。通
过对事故报告进行分析,得出规律:可以将事故报告分为三个部分,分别是第一段落、第二段落和第三段以后的所有段落。在后续的场景信息提取框架中,可以根据不同部分分别提取事故场景信息。从第一部分提取道路环境因素,第二部分提取交通参与者信息和碰撞信息,最后,第三部分作为补充信息,用来作为第一、二部分信息的补充,以保证尽可能全面地从报告中分离出完整的事故场景。图7为原始的事故报告部分内容。
[0095]
本发明共总结出74组特殊词汇和4组正则表达式匹配模板,特定领域词典以(key,value)的形式存储在字典中,通过查询的方式获取替换词。利用此词库,可以满足本发明实验对事故领域词汇的处理需求。
[0096]
在预处理过程中,结合事故领域特殊词汇词典,采用字符串匹配的方式,从事故报告中查找需要处理的词汇。将事故报告文本中的特殊词汇替换成预设的格式。从上述实施例中被替换的特定词汇,如图8所示。
[0097]
其次,在完成特殊词汇处理之后,利用现有工具stanford corenlp对文本进行指代消除处理,将原文中的照应语,全部替换为其对应的先行词,方便后续处理。数据预处理后的文本如图9所示。
[0098]
此外,选择nltk工具实现对文本的句子边界检查功能。nltk是python中的一个自然语义处理库,是现存的自然语言开发工具中最为热门的一类。在自然语言处理的任务中,nltk提供了强大的功能,满足用户需求的同时,还可以大幅度提高开发效率和处理效率。nltk在分词、分句方面的功能十分强大,同时也支持多种语言,因此,本发明使用nltk工具对事故报告进行分句处理。之后将上述分句处理的结果,按照单句的形式进行句子依存关系分析,其结果如图10所示。
[0099]
经过前面的处理,原始的文本数据现已转换为“单句 依存关系”的形式,接下来,利用本体识别句中存在的实体,利用依存关系将实体与实体进行关联,两者相辅相成,利用提取规则从上述结果中抽取出事故场景信息,从实施例中抽取出的场景信息如图11所示。
[0100]
owlready2是基于owl封装的一个功能库,集成了本体的增删查改等功能,同时还支持多种本体推理引擎,是一款非常强大的本体工具。在此基础上,发明利用owlready2模块完成了自动化推理模块的设计,之前的工作,已经将非结构化场景信息转化为结构化的场景信息列表,因此,以此信息列表为输入,利用场景推理模块完成场景类型的推理任务。
[0101]
最终,推理出上述事故场景的类型为场景1:“running_red_light”。结果如图12所示,图中箭头部分指示位置分别示出了人工创建的实例、实例自身带有的类型属性以及由pellet推理得出的属性。
[0102]
本发明还提出一种交通事故报告提取与场景类型推理系统,包括:
[0103]
事故本体构建模块,用于对交通事故场景的实体进行分类,对v2v事故领域本体进行构建;
[0104]
数据预处理模块,用于对交通事故报告进行数据预处理;
[0105]
事故信息提取模块,用于对数据预处理后的交通事故报告进行事故信息提取,获取事故场景的具体信息;
[0106]
场景类型输出模块,用于推理得到本体中隐含的其他关联结构,输出结构化场景信息所对应的场景类型。
[0107]
本发明还提出一种计算机可读存储介质,存储有计算机程序,所述计算机程序被
处理器执行时实现所述交通事故报告提取与场景类型推理方法中的步骤。
[0108]
示例性的,所述的计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在计算机可读存储介质中,并由所述处理器执行,以完成本技术所述交通事故报告提取与场景类型推理方法中的步骤。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在服务器中的执行过程。
[0109]
所述服务器可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述服务器还可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。
[0110]
所述处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0111]
所述存储器可以是所述服务器的内部存储单元,例如服务器的硬盘或内存。所述存储器也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
[0112]
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0113]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0114]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可
以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。
[0115]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0116]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献