一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

岩石描述文本的质检方法、装置、设备及介质与流程

2022-11-23 15:01:42 来源:中国专利 TAG:


1.本发明涉及地球科学技术领域,尤其涉及一种岩石描述文本的质检方法、装置、设备及介质。


背景技术:

2.地质调查(geological survey),泛指一切以地质现象(岩石以及矿产等)为对象,以地质学及其相关科学为指导,以观察研究为基础的调查工作。地质调查工作成果,是制定国家和地区地质工作计划,满足如矿产预测、矿产普查、水文地质、工程地质、环境地质、地质勘查等社会需求,以及为国土开发、整治、规划等提供重要依据。
3.岩石描述文本质检是实现地质调查高质量发展的重要一环,其中野外岩石描述文本的实时自动质检对于提高野外地质调查质量具有重要意义。
4.地质调查专业性强。一般合格的地质调查人员均需要较长时间的培养。同时,野外地质现象变化大,涉及的知识点广,地质调查人员难以实现专业知识的全面覆盖。以往地质调查过程中产生的岩石描述文本采用人工审核且随机抽检的方式。但随机抽检的方式往往以偏概全,质控效果不佳且不具实时性。


技术实现要素:

5.本发明实施例提供一种岩石描述文本的质检方法、装置、设备及介质,以解决采用人工审核且随机抽检方式的岩石描述文本的质控效果不佳且不具实时性的问题。
6.一种岩石描述文本的质检方法,包括:获取待检测岩石描述文本;将待检测岩石描述文本输入岩石知识提取模型,用于获取岩石类型信息和岩石知识三元组;基于岩石知识图谱,对岩石知识三元组进行一致性比对,获取岩石知识比对结果;若岩石知识比对结果为比对结果一致,则基于岩石知识图谱,获取同时具备岩石类型信息中记载的所有特征的岩石类型匹配数目;若岩石类型匹配数目的结果为一,则确认待检测岩石描述文本为质检合格文本;若所述岩石类型匹配数目的结果大于一,则推送匹配岩石类型间的鉴定知识。
7.进一步地,该岩石描述文本的质检方法中,在获取岩石类型信息和岩石知识三元组之前,还包括:获取岩石知识提取模型输出的待检测岩石命名实体信息;基于待检测岩石命名实体信息,对待检测岩石描述文本进行实体位置标记,获取实体位置标记结果;将待检测岩石描述文本和实体位置标记结果输入实体间关系分类模型,用于获取待检测命名实体间关系信息。
8.进一步地,该岩石描述文本的质检方法中,实体间关系分类模型包括基于增强
bert的已训练关系分类模型;在将待检测岩石描述文本和实体位置标记结果输入实体间关系分类模型之前,还包括:获取第一训练集,第一训练集包括输入岩石描述语料和实体间预期关系分类结果;将第一训练集中的输入岩石描述语料输入待训练关系分类模型中,用于获取关系分类模型响应输出的关系分类预测结果;通过第一损失函数比较预测关系分类结果和实体间预期关系分类结果是否一致;迭代调整待训练关系分类模型各节点的可训练参数,直至第一损失函数达到最小值时结束,用于获取已训练关系分类模型。
9.进一步地,该岩石描述文本的质检方法中,将待检测岩石描述文本输入岩石知识提取模型,用于获取岩石类型信息和岩石知识三元组,包括:将待检测岩石描述文本输入岩石知识提取模型,用于获取待检测岩石命名实体信息;基于待检测岩石命名实体信息,获取待检测命名实体间关系信息;将待检测岩石命名实体信息进行复杂实体分离和基于字典的实体信息过滤,获取信息过滤结果;将信息过滤结果与待检测命名实体间关系信息进行重组,形成待检测岩石描述文本的岩石类型信息和岩石知识三元组。
10.进一步地,该岩石描述文本的质检方法中,将待检测岩石命名实体信息进行复杂实体分离,包括:确定待检测岩石命名实体信息的构造实体类型,获取确认结果;若确认结果为双构造实体,则将待检测岩石命名实体信息通过基于规则的复杂实体分离方法进行双构造实体分离;若确认结果为多结构实体,则将待检测岩石命名实体信息通过复杂实体分离方法进行多结构实体分离。
11.进一步地,该岩石描述文本的质检方法中,岩石知识提取模型包括:基于bert的已训练序列标注模型;在获取待检测岩石描述文本之前,还包括:获取第二训练集,第二训练集包括:用于输入模型的岩石描述语料和实体序列预期标注结果;将第二训练集中的岩石描述语料输入待训练序列标注模型,用于获取待训练序列标注模型响应输出的实体序列预测标注结果;通过第二损失函数比较实体序列预期标注结果和实体序列预测标注结果是否一致;迭代调整待训练序列标注模型各节点的可训练参数,直至第二损失函数达到最小值时结束,用于获得已训练序列标注模型作为岩石知识提取模型。
12.进一步地,该岩石描述文本的质检方法中,在获取岩石知识比对结果之后,还包括:若存在一条以上岩石知识三元组不存在,则确定待检测岩石描述文本为质检不合格;当待检测岩石描述文本为质检不合格时,推送非标岩石知识三元组。
13.进一步地,该岩石描述文本的质检方法中,在获取同时具备岩石类型信息中记载的所有特征的岩石类型匹配数目之后,还包括:
若岩石类型匹配数目的结果为大于一,则提供匹配岩石类型间的鉴定知识。
14.进一步地,该岩石描述文本的质检方法中,在岩石知识比对结果为比对结果一致之后,还包括:根据待检测岩石描述文本,提取岩石类型信息对应的新鲜色、所具结构、所具构造、主要矿物和次要矿物等描述特征。
15.一种岩石描述文本的质检装置,包括:获取描述文本模块,用于获取待检测岩石描述文本;获取知识三元组模块,用于将待检测岩石描述文本输入岩石知识提取模型,用于获取岩石类型信息和岩石知识三元组;获取知识比对结果模块,用于基于岩石知识图谱,对岩石知识三元组进行一致性比对,获取岩石知识比对结果;获取匹配数目模块,用于若岩石知识比对结果为比对结果一致,则基于岩石知识图谱,获取同时具备岩石类型信息中记载的所有特征的岩石类型匹配数目;确认质检合格模块,用于若岩石类型匹配数目的结果为一,则确认待检测岩石描述文本为质检合格文本;鉴定知识推荐模块,用于若所述岩石类型匹配数目的结果大于一,则推送匹配岩石类型间的鉴定知识。
16.一种设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述岩石描述文本的质检方法。
17.一种计算机可读介质,所述计算机可读介质存储有计算机程序,所述计算机程序被处理器执行时实现上述岩石描述文本的质检方法。
18.上述岩石描述文本的质检方法、装置、设备及介质,通过分析待检测岩石描述文本,将待检测岩石描述文本输入岩石知识提取模型,可最终确认待检测岩石描述文本是否为质检合格文本,可实时对野外地质调查产生的岩石描述文本进行有效监督,便于及时规范地质调查人员的野外岩石观察描述记录行为,实时对描述文本给出准确的指引,可有效保障地质调查文本的完整性和准确性。
附图说明
19.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1绘示本发明一实施例中岩石描述文本的质检方法的应用环境示意图;图2绘示本发明第一实施例中岩石描述文本的质检方法的第一流程图;图3绘示本发明第二实施例中岩石描述文本的质检方法中所生成岩石知识图谱的花岗质片麻岩知识子图;图4绘示本发明第二实施例中岩石描述文本的质检方法中所生成岩石知识图谱的榴辉岩知识子图;图5绘示本发明第二实施例中岩石描述文本的质检方法的第二流程图;
图6绘示本发明第三实施例中岩石描述文本的质检方法的整体流程示意图;图7绘示本发明一实施例中岩石描述文本的质检装置的示意图;图8绘示本发明一实施例中设备的示意图。
具体实施方式
21.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.本发明实施例提供的岩石描述文本的质检方法,可应用在如图1的应用环境中,该岩石描述文本的质检方法应用在岩石描述文本的质检系统中,该岩石描述文本的质检系统包括客户端和服务器,其中,客户端通过网络与服务器进行通信。客户端又称为用户端,是指与服务器相对应,为客户端提供本地服务的程序。进一步地,客户端为计算机端程序、智能设备的app程序或嵌入其他app的第三方小程序。该客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
23.岩相学研究关注岩石颜色、结构、构造和矿物成分等特征的描述和岩石的分类。岩相学研究形成的岩石描述文本是地质调查获取的第一手野外调查资料,其质量对地质调查和矿产勘查具有重要影响。在数字地质调查过程中,岩石描述文本是除照片和影像外,重要的非结构化数据之一。当前地学领域人工智能正由“感知智能”过渡到“认知智能”。以知识图谱和机器阅读技术为代表的认知智能技术已在多个行业取得进展,也为非结构化的岩石描述文本质量检测提供了技术基础。本技术遵循大数据思维,针对非结构化的岩石描述文本,开展基于知识图谱和机器阅读的岩石描述文本质检方法的研究。
24.在一实施例中,如图2所示,提供一种岩石描述文本的质检方法,以该方法应用在图1中的服务器为例进行说明,具体包括如下步骤:s10.获取待检测岩石描述文本。
25.其中,待检测岩石描述文本可以但不限定为区域地质调查岩石描述文本、地表基质调查岩石描述文本等,内容含多项岩石命名实体信息,比如,岩石名称、岩石颜色、岩石结构、岩石构造和矿物名称等。
26.s20.将待检测岩石描述文本输入岩石知识提取模型,用于获取岩石类型信息和岩石知识三元组。
27.其中,岩石知识提取模型是从非结构化的待检测岩石描述文本中提取出岩石命名实体对及其关系。
28.岩石类型信息是指岩石名称,如榴辉岩、花岗闪长岩、二长花岗岩、竹叶状灰岩等。
29.岩石知识三元组是指包含实体关系的分离后实体对。
30.步骤s20的作用在于,本实施例可将待检测岩石描述文本进行分类整理后,便于后续对分类过的岩石实体类型进行进一步处理。
31.s30.基于岩石知识图谱,对岩石知识三元组进行一致性比对,获取岩石知识比对结果。
32.其中,岩石知识图谱包括由地质人员预定义岩石描述电子本文中的岩石命名实体和岩石实体间关系类型,再根据岩石学知识、区域地质调查报告和地质人员的实践经验等先验知识构建。
33.本实施例涉及的岩石知识图谱是在岩石学理论的指导下,在岩石命名实体与关系设计的基础上,通过三元组对岩石间知识进行表达、存储、可视化和计算的图数据库。
34.岩石知识比对结果用于体现岩石知识三元组是否与岩石知识图谱中已有知识一致。
35.具体地,将岩石知识三元组与预先构建的岩石知识图谱进行一致性计算,得到所述待检测岩石描述文本是否合格的岩石知识比对结果。
36.对岩石知识三元组进行一致性计算比对的步骤主要包括:获取待检测岩石描述文本中的岩石类型实体信息和与之关联的岩石知识三元组;判断获取的岩石知识三元组是否与岩石知识图谱中已有知识全部一致的岩石知识比对结果。
37.步骤s30的作用在于,本实施例可对待检测岩石描述文本实现文本的初步筛查,将岩石知识三元组与预先构建的岩石知识图谱进行一致性计算,得到所述待检测岩石描述文本是否合格的判定结果;进一步地,本实施例可对于不合格的待检测岩石描述文本,反馈其对应非标岩石知识三元组文本。
38.s40.若岩石知识比对结果为比对结果一致,则基于岩石知识图谱,获取同时具备岩石类型信息中记载的所有特征的岩石类型匹配数目。
39.具体地,对所述岩石知识三元组全部一致的情况,获取新鲜色、所具结构、所具构造、主要矿物和次要矿物信息,匹配查询岩石知识图谱中同时具备上述特征的岩石类型实体数目。比如:1.下表二所示的花岗质片麻岩描述文本信息提取的示例,以及如图3所示的岩石知识图谱中的花岗质片麻岩知识子图。知识图谱中的花岗质片麻岩知识子图。
40.表二2.下表三所示的榴辉岩描述文本及信息提取示例,以及如图4所示的岩石知识图谱中的榴辉岩知识子图。
41.表三步骤s40的作用在于,本实施例可通过进一步详细的多个岩石知识图谱中设计的岩石类型信息对初步判定合格的待检测岩石描述文本进行精细质检,从而可获取精确的质检结果。
42.s50.若岩石类型匹配数目的结果为一,则确认待检测岩石描述文本为质检合格文本。
43.可以理解的是,当岩石类型匹配数目为一的情况,说明该待检测岩石描述文本中记录的岩石类型所具有的特征与岩石知识图谱中记录的某种确定的岩石类型的部分或全部特征相一致,且不存在某种岩石类型同时具备所描述的特征,也即确定该待检测岩石描述文本的质检结果为质检合格文本。
44.s60.若岩石类型匹配数目的结果大于一,则推送匹配岩石类型间的鉴定知识。
45.具体地,对所述岩石名称实体数目大于一的情况,确定文本待改进,基于岩石知识图谱,推荐不同岩石类型实体间的鉴定知识。
46.本实施例提供的岩石描述文本的质检方法,通过分析待检测岩石描述文本,将待检测岩石描述文本输入岩石知识提取模型,可最终确认待检测岩石描述文本是否为质检合格文本,可对野外地质调查产生的岩石描述文本进行有效监督,便于及时规范地质调查人员的野外岩石观察行为描述记录行为,实时对描述文本给出准确的指引,可有效保障岩石观察描述文本的完整性和准确性。
47.在一具体实施例提供的步骤s30之前,即在获取岩石类型信息和岩石知识三元组之前,还具体包括如下步骤:s301.获取岩石知识提取模型输出的待检测岩石命名实体信息。
48.s302.基于待检测岩石命名实体信息,对待检测岩石描述文本进行实体位置标记,获取实体位置标记结果。
49.s303.将待检测岩石描述文本和实体位置标记结果输入实体间关系分类模型,用于获取待检测命名实体间关系信息。
50.其中,实体位置标记结果可采用符号进行标记,比如“$”和“&”等,分别标记在岩石
描述文本中实体所在的前后位置。
51.实体间关系包括现实世界中事物内部或事物之间语义关系的抽象表示,体现一个实体集中的实体与另一个实体集中的实体之间的内在联系。
52.具体地,待检测岩石描述文本中还包括多种岩石命名实体间的关系信息。实体间关系分类模型用于提取出待检测岩石描述文本中多种岩石的实体间的分类关系信息,比如,新鲜色、风化色、所具结构、所具构造、主要矿物、次要矿物、副矿物等。
53.而对于无关系情况的多种岩石命名实体间的关系信息,可以标记为“na”的关系。
54.步骤s301至s300的作用在于,本实施例可将待检测岩石描述文本和实体位置标记结果输入实体间关系分类模型,用于体现不同岩石实体之间的内在联系,便于后续从待检测岩石描述文本中涉及的岩石间的关系的维度进行质检,从而保障待检测岩石描述文本的记录准确性。
55.在一具体实施例中,实体间关系分类模型包括基于增强bert的已训练关系分类模型。在步骤s303之前,即在将待检测岩石描述文本和实体位置标记结果输入实体间关系分类模型之前,还具体包括如下步骤:s3031.获取第一训练集,第一训练集包括输入岩石描述语料和实体间预期关系分类结果。
56.s3032.将第一训练集中的输入岩石描述语料输入待训练关系分类模型中,用于获取关系分类模型响应输出的关系分类预测结果。
57.s3033.通过第一损失函数比较预测关系分类结果和实体间预期关系分类结果是否一致。
58.s3034.迭代调整待训练关系分类模型各节点的可训练参数,直至第一损失函数达到最小值时结束,用于获取已训练关系分类模型。
59.其中,第一训练集是用于训练实体间关系分类模型的数据集。
60.本实施例中的待训练关系分类模型可采用用于实现分类的模型,比如,待训练的bert(bidirectional encoder representation from transformer,来自transformer的双向编码器表征)模型等。以待训练的bert模型进行举例来说明,bert模型是基于上下文(context-based)的嵌入模型。
61.bert模型是一个预训练的语言表征模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(mlm),以致能生成深度的双向语言表征。bert模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示,然后将文本的语义表示在特定nlp任务中作微调,最终应用于该nlp(natural language processing,自然语言处理)任务。
62.损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越小,通常模型的性能越好。不同的模型用的损失函数一般也不一样。
63.本实施例中,先通过输入岩石描述语料对bert模型进行预训练,在岩石描述语料任务上学会网络参数,然后保存以备后用,当来一个新的任务,采取相同的网络结构,网络参数初始化的时候可加载之前学习好的参数,其他的高层参数随机初始化,之后用当前任务的训练数据来训练网络。当加载的参数采用第一损失函数随着当前任务的训练进行不断
地改变,称为微调,即更好地把参数进行调整使得更适合当前任务,也即使得第一损失函数达到最小值时结束,用于获取已训练关系分类模型作为实体间关系分类模型。
64.本次分别对命名实体提取所用的各序列标注模型和关系提取所用的r-transformer关系分类模型分别开展了对比试验。表1为不同序列标注模型和r-transformer关系分类模型在测试集上的测试结果的对比试验的结果(注表中的
“‑”
表示未执行),显示基于bert的序列标注模型和关系分类模型在命名实体和关系提取环节均取得了最佳性能(f1指标)。特别是命名实体识别环节基于bert的序列标注模型f1指标达到98.04%。这一高准确率指标,可有效降低命名实体识别阶段的误差,弥补流水线模式误差累计传递的缺陷。
65.表一在一具体实施例提供的步骤s20中,即将待检测岩石描述文本输入岩石知识提取模型,用于获取岩石类型信息和岩石知识三元组,具体包括如下步骤:s21.将待检测岩石描述文本输入岩石知识提取模型,用于获取待检测岩石命名实体信息。
66.s22.基于待检测岩石命名实体信息,获取待检测命名实体间关系信息。
67.s23.将待检测岩石命名实体信息进行复杂实体分离和基于字典的实体信息过滤,获取信息过滤结果。
68.s24.将信息过滤结果与待检测命名实体间关系信息进行重组,形成待检测岩石描述文本的岩石类型信息和岩石知识三元组。
69.其中,待检测岩石描述文本经预先训练的岩石命名实体识别模型进行岩石命名实体识别后,获得包括待检测且未经分离处理的岩石命名实体信息,比如,多构造实体(一种实体多种构造)或多结构实体(一种实体多种结构)等。
70.基于字典的实体信息过滤中涉及的字典可以为根据已有标准、规范和实践经验形成岩石实体字典库,比如,岩石名称字典、岩石颜色字典、岩石结构字典、岩石构造字典、化石名称字典、矿物名称字典和有机质名称字典等。岩石实体字典可依据通用标准和规范,比如gb/t 9649.10-2009地质矿产术语分类代码中的第十部分:岩石学。
71.具体地,本实施例可将待检测岩石描述文本中已识别且未分离处理的岩石命名实体信息进行文本实体位置标记后得到的待检测岩石命名实体信息,输入到预先训练的实体
间关系分类模型进行关系识别,获得待检测且未分离处理的岩石命名实体间关系信息;将岩石命名实体信息进行复杂实体分离和基于字典的实体信息过滤,并与所述岩石命名实体间关系信息进行融合,形成待检测岩石描述文本的岩石知识三元组。
72.基于字典的实体信息过滤的步骤包括:通过读取岩石实体字典信息,对复杂实体分离处理后的实体信息进行筛选,删除字典中未出现的实体。
73.岩石命名实体间关系信息进行融合,是将未分离处理的实体及关系赋予分离后的实体,从而组成岩石知识三元组。
74.在一具体实施例提供的步骤s23中,即将待检测岩石命名实体信息进行复杂实体分离,具体包括如下步骤:s231.确定待检测岩石命名实体信息的构造实体类型,获取确认结果。
75.s232.若确认结果为双构造实体,则将待检测岩石命名实体信息通过复杂实体分离方法进行双构造实体分离。
76.s233.若确认结果为多结构实体,则将待检测岩石命名实体信息通过复杂实体分离方法进行多结构实体分离。
77.具体地,将岩石命名实体信息进行复杂实体分离的步骤包括:获取岩石命名实体信息,逐个判断实体类型;若实体类型为构造实体类型,进行双构造实体分离。
78.双构造实体为地质人员针对两种渐变构造情况时,描述岩石构造信息时所采用的习惯性用法,比如,“块状-片麻状构造”。双构造实体中实体间通常有连接词,比如,
“‑”
、“、”和
“–”
等。
79.双构造实体分离可按照连接词进行实体字符串拆分,补全构造实体名称,比如“块状-片麻状构造”,拆分后补全经实体处理后的结果为“块状构造”和“片麻状构造”。
80.若实体类型为结构实体类型,进行多结构实体分离。
81.多结构实体可以为地质人员对等粒变晶结构的变质岩进行结构描述时,按照“粒度 次要矿物形态 主要矿物形态”的规则对其岩石结构进行描述,比如,“细粒鳞片花岗变晶结构”。
82.多结构实体分离步骤,包括:判断结构实体是否以“变晶结构”结尾;若以“变晶结构”结尾,计算结构实体长度是否大于7;当结构实体长度大于7时,按照“粒度 次要矿物形态 主要矿物形态”的规则提取粒度和形态信息,比如,“细粒鳞片花岗变晶结构”经提取后成为“细粒变晶结构”、“鳞片变晶结构”以及“花岗变晶结构”。
83.在一具体实施例中,岩石知识提取模型包括:基于bert的已训练序列标注模型。在步骤s10之前,即在获取待检测岩石描述文本之前,还具体包括如下步骤:s101.获取第二训练集,第二训练集包括:用于输入模型的岩石描述语料和实体序列预期标注结果。
84.s102.将第二训练集中的岩石描述语料输入待训练序列标注模型,用于获取待训练序列标注模型响应输出的实体序列预测标注结果。
85.s103.通过第二损失函数比较实体序列预期标注结果和实体序列预测标注结果是
否一致。
86.s104.迭代调整待训练序列标注模型各节点的可训练参数,直至第二损失函数达到最小值时结束,用于获得已训练序列标注模型作为岩石知识提取模型。
87.具体地,序列标注是nlp中一项重要的任务,它主要包括分词,词性标注和命名实体识别等子任务。通过对预训练后的bert模型进行微调,可以解决序列标注问题。
88.序列标注就是对一个一维线性输入序列,给线性序列中的每个元素打上标签集合中的某个标签,本质上是对线性序列中每个元素根据上下文进行分类的问题。中文的序列标注问题,往往可以把一个汉字看做线性序列的一个元素,而不同任务其标签集合代表的含义可能不太相同,但是相同的问题都是:如何根据汉字的上下文给汉字打上一个合适的标签。无论是分词,还是词性标注或者是命名实体标注,实现方式都是相同的。
89.本实施例中涉及对于序列标注模型的训练过程如前述训练实体间关系分类模型的过程,此处不再赘述。
90.本实施例提供的预先训练的岩石知识分类模型和实体间关系分类模型可采用管道(pipeline pattern)模式连接。管道模式是责任链模式(chain of responsibility pattern)的常用变体之一。在管道模式中,管道扮演着流水线的角色,将数据传递到一个加工处理序列中,数据在每个步骤中被加工处理后,传递到下一个步骤进行加工处理,直到全部步骤处理完毕。一般在任务较为复杂,需要拆分为多个子步骤时,尤其是后续可能在任意位置添加新的子步骤、删除旧的子步骤或交换子步骤顺序时,使用管道模式的连接方式。
91.在一具体实施例提供的步骤s30之后,即在获取岩石知识比对结果之后,还具体包括如下步骤:s304.若存在一条以上岩石知识三元组不存在,则确定待检测岩石描述文本为质检不合格。
92.s305.当待检测岩石描述文本为质检不合格时,推送非标岩石知识三元组文本。
93.具体地,对于存在一条以上岩石知识三元组不存在的质检不合格的岩石描述文本,本实施例可反馈不一致岩石知识三元组,确定岩石描述文本的质检结果为质检不合格,举例说明,比如,岩石知识提取和一致性计算发现白云母在多数白云母石英片岩描述中表述为主要矿物。然而,白云母石英片岩知识子图中,白云母为其次要矿物,固判定该次的岩石描述文本为质检不合格。
94.进一步地,不一致岩石知识三元组可以json格式信息返回。
95.在一具体实施例提供的步骤s40之后,如图5所示,即在获取同时具备岩石类型信息中记载的所有特征的岩石类型匹配数目之后,还具体包括如下步骤:s401.若岩石类型匹配数目的结果为大于一,则提供匹配岩石类型间的鉴定知识。
96.在一具体实施例提供的步骤s40之后,即在岩石知识比对结果为比对结果一致之后,还具体包括如下步骤:s402.根据待检测岩石描述文本,提取岩石类型信息对应的所具结构、所具构造、主要矿物和次要矿物信息。
97.其中,岩石结构指组成岩石的物质的结晶程度、矿物颗粒的大小,矿物的形状以及它们之间的相互关系所表现出来的特征。在岩浆岩中,按岩石的结晶程度可将结构分为全晶质结构、半晶质结构和玻璃质结构三大类;按岩石中矿物颗粒的绝对大小可分出粗粒、中
粒、细粒以及微粒等级别的结构;按矿物颗粒的相对大小又可划分等粒结构、不等粒结构和斑状、似斑状结构;按岩石中矿物的自形程度,还可分出自形结构、半自形结构及他形结构。另外,岩石中矿物颗粒间的相互关系也是确定岩石结构类型的依据。
98.岩石构造是指组成岩石的各部分(包括矿物集合体及玻璃质)间在排列方式、配置与充填方式上所表现出来的特征。岩浆岩中常见的构造有:块状构造、带状构造、斑杂构造、流纹构造、枕状构造、气孔及杏仁构造和原生片麻构造等。
99.在岩石描述中,根据原生矿物的相对含量(体积分数),可划分为主要矿物和次要矿物。其中,主要矿物是指在岩石中含量高,且在确定岩石大类名称上起主要作用的矿物。主要矿物和次要矿物因岩石种类而异,并非固定不变,例如,石英在花岗岩中是主要矿物,而在闪长岩中则为次要矿物。
100.本技术基于岩石学理论开展岩石描述文本命名实体与关系定义;然后,基于大规模预训练语言模型,在人工标注岩石描述预料的基础上,开展基于深度方法的岩石描述文本的复杂实体与关系提取和质检方法研究。重点开展多元关系和单实体重叠关系的提取以及复杂实体的识别、分离和过滤技术以及岩石知识一致性检查与知识推荐方法研究。
101.本实施例提供的岩石描述文本的质检方法,如图6所示的岩石描述文本的质检方法的整体流程示意图,通过分析待检测岩石描述文本,将待检测岩石描述文本输入岩石知识提取模型,可最终确认待检测岩石描述文本是否为质检合格文本,可实时对野外地质调查产生的岩石描述文本进行有效监督,便于及时规范地质调查人员的野外岩石观察记录行为,实时对描述文本给出准确的指引,可有效保障地质调查文本的完整性和准确性。
102.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
103.在一实施例中,提供一种岩石描述文本的质检装置,该岩石描述文本的质检装置与上述实施例中岩石描述文本的质检方法一一对应。如图7所示,该岩石描述文本的质检装置包括获取描述文本模块10、获取知识三元组模块20、获取知识比对结果模块30、获取匹配数目模块40、确认质检合格模块50和鉴定知识推荐模块60。各功能模块详细说明如下:获取描述文本模块10,用于获取待检测岩石描述文本。
104.获取知识三元组模块20,用于将待检测岩石描述文本输入岩石知识提取模型,用于获取岩石类型信息和岩石知识三元组。
105.获取知识比对结果模块30,用于基于岩石知识图谱,对岩石知识三元组进行一致性比对,获取岩石知识比对结果。
106.获取匹配数目模块40,用于若岩石知识比对结果为比对结果一致,则基于岩石知识图谱,获取同时具备岩石类型信息中记载的所有特征的岩石类型匹配数目。
107.确认质检合格模块50,用于若岩石类型匹配数目的结果为一,则确认待检测岩石描述文本为质检合格文本。
108.鉴定知识推荐模块60,用于若岩石类型匹配数目的结果大于一,则推送匹配岩石类型间的鉴定知识。
109.关于岩石描述文本的质检装置的具体限定可以参见上文中对于岩石描述文本的质检方法的限定,在此不再赘述。上述岩石描述文本的质检装置中的各个模块可全部或部
分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于设备中的处理器中,也可以以软件形式存储于设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
110.在一实施例中,提供了一种设备,该设备可以是服务器,其内部结构图可以如图8所示。该设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性介质、内存储器。该非易失性介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性介质中的操作系统和计算机程序的运行提供环境。该设备的数据库用于岩石描述文本的质检方法相关的数据。该设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种岩石描述文本的质检方法。
111.在一实施例中,提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例岩石描述文本的质检方法,例如图2所示s10至步骤s60。或者,处理器执行计算机程序时实现上述实施例中岩石描述文本的质检装置的各模块/单元的功能,例如图7所示模块10至模块60的功能。为避免重复,此处不再赘述。
112.在一实施例中,提供一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例岩石描述文本的质检方法,例如图2所示s10至步骤s60。或者,该计算机程序被处理器执行时实现上述装置实施例中岩石描述文本的质检装置中各模块/单元的功能,例如图7所示模块10至模块60的功能。为避免重复,此处不再赘述。
113.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
114.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
115.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包括在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献