一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种简化添加语料及标注语料的方法、装置及介质与流程

2022-06-02 11:16:44 来源:中国专利 TAG:


1.本发明涉及数据处理及自然语言领域,具体提供一种简化添加语料及标注语料的方法、装置及介质。


背景技术:

2.自然语言处理分为三个环节,其中大部分困难点都是出现在自然语言理解部分,主要问题是歧义问题和未知语言现象问题。一方面,自然语言中大量存在歧义现象,无论在词法层次、语法层次,还是在语义层次和语用层次,无论哪类语言单位,其歧义性始终都是困扰人们实现应用目标的一个根本问题。
3.另一方面,对于一个特定系统来说,总是有可能遇到未知词汇、未知结构等各种意想不到的情况,而且每一种语言又都随着社会的发展而动态变化着,新的词汇、新的词义和新的词汇用法,甚至新的句子结构都在不断出现,尤其在口语对话或计算机网络对话,稀奇古怪的词语和话语结构更是司空见惯,总的来说就是语料涵盖的范围不够全面。
4.目前,市面上很多自然语言理解模型的训练语料制作繁琐又复杂,如何提供一种方法来简化操作是本领域亟待解决的问题。


技术实现要素:

5.本发明是针对上述现有技术的不足,提供一种实用性强的简化添加语料及标注语料的方法。
6.本发明进一步的技术任务是提供一种设计合理,安全适用的简化添加语料及标注语料的装置。
7.本发明进一步的技术任务是提供一种计算机可读介质。
8.本发明解决其技术问题所采用的技术方案是:
9.一种简化添加语料及标注语料的方法,具有如下步骤:
10.s1、对rasa_nlu语料内容及标注格式进行分析整合;
11.s2、根据分析整合的结果进行图形界面设计,经过构建生成图形用户界面;
12.s3、图形用户界面内进行格式搭建,复选择框进行选择;
13.s4、在图形用户界面后端增加数据增强操作;
14.s5、将数据增强功能在图形用户界面中设置成按钮;
15.s6、将所述的图形用户界面打包生成执行文件。
16.进一步的,在步骤s1中,对rasa_nlu语料内容及标注格式进行分析整合,得到相应的逻辑以及格式。
17.进一步的,在步骤s2中,获得相应的逻辑及格式后进行图形界面设计,再通过python内部的pyqt5模块进行相应的逻辑及格式构建,最终生成相应的图形用户界面。
18.进一步的,在步骤s3中,所述图形用户界面依据依据nlu.yml内相应的格式进行搭建,通过复选择框进行选择,而相应的实例内容则通过输入框进行添加。
19.进一步的,在步骤s4中,针对数据量过少的情况可在后端增加数据增强操作,利用深度学习中的强化学习、循环神经网络对已有数据进行训练得到模型由用户自主选择是否做相应生成。
20.进一步的,在步骤s5中,将数据增强功能在图形用户界面中做成按钮,由用户自主选择是否进行数据增强操作。
21.进一步的,在步骤s6中,将所述图形用户界面进行优化再通过pyinstaller进行打包生成可执行文件,得到相应的程序。
22.一种简化添加语料及标注语料的装置,包括:至少一个存储器和至少一个处理器;
23.所述至少一个存储器,用于存储机器可读程序;
24.所述至少一个处理器,用于调用所述机器可读程序,执行一种简化添加语料及标注语料的方法。
25.一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行一种简化添加语料及标注语料的方法。
26.本发明的一种简化添加语料及标注语料的方法、装置及介质和现有技术相比,具有以下突出的有益效果:
27.本发明添加语料数据量以及减少标注工程程序,更适用更新rasa_nlu语料数据,操作步骤更加简化。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.附图1是一种简化添加语料及标注语料的方法的流程示意图。
具体实施方式
30.为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
31.下面给出一个最佳实施例:
32.如图1所示,本实施例中的一种简化添加语料及标注语料的方法,具有如下步骤:
33.s1、对rasa_nlu语料内容及标注格式进行分析整合;
34.首先需要对rasa_nlu语料内容及标注格式进行分析整合,得到相应的逻辑以及格式。
35.s2、根据分析整合的结果进行图形界面设计,经过构建生成图形用户界面;
36.获得的相应逻辑与格式进行图形界面设计,再通过python内部的pyqt5模块进行相应的逻辑及格式构建,最终生成相应的图形用户界面。
37.s3、图形用户界面内进行格式搭建,复选择框进行选择;
38.图形用户界面依据nlu.yml内相应的格式进行搭建如带无标注意图、标注意图、同义词、正则表达式、查询表等关键词通过复选择框进行选择,而相应的实例内容则通过输入框进行添加。
39.s4、在图形用户界面后端增加数据增强操作;
40.针对数据量过少的情况可在后端增加数据增强操作,如利用深度学习中的强化学习、循环神经网络对已有数据进行训练得到模型由用户自主选择是否做相应生成;
41.s5、将数据增强功能在图形用户界面中设置成按钮;
42.将“数据增强”功能在图形用户界面中做成按钮,由用户自主选择是否进行数据增强操作。
43.s6、将所述的图形用户界面打包生成执行文件;
44.将图形用户界面进行精简优化再通过pyinstaller进行打包生成可执行文件,得到相应的程序。
45.基于上述方法,本实施例中的一种简化添加语料及标注语料的装置,包括:至少一个存储器和至少一个处理器;
46.所述至少一个存储器,用于存储机器可读程序;
47.所述至少一个处理器,用于调用所述机器可读程序,执行一种简化添加语料及标注语料的方法。
48.一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行一种简化添加语料及标注语料的方法。
49.上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种简化添加语料及标注语料的方法、装置及介质权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
50.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献