一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据标注方法、装置、电子设备及存储介质与流程

2022-02-24 16:47:06 来源:中国专利 TAG:


1.本技术涉及人工智能数据处理技术领域,具体而言,涉及一种数据标注方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.目前,有监督的深度学习是人工智能领域普遍采用的机器学习方法,而采用深度学习的模型则需要大量准确、高质量的训练数据进行训练。其中,训练数据的数量、训练数据的质量对深度学习模型的训练起到了关键性作用。
3.训练数据是指用于训练模型的带有标注的数据,目前,数据的标注主要包括人工标注和使用工具进行标注,然而,人工进行数据标注是一个单调、枯燥的密集型重复劳动,要想获得大量的训练数据,需要耗费大量的人力进行数据标注,付出较高的人工成本,而使用工具标注的方法误标率很高,标注准确率低。


技术实现要素:

4.本技术实施例的目的在于提供一种数据标注方法、装置、电子设备及计算机可读存储介质,不需要耗费大量人力物力即可完成标注,且标注的准确率和效率得到有效提升。
5.第一方面,本技术实施例提供了一种数据标注方法,所述方法包括:
6.获取文本数据;
7.对所述文本数据进行标注,得到标注数据;
8.根据正则式规则对所述标注数据进行处理,得到误标注结果;
9.对所述误标注结果进行修复,得到修复标注结果。
10.在上述实现过程中,克服了标注数据的过程中需要耗费大量的人力、付出较高的人工成本的技术问题,进而达到用低成本获得大量且类型丰富的训练数据的技术效果。
11.进一步地,所述根据正则式规则对所述标注数据进行处理,得到误标注结果的步骤,包括:
12.对所述标注数据进行清洗处理,得到有效标注数据;
13.根据正则式规则对所述有效数据进行解析,得到所述误标注结果。
14.在上述实现过程中,对标注数据进行清洗处理,可以只保留标注数据中的有效标注数据,使得对数据的标注更加准确。
15.进一步地,所述根据正则式规则对所述有效数据进行解析,得到所述误标注结果的步骤,包括:
16.获取所述正则式规则中的规则列表;
17.根据所述规则列表对所述有效标注数据进行遍历,标注所述有效标注数据中的误标数据和漏标数据,得到所述误标注结果。
18.在上述实现过程中,通过正则式规则可以准确的将有效数据中的误标数据和漏标数据标注出来,对误标数据和漏标数据进行修复,使得正确的有效数据增多,增加有效标注
数据的数量和可用性。
19.进一步地,所述获取文本数据的步骤,包括:
20.获取语音数据;
21.将所述语音数据转换为文本数据。
22.在上述实现过程中,文本数据比语音数据更方便进行标注,将语音数据转换称文本数据可以提高标注速度和标注效率。
23.第二方面,本技术实施例还提供了一种数据标注装置,所述装置包括:
24.获取模块,用于获取文本数据;
25.标注模块,用于对所述文本数据进行标注,得到标注数据;
26.处理模块,用于根据正则式规则对所述标注数据进行处理,得到误标注结果;
27.修复模块,用于对所述误标注结果进行修复,得到修复标注结果。
28.在上述实现过程中,克服了训练数据的标注过程中需要耗费大量的人力、付出较高的人工成本的技术问题,进而达到用低成本获得大量且类型丰富的训练数据的技术效果。
29.进一步地,所述处理模块用于:
30.对所述标注数据进行清洗处理,得到有效标注数据;
31.根据正则式规则对所述有效数据进行解析,得到误标注结果。
32.在上述实现过程中,对标注数据进行清洗处理,可以只保留标注数据中的有效标注数据,使得对数据的标注更加准确。
33.进一步地,所述处理模块还用于:
34.获取所述正则式规则中的规则列表;
35.根据所述规则列表对所述有效标注数据进行遍历,标注所述有效标注数据中的误标数据和漏标数据,得到所述误标注结果。
36.在上述实现过程中,通过正则式规则可以准确的将有效数据中的误标数据和漏标数据标注出来,对误标数据和漏标数据进行修复,使得正确的有效数据增多,增加有效标注数据的数量和可用性。
37.进一步地,所述获取模块还用于获取语音数据;将所述语音数据转换为文本数据。
38.在上述实现过程中,文本数据比语音数据更方便进行标注,将语音数据转换称文本数据可以提高标注速度和标注效率。
39.第三方面,本技术实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
40.第四方面,本技术实施例提供的一种计算机可读存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
41.第五方面,本技术实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
42.本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
43.并可依照说明书的内容予以实施,以下以本技术的较佳实施例并配合附图详细说明如后。
附图说明
44.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
45.图1为本技术实施例提供的数据标注方法的流程示意图;
46.图2为本技术实施例提供的数据标注装置的结构组成示意图;
47.图3为本技术实施例提供的电子设备的结构组成示意图。
具体实施方式
48.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
49.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
50.下面结合附图和实施例,对本技术的具体实施方式作进一步详细描述。以下实施例用于说明本技术,但不用来限制本技术的范围。
51.实施例一
52.图1是本技术实施例提供的数据标注方法的流程示意图,如图1所示,该方法包括:
53.s1,获取文本数据;
54.s2,对文本数据进行标注,得到标注数据;
55.s3,根据正则式规则对标注数据进行处理,得到误标注结果;
56.s4,对误标注结果进行修复,得到修复标注结果。
57.以本实施例为例,克服了训练数据的标注过程中需要耗费大量的人力、付出较高的人工成本的技术问题,进而达到用极低成本获得大量且类型丰富的训练数据的技术效果。
58.在s1中,获取文本数据,包括:
59.获取语音数据;
60.将语音数据转换为文本数据。
61.以本实施例为例,文本数据比语音数据更方便进行标注,将语音数据转换成文本数据,可以提高标注速度和标注效率。语音数据可以从数据库网站进行下载,也可以是实际业务中产生的数据,如各种电话销售的电话录音。文本数据则为语音数据中对应的文字内容。
62.在s2中,对文本数据进行标注,得到标注数据。
63.以本实施例为例,对文本数据进行人工标注,或者采用标注工具对文本数据进行标注,得到标注数据,标注数据主要对文本数据中的一些关键信息进行标注,例如在电话销售场景中,需要判断用户是否有意向购买,跟购买有关联的一些信息则会被当作关键信息
进行标注,标注好之后再进行识别,从而得出用户是否有购买倾向。
64.在s3中,根据正则式规则对标注数据进行处理,得到误标注结果。
65.以本实施例为例,文本数据标注中会出现一些异常数据,主要分为漏标数据和误标数据,例如,正则式规则中包含了“需要”规则,而标注数据中的某一条数据包含“需要”的字符信息,但是却没有被标注,这种数据称为漏标数据,如果包含“需要”的字符信息的数据被标记为了其他规则,则这种数据称为漏标数据。漏标数据和误标数据都会被不同的信息所表示,用来区分正确的标注数据。
66.在s4中,对误标注结果进行修复,得到修复标注结果,包括:
67.对标注数据进行清洗处理,得到有效标注数据;
68.根据正则式规则对有效数据进行解析,得到误标注结果。
69.以本实施例为例,对标注数据进行清洗处理,可以只保留标注数据中的有效标注数据,使得对数据的标注更加准确。
70.标注数据中包含一些无法体现业务场景的数据,称为无效数据,对标注数据进行清洗处理,可以去除掉这些数据,只获得有效数据。有效数据里包含了与业务场景相关的文字信息,只对有效标注数据进行后续处理,可以提高数据标注的效率,减少出错的概率。
71.进一步地,根据正则式规则对有效数据进行解析,得到误标注结果,包括:
72.获取正则式规则中的规则列表;
73.根据规则列表对有效标注数据进行遍历,标注有效标注数据中的误标数据和漏标数据,得到误标注结果。
74.以本实施例为例,通过正则式规则可以准确的将有效数据中的误标数据和漏标数据标注出来,对误标数据和漏标数据进行修复,使得正确的有效数据增多,增加有效标注数据的数量和可用性。
75.以本实施例为例,很多场景都会用到数据标注,例如车险电话销售场景,车险电话销售的业务需要了解用户是否在销售过程中添加企业微信。
76.首先需要将电话录音转成文本并上传标注平台,对文本数据进行传统标注。同时,编写“添加企微”规则,详细为“企业微信|喇叭|服务\w{0,3}通知”利用包含正则式规则的识别算法对有效标注数据进行识别,将漏标数据及误标数据用不同颜色进行标识,例如,蓝色标记误标数据,黄色标记漏标数据,绿色标记正确的有效数据。
77.针对蓝色及黄色部分的漏标数据及误标数据进行重点审核及更改,形成最终的修复标注结果。
78.本技术实施例,基于语音数据进行提取,提取到文本数据,并通过包含正则式规则的识别算法识别并显示误标数据和漏标数据,对这些数据进行二次验证,以确定标注数据的准确性。可以有效提高数据标注效率,减少人力物力。
79.实施例二
80.为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种数据标注装置,如图2所示,该装置包括:
81.获取模块1,用于获取文本数据;
82.标注模块2,用于对文本数据进行标注,得到标注数据;
83.处理模块3,用于根据正则式规则对标注数据进行处理,得到误标注结果;
84.修复模块4,用于对误标注结果进行修复,得到修复标注结果。
85.在上述实现过程中,克服了训练数据的标注过程中需要耗费大量的人力、付出较高的人工成本的技术问题,进而达到用极低成本获得大量且类型丰富的训练数据的技术效果。
86.进一步地,处理模块3用于:
87.对标注数据进行清洗处理,得到有效标注数据;
88.根据正则式规则对有效数据进行解析,得到误标注结果。
89.在上述实现过程中,对标注数据进行清洗处理,可以只保留标注数据中的有效标注数据,使得对数据的标注更加准确。
90.进一步地,处理模块3还用于:
91.获取正则式规则中的规则列表;
92.根据规则列表对有效标注数据进行遍历,标注有效标注数据中的误标数据和漏标数据,得到误标注结果。
93.在上述实现过程中,通过正则式规则可以准确的将有效数据中的误标数据和漏标数据标注出来,对误标数据和漏标数据进行修复,使得正确的有效数据增多,增加有效标注数据的数量和可用性。
94.进一步地,获取模块1还用于获取语音数据;将语音数据转换为文本数据。
95.在上述实现过程中,文本数据比语音数据更方便进行标注,将语音数据转换称文本数据可以提高标注速度和标注效率。
96.上述的数据标注装置可实施上述实施例一的方法。上述实施例一中的可选项也适用于本实施例,这里不再详述。
97.本技术实施例的其余内容可参照上述实施例一的内容,在本实施例中,不再进行赘述。
98.实施例三
99.本技术实施例提供一种电子设备,包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一的数据标注方法。
100.可选地,上述电子设备可以是服务器。
101.请参见图3,图3为本技术实施例提供的电子设备的结构组成示意图。该电子设备可以包括处理器31、通信接口32、存储器33和至少一个通信总线34。其中,通信总线34用于实现这些组件直接的连接通信。其中,本技术实施例中设备的通信接口32用于与其他节点设备进行信令或数据的通信。处理器31可以是一种集成电路芯片,具有信号的处理能力。
102.上述的处理器31可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
103.存储器33可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除
只读存储器(electric erasable programmable read-only memory,eeprom)等。存储器33中存储有计算机可读取指令,当计算机可读取指令由所述处理器31执行时,设备可以执行上述图1方法实施例涉及的各个步骤。
104.可选地,电子设备还可以包括存储控制器、输入输出单元。存储器33、存储控制器、处理器31、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线34实现电性连接。处理器31用于执行存储器33中存储的可执行模块,例如设备包括的软件功能模块或计算机程序。
105.输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。输入输出单元可以是,但不限于,鼠标和键盘等。
106.可以理解,图3所示的结构仅为示意,电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
107.另外,本技术实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的数据标注方法。
108.本技术实施例还提供一种计算机程序产品,该计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
109.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
110.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
111.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
112.以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图
中不需要对其进行进一步定义和解释。
113.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
114.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献