一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据标注方法、装置、计算机设备以及存储介质与流程

2022-08-10 14:13:34 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,具体而言,涉及一种数据标注方法、装置、计算机设备以及存储介质。


背景技术:

2.随着互联网行业的快速发展,用户可以通过互联网发表文字内容,以及通过互联网阅读其他用户发表的文字内容。然而,互联网中的文字内容往往没有标注拼音,当该文字内容中出现生僻字时,可能导致用户出现阅读障碍。例如,在文字内容为百科类内容的情况下,该百科类内容中包含多个百科词条,每个百科词条包含文字解释。如果文字解释中生僻字未标注拼音,则将为用户对该百科词条的阅读带来障碍,从而降低用户的使用体验。


技术实现要素:

3.本公开实施例至少提供一种数据标注方法、装置、计算机设备以及存储介质。
4.第一方面,本公开实施例提供了一种数据标注方法,包括:
5.获取待处理文字和预设注音列表;其中,所述预设注音列表用于指示各预设文字的拼音标注信息;
6.在所述待处理文字中确定与所述预设注音列表相匹配的至少一个第一待注音文字;
7.确定所述预设注音列表中与所述第一待注音文字相匹配的目标预设文字的拼音标注信息;
8.基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的注音数据。
9.一种可选的实施方式中,所述基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的注音数据,包括:
10.基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的文字类型;所述文字类型用于指示该第一待注音文字所包含的文字拼音的数量;
11.基于所述文字类型确定所述第一待注音文字的注音数据。
12.一种可选的实施方式中,所述目标预设文字的拼音标注信息包含多个预设文字拼音;所述基于所述文字类型确定所述第一待注音文字的注音数据,包括:
13.在确定所述文字类型为第一文字类型的情况下,在所述预设注音列表中确定与所述目标预设文字相对应的多个词组;其中,所述第一文字类型用于指示所述第一待注音文字对应多个文字拼音,每个所述词组对应该目标预设文字的一个预设文字拼音;
14.在所述多个词组中确定与所述第一待注音文字在待处理文字中的语境信息相关联的目标词组,并基于所述目标词组所对应的预设文字拼音确定所述第一待注音文字的注音数据。
15.一种可选的实施方式中,所述基于所述文字类型确定所述第一待注音文字的注音数据,包括:
16.在确定所述文字类型为第一文字类型的情况下,在所述预设注音列表中确定所述目标预设文字相对应的多个预设文字拼音;其中,所述第一文字类型用于指示所述第一待注音文字对应多个文字拼音;
17.向标注方发送目标确认信息;其中,所述目标确认信息中携带所述多个预设文字拼音和所述第一待注音文字;
18.获取所述标注方基于所述目标确认信息反馈的预设文字拼音,并基于所述反馈的预设文字拼音确定所述第一待注音文字的注音数据。
19.一种可选的实施方式中,所述方法还包括:
20.在获取所述待处理文字和所述预设注音列表之后,检测用户对所述待处理文字的编辑操作;
21.响应于所述编辑操作,展示文字编辑窗口,并在所述文字编辑窗口中展示所述待处理文字;所述文字编辑窗口为对所述待处理文字进行编辑的窗口;
22.响应于用户对所述待处理文字的选择操作,确定与所述选择操作相对应的第二待注音文字,并展示所述第二待注音文字相对应的注音标识;
23.响应于对所述注音标识的触发操作,展示注音编辑窗口,并基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据。
24.一种可选的实施方式中,所述注音编辑窗口中包括第一注音区域和第二注音区域,所述基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据,包括:
25.检测用户在所述第一注音区域输入的拼音数据,并检测用户在所述第二注音区域中输入的声调数据;
26.基于所述声调数据对所述拼音数据进行标注,得到所述拼音数据的声调标注结果,并基于所述拼音数据的声调标注结果确定所述第二待注音文字的注音数据。
27.一种可选的实施方式中,所述展示注音编辑窗口,并基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据,包括:
28.在确定所述第二待注音文字为所述预设注音列表中预设文字的情况下,获取所述预设注音列表中与所述第二待注音文字相匹配的预设文字的拼音标注信息;
29.在所述注音编辑窗口中展示所述第二待注音文字和所述相匹配的预设文字的拼音标注信息;
30.在检测到用户对所述注音编辑窗口中所展示拼音标注信息的确认操作的情况下,将所述注音编辑窗口中所展示的拼音标注信息确定为所述第二待注音文字的注音数据。
31.一种可选的实施方式中,所述展示注音编辑窗口,并基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据,包括:
32.在确定所述第二待注音文字不是所述预设注音列表中预设文字的情况下,在所述注音编辑窗口中展示输入提示信息;
33.检测用户对所述注音编辑窗口的输入操作,并基于所述输入操作所对应的输入数据确定所述第二待注音文字的注音数据。
34.一种可选的实施方式中,所述在所述注音编辑窗口中展示所述第二待注音文字和所述相匹配的预设文字的拼音标注信息,包括:
35.在所述相匹配的预设文字的拼音标注信息包含多个预设文字拼音的情况下,在所述注音编辑窗口中展示所述多个预设文字拼音中的第一预设文字拼音,并在所述注音编辑窗口中展示目标展开标识;
36.检测用户对所述目标展开标识的触发操作,在所述注音编辑窗口中展示目标列表,并在所述目标列表中展示所述多个预设文字拼音中除所述第一预设文字拼音之外的其他预设文字拼音。
37.第二方面,本公开实施例还提供一种数据标注装置,包括:
38.获取单元,用于获取待处理文字和预设注音列表;其中,所述预设注音列表用于指示各预设文字的拼音标注信息;
39.第一确定单元,用于在所述待处理文字中确定与所述预设注音列表相匹配的至少一个第一待注音文字;
40.第二确定单元,用于确定所述预设注音列表中与所述第一待注音文字相匹配的目标预设文字的拼音标注信息;
41.第三确定单元,用于基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的注音数据。
42.第三方面,本公开实施例还提供一种计算机设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通信连接,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
43.第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
44.本公开实施例提供的数据标注方法、装置、计算机设备以及存储介质。在本公开实施例中,预先设定了用于指示各预设文字的拼音标注信息的预设注音列表,因此,在数据标注的过程中,首先获取待处理文字和预设注音列表,并在待处理文字中确定与预设注音列表相匹配的至少一个第一待注音文字,接下来,可以在预设注音列表中确定与第一待注音文字相匹配的目标预设文字的拼音标注信息,并基于该拼音标注信息确定第一待注音文字的注音数据,从而完成针对待处理文字中第一待注音文字的数据标注。通过上述处理方式,可以实现自动在待处理文字中确定待注音的文字(即第一待注音文字),并自动完成对待注音的文字的注音操作,从而提高了数据标注效率,进而可以有效避免用户在阅读待处理文字时的阅读障碍,提高了用户的使用体验。
45.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
46.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人
员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
47.图1示出了本公开实施例所提供的一种数据标注方法的流程图;
48.图2示出了本公开实施例所提供的注音数据的第一展示位置的示意图;
49.图3a示出了本公开实施例所提供的一种注音编辑窗口中展示内容的示意图;
50.图3b示出了本公开实施例所提供的另一种注音编辑窗口中展示内容的示意图;
51.图4示出了本公开实施例所提供的在注音编辑窗口中展示多个预设文字拼音以及目标展开标识的示意图;
52.图5示出了本公开实施例所提供的一种数据标注装置的示意图;
53.图6示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
54.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
55.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
56.本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
57.经研究发现,随着互联网行业的快速发展,用户可以通过互联网发表文字内容,以及通过互联网阅读其他用户发表的文字内容。然而,互联网中的文字内容往往没有标注拼音,当该文字内容中出现生僻字时,可能导致用户出现阅读障碍。例如,在文字内容为百科类内容的情况下,该百科类内容中包含多个百科词条,每个百科词条包含文字解释。如果文字解释中生僻字未标注拼音,则将为用户对该百科词条的阅读带来障碍,从而降低用户的使用体验。
58.另外的,在一种可选的技术方案中,在针对上述百科词条对应的文字解释进行注音时,可以通过注音人员手动对词条中的读音进行标注,然而,这种标注方式完全依赖于人工标注,标注效率较低,普遍无法满足知识类产品的开发人员进行数据标注的需求。
59.基于上述研究,本公开提供了一种数据标注方法、装置、计算机设备以及存储介质,在本公开实施例中,预先设定了用于指示各预设文字的拼音标注信息的预设注音列表,因此,在数据标注的过程中,首先获取待处理文字和预设注音列表,并在待处理文字中确定与预设注音列表相匹配的至少一个第一待注音文字,接下来,可以在预设注音列表中确定与第一待注音文字相匹配的目标预设文字的拼音标注信息,并基于该拼音标注信息确定第一待注音文字的注音数据,从而完成针对待处理文字中第一待注音文字的数据标注。通过
上述处理方式,可以实现自动在待处理文字中确定待注音的文字(即第一待注音文字),并自动完成对待注音的文字的注音操作,从而提高了数据标注效率,进而可以有效避免用户在阅读待处理文字时的阅读障碍,提高了用户的使用体验。
60.为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据标注方法进行详细介绍,本公开实施例所提供的数据标注方法的执行主体一般为具有一定计算能力的计算机设备。在一些可能的实现方式中,该数据标注方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
61.参见图1所示,为本公开实施例提供的一种数据标注方法的流程图,所述方法包括步骤s101~s107,其中:
62.s101:获取待处理文字和预设注音列表;其中,所述预设注音列表用于指示各预设文字的拼音标注信息。
63.在本公开实施例中,上述数据标注方法可以应用于以文字内容为主的文学类、科普类等应用程序中,例如,在该应用程序为科普类应用程序的情况下,该应用程序中可以包含多个词条,用户可以通过对检索关键词进行检索的方式调出对应的词条,每个词条可以对应一个检索关键词,该词条中可以包含针对该检索关键词的关键词信息进行解释的解释内容,其中,该解释内容中可以包含上述待处理文字。
64.例如,该检索关键词可以为某个名词,如“苹果”,该检索关键词对应的词条可以包含针对关键词“苹果”的外观、品种、产地、食用方式等关键词信息进行解释的解释内容。上述文学类应用程序可以为支持用户创作并发表在线文字的应用程序,该在线文字可以为上述待处理文字(例如,网络小说)。其他用户可以通过该应用程序查看该在线文字,或者通过该在线文字与用户进行互动。
65.这里,以上述科普类应用程序为例,在进行数据标注的过程中,首先可以获取该科普类应用程序中包含的多个词条,并在多个词条中确定待标注词条,之后获取待标注词条中的待处理文字,以及获取预设注音列表。
66.这里,预设注音列表可以用于储存预设文字的拼音标注信息,其中,该预设文字可以为生僻字和/或多音字等。在确定该预设注音列表的过程中,首先获取电子文字字典,其中,该电子文字字典可以是以《通用规范汉字表》、《汉语大字典》等文献为依据建立的。接下来,就可以识别该电子文字字典中的易错标识,得到预设文字,其中,该易错标识可以用于标识该电子文字字典中的生僻字或者多音字等容易读错读音的文字。然后,就可以获取每个预设文字的拼音标注信息,并将各预设文字以及对应的拼音标注信息存储到预设注音列表中。应理解的是,还可以对该预设注音列表中的预设文字以及各预设文字对应的拼音标注信息进行更新,从而更好的适应用户的数据标注需求。
67.在本公开实施例中,首先可以确定出上述待标注词条,并针对该待标注词条中的解释内容进行识别,从而得到识别结果。这里,该识别结果可以为该待标注词条的解释内容中的文字内容,然后,就可以基于该识别结果中的文字内容确定待处理文字,其中,该待处理文字可以为待标注词条的解释内容中的至少部分文字。
68.s103:在所述待处理文字中确定与所述预设注音列表相匹配的至少一个第一待注音文字。
69.s105:确定所述预设注音列表中与所述第一待注音文字相匹配的目标预设文字的
拼音标注信息。
70.在本公开实施例中,上述预设注音列表中可以存储多个预设文字以及每个预设文字的拼音标注信息。这里,该拼音标注信息的内容可以包含以下至少之一:预设文字的编号、预设文字的至少一个注音数据、每个注音数据对应的词组。需要说明的是,不同的预设文字对应的内容信息可以是不同的,例如,在预设文字的文字类型不同的情况下,拼音标注信息的内容可以是不同的。
71.在确定出上述待处理文字中包含与预设注音列表相匹配的至少一个第一待注音文字的情况下,可以获取该预设注音列表中与第一待注音文字相匹配的目标预设文字的拼音标注信息,其中,目标预设文字和该第一待注音文字为相同文字。
72.s107:基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的注音数据。
73.这里,可以自动获取目标预设文字的拼音标注信息中的注音数据,并将获取到的注音数据确定为第一待注音文字的注音数据。
74.在获取到目标预设文字的拼音标注信息中的注音数据之后,还可以将获取到的注音数据发送至标注方,以使标注方确定获取到的注音数据是否为第一待注音文字的注音数据。
75.在确定出第一待注音文字的注音数据之后,可以在待处理文字中为第一待注音文字添加确定出的注音数据,并在检测到该待处理文字的显示请求之后,在第一待注音文字所对应的注音显示位置展示该注音数据,以便其他用户在查看上述待标注词条时可以同时查看第一待注音文字的注音数据。
76.在本公开实施例中,预先设定了用于指示各预设文字的拼音标注信息的预设注音列表,因此,在数据标注的过程中,首先获取待处理文字和预设注音列表,并在待处理文字中确定与预设注音列表相匹配的至少一个第一待注音文字,接下来,可以在预设注音列表中确定与第一待注音文字相匹配的目标预设文字的拼音标注信息,并基于该拼音标注信息确定第一待注音文字的注音数据,从而完成针对待处理文字中第一待注音文字的数据标注。通过上述处理方式,可以实现自动在待处理文字中确定待注音的文字(即第一待注音文字),并自动完成对待注音的文字的注音操作,从而提高了数据标注效率,进而可以有效避免用户在阅读待处理文字时的阅读障碍,提高了用户的使用体验。
77.在一个可选的实施方式中,上述步骤s107,基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的注音数据,具体包括如下过程:
78.s1071:基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的文字类型;所述文字类型用于指示该第一待注音文字所包含的文字拼音的数量。
79.在本公开实施例中,可以根据预设注音列表中预设文字所包含的文字拼音的数量对各预设文字进行分类。例如,在预设文字所包含的文字拼音的数量为一个的情况下,该预设文字的文字类型可以为单音字;在预设文字所包含的文字拼音的数量为多个的情况下,该预设文字的文字类型可以为多音字(也即,下述第一文字类型)。
80.这里,上述拼音标注信息可以用于指示目标预设文字的文字类型,因此,在确定出第一待注音文字所对应的目标预设文字的拼音标注信息后,可以基于该拼音标注信息确定目标预设文字的文字类型,并将该目标预设文字的文字类型确定为该第一待注音文字的文
字类型。
81.s1072:基于所述文字类型确定所述第一待注音文字的注音数据。
82.在本公开实施例中,在确定出第一待注音文字的文字类型之后,就可以基于该文字类型在目标预设文字的拼音标注信息中确定第一待注音文字的注音数据。
83.如果文字类型为单音字,那么目标预设文字的拼音标注信息的内容可以包含:预设文字的编号、预设文字的一个注音数据,其中,该注音数据用于指示该预设文字的预设文字拼音;如果文字类型为多音字,那么目标预设文字的拼音标注信息的内容可以包含:预设文字的编号、预设文字的多个注音数据、每个注音数据对应的词组,其中,每个注音数据用于指示该预设文字的一个预设文字拼音。此时,就可以基于文字类型,在拼音标注信息所包含的一个或多个预设文字拼音中确定与第一待注音文字相对应的预设文字拼音为该第一待注音文字的注音数据。
84.举例来说,在该第一待注音文字的文字类型为单音字的情况下,就可以获取该第一待注音文字对应的目标预设文字的拼音标注信息,并将该拼音标注信息中的预设文字拼音确定为第一待注音文字的注音数据。
85.在本公开实施例中,通过确定第一待注音文字的文字类型,并基于该文字类型确定第一待注音文字的注音数据的方式,可以更加准确的确定出不同文字类型的第一待注音文字的注音数据,从而提高了第一待注音文字的注音数据的准确性。
86.在一个可选的实施方式中,在第一待注音文字的文字类型为多音字的情况下,与第一待注音文字相匹配的目标预设文字的拼音标注信息中包含多个预设文字拼音,那么,上述步骤s1072,基于所述文字类型确定所述第一待注音文字的注音数据,具体包括如下过程:
87.s11、在确定所述文字类型为第一文字类型的情况下,在所述预设注音列表中确定与所述目标预设文字相对应的多个词组;其中,所述第一文字类型用于指示所述第一待注音文字对应多个文字拼音,每个所述词组对应该目标预设文字的一个预设文字拼音;
88.s12、在所述多个词组中确定与所述第一待注音文字在待处理文字中的语境信息相关联的目标词组,并基于所述目标词组所对应的预设文字拼音确定所述第一待注音文字的注音数据。
89.在本公开实施例中,第一文字类型可以理解为上述多音字。在确定出第一待注音文字的文字类型为第一文字类型的情况下,可以在预设注音列表中确定与该第一待注音文字相匹配的目标预设文字的多个词组。之后,可以确定第一待注音文字在待处理文字中的语境信息。这里,该语境信息可以用于指示该第一待注音文字在待处理文字中所属的语境词组,例如,该第一待注音文字为“没”,该第一待注音文字在待处理文字中所属的语境词组可以为“没收”。
90.接下来,就可以在确定出的多个词组中确定和该语境词组相关联的目标词组。具体的,该目标词组可以与语境词组相关但不相同,也可以与语境词组相同。
91.举例来说,假如上述第一待注音文字为“凹”,“凹”包含两个预设文字拼音,分别为“ā
o”和“w
ā”,在预设注音列表中包含目标注音文字“凹”的情况下,该目标注音文字“凹”的每个预设文字拼音都可以对应至少一个词组。例如,预设文字拼音“w
ā”对应的词组可以:贾平凹,预设文字拼音“ā
o”对应的词组可以为:凹面、凹洼、凹陷、凹地等。
92.在该第一待注音文字“凹”在待处理文字中所属的语境词组为凹岸的情况下,就可以确定和该语境词组相关联的目标词组为凹洼,接下来,就可以将该目标词组凹洼所对应的预设文字拼音“ā
o”确定为第一待注音文字的注音数据。另外,在该第一待注音文字“凹”在待处理文字中所属的语境词组为贾平凹的情况下,该语境词组和预设注音列表中存储的目标词组相同,此时,就可以将该目标词组贾平凹所对应的预设文字拼音“w
ā”直接确定为第一待注音文字的注音数据。
93.另外,在目标词组和语境词组相关但不相同的情况下,可以获取待处理文字中的语境词组,并将该语境词组更新到预设注音列表中与该第一待注音文字相匹配的目标预设文字所对应的拼音标注信息的词组中。
94.这里,在预设文字包含多个预设文字拼音的情况下,针对每个预设文字拼音,在预设注音列表均可以设置一个或多个对应的词组,以通过该词组表示该预设文字在对应预设文字拼音下的语义信息。
95.例如,在上述第一待注音文字“凹”在待处理文字中所属的语境词组为凹岸的情况下,就可以将该语境词组凹岸更新到预设注音列表中与该目标预设文字“凹”的预设文字拼音“ā
o”所对应的词组中。
96.在本公开实施例中,在确定第一待注音文字的文字类型为第一文字类型的情况下,可以基于该第一待注音文字在待处理文字中的语境信息确定出该第一待注音文字在预设注音列表中对应的目标词组。通过上述处理方式,可以提高确定第一待注音文字的注音数据的准确性。另外,通过将语境词组更新到预设注音列表的目标预设文字所对应的拼音标注信息中,可以完善预设注音列表中预设文字的词组,从而进一步提高文字注音的准确性。
97.在一个可选的实施方式中,上述步骤s1072,基于所述文字类型确定所述第一待注音文字的注音数据,具体包括如下过程:
98.s21、在确定所述文字类型为第一文字类型的情况下,在所述预设注音列表中确定所述目标预设文字相对应的多个预设文字拼音;其中,所述第一文字类型用于指示所述第一待注音文字对应多个文字拼音;
99.s22、向标注方发送目标确认信息;其中,所述目标确认信息中携带所述多个预设文字拼音和所述第一待注音文字;
100.s23、获取所述标注方基于所述目标确认信息反馈的预设文字拼音,并基于所述反馈的预设文字拼音确定所述第一待注音文字的注音数据。
101.在本公开实施例中,在确定出上述第一待注音文字的文字类型为第一文字类型(即,多音字)的情况下,可以确定该第一待注音文字在预设注音列表中对应的目标预设文字的多个预设文字拼音,并基于获取到的多个预设文字拼音和第一待注音文字确定目标确认信息,接下来,可以通过服务器将该目标确认信息发送至标注方。
102.这里,上述标注方在获取到该目标确认信息后,可以确定该目标确认信息所指示的多个预设文字拼音和第一待注音文字。这里,在确定出该第一待注音文字后,还可以确定该第一待注音文字所属的待处理文字,从而确定该第一待注音文字的语境信息,以便结合该语境信息确定该第一待注音文字的注音数据。
103.具体实施时,标注方首先可以在目标确认信息所指示的多个预设文字拼音中查找
与第一待注音文字相匹配的预设文字拼音。在查找到相匹配的预设文字拼音后,就可以基于查找到的相匹配的预设文字拼音,对目标确认信息进行反馈。在获取到标注方基于目标确认信息反馈预设文字拼音后,就可以将反馈的预设文字拼音确定为第一待注音文字的注音数据。
104.另外的,若上述多个预设文字拼音中不包含第一待注音文字的注音数据,还可以手动添加正确的第一待注音文字的注音数据,并将该第一待注音文字的注音数据反馈给服务器。服务器在接收到该第一待注音文字的注音数据后,可以将该第一待注音文字的注音数据确定为第一待注音文字所对应的目标预设文字的预设文字拼音,并将该预设文字拼音更新到预设注音列表中。此外,还可以获取该第一待注音文字在待处理文字中的语境词组,并将该语境词组和预设文字拼音同时更新到预设注音列表中。
105.在本公开实施例中,在确定第一待注音文字的文字类型为第一文字类型的情况下,可以向标注方发送目标确认信息,以使标注方基于该目标确认信息确定该第一待注音文字的注音数据,可以进一步提高确定第一待注音文字的注音数据的准确性。
106.在一个可选的实施方式中,在图1所示实施例的基础上,上述方法还包括如下过程:
107.s1021:在获取所述待处理文字和所述预设注音列表之后,检测用户对所述待处理文字的编辑操作。
108.假设,待处理文字为待标注词条中的文字。在展示上述待标注词条的过程中,用户可以对该待标注词条进行编辑,例如,用户可以通过编辑操作对该待标注词条中的待处理文字进行编辑。
109.具体实施时,上述待标注词条中可以包含编辑标识,在检测到用户针对该编辑标识的触发操作后,就可以确定检测到针对待处理文字的编辑操作,并获取该待标注词条中的待处理文字。
110.s1022:响应于所述编辑操作,展示文字编辑窗口,并在所述文字编辑窗口中展示所述待处理文字;所述文字编辑窗口为对所述待处理文字进行编辑的窗口。
111.在本公开实施例中,在检测到上述编辑操作后,就可以在显示界面中展示文字编辑窗口,并将获取到的待处理文字展示在该文字编辑窗口中。这里,该文字编辑窗口中可以包含文字编辑区域和功能栏区域。用户可以在文字编辑区域中对待处理文字进行修改、新增、删除、注音等操作,上述功能栏中包含多种编辑工具的工具标识,例如,文字加粗标识、字体选择标识、界面调整标识、图片插入标识等。
112.s1023:响应于用户对所述待处理文字的选择操作,确定与所述选择操作相对应的第二待注音文字,并展示所述第二待注音文字相对应的注音标识。
113.在本公开实施例中,可以检测用户针对待处理文字中至少部分文字的选择操作,并将选择操作所对应的至少部分文字确定待第二待注音文字。或者,还可以自动将待处理文字和预设注音列表进行匹配,从而自动识别该待处理文字中和预设注音列表相匹配的文字,在检测到用户的确认指令之后,确定检测到用户对待处理文字的选择操作,并将识别到的文字确定为第二待注音文字。
114.s1024:响应于对所述注音标识的触发操作,展示注音编辑窗口,并基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据。
115.在确定出该选择操作所对应的第二待注音文字之后,可以在显示界面的标识展示位置展示第二待注音文字的注音标识,以使用户通过触发该注音标识,唤起注音编辑窗口,并在该注音编辑窗口中通过注音操作确定第二待注音文字的注音数据。
116.这里,标识展示位置可以包括第一展示位置和第二展示位置,其中,该第一展示位置如图2所示,该第一展示位置为基于第二待注音文字进行确定的,由图2可知,第二待标注文字为“翳”,该注音标识可以位于“翳”的正上方。第二展示位置可以为文字编辑窗口的功能栏区域中的固定位置。
117.在本公开实施例中,用户可以通过编辑操作唤起文字编辑窗口,以便在该文字编辑窗口中对待处理文字进行拼音标注,从而提高了数据标注的自由度,更好的适应了用户的使用需求。
118.在一个可选的实施方式中,在注音编辑窗口中包括第一注音区域和第二注音区域的情况下,上述步骤s1024,基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据,具体包括如下过程:
119.步骤s10241、检测用户在所述第一注音区域输入的拼音数据,并检测用户在所述第二注音区域中输入的声调数据;
120.步骤s10242、基于所述声调数据对所述拼音数据进行标注,得到所述拼音数据的声调标注结果,并基于所述拼音数据的声调标注结果确定所述第二待注音文字的注音数据。
121.在本公开实施例中,上述注音编辑窗口中可以包括第一注音区域和第二注音区域,其中,可以获取用户在第一注音区域中输入的第二待注音文字的拼音数据,以及用户在第二注音区域中输入的第二待注音文字的声调数据。
122.在检测到用户输入的拼音数据和声调数据之后,就可以根据注音规则,将声调数据标注在拼音数据中,得到拼音数据的声调标注结果,并基于拼音数据的声调标注结果确定第二待注音文字的注音数据。这里,该注音数据可以用于指示拼音数据的声调(声调可以分为:一声、二声、三声、四声以及轻声)。
123.具体的,拼音数据可以包含元音字母和辅音字母,上述注音规则如下:声调只能添加在拼音数据的几个元音上,包含:a、o、e、i、u、
ü
;当两个及以上元音连续出现时,若第一个元音为i、u、
ü
,声调添加在第二个元音上方,如,i
à
ng、li
à
o;若第一个元音不为i、u、
ü
,声调添加在第一个元音上方。
124.在本公开实施例中,在对第二待注音文字的注音数据进行输入的过程中,可以分别在注音编辑窗口中输入该第二待注音文字的拼音数据以及声调数据,从而完善了确定的注音数据的过程,使得最终得到的注音数据较为完整。
125.在一个可选的实施方式中,上述步骤s1024,展示注音编辑窗口,并基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据,具体包括如下过程:
126.(1)、在确定所述第二待注音文字为所述预设注音列表中预设文字的情况下,获取所述预设注音列表中与所述第二待注音文字相匹配的预设文字的拼音标注信息;
127.(2)、在所述注音编辑窗口中展示所述第二待注音文字和所述相匹配的预设文字的拼音标注信息;
128.(3)、在检测到用户对所述注音编辑窗口中所展示拼音标注信息的确认操作的情
况下,将所述注音编辑窗口中所展示的拼音标注信息确定为所述第二待注音文字的注音数据。
129.在本公开实施例中,首先可以确定第二待注音文字在当前的待标注词条中是否已有对应的注音数据。
130.在一种可选的实施方式中,在第二待注音文字在当前的待标注词条中不存在对应的注音数据的情况下,就可以确定该第二待注音文字是否为预设注音列表中的预设文字,并在第二待注音文字为预设注音列表中预设文字的情况下,确定该第二待注音文字在预设注音列表中对应的预设文字,并获取该预设文字的拼音标注信息。
131.接下来,如图3a所示为一种注音编辑窗口中展示内容的示意图,其中,在该第二待注音文字为预设注音列表中预设文字的情况下,可以将获取到的上述预设文字的拼音标注信息以及第二待注音文字展示在该注音编辑窗口中,其中,如图3所示的第二待注音文字为“伛”,该第二待注音文字的拼音标注信息为“y
ū”。
132.需要说明的是,在上述第二待注音文字的文字类型为第二文字类型(单音字)的情况下,该第二待注音文字在预设注音列表中所对应的预设文字只包含一个预设文字拼音,此时,就可以将该预设文字拼音所对应的拼音标注信息直接展示在注音编辑窗口中。
133.在上述第二待注音文字的文字类型为第一文字类型(多音字)的情况下,该第二待注音文字在预设注音列表中所对应的预设文字包含多个预设文字拼音,此时,可以按照默认选择要求选择一个第一预设文字拼音,并将第一预设文字拼音所对应的部分拼音标注信息展示在注音编辑窗口中。
134.在另一种可选的实施方式中,在第二待注音文字在当前的待标注词条中存在对应的注音数据的情况下,如图3a所示的展示方式,可以将该注音数据直接展示在注音编辑窗口中。
135.接下来,用户可以在注音编辑窗口中对第二待注音文字的拼音标注信息进行修改,得到修改之后的拼音标注信息,并通过确定操作对修改之后的拼音标注信息进行确认,从而得到第二待注音文字的注音数据。当然,用户也可以通过确认操作,直接在注音编辑窗口中对第二待注音文字的拼音标注信息进行确认,从而得到第二待注音文字的注音数据。
136.在本公开实施例中,可以确定第二待注音文字是否为预设注音列表中的预设文字,在该第二待注音文字为预设注音列表中预设文字的情况下,可以将该第二待注音文字的拼音标注信息展示在拼音编辑窗口中,通过该处理方式,可以减少用户针对第二待注音文字进行注音时的操作步骤,提高用户的操作体验。
137.在一个可选的实施方式中,上述步骤s1024,展示注音编辑窗口,并基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据,具体还包括如下过程:
138.(1)、在确定所述第二待注音文字不是所述预设注音列表中预设文字的情况下,在所述注音编辑窗口中展示输入提示信息;
139.(2)、检测用户对所述注音编辑窗口的输入操作,并基于所述输入操作所对应的输入数据确定所述第二待注音文字的注音数据。
140.在本公开实施例中,首先可以确定第二待注音文字在当前的待标注词条中是否已有对应的注音数据,在第二待注音文字在当前的待标注词条中不存在对应的注音数据的情况下,就可以确定该第二待注音文字是否为预设注音列表中的预设文字。
141.在该第二待注音文字不为预设注音列表中的预设文字的情况下,上述注音编辑窗口中展示内容的示意图如图3b所示,其中,上述输入提示信息可以为图3b中第一注音区域的拼音输入框中的“请输入拼音”。
142.接下来,就可以检测用户的输入操作所对应的输入数据,这里,该输入数据可以包含拼音数据以及声调数据。具体的,用户可以在注音编辑窗口的第一注音区域内输入第二待注音文字的拼音数据,并在注音编辑窗口的第二注音区域内输入第二待注音文字的声调数据。
143.这里,如图3a以及3b所示,该第二注音区域内可以包含四个声调标识(分别对应一声、二声、三声以及四声),在检测到用户针对目标声调标识的选择操作之后,可以确定该目标声调标识所对应的声调,从而确定出该第二待注音文字的声调数据。应理解的是,在用户未选择声调的情况下,该第二待注音文字的声调可以为轻声。
144.在本公开实施例中,在该第二待注音文字不是预设注音列表中预设文字的情况下,可以在拼音编辑窗口中展示输入提示信息,从而引导用户在拼音编辑窗口中输入该第二待注音文字的注音数据,提高用户的操作体验。
145.在一个可选的实施方式中,在确定第二待注音文字为预设注音列表中预设文字的情况下,上述在所述注音编辑窗口中展示所述第二待注音文字和所述相匹配的预设文字的拼音标注信息,具体包括如下过程:
146.(1)、在所述相匹配的预设文字的拼音标注信息包含多个预设文字拼音的情况下,在所述注音编辑窗口中展示所述多个预设文字拼音中的第一预设文字拼音,并在所述注音编辑窗口中展示目标展开标识;
147.(2)、检测用户对所述目标展开标识的触发操作,在所述注音编辑窗口中展示目标列表,并在所述目标列表中展示所述多个预设文字拼音中除所述第一预设文字拼音之外的其他预设文字拼音。
148.在本公开实施例中,首先可以获取与该第二待注音文字相匹配的预设文字的拼音标注信息,并确定该拼音标注信息中所包含的多个预设文字拼音,接下来,就可以在确定出的多个预设文字拼音中确定出第一预设文字拼音。
149.具体实施时,可以基于上述默认选择要求在多个预设文字拼音中确定出第一预设文字拼音,这里,可以为上述第二待注音文字设置目标列表,并将该目标列表展示在注音编辑窗口,并在目标列表中展示多个预设文字拼音中除所述第一预设文字拼音之外的其他预设文字拼音,其中,该默认选择要求可以为将该目标列表中的第一个预设文字拼音确定为第一预设文字拼音。
150.在本公开实施例中,如图4所示,可以将上述第一预设文字拼音展示在注音编辑窗口中的拼音输入框中,另外的,还可以在该拼音输入框的一侧展示目标展开标识。在检测到用户针对该目标展开标识的触发操作后,就可以在该注音编辑窗口中展示目标列表,并在目标列表中展示多个预设文字拼音中除第一预设文字拼音之外的其他预设文字拼音。
151.具体的,如图4所示,上述第二待注音文字为“褛”,该第二待注音文字“褛”的第一预设文字拼音为“l
ǚ”,目标列表中除第一预设文字拼音之外的其他预设文字拼音为“l
ó
u”。
152.接下来,就可以检测用户针对第一预设文字拼音或者目标列表中的其他预设文字拼音的选择操作,确定上述第二待注音文字的拼音数据。
153.在本公开实施例中,在上述第二待注音文字相匹配的预设文字的拼音标注信息包含多个预设文字拼音的情况下,可以将多个预设文字拼音都展示在注音编辑窗口中,从而便于用户选择第二待注音文字的拼音数据,减少用户针对第二待注音文字进行注音时的操作步骤,提高用户的操作体验。
154.通过上述描述可知,在本公开实施例中,预先设定了用于指示各预设文字的拼音标注信息的预设注音列表,因此,在数据标注的过程中,首先获取待处理文字和预设注音列表,并在待处理文字中确定与预设注音列表相匹配的至少一个第一待注音文字,接下来,可以在预设注音列表中确定与第一待注音文字相匹配的目标预设文字的拼音标注信息,并基于该拼音标注信息确定第一待注音文字的注音数据,从而完成针对待处理文字中第一待注音文字的数据标注。通过上述处理方式,可以实现自动在待处理文字中确定待注音的文字(即第一待注音文字),并自动完成对待注音的文字的注音操作,从而提高了数据标注效率,进而可以有效避免用户在阅读待处理文字时的阅读障碍,提高了用户的使用体验。
155.本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
156.基于同一发明构思,本公开实施例中还提供了与数据标注方法对应的数据标注装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据标注方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
157.参照图5所示,为本公开实施例提供的一种数据标注装置的示意图,所述装置包括:获取单元51、第一确定单元52、第二确定单元53、第三确定单元54;其中,
158.获取单元51,用于获取待处理文字和预设注音列表;其中,所述预设注音列表用于指示各预设文字的拼音标注信息;
159.第一确定单元52,用于在所述待处理文字中确定与所述预设注音列表相匹配的至少一个第一待注音文字;
160.第二确定单元53,用于确定所述预设注音列表中与所述第一待注音文字相匹配的目标预设文字的拼音标注信息;
161.第三确定单元54,用于基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的注音数据。
162.在本公开实施例中,预先设定了用于指示各预设文字的拼音标注信息的预设注音列表,因此,在数据标注的过程中,首先获取待处理文字和预设注音列表,并在待处理文字中确定与预设注音列表相匹配的至少一个第一待注音文字,接下来,可以在预设注音列表中确定与第一待注音文字相匹配的目标预设文字的拼音标注信息,并基于该拼音标注信息确定第一待注音文字的注音数据,从而完成针对待处理文字中第一待注音文字的数据标注。通过上述处理方式,可以实现自动在待处理文字中确定待注音的文字(即第一待注音文字),并自动完成对待注音的文字的注音操作,从而提高了数据标注效率,进而可以有效避免用户在阅读待处理文字时的阅读障碍,提高了用户的使用体验。
163.一种可能的实施方式中,第三确定单元54,还用于:
164.基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的文字类型;所述文字类型用于指示该第一待注音文字所包含的文字拼音的数量;
165.基于所述文字类型确定所述第一待注音文字的注音数据。
166.一种可能的实施方式中,所述目标预设文字的拼音标注信息包含多个预设文字拼音,第三确定单元54,还用于:
167.在确定所述文字类型为第一文字类型的情况下,在所述预设注音列表中确定与所述目标预设文字相对应的多个词组;其中,所述第一文字类型用于指示所述第一待注音文字对应多个文字拼音,每个所述词组对应该目标预设文字的一个预设文字拼音;
168.在所述多个词组中确定与所述第一待注音文字在待处理文字中的语境信息相关联的目标词组,并基于所述目标词组所对应的预设文字拼音确定所述第一待注音文字的注音数据。
169.一种可能的实施方式中,第三确定单元54,还用于:
170.在确定所述文字类型为第一文字类型的情况下,在所述预设注音列表中确定所述目标预设文字相对应的多个预设文字拼音;其中,所述第一文字类型用于指示所述第一待注音文字对应多个文字拼音;
171.向标注方发送目标确认信息;其中,所述目标确认信息中携带所述多个预设文字拼音和所述第一待注音文字;
172.获取所述标注方基于所述目标确认信息反馈的预设文字拼音,并基于所述反馈的预设文字拼音确定所述第一待注音文字的注音数据。
173.一种可能的实施方式中,该装置还用于:
174.在获取所述待处理文字和所述预设注音列表之后,检测用户对所述待处理文字的编辑操作;
175.响应于所述编辑操作,展示文字编辑窗口,并在所述文字编辑窗口中展示所述待处理文字;所述文字编辑窗口为对所述待处理文字进行编辑的窗口;
176.响应于用户对所述待处理文字的选择操作,确定与所述选择操作相对应的第二待注音文字,并展示所述第二待注音文字相对应的注音标识;
177.响应于对所述注音标识的触发操作,展示注音编辑窗口,并基于用户对所述注音编辑窗口的注音操作确定所述第二待注音文字的注音数据。
178.一种可能的实施方式中,所述注音编辑窗口中包括第一注音区域和第二注音区域,该装置还用于:
179.检测用户在所述第一注音区域输入的拼音数据,并检测用户在所述第二注音区域中输入的声调数据;
180.基于所述声调数据对所述拼音数据进行标注,得到所述拼音数据的声调标注结果,并基于所述拼音数据的声调标注结果确定所述第二待注音文字的注音数据。
181.一种可能的实施方式中,该装置还用于:
182.在确定所述第二待注音文字为所述预设注音列表中预设文字的情况下,获取所述预设注音列表中与所述第二待注音文字相匹配的预设文字的拼音标注信息;
183.在所述注音编辑窗口中展示所述第二待注音文字和所述相匹配的预设文字的拼音标注信息;
184.在检测到用户对所述注音编辑窗口中所展示拼音标注信息的确认操作的情况下,将所述注音编辑窗口中所展示的拼音标注信息确定为所述第二待注音文字的注音数据。
185.一种可能的实施方式中,该装置还用于:
186.在确定所述第二待注音文字不是所述预设注音列表中预设文字的情况下,在所述注音编辑窗口中展示输入提示信息;
187.检测用户对所述注音编辑窗口的输入操作,并基于所述输入操作所对应的输入数据确定所述第二待注音文字的注音数据。
188.一种可能的实施方式中,该装置还用于:
189.在所述相匹配的预设文字的拼音标注信息包含多个预设文字拼音的情况下,在所述注音编辑窗口中展示所述多个预设文字拼音中的第一预设文字拼音,并在所述注音编辑窗口中展示目标展开标识;
190.检测用户对所述目标展开标识的触发操作,在所述注音编辑窗口中展示目标列表,并在所述目标列表中展示所述多个预设文字拼音中除所述第一预设文字拼音之外的其他预设文字拼音。
191.对应于图1中的数据标注方法,本公开实施例还提供了一种计算机设备600,如图6所示,为本公开实施例提供的计算机设备600结构示意图,包括:
192.处理器61和存储器62;存储器62用于存储执行指令,包括内存621和外部存储器622;这里的内存621也称内存储器,用于暂时存放处理器61中的运算数据,以及与硬盘等外部存储器622交换的数据,处理器61通过内存621与外部存储器622进行数据交换,当所述计算机设备600运行时,所述处理器61与所述存储器62之间通信连接,使得所述处理器61执行以下指令:
193.获取待处理文字和预设注音列表;其中,所述预设注音列表用于指示各预设文字的拼音标注信息;
194.在所述待处理文字中确定与所述预设注音列表相匹配的至少一个第一待注音文字;
195.确定所述预设注音列表中与所述第一待注音文字相匹配的目标预设文字的拼音标注信息;
196.基于所述目标预设文字的拼音标注信息确定所述第一待注音文字的注音数据。
197.本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据标注方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
198.本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据标注方法的步骤,具体可参见上述方法实施例,在此不再赘述。
199.其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
200.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实
现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
201.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
202.另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
203.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
204.最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献