一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据的标注方法及装置与流程

2022-06-01 10:56:13 来源:中国专利 TAG:


1.本公开涉及网络技术领域,尤其涉及一种数据的标注方法及装置。


背景技术:

2.目前,在对媒体资源的数据进行处理时,通常需要对媒体资源的数据进行整理与标注。现有技术方案中,通过数据处理服务器将媒体资源信息和用户行为日志进行关联拼接,以完成对样本数据的标注。其中,媒体资源信息为媒体资源的信息,用户行为日志为用户对媒体资源进行操作时回传到数据处理服务器的数据。
3.然而,在现有技术中,由于媒体资源信息中包括媒体资源特征数据、媒体资源投放区域、媒体资源投放时间等,媒体资源信息的数据量非常大。因此,数据处理服务器标注媒体资源的数据的速度较慢,标注的效率较低。


技术实现要素:

4.本公开提供一种数据的标注方法及装置,数据的标注装置(也可以称为“数据处理服务器”)能够根据媒体资源信息获取用户行为日志,提高了查询用户行为日志的速度,从而加快了标注数据的速度,提高标注数据的效率。本公开的技术方案如下:
5.根据本公开的第一方面,提供一种数据的标注方法,该方法包括:
6.数据处理服务器确定第一媒体资源的投放时长,第一媒体资源与第一媒体资源信息相对应;在本地存储的媒体资源信息中,第一媒体资源信息中的投放时刻最早。数据处理服务器在确定第一媒体资源的投放时长大于预设时长后,获取第一媒体资源信息以及第一媒体资源信息对应的第一用户行为日志,第一用户行为日志用于表征对第一媒体资源执行的操作。之后,数据处理服务器对第一媒体资源信息和第一用户行为日志执行标注操作,确定目标数据。
7.可选的,上述“数据处理服务器确定第一媒体资源的投放时长”的方法包括:数据处理服务器从延迟队列中获取第一媒体资源信息中的投放时刻;延迟队列中存储有至少一个已投放媒体资源的媒体资源信息,第一媒体资源信息为延迟队列的列头元素;之后,数据处理服务器计算当前时刻与第一媒体资源信息中的投放时刻之间的时间间隔,确定第一媒体资源的投放时长。
8.可选的,上述“数据处理服务器获取第一媒体资源信息对应的第一用户行为日志”的方法包括:数据处理服务器确定第一媒体资源信息的关键词,并获取与第一媒体资源信息的关键词对应的第一用户行为日志,第一用户行为日志为根据第一媒体资源信息的关键词查询到的。
9.可选的,数据处理服务器从消息队列中获取至少一个已投放媒体资源的媒体资源信息,消息队列中存储有至少一个按照已投放媒体资源的投放时刻的先后顺序排列的媒体资源信息;数据处理服务器将至少一个已投放媒体资源的媒体资源信息按照投放时刻的先后顺序排列,并存储至延迟队列。
10.可选的,上述“数据处理服务器将至少一个已投放媒体资源的媒体资源信息按照投放时刻的先后顺序排列,并存储至延迟队列”的方法包括:数据处理服务器在延迟队列中媒体资源信息的数量小于延迟队列的长度的情况下,将至少一个已投放媒体资源的媒体资源信息按照投放时刻的先后顺序排列,并存储至延迟队列。
11.可选的,消息队列的媒体资源信息和延迟队列中的媒体资源信息具备同一标签信息,标签信息为时间、类型或区域中的至少一个。
12.根据本公开的第二方面,提供一种数据处理服务器,该数据处理服务器包括确定模块和获取模块。
13.上述确定模块,用于确定第一媒体资源的投放时长,第一媒体资源与第一媒体资源信息相对应;在本地存储的媒体资源信息中,第一媒体资源信息中的投放时刻最早。
14.上述获取模块,用于在确定第一媒体资源的投放时长大于预设时长后,获取第一媒体资源信息以及第一媒体资源信息对应的第一用户行为日志;第一用户行为日志用于表征对第一媒体资源执行的操作。
15.上述确定模块,还用于对第一媒体资源信息和第一用户行为日志执行标注操作,确定目标数据。
16.可选的,获取模块,还用于从延迟队列中获取第一媒体资源信息中的投放时刻;延迟队列中存储有至少一个已投放媒体资源的媒体资源信息,第一媒体资源信息为延迟队列的列头元素;确定模块,还用于计算当前时刻与第一媒体资源信息中的投放时刻之间的时间间隔,确定第一媒体资源的投放时长。
17.可选的,确定模块,还用于确定第一媒体资源信息的关键词;获取模块,还用于获取与第一媒体资源信息的关键词对应的第一用户行为日志,第一用户行为日志为根据第一媒体资源信息的关键词查询到的。
18.可选的,获取模块,还用于从消息队列中获取至少一个已投放媒体资源的媒体资源信息,消息队列中存储有至少一个已投放媒体资源的媒体资源信息;将至少一个已投放媒体资源的媒体资源信息按照投放时刻的先后顺序排列,并存储至延迟队列。
19.可选的,获取模块,具体用于在延迟队列中媒体资源信息的数量小于延迟队列的长度的情况下,将至少一个已投放媒体资源的媒体资源信息按照投放时刻的先后顺序排列,并存储至延迟队列。
20.可选的,消息队列的媒体资源信息和延迟队列中的媒体资源信息具备同一标签信息,标签信息为时间、类型或区域中的至少一个。
21.根据本公开的第三方面,提供一种服务器,服务器包括:
22.处理器;
23.用于存储处理器可执行指令的存储器;
24.其中,处理器被配置为执行指令,以实现上述第一方面中任一种可选地数据的标注方法。
25.根据本公开的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述第一方面中任一种可选地数据的标注方法。
26.根据本公开的第五方面,提供一种计算机程序产品,包含指令,当其在计算机上运
行时,使得计算机执行如第一方面中任一种可选地数据的标注方法。
27.根据本公开的第六方面,本公开提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的数据的标注方法。
28.本公开提供的技术方案至少带来以下有益效果:由于媒体资源被投放后,用户不会及时对媒体资源进行操作,或者,用户对媒体资源进行操作后,用户行为日志在发送到日志服务器的过程中存在延迟。因此,数据处理服务器会在一定时间后才能获取到用户行为日志。为了避免数据处理服务器因为过早去获取第一用户行为日志,而导致没有获取到第一用户行为日志,数据处理服务器在确定所述第一媒体资源信息所表征的媒体资源的投放时长大于预设时长后,才获取第一媒体资源信息,并获取第一媒体资源信息对应的第一用户行为日志,这样可以提高数据处理服务器获取到第一用户行为日志的概率,从而进一步提高标注数据的准确率。并且,与现有技术相比,由于用户行为日志的数据量远远小于媒体资源信息的数据量。因此,日志服务器获取媒体资源信息对应的第一用户行为日志所耗费的时间较短。因此,数据处理服务器可以更快的接收到用户行为日志,加快了标注数据的速度,提高了标注数据的效率。
29.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
30.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
31.图1是根据一示例性实施例示出的一种数据的标注系统的示意图。
32.图2a是根据一示例性实施例示出的一种数据的标注方法的流程图。
33.图2b是根据一示例性实施例示出的一种延迟队列的示意图。
34.图2c是根据一示例性实施例示出的另一种延迟队列的示意图。
35.图2d是根据一示例性实施例示出的另一种延迟队列的示意图。
36.图3a是根据一示例性实施例示出的另一种数据的标注方法的流程图。
37.图3b是根据一示例性实施例示出的一种消息队列的示意图。
38.图3c是根据一示例性实施例示出的另一种消息队列的示意图。
39.图3d是根据一示例性实施例示出的另一种消息队列的示意图。
40.图4是根据一示例性实施例示出的一种数据处理服务器的结构示意图。
41.图5是根据一示例性实施例示出的一种服务器的结构示意图。
具体实施方式
42.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
43.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
44.首先,对本公开实施例的应用场景进行介绍。
45.本公开实施例的数据的标注方法应用于依据媒体资源信息获取用户回传数据,并标注数据的场景中。在相关技术中,是将媒体资源信息存储在媒体资源投放服务器中,服务器依据用户行为日志的关键词获取用户行为日志对应的媒体资源信息。但是媒体资源信息的数据量非常大,因此,数据处理服务器接收媒体资源信息的时间较久,标注数据的效率较低。为了解决上述问题,本公开实施例提供一种数据的标注方法,先获取媒体资源信息,再获取媒体资源信息对应的用户行为日志。由于用户行为日志的数据量较小,因此可以较快地查询出用户行为日志,加快了标注数据的速度,提高了标注数据的效率。
46.接下来,对本公开实施例的实施环境进行介绍。
47.图1是根据一示例性实施例示出的一种数据的标注系统的示意图,本公开实施例提供的数据的标注方法可以应用于该数据的标注系统中。如图1所示,该数据的标注系统可以包括:日志服务器、媒体资源投放服务器、数据处理服务器。其中,日志服务器、媒体资源投放服务器之间通过有线通讯方式与数据处理服务器通信。
48.其中,日志服务器,用于获取用户对媒体资源进行操作后,生成的用户行为日志。之后,日志服务器可以将用户行为日志列入消息队列中,之后将用户行为日志存在数据库中。进一步的,日志服务器还可以接收数据处理服务器发送的查询消息,从而向数据处理服务器发送用户行为日志。
49.媒体资源投放服务器,用于获取媒体资源信息,并将媒体资源信息按照投放时刻的先后顺序,依次将媒体资源信息列入消息队列中。
50.可选的,在一些实施例中,日志服务器和媒体资源投放服务器可以是相互独立设置的,也可以是集成在同一台服务器,本公开对此不作限定。
51.数据处理服务器,主要用于标注数据。具体的,数据处理服务器可以获取媒体资源投放服务器中的媒体资源信息,并将媒体资源信息依次列入延迟队列中。数据处理服务器向日志服务器发送包含有媒体资源信息关键词的查询消息,并接收与媒体资源信息对应的用户行为日志。之后,数据处理服务器将媒体资源信息和用户行为日志按照关键词进行拼接确定出标注数据。可选的,数据处理服务器中包括至少一个线程池,一个线程池中包括至少一个线程。不同的线程可以执行不同的动作。
52.在介绍了本公开实施例的应用场景和实施环境之后,下面结合图1所示的数据的标注系统,对本公开实施例提供的数据的标注方法进行详细介绍。
53.图2a是根据一示例性实施例示出的一种数据的标注方法的流程图。如图2a所示,该方法可以包括步骤201-步骤204。
54.201、数据处理服务器确定第一媒体资源的投放时长。
55.在本公开实施例中,媒体资源可以为投放的广告资源、视频资源、音频资源等,本技术实施例对此不作限定。即第一媒体资源可以为第一广告资源、第一视频资源、第一音频资源等。
56.其中,第一媒体资源与第一媒体资源信息相对应。在本地存储的媒体资源信息中,
第一媒体资源信息中的投放时刻最早。也就是说,第一媒体资源信息为数据处理服务器中存储的媒体资源信息中,媒体资源信息中的投放时刻最早的媒体资源信息。
57.需要说明的是,在本公开实施例中,投放时刻为资源投放服务器将媒体资源投放至客户端的时间,即客户端显示该媒体资源的时刻。
58.在本公开实施例中,本地存储的媒体资源信息可以存储在延迟队列中。也就是说,延迟队列中存储有至少一个已投放媒体资源的媒体资源信息,第一媒体资源信息为延迟队列的列头元素。示例性的,如图2b所示,媒体资源信息a位于延迟队列的第一位置,媒体资源信息b位于延迟队列的第二位置,媒体资源信息c位于延迟队列的第三位置。其中,第一位置为延迟队列的列头。因此,媒体资源信息a为第一媒体资源信息。
59.需要说明的是,延迟队列中的媒体资源信息需要数据处理服务器从媒体资源投放服务器的消息队列中获取。具体对于数据处理服务器从媒体资源投放服务器的消息队列中获取媒体资源信息的描述,可以参考步骤301-步骤304,此处不再赘述。
60.其中,媒体资源的投放时长为媒体资源投放服务器投放媒体资源后的时间。
61.一种可能的实现方式,数据处理服务器从延迟队列中获取第一媒体资源信息中的投放时刻,延迟队列中存储有至少一个按照已投放媒体资源的投放时刻的先后顺序排列的媒体资源信息,第一媒体资源信息为延迟队列的列头元素。
62.之后,数据处理服务器计算当前时刻与第一媒体资源信息中的投放时刻之间的时间间隔,确定第一媒体资源的投放时长。也就是说,媒体资源的投放时长为媒体资源投放时刻的时间,与当前时刻的时间之间的时间。
63.示例性的,媒体资源a的投放时间为2020年07月20日三点十五分,当前时刻的时间为2020年07月20日三点十八分,则媒体资源a的投放时长为三分钟。
64.可以理解的是,由于延迟队列中是按照已投放媒体资源的投放时刻的先后顺序排列的。因此,数据处理服务可以优先获取投放时刻较早的媒体资源对应的媒体资源信息,进而提高数据处理服务器获取到第一用户行为日志的概率,从而提高标注数据的准确率。
65.202、数据处理服务器判断第一媒体资源的投放时长是否大于预设时长。
66.其中,该预设时长用于指示在媒体资源投放一定时长后,日志服务器会获取到用户行为日志。
67.需要说明的是,由于媒体资源投放服务器投放媒体资源后,用户不会及时对媒体资源进行操作,或者用户对媒体资源进行操作后,用户行为日志在发送到日志服务器的过程中存在延迟。因此,日志服务器会在一定时间后才能获取到用户行为日志。又由于数据处理服务器是查询媒体资源信息对应的用户行为日志。因此,开发人员可以设置预设时长,在保证延迟队列中的媒体资源信息所指示的媒体资源的投放时长大于预设时长时,也为日志服务器获取用户行为日志留下了时间。这样一来,避免了因为时间过短,导致日志服务器还未获取到用户行为日志,数据处理服务器就请求媒体资源信息对应的用户行为日志,造成确定的标注数据与实际情况不符,标注数据的准确率较低。
68.示例性的,日志服务器在媒体资源信息a对应的媒体资源的投放时长为4分钟时,获取并存储媒体资源信息a对应的用户行为日志。预设时长为5分钟。数据处理服务器获取位于延迟队列列头的媒体资源信息a,也就是说,媒体资源信息a列入延迟队列时日志服务器已经获取并存储了媒体资源信息a对应的用户行为日志。因此,数据处理服务器可以获取
到媒体资源信息a对应的用户行为日志。
69.可选的,预设时长由数据处理服务器根据历史用户行为日志确定。用户行为日志包括:投放标志(launch id)、媒体资源标志(advertisement id)、回传时长(return duration)、媒体资源类型(advertising type)、投放区域(launch area)、操作时长(operation duration)等。回传时长为日志服务器获取用户行为日志时的时间,与媒体资源的投放时间之间的差值。媒体资源类型包括:点击类型媒体资源、表单类型媒体资源等。点击类型媒体资源用于指示用户点击媒体资源后,日志服务器就会获取用户行为日志,表单类型媒体资源用于指示用户填写表单并提交后,日志服务器就会获取到用户行为日志。操作时长为用户对媒体资源操作的时间。
70.需要说明的是,由于投放区域不同,媒体资源类型不同,日志服务器获取到用户行为日志的时间也不同。因此,日志服务器既可以根据投放区域确定预设时长,也可以根据媒体资源类型确定预设时长。以上只是本公开实施例对如何确定预设时长进行举例说明,本公开实施例对确定预设时长的方法不做限定。
71.一种可能的设计中,若数据处理服务器确定第一媒体资源的投放时长大于预设时长,则执行步骤203。若数据处理服务器确定第一媒体资源的投放时长小于预设时长,则数据处理服务器不会获取第一媒体资源信息以及第一媒体资源信息对应的第一用户行为日志。
72.203、数据处理服务器获取第一媒体资源信息以及第一媒体资源信息对应的第一用户行为日志。
73.其中,日志服务器存储有至少一个用户行为日志。第一用户行为日志用于表征对第一媒体资源执行的操作。
74.一种可能的实现方式,数据处理服务器从延迟队列中获取第一媒体资源信息。之后,数据处理服务器确定第一媒体资源信息的关键词,并获取与第一媒体资源信息的关键词对应的第一用户行为日志。其中,第一用户行为日志为根据第一媒体资源信息的关键词查询到的。
75.需要说明的是,媒体资源信息包括:投放时间、投放区域、媒体资源类型、媒体资源标志、投放标志等。媒体资源信息的关键词包括:投放标志、媒体资源标志、以及媒体资源类型。
76.示例性的,数据处理服务器向日志服务器发送第一媒体资源的投放标志、第一媒体资源标志、以及第一媒体资源类型,请求获取对应的第一用户行为日志。之后,数据处理服务器接收日志服务器发送的第一用户行为日志。例如,媒体资源信息a的关键词为launch id=111、advertisement id=222、advertising type=01。数据服务器将媒体资源信息a的关键词发送至日志服务器,日志服务器根据媒体资源信息a的关键词生成结构化查询语言(structured query language,sql)语句。之后,日志服务器执行该sql语句,从数据库中查找出launch id=111、advertisement id=222、advertising type=01的用户行为日志,并将该用户行为日志发送至数据处理服务器。
77.可以理解的是,数据处理服务器在确定第一媒体资源信息的关键词后,可以根据关键词获取对应的第一用户行为日志。这样一来,由于用户行为日志的数据量远远小于媒体资源信息的数据量。因此,日志服务器获取媒体资源信息对应的第一用户行为日志所耗
费的时间较短。因此,数据处理服务器可以更快的接收到用户行为日志,加快了标注数据的速度,提高了标注数据的效率。
78.可选的,数据处理服务器获取到的与第一媒体资源信息对应的用户行为日志为空值(null)。
79.需要说明的是,在媒体资源投放服务器将媒体资源投放给用户后,会有一部分用户对投放的媒体资源进行操作,从而生成用户行为日志。但是,还有一部分用户不会对媒体资源进行操作,无法生成用户行为日志。这样一来,日志服务器中就不会存储有该媒体资源对应的用户行为日志。在数据处理服务器请求获取与媒体资源信息对应的用户行为日志时,数据处理服务器会接收到日志服务器发送的“null”。
80.需要说明的是,在本公开实施例中,数据处理服务器在从延迟队列中获取第一媒体资源信息之后,第一媒体资源信息会发生变化。例如,结合图2b,如图2c所示,数据处理服务器获取媒体资源信息a之后,即媒体资源信息a从延迟队列中出队。这样一来,媒体资源信息b就会从延迟队列的第二位置,移动到延迟队列的第一位置,媒体资源信息c从延迟队列的第三位置,移动到延迟队列的第二位置。也就是说,此时,媒体资源信息b为第一媒体资源信息。又例如,结合图2c,如图2d所示,数据处理服务器获取媒体资源信息b之后,即媒体资源信息b从延迟队列中出队。这样一来,媒体资源信息c就会从延迟队列的第二位置,移动到延迟队列的第一位置。也就是说,此时,媒体资源信息c为第一媒体资源信息。
81.204、数据处理服务器对第一媒体资源信息和第一用户行为日志执行标注操作,确定目标数据。
82.一种可能的实现方式,数据处理服务器将第一媒体资源信息和与第一用户行为日志,按照关键字进行关联拼接,确定目标数据。
83.示例性的,在第一媒体资源信息对应的用户行为日志不为空值时,第一媒体资源信息对应的用户行为日志为“{launch id=111、advertisement id=222、advertising type=01、return duration=3、operation duration=1}”,第一媒体资源信息为“{launch id=111、advertisement id=222、advertising type=01、launch area=01}”。则标注数据为“{launch id=111、advertisement id=222、advertising type=01、return duration=3、operation duration=1、launch area=01}”。
84.示例性的,在第一媒体资源信息对应的用户行为日志为空值时,第一媒体资源信息对应的用户行为日志为“{null}”,第一媒体资源信息为“{launch id=111、advertisement id=222、advertising type=01、launch area=01}”。则标注数据为“{launch id=111、advertisement id=222、advertising type=01、launch area=01}”。
85.需要说明的是,在第一媒体资源信息对应的用户行为日志不为空值时,说明用户对媒体资源进行了操作,则数据处理服务器根据第一媒体资源信息和与第一媒体资源信息对应的用户行为日志,确定的标注数据为正标注数据;在第一媒体资源信息对应的用户行为日志为空值时,说明用户未对媒体资源进行操作,则数据处理服务器根据第一媒体资源信息和空值,确定的标注数据为负标注数据。
86.需要说明的是,上述目标数据可以用于对媒体资源模型(该媒体资源模型可以预测用户对媒体资源进行操作如点击的概率)进行训练。本公开实施例对目标数据的作用不
作限定。
87.上述实施例提供的技术方案至少带来以下有益效果:由于媒体资源被投放后,用户不会及时对媒体资源进行操作,或者,用户对媒体资源进行操作后,用户行为日志在发送到日志服务器的过程中存在延迟。因此,数据处理服务器会在一定时间后才能获取到用户行为日志。为了避免数据处理服务器因为过早去获取第一用户行为日志,而导致没有获取到第一用户行为日志,数据处理服务器在确定所述第一媒体资源信息所表征的媒体资源的投放时长大于预设时长后,才获取第一媒体资源信息,并获取第一媒体资源信息对应的第一用户行为日志,这样可以提高数据处理服务器获取到第一用户行为日志的概率,从而进一步提高标注数据的准确率。并且,与现有技术相比,由于用户行为日志的数据量远远小于媒体资源信息的数据量。因此,日志服务器获取媒体资源信息对应的第一用户行为日志所耗费的时间较短。因此,数据处理服务器可以更快的接收到用户行为日志,加快了标注数据的速度,提高了标注数据的效率。
88.由于数据处理服务器的延迟队列的长度有限,当延迟队列中的媒体资源信息的数量等于延迟队列的长度,延迟队列无法继续存储媒体资源信息。因此,在数据处理服务器从媒体资源投放服务器的消息队列中获取媒体资源信息之前,需要判断列入延迟队列中媒体资源信息的数量否小于延迟队列的长度。
89.图3a是根据一示例性实施例示出的一种媒体资源信息列入延迟队列的入队方法的流程图,当该方法应用于数据处理服务器从媒体资源投放服务器获取媒体资源信息时。如图3a所示,该方法可以包括步骤301-步骤304。
90.301、数据处理服务器检测延迟队列中媒体资源信息的数量。
91.示例性的,延迟队列中包括媒体资源信息a、媒体资源信息b、媒体资源信息c,则延迟队列中媒体资源信息的数量为3。
92.302、数据处理服务器判断延迟队列中媒体资源信息的数量是否小于延迟队列的长度。
93.可选的,若数据处理服务器判断延迟队列中媒体资源信息的数量大于或等于延迟队列的长度,则数据处理服务器重新执行步骤301。
94.可以理解的是,若延迟队列中媒体资源信息的数量等于延迟队列的长度,说明延迟队列已满,延迟队列中已经无法列入新的媒体资源信息。因此,数据处理服务器需要重新检测延迟队列中媒体资源信息的数量。这样一来,可以避免延迟队列中的数量过多,导致数据处理服务器的稳定性降低。
95.可选的,若数据处理服务器判断延迟队列中媒体资源信息的数量小于延迟队列的长度,则数据处理服务器执行步骤303。
96.可以理解的是,若延迟队列中的数量小于延迟队列的长度,说明延迟队列未满,延迟队列中仍可以列入媒体资源信息。这样一来,可以保障延迟队列中媒体资源信息的数量不会太多,从而提高数据处理服务器的稳定性。
97.303、数据处理服务器从消息队列中获取至少一个已投放媒体资源的媒体资源信息。
98.其中,消息队列中存储有至少一个已投放媒体资源的媒体资源信息。
99.可选的,消息队列中有至少一个按照日志服务器向客户端发送媒体资源时的发送
时刻的先后顺序排列的媒体资源信息。
100.需要说明的是,由于网络延迟等原因,日志服务器向客户端发送媒体资源时的发送时刻可能与投放时刻不同。也就是说,日志服务器在第一时刻向客户端发送媒体资源之后,客户端可能在第二时刻显示该媒体资源,第一时刻可能与第二时刻相同,或者,第二时刻可能晚于第一时刻。
101.一种可能的实现方式,消息队列中的媒体资源信息是按照日志服务器向客户端发送媒体资源时的发送时刻从小到大进行排序的。即消息队列中的媒体资源信息是按照升序的方式排序的。也就是说,媒体资源发送时刻较早的媒体资源信息会先列入消息队列中,媒体资源发送时刻较晚的媒体资源信息会后列入消息队列中。
102.示例性的,媒体资源信息a的媒体资源投放时间为2020年07月20日三点十五分,媒体资源信息b的媒体资源投放时间为2020年07月20日三点十六分,媒体资源信息c的媒体资源投放时间为2020年07月20日三点十四分。则如图3b所示,媒体资源信息c会优先被列入消息队列的列尾,由于在媒体资源信息c列入消息队列之前,消息队列中不存在数据,因此,媒体资源信息c位于消息队列的第一位置,即消息队列的列头。如图3c所示,媒体资源信息a第二个被列入消息队列的列尾,媒体资源信息a位于消息队列的第二位置。如图3d所示,媒体资源信息b第三个被列入消息队列的列尾,媒体资源信息b位于消息队列的第三位置。
103.另一种可能的实现方式,消息队列中的媒体资源信息是按照媒体资源发送时刻从大到小进行排序的。即消息队列中的媒体资源信息是按照降序的方式排序的。也就是说,媒体资源发送时刻较晚的媒体资源信息会先列入消息队列中,媒体资源发送时刻较早的媒体资源信息会后列入消息队列中。
104.需要说明的是,在实际应用中,大部分消息队列中的媒体资源信息是按照降序的方式排序的。这样一来,数据处理服务器能够及时获取到每一个发送时刻较早的媒体资源。并且,通常情况下,发送时刻较早的媒体资源,其对应的媒体资源信息中的投放时刻也较早。因此,数据处理服务器可以及时获取到每一个投放时长大于预设时长的第一媒体资源信息。
105.可选的,消息队列的媒体资源信息和延迟队列中的媒体资源信息具备同一标签信息。该标签为时间、类型或区域中的至少一个。
106.具体的,媒体资源投放服务器将至少一个媒体资源信息根据标签信息进行分区,将媒体资源信息列入到不同的消息队列中。每一个消息队列中的媒体资源信息的标签信息相同。示例性的,媒体资源信息a的对应的媒体资源的类型为点击类型,媒体资源信息b对应的媒体资源的类型为点击类型,媒体资源信息c对应的媒体资源的类型为表单类型,则媒体资源投放服务器根据媒体资源类型,将媒体资源信息a和媒体资源信息b列入第一消息队列,将媒体资源信息c列入第二消息队列。
107.延迟队列根据标签信息,从与其对应的消息队列中获取第一媒体资源信息。示例性的,第一消息队列包括媒体资源信息a和媒体资源信息b,第二消息队列包括媒体资源信息c。第一延迟队列中媒体资源信息的标签信息与第一消息队列中媒体资源信息的标签信息相同。因此,第一延迟队列从第一消息队列中获取媒体资源信息。
108.需要说明的是,由于媒体资源信息的数量巨量较大,导致媒体资源投放服务器的稳定性降低,可能使媒体资源信息的数据发生错误,造成标注数据与实际情况不符,进而影
响标注数据的准确率。因此,数据处理服务器根据标签信息执行分区操作,能够将海量的媒体资源信息进行分区隔离,减小数据之间的相互影响。进一步的,由于减小了数据之间的相互影响,进而可以提高标注数据的准确率。
109.可选的,数据处理服务器通过一个线程池处理一个延迟队列中的媒体资源信息。每一个延迟队列都有与其对应的线程池。这样一来,可以保证任务隔离,减小数据之间的相互影响。
110.可选的,一个线程池中包括多个线程。这样一来,多个线程同时对媒体资源信息进行处理,例如第一线程负责从媒体资源投放服务器拉取第一媒体资源信息,第二线程负责完成标注数据的拼接等,可以提高标注数据的效率。
111.304、数据处理服务器将至少一个已投放媒体资源的媒体资源信息按照投放时刻的先后顺序排列,并存储至延迟队列。
112.一种可能的实现方式,延迟队列中的媒体资源信息是按照媒体资源投放时刻从小到大进行排序的。即延迟队列中的媒体资源信息是按照升序的方式排序的。
113.另一种可能的实现方式,延迟队列中的媒体资源信息是按照媒体资源投放时刻从大到小进行排序的。即延迟队列中的媒体资源信息是按照降序的方式排序的。
114.需要说明的是,在实际应用中,延迟队列中的媒体资源信息通常是按照降序的方式排序的。这样一来,数据处理服务器能够及时获取到每一个投放时刻较早的媒体资源。又由于数据处理服务器只可以获取位于延迟队列头的媒体资源信息,且该媒体资源信息对应的媒体资源的投放时长需要大于预设时长。因此,延迟队列中的媒体资源信息按照降序的方式排序,能够保障数据处理服务器每次从延迟队列中获取的均为投放时长最大的媒体资源对应的媒体资源信息,从而减少了数据处理服务器从延迟队列获取媒体资源信息的时间,提高了数据处理服务器处理媒体资源信息的效率。
115.上述实施例提供的技术方案至少带来以下有益效果:数据处理服务器通过对延迟队列中媒体资源信息的数量的判断,能够将满足条件的第一媒体资源信息列入延迟队列中。
116.可以理解的是,上述方法可以由数据处理服务器实现。数据处理服务器为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。
117.本公开实施例可以根据上述方法示例对上述数据处理服务器等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
118.图4是根据一示例性实施例示出的一种数据处理服务器的结构框图。参照图4,该数据处理服务器40包括确定模块41和获取模块42。
119.确定模块41,被配置为执行确定第一媒体资源的投放时长,第一媒体资源与第一媒体资源信息相对应;在本地存储的媒体资源信息中,第一媒体资源信息中的投放时刻最早。
120.确定模块42,被配置为在确定第一媒体资源的投放时长大于预设时长后,获取第一媒体资源信息以及第一媒体资源信息对应的第一用户行为日志;第一用户行为日志用于表征对第一媒体资源执行的操作。
121.确定模块41,被配置为对第一媒体资源信息和第一用户行为日志执行标注操作,确定目标数据。
122.可选的,获取模块42,还被配置为从延迟队列中获取第一媒体资源信息中的投放时刻;延迟队列中存储有至少一个按照已投放媒体资源的投放时刻的先后顺序排列的媒体资源信息,第一媒体资源信息为延迟队列的列头元素。
123.确定模块41,还被配置为执行计算当前时刻与第一媒体资源信息中的投放时刻之间的时间间隔,确定第一媒体资源的投放时长。
124.可选的,确定模块41,还被配置为执行确定第一媒体资源信息的关键词。
125.获取模块42,被配置为执行获取与第一媒体资源信息的关键词对应的第一用户行为日志,第一用户行为日志为根据第一媒体资源信息的关键词查询到的。
126.可选的,获取模块42,具体被配置为执行从消息队列中获取至少一个已投放媒体资源的媒体资源信息,消息队列中存储有至少一个已投放媒体资源的媒体资源信息;将至少一个已投放媒体资源的媒体资源信息按照投放时刻的先后顺序排列,并存储至延迟队列。
127.可选的,获取模块42,具体被配置为执行在延迟队列中媒体资源信息的数量小于延迟队列的长度的情况下,将至少一个已投放媒体资源的媒体资源信息按照投放时刻的先后顺序排列,并存储至延迟队列。
128.可选的,消息队列的媒体资源信息和延迟队列中的媒体资源信息具备同一标签信息,标签信息为时间、类型或区域中的至少一个。
129.关于上述实施例中的数据处理服务器,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
130.图5是本公开实施例提供的一种服务器50的结构示意图,该服务器50可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,cpu)51和一个或一个以上的存储器52,其中,存储器52中存储有至少一条指令,至少一条指令由处理器51加载并执行以实现上述各个方法实施例提供的群组通信方法。当然,该服务器50还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器50还可以包括其他用于实现设备功能的部件,在此不做赘述。
131.本公开还提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,当存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述本公开实施例提供的群组通信方法。
132.本公开实施例还提供了一种包含指令的计算机程序产品,当其在服务器上运行时,使得服务器执行上述本公开实施例提供的数据的标注方法。
133.本公开实施例还提供一种数据的标注系统,如图1所示,该系统包括至少两个服务
器。其中,至少两个服务器,分别用于执行本公开上述实施例中的相应步骤,从而以使该数据的标注系统解决本公开实施例所解决的技术问题,以及实现本公开实施例所实现的技术效果,在此不再赘述。
134.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
135.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献