模型训练方法、装置、设备及存储介质与流程

2022-08-03 05:52:47 来源：中国专利 TAG：

1.本技术实施例涉及计算机
技术领域：
：，尤其涉及一种模型训练方法、装置、设备及存储介质。
背景技术：
：：2.多媒体内容的安全性、健康性至关重要，因此，通常需要对多媒体内容标注标签。为了保证标注效率和准确性，一般会采用机器标注与人工标注的结合方式，过程如下：多媒体服务器可以获取待标注内容，并将待标注内容输入至神经网络模型中，得到待标注内容的标签，进一步地，将待标注内容和对应的标签发送给用户设备。用户设备进行页面渲染，以在标注页面上展示待标注内容和对应的标签，以便标注人员在标注页面上进行人工标注。然而，目前的标注页面呈现较为单一。技术实现要素：3.本技术提供一种模型训练方法、装置、设备及存储介质，从而可以保证标注页面的多样性，进而可以提高用户体验感。4.第一方面，提供一种模型训练方法，包括：获取第一待标注内容的至少一个初始标签和对应的标注人员信息；将第一待标注内容的至少一个初始标签和对应的标注人员信息输入至标注页面生成模型，得到第一待标注内容的至少一个目标标签和页面展示参数，标注页面生成模型是基于强化学习算法的模型；将第一待标注内容的至少一个目标标签和页面展示参数发送至对应的用户设备，以使该用户设备基于第一待标注内容的至少一个目标标签和页面展示参数展示第一待标注内容对应的标注页面；将第一待标注内容的至少一个初始标签和对应的标注人员信息作为强化学习算法中的状态、第一待标注内容的至少一个目标标签和页面展示参数作为强化学习算法中的行动，以训练标注页面生成模型。5.第二方面，提供一种页面展示方法，包括：获取第二待标注内容的至少一个初始标签和对应的标注人员信息；将第二待标注内容的至少一个初始标签和对应的标注人员信息输入至由上述模型训练方法所训练得到的标注页面生成模型，以得到第二待标注内容的至少一个目标标签和页面展示参数；将第二待标注内容的至少一个目标标签和页面展示参数发送至对应的用户设备，以使该用户设备基于第二待标注内容的至少一个目标标签和页面展示参数展示第二待标注内容对应的标注页面。6.第三方面，提供一种模型训练装置，包括：获取模块、输入模块、发送模块和训练模块，获取模块用于获取第一待标注内容的至少一个初始标签和对应的标注人员信息；输入模块用于将第一待标注内容的至少一个初始标签和对应的标注人员信息输入至标注页面生成模型，得到第一待标注内容的至少一个目标标签和页面展示参数，标注页面生成模型是基于强化学习算法的模型；发送模块用于将第一待标注内容的至少一个目标标签和页面展示参数发送至对应的用户设备，以使该用户设备基于第一待标注内容的至少一个目标标签和页面展示参数展示第一待标注内容对应的标注页面；训练模块用于将第一待标注内容的至少一个初始标签和对应的标注人员信息作为强化学习算法中的状态、第一待标注内容的至少一个目标标签和页面展示参数作为强化学习算法中的行动，以训练标注页面生成模型。7.第四方面，提供一种页面展示装置，包括：获取模块、输入模块和发送模块，获取模块用于获取第二待标注内容的至少一个初始标签和对应的标注人员信息；输入模块用于将第二待标注内容的至少一个初始标签和对应的标注人员信息输入至由上述模型训练方法所训练得到的标注页面生成模型，以得到第二待标注内容的至少一个目标标签和页面展示参数；发送模块用于将第二待标注内容的至少一个目标标签和页面展示参数发送至对应的用户设备，以使该用户设备基于第二待标注内容的至少一个目标标签和页面展示参数展示第二待标注内容对应的标注页面。8.第五方面，提供了一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行第一方面或第二方面的方法。9.第六方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行第一方面或第二方面的方法。10.通过本技术提供的技术方案，由于考虑了标注人员信息，甚至还可以结合待标注内容的特征信息和/或标注人员偏好信息，使得训练得到的模型可以输出多样性的目标标签和页面展示参数，从而可以为标注人员呈现多样性的标注页面，进而提高了用户体验感。附图说明11.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。12.图1为本技术实施例涉及的一种系统架构示意图；13.图2为本技术一实施例提供的一种模型训练方法的流程图；14.图3为本技术另一实施例提供的一种模型训练方法的流程图；15.图4为本技术一实施例提供的标注页面生成模型的训练过程示意图；16.图5为本技术另一实施例提供的标注页面生成模型的训练过程示意图；17.图6为本技术实施例提供的一种页面展示方法的流程图；18.图7a和图7b为本技术一实施例提供的针对同一标注页面的两种示意图；19.图8a和图8b为本技术另一实施例提供的针对同一标注页面的两种示意图；20.图9a和图9b为本技术再一实施例提供的针对同一标注页面的两种示意图；21.图10a和图10b为本技术另一实施例提供的针对同一标注页面的两种示意图；22.图11a和图11b为本技术再一实施例提供的针对同一标注页面的两种示意图；23.图12a和图12b为本技术再一实施例提供的针对不同标注页面的两种示意图；24.图13为本技术实施例提供的一种模型训练装置1300的示意图；25.图14为本技术实施例提供的一种页面展示装置1400的示意图；26.图15是本技术实施例提供的电子设备1500的示意性框图。具体实施方式27.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。28.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。29.在介绍本技术技术方案之前，下面先对本技术相关知识进行说明：30.强化学习(reinforcementlearning，rl)算法：是机器学习的一个领域，它注重的是软件主体在一个环境中应该如何进行行动从而达到最大化累积奖励的想法。强化学习的基本元素：环境(environment)、主体(agent)、状态(state)、行动(action)和奖励(reward)。31.环境是一个外部系统，主体处于这个系统中，能够感知到这个系统并且能够基于感知到的状态做出一定的行动。32.主体是一个嵌入到环境中的系统，能够通过采取行动来改变环境的状态。33.状态是指当前环境的一个时间切片。34.行动是指主体做出的行为。35.奖励是一个标量，指的是环境对当前动作或者状态的一个奖励。36.qlearning：是强化学习算法中基于价值学习(value-based)的算法，q即为q(s,a)，指的是在某一时刻的s状态下，采取行动a能够获得收益的期望，环境会根据主体的动作反馈相应的奖励，所以算法的主要思想就是将状态(state)与行动(action)构建成一张q-table来存储q值，然后根据q值来选取能够获得最大奖励的行动。37.深度强化学习(deepq-network，dqn)算法：它是一种深度学习和强化学习结合的算法，提出的动机是传统的强化学习算法q-learning中的q_table存储空间有限，而现实世界甚至是虚拟世界中的状态是接近无限多的，因此，无法构建可以存储超大状态空间的q_table。然而，在机器学习中，可以利用神经网络将状态和行动当成神经网络的输入，然后经过神经网络分析后得到行动的q值，这样就没必要在表格中记录q值，而是直接使用神经网络预测q值。38.如上所述，目前的标注页面呈现较为单一。为了解决该技术问题，本技术可以结合标注人员信息呈现多样化地标注页面。39.在一些实施例中，本技术实施例的系统架构如图1所示。40.图1为本技术实施例涉及的一种系统架构示意图，用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。41.其中，数据采集设备102用于从内容库106中读取训练数据，并将读取的训练数据存储至数据库105中。本技术实施例涉及的训练数据包括待标注内容的初始标签和对应的标注人员信息，可选地，还可以包括待标注内容的特征信息和/或标注人员偏好信息。42.训练设备103基于数据库105中维护的训练数据，对标注页面生成模型进行训练，使得训练后的标注页面生成模型可以得到待标注内容的目标标签和页面展示参数。43.另外，参考图1，执行设备104配置有i/o接口107，与外部设备进行数据交互。比如通过i/o接口接收用户设备101发送的待标注内容。执行设备104中的计算模块108对待标注内容进行处理，得到待标注内容的初始标签和对应的标注人员信息，或者还可以得到待标注内容的特征信息和/或标注人员偏好信息。使用训练后的标注页面生成模型对得到的信息进行处理，输出待标注内容的目标标签和页面展示参数，并通过i/o接口将相应的结果发送至用户设备101。44.其中，用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobileinternetdevice，mid)、台式电脑、或其他具有安装浏览器功能的终端设备。45.执行设备104可以为服务器。46.示例性的，服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器，也可以是多个测试服务器所组成的测试服务器集群。47.本实施例中，执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication，gsm)、宽带码分多址(widebandcodedivisionmultipleaccess，wcdma)、第四代(the4rdgeneration，4g)网络、第五代(the5rdgeneration，5g)网络、蓝牙(bluetooth)、无线保真(wirelessfidelity，wi-fi)、通话网络等无线或有线网络。48.需要说明的是，图1仅是本技术实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中，上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。上述数据库105可以分布在一个服务器上也可以分布在多个服务器上，上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。49.下面通过一些实施例对本技术实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。50.图2为本技术一实施例提供的一种模型训练方法的流程图，该方法可以由手机、平板电脑、笔记本电脑、掌上电脑、mid、台式电脑等任何电子设备执行，例如可以由图1中的训练设备执行，本技术对此不做限制，如图2所示，该方法可以包括：51.s210：获取第一待标注内容的至少一个初始标签和对应的标注人员信息；52.s220：将第一待标注内容的至少一个初始标签和对应的标注人员信息输入至标注页面生成模型，得到第一待标注内容的至少一个目标标签和页面展示参数；53.s230：将第一待标注内容的至少一个目标标签和页面展示参数发送至对应的用户设备，以使该用户设备基于第一待标注内容的至少一个目标标签和页面展示参数展示第一待标注内容对应的标注页面；54.s240：将第一待标注内容的至少一个初始标签和对应的标注人员信息作为强化学习算法中的状态、第一待标注内容的至少一个目标标签和页面展示参数作为强化学习算法中的行动，以训练标注页面生成模型。55.可选地，在本技术实施例中，待标注内容可以是待标注视频、图像等，但不限于此。其中，这里的待标注视频可以是待标注短视频或者待标注正常视频。56.应理解的是，第一待标注内容用于训练标注页面生成模型的待标注内容，其中，第一待标注内容可以是多个。例如，对于短视频平台，电子设备可以通过至少一个标注人员一天的待标注短视频训练一次标注页面生成模型。57.可选地，电子设备可以通过如下方式获取第一待标注内容的至少一个初始标签，但不限于此：电子设备可以将第一待标注内容输入至少一个神经网络模型，得到第一待标注内容的至少一个初始标签。例如，对于短视频平台，电子设备可以将待标注短视频输入至少一个视频理解模型，得到第一待标注内容的至少一个初始标签。58.可选地，上述至少一个神经网络模型与至少一个初始标签可以是一一对应关系。例如，存在两个神经网络模型，一个神经网络模型用于识别待标注短视频的内容是否涉及不健康内容，以向待标注端视频标注是否涉及不健康内容的标签；另一个神经网络模型用于识别待标注短视频的内容中的人物行为，以向待标注端视频标注关于人物行为的标签，如舞蹈。59.应理解的是，第一待标注内容对应的标注人员信息指的是为该第一待标注内容进行人工标注的标注人员的信息。60.可选地，第一待标注内容对应的标注人员信息包括以下至少一项，但不限于此：标注人员的年龄、性别、在岗时间。61.可选地，电子设备还可以获取第一待标注内容的特征信息和/或标注人员偏好信息。62.可选地，第一待标注内容可以是待标注视频，相应的，第一待标注内容的特征信息包括以下至少一项：待标注视频的图像、文本、音频。63.可选地，电子设备可以将第一待标注内容输入至至少一个神经网络模型中，以得到第一待标注内容的特征信息。例如，存在三个神经网络模型，它们分别提取待标注视频的图像、文本、音频特征。64.可选地，这里用于提取第一待标注内容的特征信息的神经网络模型与上述用于获取初始标签的神经网络模型可以相同或不同。65.可选地，标注人员的偏好信息可以是根据标注人员的标注行为确定的。其中，电子设备可以统计每个标注人员在预设时间段内对每个标签位置上的点击情况，以确定每个标注人员更倾向于点击哪些位置的标签。例如，标注人员a更倾向点击靠前位置的标签，标注人员b更倾向点击中间位置的标签。66.可选地，电子设备可以将每个标注人员在预设时间段内对每个标签位置上的点击情况输入至神经网络模型中，以得到每个标注人员更倾向于点击哪些位置的标签。67.应理解的是，标注页面生成模型是基于强化学习算法的模型。例如，该标注页面生成模型可以是dqn模型，也可以是qlearning模型，但不限于此。68.可选地，标注页面生成模型的输入可以包括待标注内容的至少一个初始标签和对应的标注人员信息，还可以包括待标注内容的特征信息和/或标注人员偏好信息。标注页面生成模型的输出是待标注内容的至少一个目标标签和页面展示参数。69.在一种可实现方式中，第一待标注内容的至少一个初始标签与至少一个目标标签的内容和排序均相同。例如，第一待标注内容存在2个初始标签，分别是：标签1、标签2，其中，标签1排列在标签2之前。经过标注页面生成模型的处理之后，也得到了2个目标标签，分别是：标签1、标签2，其中，标签1排列在标签2之前。70.在另一种可实现方式中，第一待标注内容的至少一个初始标签与至少一个目标标签的内容相同但顺序不同。例如，第一待标注内容存在2个初始标签，分别是：标签1、标签2，其中，标签1排列在标签2之前。经过标注页面生成模型的处理之后，也得到了2个目标标签，分别是：标签1、标签2，其中，标签1排列在标签2之后。71.在再一种可实现方式中，第一待标注内容的至少一个初始标签与至少一个目标标签的内容不完全相同。例如，第一待标注内容存在2个初始标签，分别是：标签1、标签2。经过标注页面生成模型的处理之后，得到了3个目标标签，分别是：标签1、标签2、标签3。72.应理解的是，上述对应的用户设备是对第一待标注内容进行标注的标注人员对应的用户设备。73.可选地，页面展示参数包括：标注页面的html参数和/或css参数。其中，html参数界定标注页面的页面结构，css参数决定标注页面的页面表现与风格。74.可选地，如果标注页面生成模型的输入还包括待标注内容的特征信息和/或标注人员偏好信息，那么电子设备可以将第一待标注内容的特征信息和标注人员偏好信息中的至少一项、第一待标注内容的至少一个初始标签和对应的标注人员信息作为强化学习算法中的状态。75.可选地，电子设备除了确定了强化学习算法中的状态、行动以外，还可以确定强化学习算法的奖励，基于此，s240可以通过如下可实现方式实现：76.可选地，如图3所示，s240之前可以包括：77.s310：确定第一待标注内容对应的标注页面从展示至标注完成的时间；78.相应的，s240可以包括：79.s320：将第一待标注内容的至少一个初始标签和对应的标注人员信息作为强化学习算法中的状态、第一待标注内容的至少一个目标标签和页面展示参数作为强化学习算法中的行动，并根据第一待标注内容对应的标注页面从展示至标注完成的时间确定强化学习算法中的奖励值，以训练标注页面生成模型。80.可选地，用户设备可以自己确定第一待标注内容对应的标注页面从展示至标注完成的时间，并将该时间推送给电子设备。例如，某待标注短视频的展示时间是t1，标注人员对该待标注短视频完成标注的时间是t2，那么该待标注短视频对应的标注页面从展示至标注完成的时间t2-t1，用户设备可以将t2-t1推送给电子设备。或者，用户设备可以将标注页面对应的展示时间以及标注完成时间发送给电子设备，电子设备基于这两个时间确定第一待标注内容对应的标注页面从展示至标注完成的时间。81.如上所述，第一待标注内容可以是多个情况，例如，对于短视频平台，电子设备可以通过至少一个标注人员一天的待标注短视频训练一次标注页面生成模型。82.在一种可实现方式中，电子设备可以对多个第一待标注内容对应的标注页面从展示至标注完成的时间求和，得到求和结果；将求和结果的倒数确定为强化学习算法中的奖励值。83.例如，对于短视频平台，电子设备可以通过至少一个标注人员一天的待标注短视频训练一次标注页面生成模型。假设标注人员a一天标注了n个待标注短视频，它们各自对应的标注页面从展示至标注完成的时间分别是t(1)，t(2)……t(n)，假设通过这n个待标注短视频来训练标注页面生成模型，那么可以统计奖励值为t(1)，t(2)……t(n)之和的倒数。84.图4为本技术一实施例提供的标注页面生成模型的训练过程示意图，如图4所示，对于待标注短视频，电子设备可以将待标注短视频输入至视频理解模型中，得到待标注短视频的至少一个初始标签，还可以将待标注短视频输入至特征提取模型中，得到待标注短视频的特征信息，此外，还可以获取标注人员信息、标注人员偏好信息。标注页面生成模型的输入可以包括待标注短视频的至少一个初始标签、对应的标注人员信息、待标注短视频的特征信息、标注人员偏好信息。标注页面生成模型的输出是待标注短视频的至少一个目标标签和页面展示参数。在模型训练过程中，将待标注短视频的特征信息、标注人员偏好信息、待标注短视频的至少一个初始标签、对应的标注人员信息作为强化学习算法中的状态、待标注短视频的至少一个目标标签和页面展示参数作为强化学习算法中的行动，并根据待标注短视频对应的标注页面从展示至标注完成的时间确定强化学习算法中的奖励值，以训练标注页面生成模型。85.在另一种可实现方式中，电子设备可以确定第一待标注内容的标注正确率；根据第一待标注内容的标注正确率和第一待标注内容对应的标注页面从展示至标注完成的时间确定强化学习算法中的奖励值。例如，当第一待标注内容是多个第一待标注内容时，电子设备可以对多个第一待标注内容对应的标注页面从展示至标注完成的时间求和，得到第一求和结果；对多个第一待标注内容的标注准确率求和，得到第二求和结果；将第一求和结果的倒数与第二求和结果求和，得到第三求和结果；将第三求和结果确定为强化学习算法中的奖励值。86.例如，对于短视频平台，电子设备可以通过至少一个标注人员一天的待标注短视频训练一次标注页面生成模型。假设标注人员a一天标注了n个待标注短视频，它们各自对应的标注页面从展示至标注完成的时间分别是t(1)，t(2)……t(n)，它们各自对应的标注准确率是m(1)，m(2)……m(n)，假设通过这n个待标注短视频来训练标注页面生成模型，那么可以统计奖励值为t(1)，t(2)……t(n)之和的倒数，即为p1，并对m(1)，m(2)……m(n)求和，即为p2，最后可以将p1 p2确定为强化学习算法中的奖励值。87.图5为本技术另一实施例提供的标注页面生成模型的训练过程示意图，如图5所示，对于待标注短视频，电子设备可以将待标注短视频输入至视频理解模型中，得到待标注短视频的至少一个初始标签，还可以将待标注短视频输入至特征提取模型中，得到待标注短视频的特征信息，此外，还可以获取标注人员信息、标注人员偏好信息。标注页面生成模型的输入可以包括待标注短视频的至少一个初始标签、对应的标注人员信息、待标注短视频的特征信息、标注人员偏好信息。标注页面生成模型的输出是待标注短视频的至少一个目标标签和页面展示参数。在模型训练过程中，将待标注短视频的特征信息、标注人员偏好信息、待标注短视频的至少一个初始标签、对应的标注人员信息作为强化学习算法中的状态、待标注短视频的至少一个目标标签和页面展示参数作为强化学习算法中的行动，并根据待标注短视频的标注正确率和待标注短视频对应的标注页面从展示至标注完成的时间确定强化学习算法中的奖励值，以训练标注页面生成模型。88.在本技术实施例中，上述模型训练过程中，由于考虑了标注人员信息，甚至还可以结合待标注内容的特征信息和/或标注人员偏好信息，使得训练得到的模型可以输出多样性的目标标签和页面展示参数，从而可以为标注人员呈现多样性的标注页面，进而提高了用户体验感。89.进一步地，电子设备可以根据标注页面从展示至标注完成的时间确定强化学习算法中的奖励值，使得可以为每个标注人员呈现更加适合标注人员的标注页面，从而可以提高标注效率。90.图6为本技术实施例提供的一种页面展示方法的流程图，如图6所示，该方法可以由手机、平板电脑、笔记本电脑、掌上电脑、mid、台式电脑等任何电子设备执行，例如可以由图1中的执行设备执行，本技术对此不做限制，如图6所示，该方法可以包括：91.s610：获取第二待标注内容的至少一个初始标签和对应的标注人员信息；92.s620：将第二待标注内容的至少一个初始标签和对应的标注人员信息输入至由上述模型训练方法训练得到的标注页面生成模型，以得到第二待标注内容的至少一个目标标签和页面展示参数；93.s630：将第二待标注内容的至少一个目标标签和页面展示参数发送至对应的用户设备，以使该用户设备基于第二待标注内容的至少一个目标标签和页面展示参数展示第二待标注内容对应的标注页面。94.如上所述，第一待标注内容用于训练标注页面生成模型的待标注内容，而本实施例中的第二待标注内容是在模型测试，即执行阶段所涉及的待标注内容。95.可选地，第二待标注内容为待标注视频，相应的，第二待标注内容的特征信息包括以下至少一项：待标注视频的图像、文本、音频。96.可选地，第二待标注内容对应的标注人员信息包括以下至少一项：标注人员的年龄、性别、在岗时间。97.可选地，电子设备还可以获取第二待标注内容的特征信息和标注人员偏好信息中的至少一项；基于此，电子设备可以将第二待标注内容的特征信息和标注人员偏好信息中的至少一项、第二待标注内容的至少一个初始标签和对应的标注人员信息输入至由上述模型训练方法训练得到的标注页面生成模型，以得到第二待标注内容的至少一个目标标签和页面展示参数。98.应理解的是，关于s610与s620的解释说明可参考对s210与s220的解释说明，本技术对此不再赘述。99.应理解的是，由于标注页面生成模型的输入可以包括待标注内容的至少一个初始标签和对应的标注人员信息，或者，还可以包括待标注内容的特征信息和/或标注人员偏好信息。因此，针对同一待标注内容，如上述第二待标注内容，对于不同的标注人员，得到的至少一个目标标签可以不同，和/或，得到的页面展示参数也可以不同。相应的，呈现给不同的标注人员的标注页面可以不同。其中，至少一个目标标签不同包括：内容、排序、数量等的不同。100.示例1，图7a和图7b为本技术一实施例提供的针对同一标注页面的两种示意图，如图7a所示，对于标注人员a，由于她是女性，年龄是24岁，在岗时间是半年，该标注人员更倾向于点击关于是否有益于儿童健康的标签1，那么电子设备为该标注人员呈现的标注页面可以包括是否有益于儿童健康的标签1。如图7b所示，对于标注人员b，由于他是男性，年龄是40岁，在岗时间是10年，该标注人员更倾向于点击人物行为的标签2，那么电子设备为该标注人员呈现的标注页面中间位置的标签可以包括人物行为的标签2。101.示例2，图8a和图8b为本技术另一实施例提供的针对同一标注页面的两种示意图，如图8a所示，对于标注人员a，电子设备为该标注人员呈现的标注页面的标签顺序是标签1、标签2、标签3、标签4。如图8b所示，对于标注人员b，电子设备为该标注人员呈现的标注页面的标签顺序是标签2、标签1、标签3、标签4。102.示例3，图9a和图9b为本技术再一实施例提供的针对同一标注页面的两种示意图，如图9a所示，对于标注人员a，电子设备为该标注人员呈现的标注页面的标签顺序是标签1、标签2、标签3。如图9b所示，对于标注人员b，电子设备为该标注人员呈现的标注页面的标签顺序是标签1、标签2、标签3、标签4。103.示例4，图10a和图10b为本技术另一实施例提供的针对同一标注页面的两种示意图，如图10a所示，对于标注人员a，由于她是女性，年龄是24岁，在岗时间是半年，该标注人员更倾向于点击靠前位置的标签，那么电子设备为该标注人员呈现的标注页面靠前位置的标签更加突出。如图10b所示，对于标注人员b，由于他是男性，年龄是40岁，在岗时间是10年，该标注人员更倾向于点击中间位置的标签，那么电子设备为该标注人员呈现的标注页面中间位置的标签更加突出。104.示例5，图11a和图11b为本技术再一实施例提供的针对同一标注页面的两种示意图，如图11a所示，对于标注人员a，由于她是女性，年龄是24岁，在岗时间是半年，那么电子设备为该标注人员呈现的标注页面的页面风格更显著，例如：不同标签的底纹不同。如图11b所示，对于标注人员b，由于他是男性，年龄是40岁，在岗时间是10年，那么电子设备为该标注人员呈现的标注页面的页面风格更简洁，例如：不同标签都是无底纹。105.应理解的是，针对不同待标注内容，对于同一标注人员，得到的至少一个目标标签可以不同，和/或，得到的页面展示参数也可以不同。相应的，呈现给不同的标注人员的标注页面可以不同。其中，至少一个目标标签不同包括：内容、排序、数量等的不同。106.示例6，图12a和图12b为本技术再一实施例提供的针对不同标注页面的两种示意图，如图12a所示，对应待标注内容1，由于该待标注内容1带有敏感内容，那么电子设备为该标注人员呈现的标注页面可以突出显示这些敏感内容，如放大/圈中敏感文字或者图像。如图12b所示，对应待标注内容2，由于该待标注内容2不带有敏感内容，那么电子设备为该标注人员呈现的标注页面可以正常显示标注页面。107.应理解的是，针对同一标注人员，该标注人员信息如果发生变化，如在岗时间发送变化，那么即使对于同一待标注内容，得到的至少一个目标标签可以不同，和/或，得到的页面展示参数也可以不同。相应的，呈现给不同的标注人员的标注页面可以不同。其中，至少一个目标标签不同包括：内容、排序、数量等的不同。108.在本技术实施例中，由于考虑了标注人员信息，甚至还可以结合待标注内容的特征信息和/或标注人员偏好信息，从而可以为标注人员呈现多样性的标注页面，进而提高了用户体验感。109.图13为本技术实施例提供的一种模型训练装置1300的示意图，如图13所示，该装置1300包括：获取模块1310、输入模块1320、发送模块1330和训练模块1340，其中，获取模块1310用于获取第一待标注内容的至少一个初始标签和对应的标注人员信息；输入模块1320用于将第一待标注内容的至少一个初始标签和对应的标注人员信息输入至标注页面生成模型，得到第一待标注内容的至少一个目标标签和页面展示参数，标注页面生成模型是基于强化学习算法的模型；发送模块1330用于将第一待标注内容的至少一个目标标签和页面展示参数发送至对应的用户设备，以使该用户设备基于第一待标注内容的至少一个目标标签和页面展示参数展示第一待标注内容对应的标注页面；训练模块1340用于将第一待标注内容的至少一个初始标签和对应的标注人员信息作为强化学习算法中的状态、第一待标注内容的至少一个目标标签和页面展示参数作为强化学习算法中的行动，以训练标注页面生成模型。110.可选地，获取模块1310还用于：获取第一待标注内容的特征信息和标注人员偏好信息中的至少一项；相应的，输入模块1320具体用于：将第一待标注内容的特征信息和标注人员偏好信息中的至少一项、第一待标注内容的至少一个初始标签和对应的标注人员信息输入至标注页面生成模型，得到第一待标注内容的至少一个目标标签和页面展示参数；训练模块1340具体用于：将第一待标注内容的特征信息和标注人员偏好信息中的至少一项、第一待标注内容的至少一个初始标签和对应的标注人员信息作为强化学习算法中的状态。111.可选地，装置1300还包括：确定模块1350，用于确定第一待标注内容对应的标注页面从展示至标注完成的时间；相应的，训练模块1340具体用于：将第一待标注内容的至少一个初始标签和对应的标注人员信息作为强化学习算法中的状态、第一待标注内容的至少一个目标标签和页面展示参数作为强化学习算法中的行动，并根据第一待标注内容对应的标注页面从展示至标注完成的时间确定强化学习算法中的奖励值，以训练标注页面生成模型。112.可选地，第一待标注内容是多个第一待标注内容，相应的，训练模块1340具体用于：对多个第一待标注内容对应的标注页面从展示至标注完成的时间求和，得到求和结果；将求和结果的倒数确定为强化学习算法中的奖励值。113.可选地，确定模块1350还用于确定第一待标注内容的标注正确率；相应的，训练模块1340具体用于：根据第一待标注内容的标注正确率和第一待标注内容对应的标注页面从展示至标注完成的时间确定强化学习算法中的奖励值。114.可选地，第一待标注内容是多个第一待标注内容，相应的，训练模块1340具体用于：对多个第一待标注内容对应的标注页面从展示至标注完成的时间求和，得到第一求和结果；对多个第一待标注内容的标注准确率求和，得到第二求和结果；将第一求和结果的倒数与第二求和结果求和，得到第三求和结果；将第三求和结果确定为强化学习算法中的奖励值。115.应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图13所示的装置1300可以执行图2对应的方法实施例，并且装置1300中的各个模块的前述和其它操作和/或功能分别为了实现图2中的各个方法中的相应流程，为了简洁，在此不再赘述。116.上文中结合附图从功能模块的角度描述了本技术实施例的装置1300。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本技术实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本技术实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。117.图14为本技术实施例提供的一种页面展示装置1400的示意图，如图14所示，该装置1400包括：获取模块1410、输入模块1420和发送模块1430，其中，获取模块1410用于获取第二待标注内容的至少一个初始标签和对应的标注人员信息；输入模块1420用于将第二待标注内容的至少一个初始标签和对应的标注人员信息输入至由上述模型训练方法所训练得到的标注页面生成模型，以得到第二待标注内容的至少一个目标标签和页面展示参数；发送模块1430用于将第二待标注内容的至少一个目标标签和页面展示参数发送至对应的用户设备，以使该用户设备基于第二待标注内容的至少一个目标标签和页面展示参数展示第二待标注内容对应的标注页面。118.可选地，获取模块1410还用于获取第二待标注内容的特征信息和标注人员偏好信息中的至少一项；相应的，输入模块1420具体用于：将第二待标注内容的特征信息和标注人员偏好信息中的至少一项、第二待标注内容的至少一个初始标签和对应的标注人员信息输入至由上述模型训练方法所训练得到的标注页面生成模型，以得到第二待标注内容的至少一个目标标签和页面展示参数。119.可选地，第二待标注内容为待标注视频，相应的，第二待标注内容的特征信息包括以下至少一项：待标注视频的图像、文本、音频。120.可选地，第二待标注内容对应的标注人员信息包括以下至少一项：标注人员的年龄、性别、在岗时间。121.应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图14所示的装置1400可以执行图6对应的方法实施例，并且装置1400中的各个模块的前述和其它操作和/或功能分别为了实现图6中的各个方法中的相应流程，为了简洁，在此不再赘述。122.上文中结合附图从功能模块的角度描述了本技术实施例的装置1400。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本技术实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本技术实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。123.图15是本技术实施例提供的电子设备1500的示意性框图。124.如图15所示，该电子设备1500可包括：125.存储器1510和处理器1520，该存储器1510用于存储计算机程序，并将该程序代码传输给该处理器1520。换言之，该处理器1520可以从存储器1510中调用并运行计算机程序，以实现本技术实施例中的方法。126.例如，该处理器1520可用于根据该计算机程序中的指令执行上述方法实施例。127.在本技术的一些实施例中，该处理器1520可以包括但不限于：128.通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。129.在本技术的一些实施例中，该存储器1510包括但不限于：130.易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(read-onlymemory，rom)、可编程只读存储器(programmablerom，prom)、可擦除可编程只读存储器(erasableprom，eprom)、电可擦除可编程只读存储器(electricallyeprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(staticram，sram)、动态随机存取存储器(dynamicram，dram)、同步动态随机存取存储器(synchronousdram，sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram，ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram，esdram)、同步连接动态随机存取存储器(synchlinkdram，sldram)和直接内存总线随机存取存储器(directrambusram，drram)。131.在本技术的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器1510中，并由该处理器1520执行，以完成本技术提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。132.如图15所示，该电子设备还可包括：133.收发器1530，该收发器1530可连接至该处理器1520或存储器1510。134.其中，处理器1520可以控制该收发器1530与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器1530可以包括发射机和接收机。收发器1530还可以进一步包括天线，天线的数量可以为一个或多个。135.应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。136.本技术还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本技术实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。137.当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本技术实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digitalvideodisc，dvd))、或者半导体介质(例如固态硬盘(solidstatedisk，ssd))等。138.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。139.在本技术所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。140.作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。141.以上该，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本
技术领域：
：的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以该权利要求的保护范围为准。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于MES和数据融合的电力系统鲁棒状态估计方法与流程

模型训练方法、装置、设备及存储介质与流程

相关文献

最热文献