属性标签识别、代播事件检测方法及其装置、设备、介质与流程

2022-04-09 03:55:48 来源：中国专利 TAG：

1.本技术涉及网络直播技术领域，尤其涉及一种属性标签识别方法、代播事件检测方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术：

2.随着大数据、深度学习的蓬勃发展，人脸属性标签识别在包括安防行业已经有了广泛的落地和应用。人脸属性众多，包括年龄、性别、颜值、发色等，目前的人脸属性标签识别方法大多是通过设计各种各样的神经网络对人脸区域进行识别，为了衡量各个类别的精度和部署开销，常常使用级联模型或者多任务训练，往往精度都很难达到预期，更无法满足工业界的需求。
3.基于多任务学习的卷积神经网络的人脸属性分析方法，现有的方案是通过采用多任务学习的方法对人脸图像同时进行年龄估算、性别识别和种族分类。通过对三个单任务网络分别进行训练，然后选用收敛最慢网络的权值初始化多任务网络的共享部分，随机初始化多任务网络的独立部分；接下来对多任务网络进行训练，得到多任务cnn网络模型；最后，就可以利用训练好的多任务cnn网络模型对输入的人脸图像同时进行年龄、性别和种族三个属性的分析。
4.各种现有方案的卷积神经网络的训练，较为依赖人工标注的训练样本，训练成本较高，且由于人工标注的训练样本可能存在样本稀疏以及无法贴合实际应用场景等情况，难以使被训练模型快速获得泛化能力，故其训练过程缓慢低效，且在将模型投入生产的阶段，特别是对于需要快速响应的流媒体而言，也难以获得良好的识别表现。
5.综上，现有技术中人脸属性标签识别相关技术具有较大的提升空间，本技术人因此而做出相关探索。

技术实现要素：

6.本技术的首要目的在于解决上述问题至少之一而提供一种属性标签识别方法、代播事件检测方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
7.为满足本技术的各个目的，本技术采用如下技术方案：
8.适应本技术的目的而提供的一种属性标签识别方法，包括如下步骤：
9.获取直播视频流中的视频帧，所述直播视频流来源于媒体服务器；
10.采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；
11.采用属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签；其中，所述属性标签识别学生模型以所述媒体服务器提供的任意直播视频流中的视频帧为训练样本预先被训练至收敛状态，其训练过程中，以预先训练至收敛状态的属性标签识别导师模型对相同训练样本预测出属性标签，以该属性标签对所述属性标签识别学生模型实施半监督训练，所述属性标签识别导师模型事先被实施有监督训练达致收敛状态；
12.以所述属性标签对所述视频帧中的相应人脸图像进行标注输出。
13.一种扩展的实施例中，所述属性标签识别学生模型的训练过程，包括如下步骤：
14.从媒体服务器输出的任意直播视频流中采集单个视频帧作为训练样本；
15.采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；
16.采用预先训练至收敛状态的属性标签识别导师模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，构成软标签；
17.采用所述属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，构成结果标签；
18.参考所述软标签计算所述结果标签的损失值，判断该损失值是否达到预设阈值，当达到预设阈值时终止训练过程；否则，实施梯度更新，重新采集所述的训练样本对所述属性标签识别学生模型实施迭代训练。
19.深化的实施例中，所述人脸识别模型执行如下步骤：
20.在多个卷积层中分别提取所述视频帧的多个尺度的图像特征信息；
21.在特征金字塔网络中将多个所述的图像特征信息进行特征融合，获得相应的融合特征信息；
22.根据所述融合特征信息提取出一个或多个边界框并映射至分类空间获得其分类结果；
23.根据分类结果表征为有效的边界框从所述视频帧中裁剪出相应的人脸图像。
24.一种具体化的实施例中，以所述属性标签对所述视频帧中的相应人脸图像进行标注输出，包括如下步骤：
25.针对每个预测出的人脸图像，获取其由所述人脸识别模型识别出的边界框，根据边界框确定所述人脸图像在所述视频帧中的位置信息；
26.针对每个预测出的人脸图像，生成用于表示其所述属性标签的信息图像，所述信息图像具有透明背景；
27.根据所述位置信息，将所述信息图像叠加到所述视频帧及其相邻视频帧的相应图像位置处实现与相应的人脸图像的位置关联标注，以使所述直播视频流被客户端设备播放时显示各个人脸图像相对应的信息图像。
28.另一具体化的实施例中，以所述属性标签对所述视频帧中的相应人脸图像进行标注输出，包括如下步骤：
29.针对每个预测出的人脸图像，获取其由所述人脸识别模型识别出的边界框，根据边界框确定所述人脸图像在所述视频帧中的位置信息；
30.针对每个预测出的人脸图像，将其属性标签、位置信息，以及其相应的视频帧在直播视频流中的时间戳，封装为映射关系数据；
31.将所述映射关系数据同步于所述直播视频流输出至相同客户端设备，以由该客户端设备解析所述映射关系数据后，在所述直播视频流被客户端设备播放显示所述人脸图像时，对应显示其属性标签的转义标签信息。
32.再一具体化的实施例中，以所述属性标签对所述视频帧中的相应人脸图像进行标注输出，包括如下步骤：
33.将所有人脸图像相对应的属性标签与所述直播视频流的主播用户的用户注册信
息进行比较，根据比较结果标注是否有一个人脸图像的属性标签与用户注册信息相一致，其中，所述属性标签包括性别和年龄；
34.当标注为不一致时，判定所述直播视频流的主播用户存在代播行为，而触发后台通知消息发送至预设网络地址。
35.适应本技术的目的而提供的一种代播事件检测方法，其包括如下步骤：
36.获取直播视频流中的视频帧，所述直播视频流来源于媒体服务器；
37.采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；
38.采用属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的属性标签，所述属性标签包括性别标签和/或年龄标签；其中，所述属性标签识别学生模型以所述媒体服务器提供的任意直播视频流中的视频帧为训练样本预先被训练至收敛状态，其训练过程中，以预先训练至收敛状态的属性标签识别导师模型对相同训练样本预测出属性标签，以该属性标签对所述属性标签识别学生模型实施半监督训练，所述属性标签识别导师模型事先被实施有监督训练达致收敛状态；
39.将所有人脸图像相对应的属性标签与所述直播视频流的主播用户的用户注册信息进行匹配，若所有人脸图像中存在至少一个属性标签未与所述用户注册信息实现匹配时，判定该主播用户存在代播事件；
40.监听每个主播用户存在代播事件的持续时长，当该持续时长达到预设阈值时，触发通知事件。
41.适应本技术的目的之一而提供的一种属性标签识别装置，包括：图像获取模块、人脸识别模块、标签预测模块，以及标注输出模块，其中，所述图像获取模块，用于获取直播视频流中的视频帧，所述直播视频流来源于媒体服务器；所述人脸识别模块，用于采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；所述标签预测模块，用于采用属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签；其中，所述属性标签识别学生模型以所述媒体服务器提供的直播视频流中的视频帧为训练样本预先被训练至收敛状态，其训练过程中，以预先训练至收敛状态的属性标签识别导师模型对相同训练样本预测出属性标签，以该属性标签对所述属性标签识别学生模型实施半监督训练，所述属性标签识别导师模型事先被实施有监督训练达致收敛状态；所述标注输出模块，用于以所述属性标签对所述视频帧中的相应人脸图像进行标注输出。
42.一种扩展的实施例中，运行第一训练模块对所述属性标签识别学生模型实施训练，第一训练模块包括：样本采集子模块，用于从媒体服务器输出的任意直播视频流中采集单个视频帧作为训练样本；人脸提取子模块，用于采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；导师处理子模块，用于采用预先训练至收敛状态的属性标签识别导师模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，构成软标签；学生预测子模块，用于采用所述属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，构成结果标签；更新迭代子模块，用于参考所述软标签计算所述结果标签的损失值，判断该损失值是否达到预设阈值，当达到预设阈值时终止训练过程；否则，实施梯度更新，重新采集所述的训练样本对所述属性标签识别学生模型实施迭代训练。
43.深化的实施例中，所述人脸识别模型运行时构造出人脸提取子模块，该人脸提取子模块包括：卷积提取单元，用于在多个卷积层中分别提取所述视频帧的多个尺度的图像特征信息；特征融合单元，用于在特征金字塔网络中将多个所述的图像特征信息进行特征融合，获得相应的融合特征信息；分类映射单元，用于根据所述融合特征信息提取出一个或多个边界框并映射至分类空间获得其分类结果；图像裁剪单元，用于根据分类结果表征为有效的边界框从所述视频帧中裁剪出相应的人脸图像。
44.一种具体化的实施例中，所述标注输出模块，包括：图像定位子模块，用于针对每个预测出的人脸图像，获取其由所述人脸识别模型识别出的边界框，根据边界框确定所述人脸图像在所述视频帧中的位置信息；信息转义子模块，用于针对每个预测出的人脸图像，生成用于表示其所述属性标签的信息图像，所述信息图像具有透明背景；关联标注子模块，用于根据所述位置信息，将所述信息图像叠加到所述视频帧及其相邻视频帧的相应图像位置处实现与相应的人脸图像的位置关联标注，以使所述直播视频流被客户端设备播放时显示各个人脸图像相对应的信息图像。
45.另一具体化的实施例中，所述标注输出模块，包括：图像定位子模块，用于针对每个预测出的人脸图像，获取其由所述人脸识别模型识别出的边界框，根据边界框确定所述人脸图像在所述视频帧中的位置信息；数据封装子模块，用于针对每个预测出的人脸图像，将其属性标签、位置信息，以及其相应的视频帧在直播视频流中的时间戳，封装为映射关系数据；数据推送子模块，用于将所述映射关系数据同步于所述直播视频流输出至相同客户端设备，以由该客户端设备解析所述映射关系数据后，在所述直播视频流被客户端设备播放显示所述人脸图像时，对应显示其属性标签的转义标签信息。
46.再一具体化的实施例中，所述标注输出模块，包括：信息比对子模块，用于将所有人脸图像相对应的属性标签与所述直播视频流的主播用户的用户注册信息进行比较，根据比较结果标注是否有一个人脸图像的属性标签与用户注册信息相一致，其中，所述属性标签包括性别和年龄；代播判定子模块，用于当标注为不一致时，判定所述直播视频流的主播用户存在代播行为，而触发后台通知消息发送至预设网络地址。
47.适应本技术的目的而提供的一种代播事件检测装置，其包括：图像获取模块、人脸识别模块、标签预测模块，代播检测模块，以及监听通知模块，其中，所述图像获取模块，用于获取直播视频流中的视频帧，所述直播视频流来源于媒体服务器；所述人脸识别模块，用于采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；所述标签预测模块，用于采用属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的属性标签，所述属性标签包括性别标签和/或年龄标签；其中，所述属性标签识别学生模型以所述媒体服务器提供的任意直播视频流中的视频帧为训练样本预先被训练至收敛状态，其训练过程中，以预先训练至收敛状态的属性标签识别导师模型对相同训练样本预测出属性标签，以该属性标签对所述属性标签识别学生模型实施半监督训练，所述属性标签识别导师模型事先被实施有监督训练达致收敛状态；所述代播检测模块，用于将所有人脸图像相对应的属性标签与所述直播视频流的主播用户的用户注册信息进行匹配，若所有人脸图像中存在至少一个属性标签未与所述用户注册信息实现匹配时，判定该主播用户存在代播事件；所述监听通知模块，用于监听每个主播用户存在代播事件的持续时长，当该持续时长达到预设阈值时，触发通知事件。
48.适应本技术的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的属性标签识别方法的步骤。
49.适应本技术的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的属性标签识别方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。
50.适应本技术的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述方法的步骤。
51.相对于现有技术，本技术的优势如下：
52.本技术中，采用事先训练至收敛状态的属性标签识别学生模型用于对网络直播过程中实时传输的视频流，即媒体服务器输出的直播视频流中的人物图像进行属性标签的识别，以获得相应的属性标签，用于标注相应的人脸图像，其中，所述学生模型本身也是从所述媒体服务器输出的实时直播的直播视频流中采集训练样本以对其实施训练而获得相应的属性识别能力，训练与生产两阶段，均是依据网络直播应用场景中的同源同类型数据来实施，因此，该学生模型在其训练过程中，能够借助网络直播平台内大量直播视频流提供包含较强泛化特征表现的海量视频帧作为训练样本来实施训练，这些训练样本具有较强的泛化能力，且自动化产生，故训练成本低，收敛速度较快，而学生模型所习得的活化能力则较佳。
53.其次，对于网络直播中的直播视频流而言，其为即时传输的流媒体数据，对于直播视频流中的内容信息，平台方往往需要及时掌握，在这种情况下，及时对其中的人脸图像进行标注，以为下游任务提供基础数据，显得举足轻重，本技术的学生模型由于其良好的训练环境而获得识别准确高效的能力，因此，对于网络直播平台而言，针对其媒体服务器输出的海量的直播视频流，通过实施本技术的技术方案，可以实现快速高效地识别出直播视频流内的人脸图像相关的属性信息，供下游任务之用，从而大大提升网络直播平台的服务能力。
54.此外，由于模型在训练和生产阶段均是基于同源的媒体服务器的直播视频流进行应用，对于网络平台方而言，实现了其海量视频数据的数据挖掘服务于不同下游任务的同时，既节省大量的模型训练成本，又能服务于不同需求，从而体现规模经济优势。
附图说明
55.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
56.图1为本技术的属性标签识别方法的典型实施例的流程示意图；
57.图2为本技术的属性标签识别模型在实施知识蒸馏时的网络架构示意图；
58.图3为本技术的属性标签识别学生模型被训练过程的流程示意图；
59.图4为本技术的人脸识别模型的工作过程的流程示意图；
60.图5为本技术的人脸识别模型的网络架构示意图
61.图6为本技术一个扩展实施例中输出属性标签的过程的流程示意图；
62.图7为本技术的属性标签被显示于直播间图形用户界面的效果示意图；
63.图8为本技术一个扩展实施例中输出属性标签的过程的流程示意图；
64.图9为本技术的代播事件检测方法的典型实施例的流程示意图；
65.图10为本技术的属性标签识别装置的原理框图；
66.图11为本技术的代播事件检测装置的原理框图；
67.图12为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
68.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本技术，而不能解释为对本技术的限制。
69.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
70.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
71.本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；pcs(personal communications service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；pda(personal digital assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是pda、mid(mobile internet device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。
72.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其
存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。
73.需要指出的是，本技术所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本技术的网络部署方式的实施方式。
74.本技术的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。
75.本技术中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。
76.本技术所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本技术的技术方案所调用即可。
77.本领域技术人员对此应当知晓：本技术的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本技术所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。
78.本技术即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。
79.本技术的一种属性标签识别方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
80.请参阅图1，本技术的属性标签识别方法在其典型实施例中，包括如下步骤：
81.步骤s1100、获取直播视频流中的视频帧，所述直播视频流来源于媒体服务器:
82.所述直播视频流，是指网络直播平台开放直播间服务，根据直播间实现逻辑，从其媒体服务器中即时输出以传输给直播间用户解析显示的视频流。直播视频流一般由主播用户侧负责推送，经媒体服务器进行相应的音视频处理后，再发送给直播间中的其他在线观众用户。
83.获取所述的直播视频流时，可以在媒体服务器对从主播用户侧接收的直播视频流进行解码后进行提取，当然也可将该媒体服务器编码后输出的直播视频流进行专门解码以获取其中的视频帧。本技术中，当开始对直播视频流进行属性标签识别时，便可开始从所述的直播视频流中获取本技术识别所需的视频帧。
84.适应本技术对直播视频流进行识别的具体情况的需要，在整个直播过程中，可以针对其中的每一视频帧进行识别，也可间隔一定时长或者帧数从直播视频流中获取视频帧
进行识别，对此，本领域技术人员可灵活实施。
85.步骤s1200、采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像：
86.本技术中，采用一个已训练至收敛状态的人脸识别模型用于对所述的视频帧进行人脸图像提取。所述人脸识别模型可以采用本领域技术人员熟知的各种已有的目标识别模型，或者经实测表现较佳的目标识别模型。这些目标识别模型通过是基于卷积神经网络实现的，例如，efficientdet、yolo等，既可采用预训练的目标识别模型担任，也可由本领域技术人员对目标识别模型自行初始化其状态并自行训练至收敛再投入本技术中使用。
87.将从直播视频流中获得的视频帧输入所述的人脸识别模型，所述人脸识别模型首先对该视频帧进行表示学习获得其深层语义信息，然后根据深层语义信息输出一个或多个边界框，并输出每个边界框是否属于人脸的分类结果，从而可以根据分类结果确定人脸图像相对应的边界框，然后根据边界框的位置信息从视频帧原图中截取出相应的人脸图像。由于所述视频帧中可能存在一个或多个人物，因此，相应可能输出一个或多个人脸图像，对于存在多个人脸图像的情况，后续步骤中，可以逐一对各个人脸图像进行属性标签识别，也可只选取其中图像条件较佳的人脸图像作为主体图像单独进行属性标签识别，其中，所述图像条件包括相应的边界框具有最大面积，或者边界框的置信度较高等。对此，本领域技术人员可灵活实施。
88.步骤s1300、采用属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签；其中，所述属性标签识别学生模型以所述媒体服务器提供的任意直播视频流中的视频帧为训练样本预先被训练至收敛状态，其训练过程中，以预先训练至收敛状态的属性标签识别导师模型对相同训练样本预测出属性标签，以该属性标签对所述属性标签识别学生模型实施半监督训练，所述属性标签识别导师模型事先被实施有监督训练达致收敛状态：
89.对所述人脸图像进行属性标签的识别，借助一个属性标签识别模型来实施，此处所称的属性标签识别模型是利用知识蒸馏技术实现的属性标签识别学生模型，通过具有相同网络架构的一个属性标签识别导师模型指导所述属性标签识别学生模型的训练，使属性标签识别学生模型在属性标签识别导师模型的指正实施半监督训练，直至模型收敛，最终使学生模型习得从人脸图像中获得相适配的一个或多个属性标签的能力。
90.请参考如图2所示的本技术实施知识蒸馏训练思想所搭建的示例性网络架构，在实施知识蒸馏的过程中，所述导师模型与所述学生模型均基于相同的视频帧进行预测，导师模型预测获得的属性标签被用作学生模型预测获得的属性标签的监督标签，计算相关损失值进行梯度更新，拟合导师模型和学生模型。所述导师模型事先被采用少量人工标注样本训练至收敛状态，然后投入知识蒸馏过程中对学生模型进行半监督训练，据此，无需一次性采用海量标注样本对属性标签识别模型实施训练，只需导师模型对学生模型进行半监督训练，即可在无标注样本的帮助下，将学生模型训练至收敛状态，节省了大量的标注成本。对于网络直播平台而言，日常产生海量的视频帧，便可直播用作知识蒸馏过程中的无标注样本，因此，在网络直播应用场景中采用知识蒸馏技术对所述的属性标签识别模型实施训练来获得本技术生产所需的属性标签识别学生模型，具有较高的经济价值。
91.本技术在对所述属性标签识别学生模型实施训练时，直接采用网络直播平台的媒体服务器提供的直播视频流中的视频帧来实施，不仅可以为训练过程提供海量的无标注样
本，而且，由于直播视频流中包含有丰富的人物图像，千姿百态，具有泛化样本特征的特点，有助于提升被训练的学生模型的特征泛化能力，从而提升学生模型对属性标签的识别能力。
92.前一步骤获得的人脸图像被逐一输入已经训练至收敛的所述属性标签识别学生模型之后，该学生模型针对每张人脸图像进行表示学习之后便映射到多分类空间，获得相应的一个或多个属性标签。不难理解，对于包含有多张人脸图像的一张视频帧而言，每张人脸图像均能获得其自身相对应的一个或多个属性标签。
93.步骤s1400、以所述属性标签对所述视频帧中的相应人脸图像进行标注输出：
94.获得每张人脸图像相对应的属性标签之后，便可将这些属性标签与各个人脸图像建立对应关系，或叠加至直播视频流的相应视频帧中，或发送至直播间的观众用户的客户端设备处解析处理，或发送至相应的网络地址，诸如此类，通过所述的对应关系实现以所述属性标签标注其相应的人脸图像，从而使网络平台获得其媒体服务器提供的直播视频流的动态内容中人物图像相关的标注信息。
95.直播视频流是一种流媒体，其中的视频帧沿时间轴组织，因此，在对所述人脸图像进行视频画面的标注时，可使该人脸图像相对应的标注信息保持一定的预设时长，以方便用户察看。实践中，对直播视频流进行属性标签的识别时，可逐帧对其视频帧进行识别，或者间隔一定的时长进行识别，当此先标注的人脸图像消失时，也便可不再持续显示其相对应的标注信息。诸如此类，本领域技术人员可灵活实施以匹配用户体验所需。
96.通过本典型实施例，可以理解，本技术的实施具有多方面积极优势，包括但不限于如下多个方面：
97.本技术中，采用事先训练至收敛状态的属性标签识别学生模型用于对网络直播过程中实时传输的视频流，即媒体服务器输出的直播视频流中的人物图像进行属性标签的识别，以获得相应的属性标签，用于标注相应的人脸图像，其中，所述学生模型本身也是从所述媒体服务器输出的实时直播的直播视频流中采集训练样本以对其实施训练而获得相应的属性识别能力，训练与生产两阶段，均是依据网络直播应用场景中的同源同类型数据来实施，因此，该学生模型在其训练过程中，能够借助网络直播平台内大量直播视频流提供包含较强泛化特征表现的海量视频帧作为训练样本来实施训练，这些训练样本具有较强的泛化能力，且自动化产生，故训练成本低，收敛速度较快，而学生模型所习得的活化能力则较佳。
98.其次，对于网络直播中的直播视频流而言，其为即时传输的流媒体数据，对于直播视频流中的内容信息，平台方往往需要及时掌握，在这种情况下，及时对其中的人脸图像进行标注，以为下游任务提供基础数据，显得举足轻重，本技术的学生模型由于其良好的训练环境而获得识别准确高效的能力，因此，对于网络直播平台而言，针对其媒体服务器输出的海量的直播视频流，通过实施本技术的技术方案，可以实现快速高效地识别出直播视频流内的人脸图像相关的属性信息，供下游任务之用，从而大大提升网络直播平台的服务能力。
99.此外，由于模型在训练和生产阶段均是基于同源的媒体服务器的直播视频流进行应用，对于网络平台方而言，实现了其海量视频数据的数据挖掘服务于不同下游任务的同时，既节省大量的模型训练成本，又能服务于不同需求，从而体现规模经济优势。
100.请参阅图3，一种扩展的实施例中，所述属性标签识别学生模型的训练过程，采用
知识蒸馏思想实施，可结合图2所示的网络架构以加强理解，该过程包括如下步骤：
101.步骤s2100、从媒体服务器输出的任意直播视频流中采集单个视频帧作为训练样本：
102.如前所述，在训练时，直接采用媒体服务器输出的任意直播视频流来获得训练所需的训练样本。较佳的，可以在媒体服务器解码主播用户侧提供的直播视频流后的图像空间中提取出所述的视频帧，每次训练提取单个视频帧即可，用做训练样本。
103.步骤s2200、采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像：
104.关于本步骤的实施，请参阅步骤s1200所示，两者技术实现完全相同，只需采用所述人脸识别模型识别出作为训练样本的视频帧中的一个或多个人脸图像即可。
105.步骤s2300、采用预先训练至收敛状态的属性标签识别导师模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，构成软标签：
106.如图2所示，所述属性标签识别导师模型与所述属性标签识别学生模型实际上是同一属性标签识别模型的两个不同实例，其中的导师模型如前所述被采用相对少量的人工标注的训练样本预先训练至收敛状态，因此其输出的属性标签具有指导学生模型进行表示学习的能力。
107.本技术的属性标签识别模型，同理采用卷积神经网络模型实施，例如resnet、regnet等，其用于对人脸图像进行表示学习，提取出其中的图像特征信息，然后根据所述图像特征信息做多分类映射，获得相对应的一个或多个属性标签，实现对人脸图像的属性标签的预测。
108.制备所述导师模型的示例性实例中，所述模型采用regnet-4.0g，基于人脸图像相对应的人脸区域和人工标注的标签(一般量级较少)，利用带label smooth的softmax loss训练得到一个高精度的模型，这个regnet-4.0g就是一个导师模型，会在训练小模型即学生模型的时候实时地产生软标签。由于直播视频流是源源不断的，因此小模型可以用海量(百万甚至千万级)的带软标签的数据训练。
109.分类器softmax所采用的交叉熵函数如下：
[0110][0111]
其中，n是训练样本总数，pi是网络的对第i个样本的预测，y(i)是第i个样本的人工标签。
[0112]
在知识蒸馏过程中，导师模型与学生模型同步地对同一人脸图像进行表示学习和预测，其中导师模型预测获得的属性标签被作为软标签使用，用于监督学生模型预测出来的属性标签。
[0113]
步骤s2400、采用所述属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，构成结果标签：
[0114]
与导师模型并行的另一路中，属性标签识别学生模型同理对同一人脸图像进行表示学习之后，通过分类器映射出一个或多个属性标签，作为结果标签。
[0115]
步骤s2500、参考所述软标签计算所述结果标签的损失值，判断该损失值是否达到预设阈值，当达到预设阈值时终止训练过程；否则，实施梯度更新，重新采集所述的训练样本对所述属性标签识别学生模型实施迭代训练：
[0116]
如前所述，导师模型的软标签用于监督学生模型的结果标签，因此，采用一个超参数计算所述结果标签与所述软标签之间的损失值，当该损失值未达到预设阈值时，表示学生模型未收敛，根据损失值对学生模型实施梯度更新，并且继续从任意直播视频流中采集新的视频帧作为下一训练样本实施迭代训练，即循环步骤s2100至步骤s2500；否则表示学生模型收敛，可终止训练。在训练过程中，也可为一个视频帧的训练过程提供人工标签，即硬标签，最终利用硬标签计算的损失值与利用软标签计算的损失值的加权和对学生模型实施梯度更新即可，以提升学生模型的收敛速度。
[0117]
此处，亮点之一在于采用了导师模型实时指导学生模型的形式，以半监督的形式进行多任务训练，最终使得学生模型的性能超过导师模型，而网络复杂度远远小于导师模型。对学生模型进行训练时，使用2个损失函数，其中一个是distillation损失(蒸馏损失loss_1)，用来拟合导师模型和学生模型的损失，另一个是softmax损失(学生损失loss_2)，用来拟合学生模型和人工标签之间的损失。distillation损失和softmax损失基本一致，只是软标签代替了人工标签。
[0118]
实测结果显示，基于tensorrt的c 部署上述训练好的小模型，可以实现5秒一帧的处理能力，可以实时地对同一网络直播平台的所有频道的主播属性进行秒级别的更新。
[0119]
本实施例的优势体现在所述的导师模型只需采用少量人工标注样本预先训练至收敛状态，而学生模型可以无需人工标注样本实施训练，仅仅需要所述导师模型的输出作为软标签，即可监督学生模型的训练，且训练过程中可以不再使用人工标注样本，因此可以直接利用网络平台的媒体服务器中的直播视频流中的视频帧，作为无标注样本实施训练。不难理解，应用知识蒸馏思想，不仅可以节省模型的训练成本，还可利用网络直播平台存在海量的直播视频流可提供无标注样本的资源优势，做到某种意义上的循环利用，实现数据价值的挖掘，取得规模经济效用。
[0120]
请参阅图4，深化的实施例中，所述人脸识别模型执行如下步骤：
[0121]
步骤s3100、在多个卷积层中分别提取所述视频帧的多个尺度的图像特征信息：
[0122]
本实施例中，推荐使用efficientdet模型作为本技术的人脸识别模型，其预先被训练至收敛状态，可直接采用预训练的实例。
[0123]
如图5所示，根据所述efficientdet模型固有的架构，当视频帧被输入至人脸识别模型之后，通过构成主干网络的多个层级的卷积层在不同尺度提取视频帧的深层语义信息，获得相应的图像特征信息。这些不同尺度的图像特征信息中，尺度较大者有利于捕捉视频帧中的图像的全局特征，尺度较小者则有利于捕捉视频帧中的图像的局部特征，从而适应视频帧中人像大小不同，均可高盖然性地捕捉到视频帧中人物图像的人脸特征。
[0124]
步骤s3200、在特征金字塔网络中将多个所述的图像特征信息进行特征融合，获得相应的融合特征信息：
[0125]
前一步骤获得的不同尺度的图像特征信息，均被输入至特征金字塔网络(bifpn)中进行特征交互，实现双向特征融合，从而获得相应的融合特征信息，然后将融合特征信息输出至分类网络及边界框预测网络中以便做进一步的分类映射和边框预测。
[0126]
步骤s3300、根据所述融合特征信息提取出一个或多个边界框并映射至分类空间获得其分类结果：
[0127]
一方面，所述的分类网络对所述融合特征信息进行全连接后映射到其分类空间，
该分类空间为二值空间，即所述分类网络可采用二分类器，其适于对所边界框预测网络所预测出的一个相应的边界框做分类判决，以表示其是否为有效的边界框。
[0128]
另一方面，所述的边界框预测网络通过捕捉融合特征信息中的轮廓信息，确定一个或多个边界框，获得相应的边界框坐标。
[0129]
步骤s3400、根据分类结果表征为有效的边界框从所述视频帧中裁剪出相应的人脸图像：
[0130]
前一步骤中确定了视频帧中存在的多个边界框坐标和及其相应的分类结果之后，本步骤中便可根据分类结果确定有效的边界框，然后根据有效的边界框相对应的所述边界框坐标确定其映射到视频帧的相应图像区域，继而将相应图像区域裁剪出来，即获得各个边界框相对应的人脸图像，这些人脸头像便可进一步提供给本技术的属性标签识别学生模型做进一步的属性标注。当然，所述人脸图像可能大小不一，对此，本领域技术人员可自行根据属性标签识别学生模型的输入规范进行灵活的缩放。
[0131]
实际上，本领域技术人员也可自行训练所述的人脸识别模型，预先构造好训练所需的数据集，所述数据集中包含作为训练样本的视频帧及其相对应的边界框人工标签，据此，采用这些训练样本对该人脸识别模型实施迭代训练直至其达至收敛即可。
[0132]
所述的人脸识别模型，在其训练过程中，使用focalloss计算所有未被忽略的种类的预测结果的交叉熵损失，同时使用smoothloss计算目标回归框的损失，其中：
[0133]
focalloss损失的计算公式为：
[0134]
fl(p,y)＝-αy(1-p)
γ
log(p)-(1-α)(1-y)p
γ
log(1-p)
[0135]
其中p为神经网络的预测值，y为人工标签，α和γ为可调节的超参数。smoothloss损失的计算公式为：
[0136][0137]
其中v＝(v
x
,vy,vw,vh])表示样本的框坐标，表示预测的边界框坐标，即分别求四个点的损失，然后相加作为边界框的回归误差。
[0138]
本实施例中通过优选基于efficientdet实现的人脸识别模型，利用其中的多个层级的卷积层及特征金字塔网络，在捕捉视频帧的多尺度图像特征的基础上进行深度特征交互，实现了对直播画面这种具有复杂动态变化特征的视频帧的人脸图像识别，能够最大可能地从直播视频流中识别出人脸图像，避免误识别，确保人脸图像识别准确率，从而提升识别出人脸图像的属性标签的准确率。
[0139]
请参阅图6，一种具体化的实施例中，所述步骤s1400、以所述属性标签对所述视频帧中的相应人脸图像进行标注输出，包括如下步骤：
[0140]
步骤s1411、针对每个预测出的人脸图像，获取其由所述人脸识别模型识别出的边界框，根据边界框确定所述人脸图像在所述视频帧中的位置信息：
[0141]
本实施例涉及本技术的一个具体应用，当本技术的在先各个步骤即步骤s1100至步骤s1300识别出人脸图像的属性标签之后，在本实施例中，先获取步骤s1200输出的各个边界框，即利用人脸图像与视频帧的映射关系，根据有效的边界框坐标映射出人脸图像在视频帧中的位置信息，确定所述视频帧中各个被识别出的人脸图像相对应的位置信息，以
便进一步标注。
[0142]
步骤s1412、针对每个预测出的人脸图像，生成用于表示其所述属性标签的信息图像，所述信息图像具有透明背景：
[0143]
针对每个预测出的人脸图像，需要将其各个相应的属性标签所携带的信息对其进行标注，因此，可将其各个属性标签转换为信息图像，例如先将属性标签根据其值与标签类型之间映射关系转换表示为文字信息“{性别:美女；年龄:20；颜值:巅峰}”,然后将这些文字信息转换为信息图像，保持该信息图像为透明背景包括半透明背景，从而完成人脸图像相对应的标注信息的构造。
[0144]
步骤s1413、根据所述位置信息，将所述信息图像叠加到所述视频帧及其相邻视频帧的相应图像位置处实现与相应的人脸图像的位置关联标注，以使所述直播视频流被客户端设备播放时显示各个人脸图像相对应的信息图像：
[0145]
在先已经确定了各个预测出的人脸图像在所述视频帧中的位置信息，至此，便可根据所述位置信息，在视频帧中确定各个人脸图像相对应的信息图像的锚点，该锚点可关联于所述边界框的变动而同步变动，然后将所述信息图像定位叠加到所述的锚点中，使其叠加到视频帧的图像中，实现将视频帧中的人脸图像与其相对应的信息图像的关联标注。
[0146]
完成所述的关联标注过程之后，当所述的直播视频流到达直播间的客户端设备被播放显示时，便可在显示人物图像的同时，跟随其人脸而显示其相应的信息图像，也即展示了该人物图像中的人脸图像相对应的属性标签。相应的效果图请参阅图7所示。
[0147]
本实施例将本技术所获得的属性标签用于在后台对直播视频流实施人脸图像的属性标注，当其传输至客户端设备显示时，方便终端设备展示直播视频流中人物相对应的属性信息，可改善用户体验。
[0148]
请参阅图8，另一具体化的实施例中，所述步骤s1400、以所述属性标签对所述视频帧中的相应人脸图像进行标注输出，包括如下步骤：
[0149]
步骤s1421、针对每个预测出的人脸图像，获取其由所述人脸识别模型识别出的边界框，根据边界框确定所述人脸图像在所述视频帧中的位置信息：
[0150]
本实施例涉及本技术的一个具体应用，当本技术的在先各个步骤即步骤s1100至步骤s1300识别出人脸图像的属性标签之后，在本实施例中，先获取步骤s1200输出的各个边界框，即利用人脸图像与视频帧的映射关系，根据有效的边界框坐标映射出人脸图像在视频帧中的位置信息，确定所述视频帧中各个被识别出的人脸图像相对应的位置信息，以便进一步标注。
[0151]
步骤s1422、针对每个预测出的人脸图像，将其属性标签、位置信息，以及其相应的视频帧在直播视频流中的时间戳，封装为映射关系数据：
[0152]
本实施例不同于前一实施例的重点在于，前一实施例由后台负责将属性标签相应的信息叠加到直播视频流中，而本实施例则将相应的属性标签所指示的信息发送至直播间客户端设备处，由客户端设备负责实施界面渲染以展示相应的人物图像标注信息。
[0153]
因此，本步骤中，针对每个预测出的人脸图像，可将其属性标签、位置信息、以及被识别的视频帧在所述直播视频流中的时间戳，将三者封装为映射关系数据，构成直播间的信息流中的一个通知消息。
[0154]
步骤s1423、将所述映射关系数据同步于所述直播视频流输出至相同客户端设备，
以由该客户端设备解析所述映射关系数据后，在所述直播视频流被客户端设备播放显示所述人脸图像时，对应显示其属性标签的转义标签信息：
[0155]
继而，通过直播间的信息流，将封装了所述映射关系数据的通知消息随同所述直播视频流广播至直播间中给直播间内的各个观众用户的客户端设备，由此，每个客户端设备均可获得所述的映射关系数据，便可自行解析该映射关系数据，获得其中的每个人脸图像相对应的属性标签、位置信息以及时间戳，在直播视频流的时间戳到达时，在界面中渲染出对应人脸图像在播放窗口中的位置的显示组件，在该显示组件中显示所述属性标签相应的转义标签信息，也即根据属性标签中的值与属性类型之间映射关系所确定的以文字或图像表示的信息。其界面效果同理可参考图7所示。
[0156]
通过本实施例可以看出，不同于前一实施例，本技术将属性标签的展示转移到客户端设备处实现，由各个客户端设备通过网络直播系统的信息流获取包含展示标签的映射关系数据并自行解析后，在界面上自行渲染显示相应的转义标签信息，分散了运算负载，减轻了网络直播平台的服务器的负担。
[0157]
再一具体化的实施例中，所述步骤s1400、以所述属性标签对所述视频帧中的相应人脸图像进行标注输出，包括如下步骤：
[0158]
步骤s1431、将所有人脸图像相对应的属性标签与所述直播视频流的主播用户的用户注册信息进行比较，根据比较结果标注是否有一个人脸图像的属性标签与用户注册信息相一致，其中，所述属性标签包括性别和年龄：
[0159]
本实施例可将本技术前述步骤s1100至步骤s1300所识别出的属性标签用于检测直播间中的代播行为，即检测直播视频流中的人脸图像是否为该直播间的注册用户本人，以便引导与网络平台签约的主播用户避免产生违约行为。
[0160]
据此，需要调用被识别的直播视频流所属的主播用户的用户注册信息，所述用户注册信息为该主播用户相对应的个人账户信息，可由网络平台方直播调用，其中存储有与所述属性标签相对应类型的属性数据，例如性别、年龄等类型。
[0161]
进而，便可将从视频帧中获得的各个人脸图像的属性标签，与该直播间的主播用户的用户注册信息中的各个属性数据进行对应比较，当两者相一致，或者大部分一致时，则可确认该直播间不存在代播行为。
[0162]
步骤s1432、当标注为不一致时，判定所述直播视频流的主播用户存在代播行为，而触发后台通知消息发送至预设网络地址：
[0163]
反之，当两者不一致时或者持续预设时长进行的多次识别均存在不一致时，便可判定所述主播用户存在代播行为，据此，可触发后台通知消息，发送至预设的网络地址。所述的网络地址，可以是网络平台方的网管员预设的即时通信端口，也可以是网络平台方的数据库存储地址，还可以是所述主播用户的即时通信消息接收端口等，可由本领域技术人员根据具体业务逻辑实现。
[0164]
本实施例利用图像识别技术，通过人脸图像判定直播视频流中人脸图像相对应的属性标签，根据属性标签与直播视频流的主播用户的用户注册信息之间的一致性，进行代播行为排查，可提升网络直播过程中的安全识别能力，确保网络直播生态健康稳定发展。
[0165]
请参阅图9，本技术的代播事件检测方法在其典型实施例中，包括如下步骤：
[0166]
步骤s5100、获取直播视频流中的视频帧，所述直播视频流来源于媒体服务器:
[0167]
所述直播视频流，是指网络直播平台开放直播间服务，根据直播间实现逻辑，从其媒体服务器中即时输出以传输给直播间用户解析显示的视频流。直播视频流一般由主播用户侧负责推送，经媒体服务器进行相应的音视频处理后，再发送给直播间中的其他在线观众用户。
[0168]
获取所述的直播视频流时，可以在媒体服务器对从主播用户侧接收的直播视频流进行解码后进行提取，当然也可将该媒体服务器编码后输出的直播视频流进行专门解码以获取其中的视频帧。本技术中，当开始对直播视频流进行属性标签识别时，便可开始从所述的直播视频流中获取本技术识别所需的视频帧。
[0169]
适应本技术对直播视频流进行识别的具体情况的需要，在整个直播过程中，可以针对其中的每一视频帧进行识别，也可间隔一定时长或者帧数从直播视频流中获取视频帧进行识别，对此，本领域技术人员可灵活实施。
[0170]
步骤s5200、采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像：
[0171]
本技术中，采用一个已训练至收敛状态的人脸识别模型用于对所述的视频帧进行人脸图像提取。所述人脸识别模型可以采用本领域技术人员熟知的各种已有的目标识别模型，或者经实测表现较佳的目标识别模型。这些目标识别模型通过是基于卷积神经网络实现的，例如，efficientdet、yolo等，既可采用预训练的目标识别模型担任，也可由本领域技术人员对目标识别模型自行初始化其状态并自行训练至收敛再投入本技术中使用。
[0172]
将从直播视频流中获得的视频帧输入所述的人脸识别模型，所述人脸识别模型首先对该视频帧进行表示学习获得其深层语义信息，然后根据深层语义信息输出一个或多个边界框，并输出每个边界框是否属于人脸的分类结果，从而可以根据分类结果确定人脸图像相对应的边界框，然后根据边界框的位置信息从视频帧原图中截取出相应的人脸图像。由于所述视频帧中可能存在一个或多个人物，因此，相应可能输出一个或多个人脸图像，对于存在多个人脸图像的情况，后续步骤中，可以逐一对各个人脸图像进行属性标签识别，也可只选取其中图像条件较佳的人脸图像作为主体图像单独进行属性标签识别，其中，所述图像条件包括相应的边界框具有最大面积，或者边界框的置信度较高等。对此，本领域技术人员可灵活实施。
[0173]
步骤s5300、采用属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，所述属性标签包括性别标签和/或年龄标签；其中，所述属性标签识别学生模型以所述媒体服务器提供的任意直播视频流中的视频帧为训练样本预先被训练至收敛状态，其训练过程中，以预先训练至收敛状态的属性标签识别导师模型对相同训练样本预测出属性标签，以该属性标签对所述属性标签识别学生模型实施半监督训练，所述属性标签识别导师模型事先被实施有监督训练达致收敛状态：
[0174]
对所述人脸图像进行属性标签的识别，借助一个属性标签识别模型来实施，此处所称的属性标签识别模型是利用知识蒸馏技术实现的属性标签识别学生模型，通过具有相同网络架构的一个属性标签识别导师模型指导所述属性标签识别学生模型的训练，使属性标签识别学生模型在属性标签识别导师模型的指正实施半监督训练，直至模型收敛，最终使学生模型习得从人脸图像中获得相适配的一个或多个属性标签的能力。
[0175]
请参考如图2所示的本技术实施知识蒸馏训练思想所搭建的示例性网络架构，在实施知识蒸馏的过程中，所述导师模型与所述学生模型均基于相同的视频帧进行预测，导
师模型预测获得的属性标签被用作学生模型预测获得的属性标签的监督标签，计算相关损失值进行梯度更新，拟合导师模型和学生模型。所述导师模型事先被采用少量人工标注样本训练至收敛状态，然后投入知识蒸馏过程中对学生模型进行半监督训练，据此，无需一次性采用海量标注样本对属性标签识别模型实施训练，只需导师模型对学生模型进行半监督训练，即可在无标注样本的帮助下，将学生模型训练至收敛状态，节省了大量的标注成本。对于网络直播平台而言，日常产生海量的视频帧，便可直播用作知识蒸馏过程中的无标注样本，因此，在网络直播应用场景中采用知识蒸馏技术对所述的属性标签识别模型实施训练来获得本技术生产所需的属性标签识别学生模型，具有较高的经济价值。
[0176]
本技术在对所述属性标签识别学生模型实施训练时，直接采用网络直播平台的媒体服务器提供的直播视频流中的视频帧来实施，不仅可以为训练过程提供海量的无标注样本，而且，由于直播视频流中包含有丰富的人物图像，千姿百态，具有泛化样本特征的特点，有助于提升被训练的学生模型的特征泛化能力，从而提升学生模型对属性标签的识别能力。
[0177]
前一步骤获得的人脸图像被逐一输入已经训练至收敛的所述属性标签识别学生模型之后，该学生模型针对每张人脸图像进行表示学习之后便映射到多分类空间，获得相应的一个或多个属性标签。不难理解，对于包含有多张人脸图像的一张视频帧而言，每张人脸图像均能获得其自身相对应的一个或多个属性标签。
[0178]
适应本实施例用于检测代播事件的需求，所述属性标签适宜包括年龄标签和/或性别标签，以便指示人脸图像中人物的年龄和/或性别相应的具体信息。
[0179]
步骤s5400、将所有人脸图像相对应的属性标签与所述直播视频流的主播用户的用户注册信息进行匹配，若所有人脸图像中存在至少一个属性标签未与所述用户注册信息实现匹配时，判定该主播用户存在代播事件：
[0180]
将此前所识别出的属性标签用于检测直播间中的代播行为，即检测直播视频流中的人脸图像是否为该直播间的注册用户本人，以便引导与网络平台签约的主播用户避免产生违约行为。
[0181]
据此，需要调用被识别的直播视频流所属的主播用户的用户注册信息，所述用户注册信息为该主播用户相对应的个人账户信息，可由网络平台方直播调用，其中存储有与所述属性标签相对应类型的属性数据，例如性别、年龄等类型相应的信息。
[0182]
进而，便可将所述学生模型从视频帧中获得的各个人脸图像的属性标签，即年龄标签和/或性别标签，与该直播间的主播用户的用户注册信息中的年龄、性别等信息数据进行对应比较，当两者完全一致，表示存在一个人脸图像相对应的属性标签与用户注册信息相匹配，即可确认该直播间不存在代播行为；反之，如果所有人脸图像的属性标签均不能与该主播用户的用户注册信息中的相应数据项实现完全匹配，则可判定该直播间存在代播行为，从而便触发相应的代播事件。
[0183]
变通的实施例中，对于存在多个人脸图像的情况，将每张人脸图像的所有属性标签与用户注册信息进行匹配，要求两者完全相同时，才构成匹配，否则，只要有一个属性标签与用户注册信息中的相应项不相同，该张人脸图像即构成不匹配。如果所有人脸图像都不匹配，便可触发所述的代播事件；反之，如果有一张人脸图像实现匹配，可不予触发所述的代播事件。
[0184]
另一变通的实施例中，对于存在多个人脸图像的情况，将每张人脸图像的所有属性标签与用户注册信息进行匹配，只要其中一个属性标签与用户注册信息中的相应项完全相同时，便构成匹配，并要求其中所有属性标签均与用户注册信息中的相应项不相同时，该张人脸图像才构成不匹配。如果所有人脸图像都不匹配，便可触发所述的代播事件；反之，如果有一张人脸图像实现匹配，可不予触发所述的代播事件。
[0185]
一个实施例中，考虑到同一主播用户周边可能出现相同团队成员，允许提供一个白名单，在该白名单中添加更多成员相应的年龄、性别等数据，当需判定是否存在代播行为时，将模型获得的属性标签与整个白名单中所有成员的相应数据进行比较匹配，当两者不能实现匹配时，方触发所述的代播事件。据此，增强本方法检测过程中的可扩展性，可以对多人参与直播的行为予以扩容。
[0186]
步骤s5500、监听每个主播用户存在代播事件的持续时长，当该持续时长达到预设阈值时，触发通知事件：
[0187]
对于同一直播视频流，当其被检测出首个代播事件之后，启动一个计时器，用于统计后续持续触发代播事件的持续时长，并且设置一个预设阈值用于比较这一持续时长。在该预设阈值的时间范围之内，如果一次检测发现学生模型的属性标签与用户注册信息相匹配的情况，表示主播用户重新主持直播，便可关闭计时器。有该预设阈值的时间范围内，如果经过持续的检测发现所述的代播事件持续发生，直到所述的持续时长超过所述的预设阈值，则可判定主播用户的代播行为成立，构成违约，据此，便要触发相应的通知事件。所述的通知事件包括发送给所述主播用户的消息通知接口的通知事件和/或发送给网络直播平台后台管理接口的通知事件，通过相应的接口将该通知事件发送至相应的地址即可。
[0188]
由以上对本技术的代播事件方法的揭示可以看出，本技术的代播事件检测方法，建基于本技术的属性标签识别方法，因此，本技术的属性标签识别方法的各个实施例所实现的技术方案，只要不存在冲突，均可为本技术的代播事件方法所采用，例如所述学生模型的训练原理及其过程等，因此，对于相同技术方案部分，此处不再赘述。
[0189]
进一步变通的实施例中，还可在本技术的代播事件检测方法的过程中结合将人脸图像与用户注册信息中的用户头像进行匹配，获得头像匹配结果，将头像匹配结果与代播事件存在进行联合检测，两者任意之一实现匹配时，判定存在代播事件，可以避免漏检，提升代播事件检测的准确度。
[0190]
本实施例通过对人脸图像进行识别获取其相应的属性标签与主播用户的用户注册信息进行比较，通过比较及时检测代播事件，在代播事件满足违规条件时发送相应的通知消息，据此，可以协助网络直播平台规则网络直播过程，可提升网络直播过程中的安全识别能力，确保网络直播生态健康稳定发展。
[0191]
请参阅图10，适应本技术的目的之一而提供的一种属性标签识别装置，包括：图像获取模块1100、人脸识别模块1200、标签预测模块1300，以及标注输出模块1400，其中，所述图像获取模块1100，用于获取直播视频流中的视频帧，所述直播视频流来源于媒体服务器；所述人脸识别模块1200，用于采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；所述标签预测模块1300，用于采用属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，其训练过程中，以预先训练至收敛状态的属性标签识别导师模型对相同训练样本预测出属性标签，以该属性标签对
所述属性标签识别学生模型实施半监督训练，所述属性标签识别导师模型事先被实施有监督训练达致收敛状态；其中，所述属性标签识别学生模型以所述媒体服务器提供的直播视频流中的视频帧为训练样本预先被训练至收敛状态；所述标注输出模块1400，用于以所述属性标签对所述视频帧中的相应人脸图像进行标注输出。
[0192]
一种扩展的实施例中，运行第一训练模块对所述属性标签识别学生模型实施训练，第一训练模块包括：样本采集子模块，用于从媒体服务器输出的任意直播视频流中采集单个视频帧作为训练样本；人脸提取子模块，用于采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；导师处理子模块，用于采用预先训练至收敛状态的属性标签识别导师模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，构成软标签；学生预测子模块，用于采用所述属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的一个或多个属性标签，构成结果标签；更新迭代子模块，用于参考所述软标签计算所述结果标签的损失值，判断该损失值是否达到预设阈值，当达到预设阈值时终止训练过程；否则，实施梯度更新，重新采集所述的训练样本对所述属性标签识别学生模型实施迭代训练。
[0193]
深化的实施例中，所述人脸识别模型运行时构造出人脸提取子模块，该人脸提取子模块包括：卷积提取单元，用于在多个卷积层中分别提取所述视频帧的多个尺度的图像特征信息；特征融合单元，用于在特征金字塔网络中将多个所述的图像特征信息进行特征融合，获得相应的融合特征信息；分类映射单元，用于根据所述融合特征信息提取出一个或多个边界框并映射至分类空间获得其分类结果；图像裁剪单元，用于根据分类结果表征为有效的边界框从所述视频帧中裁剪出相应的人脸图像。
[0194]
一种具体化的实施例中，所述标注输出模块1400，包括：图像定位子模块，用于针对每个预测出的人脸图像，获取其由所述人脸识别模型识别出的边界框，根据边界框确定所述人脸图像在所述视频帧中的位置信息；信息转义子模块，用于针对每个预测出的人脸图像，生成用于表示其所述属性标签的信息图像，所述信息图像具有透明背景；关联标注子模块，用于根据所述位置信息，将所述信息图像叠加到所述视频帧及其相邻视频帧的相应图像位置处实现与相应的人脸图像的位置关联标注，以使所述直播视频流被客户端设备播放时显示各个人脸图像相对应的信息图像。
[0195]
另一具体化的实施例中，所述标注输出模块1400，包括：图像定位子模块，用于针对每个预测出的人脸图像，获取其由所述人脸识别模型识别出的边界框，根据边界框确定所述人脸图像在所述视频帧中的位置信息；数据封装子模块，用于针对每个预测出的人脸图像，将其属性标签、位置信息，以及其相应的视频帧在直播视频流中的时间戳，封装为映射关系数据；数据推送子模块，用于将所述映射关系数据同步于所述直播视频流输出至相同客户端设备，以由该客户端设备解析所述映射关系数据后，在所述直播视频流被客户端设备播放显示所述人脸图像时，对应显示其属性标签的转义标签信息。
[0196]
再一具体化的实施例中，所述标注输出模块1400，包括：信息比对子模块，用于将所有人脸图像相对应的属性标签与所述直播视频流的主播用户的用户注册信息进行比较，根据比较结果标注是否有一个人脸图像的属性标签与用户注册信息相一致，其中，所述属性标签包括性别和年龄；代播判定子模块，用于当标注为不一致时，判定所述直播视频流的主播用户存在代播行为，而触发后台通知消息发送至预设网络地址。
[0197]
请参阅图11，适应本技术的目的而提供的一种代播事件检测装置，其包括：图像获取模块5100、人脸识别模块5200、标签预测模块5300，代播检测模块5400，以及监听通知模块5500，其中，所述图像获取模块5100，用于获取直播视频流中的视频帧，所述直播视频流来源于媒体服务器；所述人脸识别模块5200，用于采用已训练至收敛的人脸识别模型识别出所述视频帧中的人脸图像；所述标签预测模块5300，用于采用属性标签识别学生模型，对所述人脸图像实施属性标签预测，获得与所述人脸图像相对应的属性标签，所述属性标签包括性别标签和/或年龄标签；其中，所述属性标签识别学生模型以所述媒体服务器提供的任意直播视频流中的视频帧为训练样本预先被训练至收敛状态，其训练过程中，以预先训练至收敛状态的属性标签识别导师模型对相同训练样本预测出属性标签，以该属性标签对所述属性标签识别学生模型实施半监督训练，所述属性标签识别导师模型事先被实施有监督训练达致收敛状态；所述代播检测模块5400，用于将所有人脸图像相对应的属性标签与所述直播视频流的主播用户的用户注册信息进行匹配，若所有人脸图像中存在至少一个属性标签未与所述用户注册信息实现匹配时，判定该主播用户存在代播事件；所述监听通知模块5500，用于监听每个主播用户存在代播事件的持续时长，当该持续时长达到预设阈值时，触发通知事件。
[0198]
为解决上述技术问题，本技术实施例还提供计算机设备。如图12所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种属性标签识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本技术的属性标签识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0199]
本实施方式中处理器用于执行图10、图11中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的属性标签识别装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
[0200]
本技术还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本技术任一实施例的属性标签识别方法的步骤。
[0201]
本技术还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本技术任一实施例所述方法的步骤。
[0202]
本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介
质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等计算机可读存储介质，或随机存储记忆体(random access memory，ram)等。
[0203]
综上所述，本技术能够充分利用网络直播平台中存在海量直播视频流的优势，既用作属性标签识别模型的训练样本提升模型识别能力，又能利用模型的识别能力服务于多种下游任务，实现网络直播过程中的代播行为检测，为网络直播的健康发展提供了技术保障。
[0204]
本技术领域技术人员可以理解，本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0205]
以上所述仅是本技术的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：服务质量的控制方法、装置、电子设备及可读介质与流程

属性标签识别、代播事件检测方法及其装置、设备、介质与流程

相关文献

最热文献