一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

演唱视频识别方法、装置、设备及存储介质与流程

2021-12-08 00:19:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别涉及一种演唱视频识别方法、装置、设备及存储介质。


背景技术:

2.随着直播平台和视频分享平台的快速发展,很多用户会在直播平台中直播用户真人演唱画面,或者在将用户真人演唱录播视频上传至视频分享平台进行分享,这类优质的演唱录播视频以及演唱直播片段适合推荐给其他用户观看。
3.直播平台和视频分享平台通常会对平台中的视频进行检测,并根据检测结果来实现管理平台视频这一目的。例如,上述平台中通过视频的音频数据来判断是否有歌曲,以此确定视频类型。
4.相关技术提供的方案中,视频内容的识别准确率低,信息流内容服务中的资源利用率低。


技术实现要素:

5.本技术实施例提供了一种演唱视频识别方法、装置、设备及存储介质,能够提升真人演唱视频的识别准确率,提升信息流内容服务中的资源利用率,提升服务器运行效率。
6.根据本技术实施例的一个方面,提供了一种演唱视频识别方法,所述方法包括:
7.获取视频数据对应的视频片段;
8.对所述视频片段进行音视频特征检测处理,得到所述视频片段的音频检测结果和人脸检测结果;
9.在所述音频检测结果和所述人脸检测结果符合第一条件的情况下,对所述视频片段进行唇部动作识别处理,得到所述视频片段对应的唇部动作识别结果;
10.在所述唇部动作识别结果符合第二条件的情况下,确定所述视频片段为演唱视频片段。
11.根据本技术实施例的一个方面,提供了一种演唱视频识别装置,所述装置包括:
12.视频片段获取模块,用于获取视频数据对应的视频片段;
13.音视频特征检测模块,用于对所述视频片段进行音视频特征检测处理,得到所述视频片段的音频检测结果和人脸检测结果;
14.唇部动作识别模块,用于在所述音频检测结果和所述人脸检测结果符合第一条件的情况下,对所述视频片段进行唇部动作识别处理,得到所述视频片段对应的唇部动作识别结果;
15.视频类型确定模块,用于在所述唇部动作识别结果符合第二条件的情况下,确定所述视频片段为演唱视频片段。
16.根据本技术实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述
至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述演唱视频识别方法。
17.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述演唱视频识别方法。
18.根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述演唱视频识别方法。
19.本技术实施例提供的技术方案可以带来如下有益效果:
20.通过结合视频多模态信息,将视频分割为片段并对视频片段进行音视频特征检测,以得到视频片段的音频检测结果和人脸检测结果,进而根据这两方面的特征信息对视频片段进行初步判断,只有在符合第一条件的情况下再进行唇部动作识别,在唇部动作识别结果符合第二条件的情况下可以最终识别出演唱视频片段,在有效提升演唱视频的识别准确性的同时还能降低计算量。
附图说明
21.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本技术一个实施例提供的应用程序运行环境的示意图;
23.图2至图5是本技术各个实施例提供的演唱视频识别方法的流程图;
24.图6示例性示出了一种识别演唱视频流程的示意图;
25.图7是本技术一个实施例提供的演唱视频识别装置的框图;
26.图8是本技术一个实施例提供的计算机设备的结构框图。
具体实施方式
27.本技术实施例提供的方案涉及人工智能技术以及云技术,下面对此进行简要说明,以便于本领域技术人员理解。
28.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
29.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
30.语音技术(speech technology)的关键技术有自动语音识别技术(automatic speech recognition,asr)和语音合成技术(text to speech,tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
31.自动语音识别技术的目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
32.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
33.云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
34.云技术(cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
35.云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
36.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
37.请参考图1,其示出了本技术一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
38.终端10可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、pc(personal computer,个人计算机)等电子设备。终端10中可以安装应用程序的客户端。
39.在本技术实施例中,上述应用程序可以是任何能够提供信息流内容服务的应用程序。典型地,该应用程序为内容分享类应用程序。当然,除了内容分享类应用程序之外,其它类型的应用程序中也可以提供信息流内容服务。例如,视频直播类应用程序、视频分享类应用程序、内容交互类应用程序、新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、虚拟现实(virtual reality,vr)类应用程序、增强现实(augmented reality,ar)类应用程序等,本技术实施例对此不作限定。另外,对于不同的应用程序来说,用户创作上传的内容也会有所不同,且相应的功能也会有所不同,这都可以根
据实际需求预先进行配置,本技术实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。
40.服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
41.可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
42.请参考图2,其示出了本技术一个实施例提供的演唱视频识别方法的流程图。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备。该方法可以包括以下几个步骤(210~240)。
43.步骤210,获取视频数据对应的视频片段。
44.可选地,视频数据包括录播视频数据和直播视频数据。
45.在视频数据为录播视频数据的情况下,将录播视频分割为至少一个视频片段。上述录播视频数据可以是一个完整的视频文件,上述视频文件可以是用户自行上传至内容分享平台的,用户自行创作的视频文件,本技术对视频内容和视频上传形式不作限定。可选地,按照固定时长将录播视频分割为时长为上述固定时长的多个视频片段。
46.在视频数据为直播视频数据的情况下,接收直播视频数据流;对直播视频数据流进行截取处理,得到视频片段。上述直播视频数据可以是用户实时上传至内容分享平台的视频数据。可选地,从直播视频数据流中截取上述固定时长的视频数据,得到视频片段。
47.可选地,上述视频数据属于用户生成内容(user

generated content,ugc),用户生成内容通常指用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。
48.步骤220,对视频片段进行音视频特征检测处理,得到视频片段的音频检测结果和人脸检测结果。
49.上述音视频特征检测处理是指检测上述视频片段的音频特征与图像特征的处理。
50.上述音频检测结果用于表征上述视频片段的音频特征。上述音频检测结果可以是接受检测的视频片段对应的音频内容的音频类型。例如,视频片段的音频内容是歌唱音频、语音音频等。
51.上述人脸检测结果用于表征上述视频片段的图像特征。可选地,上述人脸检测结果包括人脸图像和非人脸图像。上述人脸图像可以是视频片段的图像帧中存在人脸的图像,或者是存在符合预设人脸筛选条件的人脸的图像。上述人脸筛选条件可以是人脸面积大于面积阈值,或者人脸位置处于预设图像区域内,本技术实施例对比不作限定。上述非人脸图像可以是视频片段的图像帧中不存在人脸的图像,或者是不存在符合预设人脸筛选条件的人脸的图像。上述人脸检测结果用于表征视频片段中的图像帧是否为人脸图像。
52.在示例性实施例中,如图3所示,其示出了本技术一个实施例提供的演唱视频识别方法的流程图,上述步骤220还包括如下子步骤(221

222)。
53.步骤221,对视频片段的音频数据进行音频事件检测处理,得到视频片段的音频检测结果。
54.可选地,可从视频片段中提取出相应的音频数据,然后对提取出的音频数据进行音频事件检测处理,进而得到视频片段的音频检测结果。上述音频事件检测处理是指检测音频内容与预设音频事件之间的相似性的处理,通过音频事件检测处理可以确定音频内容为各音频事件的概率。上述音频事件可以是预先设定的,表征各种音频内容的实体,例如,音频事件包括歌唱、语音、噪声、音乐、静音等事件。通过上述概率可以确定出与上述音频数据最匹配的音频类型。
55.步骤222,对视频片段的图像数据进行人脸检测处理,得到视频片段的人脸检测结果。
56.可选地,可从视频片段中提取出相应的图像数据,然后对图像数据进行人脸检测处理,从而确定上述图像数据表征的图像内容是否为包含人脸的人脸图像。
57.步骤230,在音频检测结果和人脸检测结果符合第一条件的情况下,对视频片段进行唇部动作识别处理,得到视频片段对应的唇部动作识别结果。
58.上述第一条件用于筛选视频中存在人脸,且视频中有歌唱但无语音的视频片段。可选地,上述第一条件可以是音频检测结果表征视频片段的音频类型为有歌唱无语音类,且人脸检测结果表征视频片段中包含人脸。
59.因演唱视频的音频类型为有歌唱无语音类,通过有歌唱无语音这一特征可以排除一些无关视频,例如在背景音乐下语音通话的视频、非歌唱视频等。
60.因演唱视频中需要真人进行演唱,通过人脸检测结果确定视频片段中是否存在人脸,可以排除另外的无关视频,例如,无人像视频,无图像视频等。
61.通过上述第一条件对音频检测结果和人脸检测结果进行限制,可以对视频片段进行初步判定,排除大量无关的非演唱视频,只有在音频检测结果和人脸检测结果符合第一条件的情况下,再去进行上述唇部动作识别处理,可有效降低计算量,减轻计算机设备的运行压力。
62.上述唇部动作识别处理是指识别人脸嘴部动作的图像处理方式,因真人演唱时需要通过嘴部发声,演唱者会有嘴巴张开和闭合的动作,而嘴巴张开和闭合的动作会带来嘴唇的位置变化,通过上述唇部动作识别处理可以确定唇部动作识别结果,以排除嘴部静止的视频,或者是嘴部动作为非说话唱歌的视频,例如吃饭视频、表情展示视频。
63.可选地,上述唇部动作识别结果可以是识别出的唇部运动状态,例如唇部运动状态可以是说话歌唱状态、吃饭状态、或者表情展示状态。
64.步骤240,在唇部动作识别结果符合第二条件的情况下,确定视频片段为演唱视频片段。
65.上述第二条件用于筛选出视频中包括与真人演唱的唇部动作特征相符的唇部动作的视频片段。通过上述第一条件已经可以确定出存在人脸且有歌唱但无语音的视频片段,再通过唇部动作识别结果符合第二条件的这一限制,可以将存在背景音乐但唇部动作不符合说话唱歌状态的视频排除,进而确定出准确的真人演唱视频。
66.如果仅是通过视频中的音频判断音频是属于语音还是歌唱,很多时候难以区分出正确的真人演唱视频,最终使得信息流内容服务场景中的演唱视频的识别策略准确率和召
回率较差,难以实际应用。通过结合视频多模态信息,再进行相应的音频事件检测、人脸检测、唇部动作识别等方法,可以精确识别出录播视频或直播视频中的真人演唱视频片段。
67.在示例性实施例中,如图3所示,上述方法还包括如下步骤(250

260)。
68.步骤250,将视频数据对应的演唱视频片段进行拼接,生成演唱视频。
69.可选地,将录播视频中的演唱视频片段进行拼接,生成录播视频中的的演唱视频。
70.可选地,将直播视频中的演唱视频片段进行拼接,生成直播视频中的的演唱视频。
71.在一种可能的实施方式中,通过本技术提供的演唱视频识别方法可以自动识别出录播视频中真人唱歌的片段,给出对应的时间点标识,使得各视频剪辑系统可以根据上述时间点标识,快速自动剪辑视频中的精彩片段,提升视频剪辑效率,降低计算机设备运行时间。
72.步骤260,在信息流服务中推送演唱视频。
73.在一种可能的实时方式中,通过本技术提供的演唱视频识别方法可以自动识别出视频中真人唱歌的片段,以此发现优质录制视频或直播视频片段,快速将其推送给用户观看。在示例性实施例中,如图3所示,上述方法还包括如下步骤(270)。
74.步骤270,确定演唱视频片段对应的直播视频流,在信息流服务中推送直播视频流。
75.在一种可能的实时方式中,通过本技术提供的演唱视频识别方法可以实时识别直播视频中是否有真人唱歌,在各视频直播平台的推荐系统中,可以据此向用户实时推荐正在进行精彩表演的主播,较好的提升用户的观赏时长。
76.在示例性实施例中,如图3所示,上述方法还包括如下步骤(280

290)。
77.步骤280,确定演唱视频片段对应的用户帐号。
78.步骤290,标记用户帐号的类型。
79.歌唱直播是视频直播平台的主要内容之一,在一种可能的实施方式中,上述方法还可用于自动识别歌唱主播。在各直播平台中的直播帐号分类系统中,可以先将演唱视频识别出来,进而确定发布上述演唱视频的用户帐号的类型为歌唱主播类型,提升用户管理效率,减低计算机设备运行压力。
80.在示例性实施例中,上述方法还包括:给演唱视频片段的添加演唱视频标签。通过本本技术实施例提供的演唱视频识别方法可以自动识别短小视频是否为真人歌唱视频,进而可以为演唱视频添加相应的演唱视频标签,以完成各视频分享平台中的视频分类任务,提升资源管理效率。可选地,信息流内容服务中也可以根据此标签进行视频推荐。
81.通过上述几个示例性实施例可以看出,本技术提供的演唱视频识别方法可以应用到视频直播平台中歌唱主播识别分类、歌唱直播精彩时刻的实时推荐、录播视频精彩片段快速剪辑、短小视频分类和推荐等系统中。
82.综上所述,本技术实施例提供的技术方案,通过结合视频多模态信息,将视频分割为片段并对视频片段进行音视频特征检测,以得到视频片段的音频检测结果和人脸检测结果,进而根据这两方面的特征信息对视频片段进行初步判断,只有在符合第一条件的情况下再进行唇部动作识别,在唇部动作识别结果符合第二条件的情况下可以最终识别出演唱视频片段,在有效提升演唱视频的识别准确性的同时还能降低计算量。
83.另外,本技术实施例提供的技术方案还可以应用到直播推荐、直播主播分类、视频
剪辑系统、视频分类、视频推荐等系统中,方案的可移植性强,灵活度高。
84.请参考图4,其示出了本技术另一个实施例提供的演唱视频识别方法的流程图。该方法可应用于图1所示的应用程序运行环境中。该方法可以包括以下几个步骤(401

415)。
85.步骤401,在视频数据为录播视频数据的情况下,将录播视频分割为至少一个视频片段。
86.步骤402,在视频数据为直播视频数据的情况下,接收直播视频数据流。
87.步骤403,对直播视频数据流进行截取处理,得到视频片段。
88.可选地,得到上述视频片段的方式并不局限于按照固定时长分割,也可以是通过音频事件检测的方法或者画面场景识别的方法进行视频不同状态阶段的分割。
89.步骤404,从视频片段中分离出音频数据。
90.步骤405,对音频数据进行分帧处理,得到音频数据在各个时段对应的音频帧。
91.可选地,按照预设时长对音频数据进行分帧处理,得到音频数据在各个时段对应的音频帧。可选地,各个时段的时长为预设时长。
92.步骤406,对音频帧进行音频事件检测处理,得到音频帧在各音频事件上的评分。
93.上述各音频事件对应不同类型的音频内容。可选地,音频事件包括语音事件与歌唱事件,在其他应用场景中,还可包括其他音频事件,本技术实施例对此不作限定。上述语音事件表征音频内容中存在语音信息,上述歌唱事件表征音频内容中存在歌唱信息。
94.评分包括语音评分和歌唱评分,语音评分表征音频帧的音频内容属于语音事件的概率,歌唱评分表征音频帧的音频内容属于歌唱事件的概率。可选地,上述评分还包括音乐评分、静音评分、噪音评分等。上述音乐评表征音频帧的音频内容属于音乐播放事件的概率,上述静音评分表征音频帧的音频内容属于静音事件的概率,上述噪音评分表征音频帧的音频内容属于噪音事件的概率。
95.在一种可能的实施方式中,上述音频事件检测方法包括:将音频帧转换为二维的梅尔频谱图,通过vggish(visual geometry group)深度神经网络提取对应图像特征向量,然后训练分类神经网络模型进行音频事件分类,得到音频帧在各音频事件上的评分。可选地,上述音频事件检测方法并不只是局限于上述方式,也可以结合其他类型音频特征,通过端到端的深度学习模型进行实现,例如使用用于音频模式识别的大规模预训练音频神经网络(pretrained audio neural networks,pann)。
96.步骤407,在语音评分小于语音阈值且歌唱评分大于歌唱阈值的情况下,确定音频帧的音频检测结果为有歌唱无语音类别。
97.音频帧的音频检测结果表征视频片段的音频检测结果。
98.根据评分可确定音频帧的音频类别,并将音频类别作为音频帧的音频检测结果。可选地,在语音评分大于语音阈值的情况下,确定音频帧的音频检测结果为有语音类别。可选地,在语音评分小于语音阈值且歌唱评分大于歌唱阈值的情况下,确定音频帧的音频检测结果为有歌唱无语音类别。可选地,在语音评分小于语音阈值且歌唱评分小于或者等于歌唱阈值的情况下,确定音频帧的音频检测结果为无歌唱无语音类别。
99.步骤408,获取视频片段的图像帧原始序列。
100.步骤409,对图像帧原始序列进行第一图像帧抽取处理,得到第一图像帧采样序列。
101.第一图像帧抽取处理用于在各个时段内抽取第一固定数量的图像帧。例如,在视频中每秒抽1帧获得第一图像帧采样序列。上述第一固定数量可以是预设的数量,例如1。上述各个时段可以是按固定时长划分的至少一个时段,也可以是根据视频内容确定划分的各个时段。
102.步骤410,对第一图像帧采样序列中的第一图像帧进行人脸检测处理,得到第一图像帧的人脸参数。
103.第一图像帧是从图像帧原始序列中抽取出的图像帧。
104.通过人脸检测的方法得到人脸参数矩阵,人脸参数矩阵包括人脸参数,上述人脸参数主要包括每个人脸的矩形框位置(中心点坐标、长度、宽度)、人脸关键点位置(双眼坐标、鼻子坐标、两边嘴角坐标)、人脸评分等参数。上述人脸评分用于衡量人脸质量,表征人脸矩形框中的图像内容为人脸的概率。
105.可选地,通过ssh(single stage headless)人脸检测模型实现上述人脸检测,本技术实施例对人脸检测方法不做限定,也可以实际应用场景对上述人脸检测方法进行调整和替换。上述ssh人脸检测模型是训练后的神经网络模型,用于人脸检测。
106.步骤411,在第一图像帧的人脸参数符合阈值条件的情况下,确定第一图像帧的人脸检测结果为人脸图像。
107.上述人脸参数符合阈值条件包括人脸评分大于人脸评分阈值、人脸长度大于长度阈值以及人脸宽度大于宽度阈值。可选地,人脸参数符合阈值条件还包括人脸矩形框的位置在画面预设范围内,所述在画面预设范围内的人脸为主要人脸。上述人脸评分阈值是用于评定人脸评分的阈值,上述长度阈值是用于评定人脸长度的阈值,上述宽度阈值是用于评定人脸宽度的阈值。
108.上述第一图像帧的人脸检测结果表征视频片段的人脸检测结果。
109.步骤412,在音频帧的音频检测结果为有歌唱无语音类别,且与音频帧属于相同时段的第一图像帧的人脸检测结果为人脸图像的情况下,确定音频帧与第一图像帧对应的时段为有效时段。
110.上述有效时段表征该时段内视频中存在人脸且有歌唱无语音,为符合演唱视频特征的时段。
111.步骤413,统计视频片段的有效时段对应的时长,得到总有效时长。
112.累加有效时段对应的时长,得到总有效时长。
113.步骤414,在总有效时长与视频片段的总时长的比例大于比例阈值的情况下,对视频片段进行唇部动作识别处理,得到视频片段对应的唇部动作识别结果。
114.基于上述的音频类别和主要人脸的信息,统计其中存在主要人脸,且音频有歌唱无语音的时间长度,当其占视频片段的总时长的比例大于比例阈值时,初步判断其为歌唱片段。若初步判断为歌唱片段,则继续下面步骤,否则结束流程。上述比例阈值是用于评定总有效时长与视频片段的总时长之间比例的阈值。
115.在一种可能的实施方式中,增加有语音时长的判断过滤机制,即语音时长超过语音时长阈值或语音时长占总时长的比例超过比例阈值的情况下,可直接判断该视频片段为非歌唱视频。
116.提取视频片段中图像帧的唇部图像,得到唇部图像序列。
117.根据上述提取的唇部图像序列,通过深度学习的模型,判断该段视频画面中主要人物的唇部运动状态是在说话唱歌状态还是其他状态。
118.步骤415,在唇部动作识别结果符合第二条件的情况下,确定视频片段为演唱视频片段。
119.对于初步判定为歌唱的视频片段,当唇部运动状态识别结果为说话唱歌时,最终判定该段视频片段为演唱片段(即真人歌唱片段)。
120.可选地,通过更改判断条件,上述方法也可以识别出真人语音通话视频。例如,在音频帧的音频检测结果为有语音类别,且与音频帧属于相同时段的第一图像帧的人脸检测结果为人脸图像的情况下,确定视频片段中属于上述时段的部分为真人语音通话视频。
121.在示例性实施例中,如图5所示,图5示出了本技术一个实施例提供的演唱视频识别方法的流程图,上述步骤414包括如下子步骤(4141

4145)。
122.步骤4141,在总有效时长与视频片段的总时长的比例大于比例阈值的情况下,对图像帧原始序列进行第二图像帧抽取处理,得到第二图像帧采样序列。
123.第二图像帧抽取处理用于在各个时段内抽取第二固定数量的图像帧。上述第二固定数量与上述第一固定数量可以相同也可以不同。可选地,上述第二固定数量大于上述第一固定数量。例如,上述第一图像帧抽取处理为对视频每秒抽一帧获得第一图像帧采样序列,那么上述第二图像帧抽取处理为对视频每秒抽多帧获得第二图像帧采样序列,本技术实施例对上述第一固定数量和第二固定数量的具体数值不做限定。
124.可选地,在上述第一固定数量和第二固定数量相同的情况下,可以省去步骤4141和步骤4142,直接使用上述步骤410中的人脸参数执行步骤4143。
125.步骤4142,对第二图像帧采样序列中的第二图像帧进行人脸检测处理,得到第二图像帧的人脸参数。
126.人脸参数包括嘴角坐标参数。
127.步骤4143,基于嘴角坐标参数,确定第二图像帧中的唇部区域图像。
128.以两边嘴角坐标的中间点位中心,以两嘴角坐标差值的最大值为边长,截取第二图像帧中主要人物的唇部图像,并将各唇部图像调整到统一像素大小,如64*64像素图像。
129.若某第二图像帧不存在主要人脸,可以直接用纯色图像替代,也可以按时间顺序向前、向后寻找时差最小的存在主要人脸的第二图像帧,以对应的主要人脸的参数为基础截取唇部图像,并作为该第二图像帧对应的唇部图像。
130.步骤4144,基于第二图像帧中的唇部区域图像,生成唇部图像序列。
131.可选地,将第二图像帧中的唇部区域图像按时间顺序排列,生成唇部图像序列
132.步骤4145,对唇部图像序列中各唇部区域图像进行唇部动作识别处理,得到唇部运动状态。
133.唇部运动状态表征唇部动作识别结果,唇部运动状态包括说话唱歌状态。
134.根据上述提取的唇部图像序列,通过深度学习模型,判断该段视频画面中主要人物是在说话唱歌(说话或唱歌)、还是其他状态(表情展示、吃喝等等)。
135.可选地,上述唇部动作识别处理可以将上述等长的唇部图像序列拼接成一个大的唇部状态图。例如,5秒25张64*64的唇部图像序列,拼接成一个320*320的大唇部状态图,构建上述说话唱歌状态(说话、唱歌)、其他状态(表情展示、吃喝等等)的训练测试数据集,然
后训练分组卷积残差网络模型(se

resnext)进行图像分类。
136.本技术实施例对唇部动作识别处理的方式不作限定,也可以扩展使用其他类似的视频动作识别方法。例如,基于三维卷积网络(3d convolutional networks)的识别方法,或者基于双流卷积网络(convolutional two

stream network)的识别方法。
137.在示例性实施例中,如图5所示,上述步骤415由如下步骤4151替换实现。
138.步骤4151,在唇部运动状态为说话唱歌状态的情况下,确定视频片段为演唱视频片段。
139.在一个示例中,如图6所示,其示例性示出了一种识别演唱视频流程的示意图。将较长的目标视频(录播视频或直播视频)按一定时长进行视频分割,得到视频片段。从视频片段进行音频抽取,从而分离出音频文件,通过音频事件检测,得到每秒音频事件类别评分,进而根据评分确定每秒音频类别。除音频方面外,还对视频片段进行每秒1帧抽帧,得到第一图像帧采样序列,对第一图像帧采样序列中的第一图像帧进行人脸检测,得到每秒人脸参数矩阵,进而确定主要人脸参数。在音频类别为有歌唱无语音且存在主要人脸的情况下,初步判断演唱片段以执行后续步骤:对视频片段进行每秒多帧抽帧,得到第二图像帧采样序列,对第二图像帧采样序列中的第二图像帧进行人脸检测,得到每秒人脸参数矩阵,进而确定主要人脸参数,根据上述主要人脸参数确定出唇部图像,并生成唇部图像序列,对唇部图像序列进行说话唱歌状态识别。若通过上述说话唱歌状态识别可以最终确定视频片段为演唱视频片段。
140.综上所述,本技术实施例提供的技术方案,通过结合视频多模态信息,通过音频事件检测、人脸识别、唇部动作识别等方法,可以精确识别出视频中真人唱歌的片段,以此发现优质录制视频或直播视频片段,快速将其推送给用户观看。本方案直接将画面中难以区分的说话和歌唱合成一个类别进行识别,然后通过音频中增加语音类别的识别,过滤掉有背景歌唱但人物实际在说话的情况。本方案中采用的各个单独的方法都有比较高的识别准确率和召回率,结合一起也能有较好的真人歌唱视频的识别准确率和召回率。
141.下述为本技术装置实施例,可用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
142.请参考图7,其示出了本技术一个实施例提供的演唱视频识别装置的框图。该装置具有实现上述演唱视频识别方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置700可以包括:视频片段获取模块710、音视频特征检测模块720、唇部动作识别模块730以及视频类型确定模块740。
143.视频片段获取模块710,用于获取视频数据对应的视频片段。
144.音视频特征检测模块720,用于对所述视频片段进行音视频特征检测处理,得到所述视频片段的音频检测结果和人脸检测结果。
145.唇部动作识别模块730,用于在所述音频检测结果和所述人脸检测结果符合第一条件的情况下,对所述视频片段进行唇部动作识别处理,得到所述视频片段对应的唇部动作识别结果。
146.视频类型确定模块740,用于在所述唇部动作识别结果符合第二条件的情况下,确定所述视频片段为演唱视频片段。
147.在示例性实施例中,所述音视频特征检测模块720包括:音频检测单元以及人脸检测单元。
148.音频检测单元,用于对所述视频片段的音频数据进行音频事件检测处理,得到所述视频片段的音频检测结果。
149.人脸检测单元,用于对所述视频片段的图像数据进行人脸检测处理,得到所述视频片段的人脸检测结果。
150.在示例性实施例中,所述音频检测单元,用于:
151.从所述视频片段中分离出所述音频数据;
152.对所述音频数据进行分帧处理,得到所述音频数据在各个时段对应的音频帧,所述各个时段的时长为所述预设时长;
153.对所述音频帧进行音频事件检测处理,得到所述音频帧在各音频事件上的评分,所述各音频事件包括语音事件与歌唱事件,所述评分包括语音评分和歌唱评分,所述语音评分表征所述音频帧的音频内容属于所述语音事件的概率,所述歌唱评分表征所述音频帧的音频内容属于所述歌唱事件的概率;
154.在所述语音评分小于语音阈值且所述歌唱评分大于歌唱阈值的情况下,确定所述音频帧的音频检测结果为有歌唱无语音类别,所述音频帧的音频检测结果表征所述视频片段的音频检测结果。
155.在示例性实施例中,所述人脸检测单元,用于:
156.获取所述视频片段的图像帧原始序列;
157.对所述图像帧原始序列进行第一图像帧抽取处理,得到第一图像帧采样序列,所述第一图像帧抽取处理用于在所述各个时段内抽取第一固定数量的图像帧;
158.对所述第一图像帧采样序列中的第一图像帧进行人脸检测处理,得到所述第一图像帧的人脸参数,所述第一图像帧是从所述图像帧原始序列中抽取出的图像帧;
159.在所述第一图像帧的人脸参数符合阈值条件的情况下,确定所述第一图像帧的人脸检测结果为人脸图像,所述第一图像帧的人脸检测结果表征所述视频片段的人脸检测结果。
160.在示例性实施例中,所述唇部动作识别模块730,包括:有效时段确定单元、有效时长统计单元以及唇部动作识别单元。
161.有效时段确定单元,用于在所述音频帧的音频检测结果为所述有歌唱无语音类别,且与所述音频帧属于相同时段的第一图像帧的人脸检测结果为所述人脸图像的情况下,确定所述音频帧与所述第一图像帧对应的时段为有效时段。
162.有效时长统计单元,用于统计所述视频片段的有效时段对应的时长,得到总有效时长。
163.唇部动作识别单元,用于在所述总有效时长与所述视频片段的总时长的比例大于比例阈值的情况下,对所述视频片段进行唇部动作识别处理,得到所述视频片段对应的唇部动作识别结果。
164.在示例性实施例中,所述唇部动作识别单元,用于:
165.在所述总有效时长与所述视频片段的总时长的比例大于比例阈值的情况下,对所述图像帧原始序列进行第二图像帧抽取处理,得到第二图像帧采样序列,所述第二图像帧
抽取处理用于在所述各个时段内抽取第二固定数量的图像帧;
166.对所述第二图像帧采样序列中的第二图像帧进行人脸检测处理,得到所述第二图像帧的人脸参数,所述人脸参数包括嘴角坐标参数;
167.基于所述嘴角坐标参数,确定所述第二图像帧中的唇部区域图像;
168.基于所述第二图像帧中的唇部区域图像,生成唇部图像序列;
169.对所述唇部图像序列中各唇部区域图像进行唇部动作识别处理,得到唇部运动状态,所述唇部运动状态表征所述唇部动作识别结果,所述唇部运动状态包括说话唱歌状态;
170.相应的,所述视频类型确定模块740,用于:
171.在所述唇部运动状态为说话唱歌状态的情况下,确定所述视频片段为演唱视频片段。
172.在示例性实施例中,所述装置还包括演唱视频推送模块。
173.演唱视频推送模块,用于将所述视频数据对应的演唱视频片段进行拼接,生成演唱视频;在信息流服务中推送所述演唱视频。
174.在示例性实施例中,所述视频推送模块还用于,确定所述演唱视频片段对应的直播视频流,在所述信息流服务中推送所述直播视频流。
175.在示例性实施例中,所述装置还包括视频帐号标记模块。
176.视频帐号标记模块,用于确定所述演唱视频片段对应的用户帐号;标记所述用户帐号的类型。
177.在示例性实施例中,所述视频数据包括录播视频数据和直播视频数据,所述视频片段获取模块710,用于:
178.在所述视频数据为录播视频数据的情况下,将所述录播视频分割为至少一个视频片段;
179.在所述视频数据为直播视频数据的情况下,接收直播视频数据流;对所述直播视频数据流进行截取处理,得到所述视频片段。
180.综上所述,本技术实施例提供的技术方案,通过结合视频多模态信息,将视频分割为片段并对视频片段进行音视频特征检测,以得到视频片段的音频检测结果和人脸检测结果,进而根据这两方面的特征信息对视频片段进行初步判断,只有在符合第一条件的情况下再进行唇部动作识别,在唇部动作识别结果符合第二条件的情况下可以最终识别出演唱视频片段,在有效提升演唱视频的识别准确性的同时还能降低计算量。
181.需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
182.请参考图8,其示出了本技术一个实施例提供的计算机设备的结构框图。该计算机设备用于执行上述演唱视频识别方法。具体来讲:
183.计算机设备800包括中央处理单元(central processing unit,cpu)801、包括随机存取存储器(random access memory,ram)802和只读存储器(read only memory,rom)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。计算机
设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o(input/output)系统)806,和用于存储操作系统813、应用程序814和其他程序模块812的大容量存储设备807。
184.基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
185.大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,大容量存储设备807可以包括诸如硬盘或者cd

rom(compact disc read

only memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
186.不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom(erasable programmable read only memory,可擦除可编程只读存储器)、eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,cd

rom、dvd(digital video disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
187.根据本技术的各种实施例,计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
188.所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述演唱视频识别方法。
189.在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述演唱视频识别方法。
190.可选地,该计算机可读存储介质可以包括:rom(read only memory,只读存储器)、ram(random access memory,随机存取记忆体)、ssd(solid state drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括reram(resistance random access memory,电阻式随机存取记忆体)和dram(dynamic random access memory,动态随机存取存储器)。
191.在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述演唱视频识别方法。
192.应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联
对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本技术实施例对此不作限定。
193.以上所述仅为本技术的示例性实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献