一种实时检测视频彩铃播放效果的方法与流程

2021-10-30 02:09:00 来源：中国专利 TAG：彩铃算法实时视频处理视觉

1.本发明涉及计算机视觉算法和视频处理技术领域，尤其涉及一种实时检测视频彩铃播放效果的方法。

背景技术：

2.目前视频相似度分析的方案多是基于现有的视频文件，利用psnr和mssim等算法来分析视频每一帧颜色和色彩的相近程度，根据每一帧的相似程度来判断视频是否相同。或是利用sift、surf、akaze等特征点提取和匹配的方式对比视频每一帧的匹配的特征点数目的多少，进而判断视频的相似程度，从而判断视频的播放效果
3.按目前的方法，得出两个视频相似度的方法需要两个前提条件：一是进行分析的两个视频没有播放时间上的延迟，二是进行分析的两个视频不会有较大的内容差异。现有方案往往会提前获取视频文件，在此基础上，由于视频播放效果的一般变化是由于分辨率修改或者滤波处理造成的，从而可以很容易地将两个视频的视频帧对齐，不需要考虑延迟带来的影响。加之，由于现有方案的主要应用是衡量视频播放后画面是否变模糊，或者是否有马赛克，这些场景下视频内容不会造成较大程度的改变，也就不需要分析视频存在较大内容差异的情况。
4.但是，在检测视频彩铃的播放效果的场景下，由于彩视频铃播放的时机是未知的(需要有人进行主动呼叫)，且视频彩铃的获取会通过诸如rtmp协议的方式传输得到。这就导致视频彩铃不能控制视频播放的时机，也不能控制延时的大小，在不同网络环境下延迟会发生抖动。现有方案无法处理这种延迟上的差异。
5.同时，现有的视频分析对比方案并没有针对视频彩铃场景进行优化，视频彩铃的播放过程中会携带手机拨号盘等额外信息，且一般会将视频缩小拉伸以显示在手机屏幕的特定位置。这些操作会对视频的内容分布造成较大的改变，而现有方案无法很好地处理这种变化。

技术实现要素：

6.本发明的目的是为了解决现有技术中存在的缺点，而提出的一种实时检测视频彩铃播放效果的方法。
7.为了实现上述目的，本发明采用了如下技术方案：一种实时检测视频彩铃播放效果的方法，所述方法包括如下步骤：
8.步骤s1：获取彩铃视频和原始视频；
9.步骤2：通过切帧方式对获取的彩铃视频进行分切，得到按时间顺序排列的若干待分析的彩铃视频帧图，同时剔除彩铃视频中的无效待机画面；
10.步骤3：通过切帧方式对获取的原始视频进行分切，得到按时间顺序排列的若干待分析的原始视频帧图；
11.步骤4：提取每一个彩铃视帧图和每一个原始视频帧图的特征点；
12.步骤5：将彩铃视频帧图和等位置的原始视频帧图的特征点进行匹配，根据匹配结果筛选出播放效果好的彩铃视频。
13.优选地，所述步骤2还包括剔除彩铃视频中的无效待机画面的步骤：对相邻的彩铃视频帧图进行平均结构相似性分析，得到平均结构相似性评分，若某对相邻图片的平均结构相似性评分低于其他相邻图片的20％，则认为这对彩铃视频帧图所对应的视频时间是彩铃开始播放时时间，并认为这个时间之前的视频都是拨打待机画面，进而剔除这部分画面，只把此时间后的画面作为彩铃视频的待分析彩铃视频帧图。
14.优选地，所述方法还包括步骤4的提取每一个彩铃视帧图的步骤：对彩铃视频帧图中央60％
‑
80％高度的区域进行尺度不变的特征点提取：即在原始尺度，原始尺度x0.5，原始尺度x0.75，原始尺度x0.85，原始尺度x1.2的大小下分析4
‑
8像素范围内rgb三色彩值标准差总合小于30的区域作为特征点。
15.优选地，所述方法还包括步骤4的提取每一个原始视帧图的步骤：在整个视频区域进行尺度不变的特征点提取：在原始尺度，原始尺度x0.4，原始尺度x0.5，原始尺度x0.75，原始尺度x0.85，原始尺度x1.2的大小下分析4
‑
8像素范围内rgb三色彩值标准差总合小于30的区域作为特征点。
16.优选地，所述方法还包括步骤5的将彩铃视频帧图和原始视频帧图的特征点进行匹配的步骤：通过将等位置的彩铃视帧图和原始视频帧图的特征点进行对比，采用特征点距离的最邻近匹配方式：认为两个特征点的距离之商小于0.6的点为匹配的特征点，计算出彩铃视频帧图和原始视频帧图匹配成功的特征点数目，若两者相匹配的特征点数目大于某一阈值，则彩铃视帧图和原始视频帧图是相似的，若相似的彩铃视帧图的数量累计达到了全部彩铃视频帧图的数量的60％以上，则认为该彩铃视频播放效果好，并筛选出所述播放效果好的彩铃视频。
17.优选地，所述方法还包括消除延迟误差步骤：彩铃视频帧图和原始视频帧图匹配成功的特征点数目小于所述的阈值时，将彩铃视频帧图与始视频帧图进行第一次重新规划匹配的顺序：将彩铃视频帧图与递减一个位置的原始视频帧图进行匹配，若特征点数目达不到阈值，则进行第二次重新规划匹配的顺序，将彩铃视频帧图与递减二个位置的原始视频帧图进行匹配，若特征点数目仍达不到阈值，就进行第n次重新规划匹配的顺序，将彩铃视频帧图与递减n个位置的原始视频帧图进行匹配,使特征点数目达阈值，根据重新规划匹配顺序的n次次数，能准确估计延时，进而进行没有延迟的视频分析，消除延迟误差。
18.优选地，所述阈值为10。
19.本发明具有如下有益效果：
20.本发明能消除由于网络实时传输造成的视频延时误差，解决了传统的视频分析方法中无法估计网络实时传输延迟的问题，从而进行健壮的播放效果分析。
21.其次，本发明重新设计了特征点的定义方式，针对彩铃视频的特点，快速便捷地提取出易于分析的特征点。解决了传统的视频分析方法中由于视频彩铃的图像包含了手机界面而造成的特征点不足、分析结果误差较大的问题。
附图说明
22.图1为本发明的流程图；
具体实施方式
23.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.参照图1，本发明提供了一种实时检测视频彩铃播放效果的方法，该方法包括如下步骤：
25.步骤s1：获取彩铃视频和原始视频；获取彩铃视频和原始视频的媒体数据。通过http接口获取一对存放彩铃视频和原始视频的文件地址，彩铃视频的地址是利用rtmp协议进行实时视频传输的地址，而原始视频的地址是预下载好的文件路径地址。若彩铃视频和原始视频的地址有效，则直接从地址中实时拉流，获取视频图像信息。如果彩铃视频和原始视频的地址不对或者地址中无法解析出媒体信息、则直接抛出错误码，结束分析流程。在获取到视频图像信息后，利用ffmpeg视频分析工具进行媒体信息分析，保存获取到的彩铃视频数据(以下称为彩铃视频数据a)和原始视频数据(以下称为原始视频数据b)。
26.步骤s2：通过切帧方式对获取的彩铃视频进行分切，得到按时间顺序排列的若干待分析的彩铃视频帧图。对获取到的彩铃视频数据a，进行切帧操作，把彩铃视频数据a按时间间隔解析成一个一个的彩铃视频帧图。因为实际录制的彩铃视频包括彩铃播放前手机的拨打待机画面，这部分画面是冗余的，首先需要剔除。剔除的主要步骤是：把获取到的多张彩铃视频帧图缓存起来，对相邻的彩铃视频帧图进行平均结构相似性分析(mssim，一种估计图片间色彩分布相似程度的方法)，得到平均结构相似性评分，若某对相邻图片的平均结构相似性评分低于其他相邻图片的20％，则认为这对彩铃视频帧图所对应的视频时间是彩铃开始播放时时间，并认为这个时间之前的视频都是拨打待机画面，进而剔除这部分画面，只把此时间后的画面作为彩铃视频的待分析图片。
27.步骤s3：通过切帧方式对获取的原始视频进行分切，得到按时间顺序排列的若干待分析的原始视频帧图。对获取到的原始视频数据b，也进行切帧操作，把原始视频数据b按时间间隔解析成一个一个的原始视频帧图，由于原始视频没有拨打待机画面，所以切帧好的一个一个原始视频帧图可以直接作为原始视频的待分析图片。
28.步骤s4：提取每一个彩铃视帧图和每一个原始视频帧图的特征点
29.步骤s5：将彩铃视频帧图和原始视频帧图的特征点进行匹配，根据匹配结果筛选出播放效果好的彩铃视频。
30.例如：将彩铃视频数据a分切为三个彩铃视频帧图，分别为a1、a2、a3，将原始视频数据b分切为三个原始视频帧图，分别为为b1、b2、b3，其中a1和b1、a2和b2、a3和b3均为等位置帧图，则对a1、a2、a3、b1、b2、b3都进行特征点的提取(参阅子步骤1和子步骤2)之后对于a1b1，a2b2，a3b3进行特征点的匹配，最后得出每对帧图的匹配成功的特征点数目p1，p2和p3(以下简称为p)。
31.子步骤1：针对彩铃视频帧图进行特征点的提取，所述特征点即为图像中尺度不变和色彩不变的小区域。由于彩铃图片的有效画面往往集中于整个图片的中央，且会被缩小放置，故先对彩铃图片中央60％
‑
80％高度的区域进行尺度不变的特征点提取：即在原始尺度，原始尺度x0.5，原始尺度x0.75，原始尺度x0.85，原始尺度x1.2的大小下分析4
‑
8像素范
围内rgb三色彩值标准差总合小于30的区域作为特征点。一张帧图中，一般会有多个这样的特征点，将得到的特征点记为pa。
32.子步骤2：针对原始视频帧图进行特征点的提取。由于原始图片一般会比较清晰，且不会存在手机菜单、拨号盘等其他信息。故对原始图片在整个视频区域进行尺度不变的特征点提取：在原始尺度，原始尺度x0.4，原始尺度x0.5，原始尺度x0.75，原始尺度x0.85，原始尺度x1.2的大小下分析4
‑
8像素范围内rgb三色彩值标准差总合小于30的区域作为特征点。将得到的特征点记为pb。
33.对于彩铃视频帧图和原始视频帧图的特征点pa和pb，进行特征点的匹配。采用特征点距离的最邻近匹配方式：认为两个特征点的距离之商小于0.6的点为匹配的特征点，计算出彩铃图片和原始图片匹配成功的特征点数目p。匹配成功的特征点数目越多，说明彩铃视频的播放效果越好。对于得到的匹配成功的特征点数目p，如果p大于阈值10，则帧图是相似的，若相似的帧图数量达到了所有帧图数量的60％以上，就认为彩铃视频的播放效果好，从而筛选出播放效果好的那些彩铃视频。
34.考虑到利用rtmp进行实时传输的视频会有累积延迟的情况，仅通过上述方式得出的匹配结果p会有较大的误差。因此，需要消除视频的延迟抖动误差,为了消除这种误差，如果当前的彩铃视频帧图和原始视频帧图的特征点匹配数目小于10，则重新规划图片进行匹配的顺序：例如彩铃视频帧图的a1、a2、a3
…
，原始视频帧图的b1、b2、b3
…
。若a1b1，a2b2，a3b3进行特征点匹配后匹配的特征点数目达不到阈10，将原始视频帧图延时一帧，进行a1b2，a2b3，a3b4的匹配。每次循环，一旦匹配的特征点数目达不到阈值，就让原始视频帧图延时一帧，逐次累加，最后匹配成功时，累加的帧数就是延时，从而可以准确估计延时，在后续视频分析中将彩铃视频中延迟时间内的画面直接删除，进而进行没有延迟的视频分析，消除延迟误差。
35.另外，以上估计延迟的方法无法区分彩铃视频播放效果差和彩铃视频存在延迟的情况。所谓彩铃视频播放效果差指的是彩铃视频播放的画面模糊，存在大量马赛克或者和原始视频内容不符。为了区分这两种情况，根据以上延迟估计方案：若在原始视频延迟了10s后，彩铃视频和原始视频依旧无法得到足够的匹配特征点，会重新从步骤4重新开始计算并估计延迟。若重复了3次，每次原始视频都要延迟10s以上，则放弃延迟估计的步骤，直接认为彩铃视频的播放效果差。
36.最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种高速可见光通信光源驱动电路及驱动方法与流程

一种实时检测视频彩铃播放效果的方法与流程

相关文献

最热文献