一种基于聚焦程度数值的数字电视播放方法和装置与流程

2021-10-29 23:09:00 来源：中国专利 TAG：数字电视数值聚焦装置程度

1.本技术涉及到数字电视领域，特别是涉及到一种基于聚焦程度数值的数字电视播放方法和装置。

背景技术：

2.传统的数字电视传输数字信号并进行音视频播放时，只会按预定的参数（例如预定的播放速度）进行播放，而不会考虑观看者的实际情况。但观看者在观看一个数字电视节目时，存在走神分心的情况，虽然观看者仍在数字电视显示器面前，但实际上却未能听到或看到这部分的音视频（或者，观看者的视觉器官与听觉器官虽然获取了视觉信息和听觉信息，但自然人处于分心状态下，会将这部分信息本能的忽略，因此也视为未能听到或看到这部分的音视频）。如果这部分音视频对应于关键情节，那么观看者一般会采用拖回播放进度条的方式（现有的数字电视播放器，已经能够实现这种功能），来重现展示这部分音视频。因此，传统的数字电视播放方案，存在观看效果与播放效率不佳（例如，观看者需要拖回进度条）的问题。

技术实现要素：

3.本技术提出一种基于聚焦程度数值的数字电视播放方法，包括以下步骤：s1、接收数字信号，并将数字信号转化为原始视频与原始音频，在数字电视显示器上播放所述原始视频，同时采用数字电视声音播放器播放所述原始音频；s2、根据预设的蓝牙通信技术，与预设的移动终端构建蓝牙通道，再通过预先布设的具有第一分辨率的第一摄像头，对数字电视观看者的头部进行图像采集处理，以得到第一头部图像；s3、将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器；其中，所述朝向预测模型基于预设的机器学习模型训练而成；s4、若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器进行声音采集处理，得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比，以判断是否存在异常声音；s5、若存在异常声音，则在预设的第一时间窗口内，采用预先布设的具有第二分辨率的第二摄像头，对观看者的眼睛进行图像采集处理，以获取眼睛图像；其中，所述第二分辨率高于所述第一分辨率；s6、将所述眼睛图像输入经过训练的聚焦程度预测模型中进行处理，以得到所述聚焦程度预测模型输出的聚焦程度数值，并判断所述聚焦程度数值是否小于预设的聚焦程度阈值；其中，所述聚焦程度预测模型基于深度卷积神经网络模型训练而得；s7、若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通
过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端。
4.其中，所述将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器的步骤s3之前，包括：s21、从预设的数据库中调取多个样本数据，并按预设比例对所述多个样本数据进行划分，以得到多个训练数据与多个验证数据；其中，所述数据库中存储的数据为预先拍摄的用于训练使用的头部图像；s22、对所述多个训练数据与所述多个验证数据分别进行人工标注处理，以标注出人脸朝向，从而得到多个标注训练数据与多个标注验证数据；s23、调取预设的机器学习模型，并将所述多个标注训练数据输入机器学习模型中进行训练，以得到暂时模型；s24、采用所述多个标注验证数据对所述暂时模型进行验证处理，以得到验证结果，并判断验证结果是否为验证通过；s25、若验证结果为验证通过，则将所述暂时模型记为朝向分类模型。
5.其中，所述将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器的步骤s3之后，包括：s31、若第一人脸朝向未指向数字电视显示器，则开启预设的记时器以开始记时；s32、通过所述第一摄像头，对数字电视观看者的头部继续进行图像采集处理，以得到第二头部图像；s33、将所述第二头部图像输入所述朝向分类模型中进行处理，以得到所述朝向分类模型输出的第二人脸朝向，并判断第二人脸朝向是否指向数字电视显示器；s34、若第二人脸朝向指向数字电视显示器，则停止所述记时器，以得到第二时间窗口；s35、截取所述第二时间窗口内的原始视频与原始音频，以生成第二补充视频片段与第二补充音频片段，并通过所述蓝牙通道，将第二补充视频片段与第二补充音频片段发送至移动终端。
6.其中，所述接收数字信号，并将数字信号转化为原始视频与原始音频，在数字电视显示器上播放所述原始视频，同时采用数字电视声音播放器播放所述原始音频的步骤s1之前，包括：s01、在数字电视声音播放器开始播放音频之前，采用所述声音收集器进行背景声音采集处理，以得到背景声音数据；所述若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器进行声音采集处理，得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比，以判断是否存在异常声音的步骤s4，包括：s401、若第一人脸朝向指向数字电视显示器，则将所述背景声音数据与所述原始音频进行叠加处理，以得到叠加声音数据；s402、根据预设的相似度计算方法，计算所述环境声音数据与所述叠加声音数据之间的相似度值，并判断所述相似度值是否大于预设的相似度阈值；
s403、若所述相似度值不大于预设的相似度阈值，则判定存在异常声音。
7.其中，数字电视观看者的数量为多个，移动终端的数量为多个，数字电视观看者与移动终端一一对应；所述若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端的步骤s7，包括：s701、若所述聚焦程度数值小于预设的聚焦程度阈值，则将聚焦程度数值对应的观看者记为指定观看者；s702、根据观看者与移动终端的对应关系，获取与所述指定观看者对应的指定移动终端；s703、将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段；s704、通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至指定移动终端，但不发送给其他移动终端。
8.其中，若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端的步骤s7之后，包括：s71、通过蓝牙通道，接收移动终端发送的暂停播放指令；其中，所述暂停播放指令的生成条件为，移动终端中的第一补充视频片段与第一补充音频片段开始播放；s72、根据所述暂停播放指令，暂停原始视频与原始音频的播放；s73、判断是否接收到来自于移动终端的继续播放指令；其中，所述继续播放指令的生成条件为，移动终端中的第一补充视频片段与第一补充音频片段播放完成；s74、执行继续播放操作，以继续播放原始视频与原始音频的播放。
9.本技术公开一种基于聚焦程度数值的数字电视播放装置，包括：数字信号接收单元，用于接收数字信号，并将数字信号转化为原始视频与原始音频，在数字电视显示器上播放所述原始视频，同时采用数字电视声音播放器播放所述原始音频；蓝牙通道构建单元，用于根据预设的蓝牙通信技术，与预设的移动终端构建蓝牙通道，再通过预先布设的具有第一分辨率的第一摄像头，对数字电视观看者的头部进行图像采集处理，以得到第一头部图像；第一人脸朝向判断单元，用于将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器；其中，所述朝向预测模型基于预设的机器学习模型训练而成；环境声音数据获取单元，用于若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器进行声音采集处理，得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比，以判断是否存在异常声音；眼睛图像获取单元，用于若存在异常声音，则在预设的第一时间窗口内，采用预先
布设的具有第二分辨率的第二摄像头，对观看者的眼睛进行图像采集处理，以获取眼睛图像；其中，所述第二分辨率高于所述第一分辨率；聚焦程度数值判断单元，用于将所述眼睛图像输入经过训练的聚焦程度预测模型中进行处理，以得到所述聚焦程度预测模型输出的聚焦程度数值，并判断所述聚焦程度数值是否小于预设的聚焦程度阈值；其中，所述聚焦程度预测模型基于深度卷积神经网络模型训练而得；截取处理单元，用于若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端。
10.本技术提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
11.本技术提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
12.本技术的基于聚焦程度数值的数字电视播放方法、装置、计算机设备和存储介质，接收数字信号，转化为原始视频与原始音频，播放原始视频，播放原始音频；构建蓝牙通道，通过第一摄像头进行图像采集处理，以得到第一头部图像；将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到第一人脸朝向；若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比；若存在异常声音，采用第二摄像头获取眼睛图像；输入聚焦程度预测模型中进行处理，以得到聚焦程度数值；若聚焦程度数值小于预设的聚焦程度阈值，则生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端，实现了提高数字电视播放的有效播放率，无需拖回进度条，节省了整体时间。
附图说明
13.图1 为本技术一实施例的基于聚焦程度数值的数字电视播放方法的流程示意图；图2 为本技术一实施例的基于聚焦程度数值的数字电视播放装置的结构示意框图；图3 为本技术一实施例的计算机设备的结构示意框图。
14.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
15.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
16.参照图1，本技术实施例提供一种基于聚焦程度数值的数字电视播放方法，包括以下步骤：s1、接收数字信号，并将数字信号转化为原始视频与原始音频，在数字电视显示器
上播放所述原始视频，同时采用数字电视声音播放器播放所述原始音频；s2、根据预设的蓝牙通信技术，与预设的移动终端构建蓝牙通道，再通过预先布设的具有第一分辨率的第一摄像头，对数字电视观看者的头部进行图像采集处理，以得到第一头部图像；s3、将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器；其中，所述朝向预测模型基于预设的机器学习模型训练而成；s4、若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器进行声音采集处理，得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比，以判断是否存在异常声音；s5、若存在异常声音，则在预设的第一时间窗口内，采用预先布设的具有第二分辨率的第二摄像头，对观看者的眼睛进行图像采集处理，以获取眼睛图像；其中，所述第二分辨率高于所述第一分辨率；s6、将所述眼睛图像输入经过训练的聚焦程度预测模型中进行处理，以得到所述聚焦程度预测模型输出的聚焦程度数值，并判断所述聚焦程度数值是否小于预设的聚焦程度阈值；其中，所述聚焦程度预测模型基于深度卷积神经网络模型训练而得；s7、若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端。
17.本技术是依据人的一种自然属性（因此也视为一种自然规律）实现的，即，人的注意力难以保持一直集中，而当人的注意力发散时，俗称走神或者分心，虽然人眼或者人耳仍看见或者听见影像或者声音，但是这些影像或者声音会被潜意识里忽视。而在数字电视节目播放过程中，也存在这种现象。数字电视节目，尤其是逻辑类数字电视节目，当观看者在分心状态下，未能看到某些关键情节时，不仅会对观影效果造成很大影响，而且还会延长观影时间，较低整体效率，这是因为观看者可能会采用拖回进度条的方式来返回被忽略的情节，而数字电视播放端的输入设备一般为遥控器，其与普通电视的遥控器在外观上无异，而这种遥控器无法像键盘或者鼠标一样进行精确输入控制信号，因此观看者难以一次就将进度条拖回准确位置，这又会产生额外耗时，并且打断观影过程。
18.而本技术通过接收数字信号，播放所述原始视频，同时播放所述原始音频；与预设的移动终端构建蓝牙通道，得到第一头部图像；将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向；若第一人脸朝向指向数字电视显示器，则得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比；若存在异常声音，进行图像采集处理，以获取眼睛图像；若所述聚焦程度数值小于预设的聚焦程度阈值，进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端，从而确定了观看者分心的时间段，并将观看者分心的时间段的音视频截取下来，发送到移动终端，从而观看者可以通过移动终端来补回忽略的关键情节。
19.进一步地，为了避免观看者通过移动终端来补回忽略的关键情节时，会忽略新的关键情节时，可以在观看者在移动终端打开所述第一补充视频片段与第一补充音频片段
时，暂停原始视频与原始音频的播放。具体地：若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端的步骤s7之后，包括：s71、通过蓝牙通道，接收移动终端发送的暂停播放指令；其中，所述暂停播放指令的生成条件为，移动终端中的第一补充视频片段与第一补充音频片段开始播放；s72、根据所述暂停播放指令，暂停原始视频与原始音频的播放；s73、判断是否接收到来自于移动终端的继续播放指令；其中，所述继续播放指令的生成条件为，移动终端中的第一补充视频片段与第一补充音频片段播放完成；s74、执行继续播放操作，以继续播放原始视频与原始音频的播放。
20.从而使得整体的数字电视节目的观看过程仍保持连贯，而且不会因此产生新的关键情节忽略的情况。
21.如上述步骤s1
‑
s3所述，接收数字信号，并将数字信号转化为原始视频与原始音频，在数字电视显示器上播放所述原始视频，同时采用数字电视声音播放器播放所述原始音频；根据预设的蓝牙通信技术，与预设的移动终端构建蓝牙通道，再通过预先布设的具有第一分辨率的第一摄像头，对数字电视观看者的头部进行图像采集处理，以得到第一头部图像；将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器；其中，所述朝向预测模型基于预设的机器学习模型训练而成。
22.数字电视技术是采用数字信号进行传输与播放的技术，由于数字信号相比于模拟信号更利于保真等优点，被多数家庭所青睐。数字信号是由1或者0的二进制符号构成的，将数字信号转化为原始视频与原始音频，与传统的数字信号解码过程相同，在此不再赘述。进而播放原始视频与原始音频。需要注意的是，在此提及数字电视显示器，还与后文中确定人脸朝向是否指向数字电视显示器有关，而数字电视声音播放器与后文中的异常声音判断有关。
23.再根据预设的蓝牙通信技术，与预设的移动终端构建蓝牙通道。蓝牙通信是一种近距离通信技术，在数字电视节目的观看过程中，观看者所持有的移动终端与数字电视播放器的距离很近，因此适应采用蓝牙通信技术来构建通信通道。再采集第一头部图像。其中第一摄像头的布设位置没有特别要求，但需要提供能够确定人脸朝向的头部图像，因此，其设置在观看者的正面、侧面或者后面均是可以的。并且，此时特地限定第一摄像头的分辨率为第一分辨率，这是指其拍摄得到的头部图像的分辨率数值为第一分辨率。之所以强调这点，是为了与后文的第二分辨率进行区分，第一分辨率相较于第二分辨率更低，意味着第一摄像头的成本更低，从而减少本技术的实施成本。
24.由于头部图像只需要确定人脸朝向即可，因此对于分辨率的要求很低；并且，第一摄像头要求是常开，优选在整个数字电视节目的播放过程中均保持开启的状态，因此采用能够满足要求的低分辨率的摄像头更具优势。而后续的第二摄像头需要通过眼睛图像来确定观看者是否处于分心状态，因此对于分辨率的要求远高于第一摄像头，因此第一分辨率小虎于第二分辨率。
25.再将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向。其中朝向预测模型基于的机器学习模型可为任意可行模型，可采用神经网络模型、支持向量机模型等等，本技术对此不作限定。由于以头部图像确定人脸朝向是较为简单的任务，因此朝向分类模型的训练速度与分类速度均很快，符合本技术的第一次分心状态的判断。其中，本技术对于分心状态的判断包括，人脸不朝向数字电视显示器，表明处于分心状态，这是因为人脸不朝向数字电视显示器，则必然无法看到此时的视频图像，因此必然会缺失一部分的视频片段，故认定为处于分心状态（此时的分心状态是指对数字电视节目处于分心状态）。
26.进一步地，所述将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器的步骤s3之前，包括：s21、从预设的数据库中调取多个样本数据，并按预设比例对所述多个样本数据进行划分，以得到多个训练数据与多个验证数据；其中，所述数据库中存储的数据为预先拍摄的用于训练使用的头部图像；s22、对所述多个训练数据与所述多个验证数据分别进行人工标注处理，以标注出人脸朝向，从而得到多个标注训练数据与多个标注验证数据；s23、调取预设的机器学习模型，并将所述多个标注训练数据输入机器学习模型中进行训练，以得到暂时模型；s24、采用所述多个标注验证数据对所述暂时模型进行验证处理，以得到验证结果，并判断验证结果是否为验证通过；s25、若验证结果为验证通过，则将所述暂时模型记为朝向分类模型。
27.从而得到能够进行朝向分类的模型。其中训练过程采用的是有监督训练的方式实现的，即对所述多个训练数据与所述多个验证数据分别进行人工标注处理，以标注出人脸朝向。进一步地，当模型采用的是神经网络模型时，训练过程中采用反向传播算法传播各层网络参数。由于训练数据与验证数据是从相同的样本数据中划分出来的，因此若验证结果通过，则表明朝向分类模型能够胜任对于人脸朝向的验证任务，能够保证分类结果具有一致性。
28.如上述步骤s4
‑
s5所述，若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器进行声音采集处理，得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比，以判断是否存在异常声音；若存在异常声音，则在预设的第一时间窗口内，采用预先布设的具有第二分辨率的第二摄像头，对观看者的眼睛进行图像采集处理，以获取眼睛图像；其中，所述第二分辨率高于所述第一分辨率。
29.本技术认为观看者处于分心状态的另一个依据的前提在于，是否受到异常声音的影响，这是必须的一环，因为外界影响（在本技术中，指数字电视节目之外的影响）而分心，产生的结果更可能是对数字电视节目的忽视，这时候才有生成补充视频或补充音频的需要。而在未受到异常声音的影响时，人眼纵使聚焦程度较差，那也可能是对电视节目的思考所致，并不一定会对数字电视节目的部分内容进行忽视。因此，先通过预先布设的声音收集器进行声音采集处理，得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比，以判断是否存在异常声音。其中，声音收集器例如为麦克风阵列，其布设的位置也无特
定要求，但需要保持位置固定。
30.若存在异常声音，表明存在较大的外在干扰，这有可能造成观看者对于数字电视节目的忽视。其中，异常声音例如为手机铃声等提示音（这相对于数字电视节目的音频而言，是突兀的，因此视为异常声音）等等。在出现这些异常声音时，观看者不可避免地会被引走一定的注意力，但可能存在这些异常声音对于观看者并不重要，观看者仍保持对数字电视节目的注意力的情况，因此本技术还采用预先布设的具有第二分辨率的第二摄像头，对观看者的眼睛进行图像采集处理，以获取眼睛图像，以进一步确定观看者的状况。
31.如前所述，第二摄像头与第一摄像头存在的本质区别是分辨率的区别，即所述第二分辨率高于所述第一分辨率，因为眼睛图像需要用于确定人眼聚焦状况，因此必须获取高分辨率的眼睛图像才行。另外，相对于第一摄像头，第二摄像头的工作时间更短，其开启具有条件，即只在存在异常声音的情况下，第二摄像头才进行图像采集处理。
32.如上述步骤s6
‑
s7所述，将所述眼睛图像输入经过训练的聚焦程度预测模型中进行处理，以得到所述聚焦程度预测模型输出的聚焦程度数值，并判断所述聚焦程度数值是否小于预设的聚焦程度阈值；其中，所述聚焦程度预测模型基于深度卷积神经网络模型训练而得；若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端。
33.人是否分心与人眼是否聚焦有关，而人眼聚焦情况可以体现在眼睛图像上。当观看者聚焦于数字电视显示器时，表明观看者的注中度较高，此时不会分心，至少不会忽视看到的数字电视节目；而观看者聚焦程度较低时，这是分心的体现，此时虽然数字电视节目的影像仍被视神经采集，但会被人脑所忽视，此时应当进行第一补充视频片段与第一补充音频片段的生成处理。而判断人眼是否聚焦，或者说判断人眼的聚焦程度，本技术是通过聚焦程度预测模型来实现的，而聚焦程度预测模型基于深度卷积神经网络模型训练而得。深度卷积神经网络型由输入层、卷积层、池化层、全连接层、输出层等多层网络结构构成，其中的卷积层与池化层的数量可以更多，因此称为深度卷积，其适合于对图像的处理。其训练过程可以采用有监督学习的方式实现，其训练数据例如为对集中注意力时的样本人群的眼睛进行图像采集得到，若训练数据只包括集中注意力时的样本人群的眼睛图像，则采用的是有监督学习训练中的半监督学习方式来实现的，从而能够提高训练的速度。训练数据同样需要进行人工标注，以标注出聚焦程度值。
34.若所述聚焦程度数值小于预设的聚焦程度阈值，则表明观看者处于分心状态，因此将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端。此时的第一时间窗口的左端点即为前述判断出存在异常声音的时间点，而右端点并无具体限制，例如可以以预设的时间长度作为确定第一时间窗口的右端点的依据，或者在观看者的眼睛聚焦程度达到所述聚焦程度阈值之上的时间点，作为第一时间窗口的右端。从而，观看者忽略的部分音视频，将存储在移动终端中，而观看者当察觉到情节不连贯时，可以通过移动终端将忽略的部分音视频补上，这也是第一补充视频片段与第一补充音频片段中，补充二字的来由。
35.在一个实施方式中，所述将所述第一头部图像输入经过训练的朝向分类模型中进
行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器的步骤s3之后，包括：s31、若第一人脸朝向未指向数字电视显示器，则开启预设的记时器以开始记时；s32、通过所述第一摄像头，对数字电视观看者的头部继续进行图像采集处理，以得到第二头部图像；s33、将所述第二头部图像输入所述朝向分类模型中进行处理，以得到所述朝向分类模型输出的第二人脸朝向，并判断第二人脸朝向是否指向数字电视显示器；s34、若第二人脸朝向指向数字电视显示器，则停止所述记时器，以得到第二时间窗口；s35、截取所述第二时间窗口内的原始视频与原始音频，以生成第二补充视频片段与第二补充音频片段，并通过所述蓝牙通道，将第二补充视频片段与第二补充音频片段发送至移动终端。
36.从而直接确定观看者处于分心状态，直接生成第二补充视频片段与第二补充音频片段，并通过所述蓝牙通道，将第二补充视频片段与第二补充音频片段发送至移动终端。此时的第二时间窗口是由记时器来确定的，而记时器的记时起点为判断出第一人脸朝向不符合要求时，即未指向数字电视显示器，终点为第二人脸朝向指向数字电视显示器。
37.进一步地，所述接收数字信号，并将数字信号转化为原始视频与原始音频，在数字电视显示器上播放所述原始视频，同时采用数字电视声音播放器播放所述原始音频的步骤s1之前，包括：s01、在数字电视声音播放器开始播放音频之前，采用所述声音收集器进行背景声音采集处理，以得到背景声音数据；所述若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器进行声音采集处理，得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比，以判断是否存在异常声音的步骤s4，包括：s401、若第一人脸朝向指向数字电视显示器，则将所述背景声音数据与所述原始音频进行叠加处理，以得到叠加声音数据；s402、根据预设的相似度计算方法，计算所述环境声音数据与所述叠加声音数据之间的相似度值，并判断所述相似度值是否大于预设的相似度阈值；s403、若所述相似度值不大于预设的相似度阈值，则判定存在异常声音。
38.从而引入背景声音，以提高异常声音的判断准确性。其中，所述环境声音数据与所述叠加声音数据之间的相似度值可采用任意可行方法，例如采用波形图对比法，更具体地，可以采用时域或者频域图进行进一步分析。
39.在一个实施方式中，数字电视观看者的数量为多个，移动终端的数量为多个，数字电视观看者与移动终端一一对应；所述若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端的步骤s7，包括：s701、若所述聚焦程度数值小于预设的聚焦程度阈值，则将聚焦程度数值对应的
观看者记为指定观看者；s702、根据观看者与移动终端的对应关系，获取与所述指定观看者对应的指定移动终端；s703、将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段；s704、通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至指定移动终端，但不发送给其他移动终端。
40.本技术不仅适用于单人观看数字电视的场景，更适用于多个观看数字电视的场景。其中，当观看者为多人时，对应的移动终端数量也为多个，这是一一对应的，即一人具有一个移动终端，这是因为存在部分人分心而其他部分人未分心的情况，此时应当只将第一补充视频片段与第一补充音频片段发送至指定移动终端，但不发送给其他移动终端。所述指定移动终端即为发生分心的观看者对应的移动终端。
41.本技术的基于聚焦程度数值的数字电视播放方法，接收数字信号，转化为原始视频与原始音频，播放原始视频，播放原始音频；构建蓝牙通道，通过第一摄像头进行图像采集处理，以得到第一头部图像；将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到第一人脸朝向；若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比；若存在异常声音，采用第二摄像头获取眼睛图像；输入聚焦程度预测模型中进行处理，以得到聚焦程度数值；若聚焦程度数值小于预设的聚焦程度阈值，则生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端，实现了提高数字电视播放的有效播放率，无需拖回进度条，节省了整体时间。
42.参照图2，本技术实施例提供一种基于聚焦程度数值的数字电视播放装置，包括：数字信号接收单元10，用于接收数字信号，并将数字信号转化为原始视频与原始音频，在数字电视显示器上播放所述原始视频，同时采用数字电视声音播放器播放所述原始音频；蓝牙通道构建单元20，用于根据预设的蓝牙通信技术，与预设的移动终端构建蓝牙通道，再通过预先布设的具有第一分辨率的第一摄像头，对数字电视观看者的头部进行图像采集处理，以得到第一头部图像；第一人脸朝向判断单元30，用于将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到所述朝向分类模型输出的第一人脸朝向，并判断第一人脸朝向是否指向数字电视显示器；其中，所述朝向预测模型基于预设的机器学习模型训练而成；环境声音数据获取单元40，用于若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器进行声音采集处理，得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比，以判断是否存在异常声音；眼睛图像获取单元50，用于若存在异常声音，则在预设的第一时间窗口内，采用预先布设的具有第二分辨率的第二摄像头，对观看者的眼睛进行图像采集处理，以获取眼睛图像；其中，所述第二分辨率高于所述第一分辨率；聚焦程度数值判断单元60，用于将所述眼睛图像输入经过训练的聚焦程度预测模型中进行处理，以得到所述聚焦程度预测模型输出的聚焦程度数值，并判断所述聚焦程度
数值是否小于预设的聚焦程度阈值；其中，所述聚焦程度预测模型基于深度卷积神经网络模型训练而得；截取处理单元70，用于若所述聚焦程度数值小于预设的聚焦程度阈值，则将所述第一时间窗口内的原始视频与原始音频进行截取处理，以生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端。
43.其中上述单元分别用于执行的操作与前述实施方式的基于聚焦程度数值的数字电视播放方法的步骤一一对应，在此不再赘述。
44.本技术的基于聚焦程度数值的数字电视播放装置，接收数字信号，转化为原始视频与原始音频，播放原始视频，播放原始音频；构建蓝牙通道，通过第一摄像头进行图像采集处理，以得到第一头部图像；将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到第一人脸朝向；若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比；若存在异常声音，采用第二摄像头获取眼睛图像；输入聚焦程度预测模型中进行处理，以得到聚焦程度数值；若聚焦程度数值小于预设的聚焦程度阈值，则生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端，实现了提高数字电视播放的有效播放率，无需拖回进度条，节省了整体时间。
45.参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于聚焦程度数值的数字电视播放方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于聚焦程度数值的数字电视播放方法。
46.上述处理器执行上述基于聚焦程度数值的数字电视播放方法，其中所述方法包括的步骤分别与执行前述实施方式的基于聚焦程度数值的数字电视播放方法的步骤一一对应，在此不再赘述。
47.本领域技术人员可以理解，图中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定。
48.本技术的计算机设备，接收数字信号，转化为原始视频与原始音频，播放原始视频，播放原始音频；构建蓝牙通道，通过第一摄像头进行图像采集处理，以得到第一头部图像；将所述第一头部图像输入经过训练的朝向分类模型中进行处理，以得到第一人脸朝向；若第一人脸朝向指向数字电视显示器，则通过预先布设的声音收集器得到环境声音数据，并将所述环境声音数据与所述原始音频进行对比；若存在异常声音，采用第二摄像头获取眼睛图像；输入聚焦程度预测模型中进行处理，以得到聚焦程度数值；若聚焦程度数值小于预设的聚焦程度阈值，则生成第一补充视频片段与第一补充音频片段，并通过所述蓝牙通道，将第一补充视频片段与第一补充音频片段发送至移动终端，实现了提高数字电视播放的有效播放率，无需拖回进度条，节省了整体时间。
49.本技术一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于聚焦程度数值的数字电视播放方法，其中所述方法包括的步骤分别与执行前述实施方式的基于聚焦程度数值的数字电视播放方法的步骤一一对应，在此不再赘述。
50.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
51.以上所述仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：载波选择方法、装置、终端及存储介质与流程

一种基于聚焦程度数值的数字电视播放方法和装置与流程

相关文献

最热文献