一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、设备及可读存储介质与流程

2021-12-13 00:17:00 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、设备及可读存储介质。


背景技术:

2.在使用智能面试系统进行面试的场景中,或者,在基于远程面试的场景中,由于面试官不能面对面观察到面试者的表情,或者,由于面试官经验不足等因素,导致面试官不能准确地判断面试者回答问题的真实性。从而导致招聘到的求职者不能很好的适应该工作岗位,浪费人力物力成本。因此,如何提高视频识别的准确性,进而判断面试者在面试过程中回答问题的真实性,提高数据处理的准确性是亟待解决的问题。


技术实现要素:

3.本技术实施例提供一种数据处理方法、装置、设备及可读存储介质,可以提高数据处理的准确性。
4.第一方面,本技术提供一种数据处理方法,包括:
5.获取用户在面试过程中的多媒体数据,该多媒体数据包括语音数据和视频数据;
6.提取该语音数据中的n个关键信息,基于该n个关键信息对该语音数据进行划分,得到n个语音片段,一个关键信息对应一个语音片段,该一个关键信息为该用户针对一个预设问题的回答信息;
7.分别获取该n个语音片段的时间信息,基于该n个语音片段的时间信息对该视频数据进行划分,得到n个视频片段,一个语音片段对应一个视频片段,一个语音片段的时间信息与该语音片段对应的视频片段的时间信息相同;
8.分别对该n个视频片段进行识别,确定该n个视频片段中每个视频片段对应的类别信息,该类别信息包括第一类别或第二类别,该第一类别用于反映该用户针对预设问题的回答为真,该第二类别用于反映该用户针对预设问题的回答为假;
9.基于该n个视频片段中每个视频片段对应的类别信息与预设面试规则确定该用户的面试结果。
10.结合第一方面,在一种可能的实现方式中,该提取该语音数据中的n个关键信息,包括:
11.对该语音数据进行语音识别,得到该语音数据对应的文本数据;
12.对该文本数据进行文本识别,将该文本数据中与预设关键词匹配的词语确定为该文本数据中的关键词,基于该关键词提取该语音数据中的n个关键信息。
13.结合第一方面,在一种可能的实现方式中,该n个视频片段包括第i个视频片段,i为正整数;
14.该分别对该n个视频片段进行识别,确定该n个视频片段中每个视频片段对应的类别信息,包括:
15.对该第i个视频片段中的m帧视频图像进行人脸识别,确定该第i个视频片段对应的m帧人脸图像,m为正整数;
16.基于微表情识别模型对该m帧人脸图像进行识别,确定该m帧人脸图像中每帧人脸图像的微表情特征信息;
17.基于该m帧人脸图像中每帧人脸图像的微表情特征信息与预设微表情特征信息库进行匹配,确定该第i个视频片段对应的类别信息,直至确定出该n个视频片段中每个视频片段对应的类别信息,该预设微表情特征信息库用于存储微表情特征信息与类别信息之间的对应关系。
18.结合第一方面,在一种可能的实现方式中,该方法还包括:
19.获取训练样本视频片段,以及该训练样本视频片段的训练标签;
20.对该训练样本视频片段中的k帧训练样本视频图像进行人脸识别,确定该训练样本视频片段对应的k帧训练样本人脸图像,k为正整数;
21.基于初始微表情识别模型对该k帧训练样本人脸图像进行识别,确定该k帧训练样本人脸图像中每帧训练样本人脸图像的训练微表情特征信息;
22.基于该训练标签和该训练微表情特征信息确定该初始微表情识别模型的第一损失函数;
23.基于该第一损失函数对该初始微表情识别模型进行训练,得到该微表情识别模型。
24.结合第一方面,在一种可能的实现方式中,该方法还包括:
25.获取测试样本视频片段,以及该测试样本视频片段的测试标签;
26.对该测试样本视频片段中的p帧测试样本视频图像进行人脸识别,确定该测试样本视频片段对应的p帧测试样本人脸图像,p为正整数;
27.该基于该第一损失函数对该初始微表情识别模型进行训练,得到该微表情识别模型,包括:
28.基于该第一损失函数对该初始微表情识别模型进行训练,得到训练后的微表情识别模型;
29.基于该训练后的微表情识别模型对该p帧测试样本人脸图像进行识别,确定该p帧测试样本人脸图像中每帧测试样本人脸图像的测试微表情特征信息;
30.基于该测试标签和该测试微表情特征信息确定该训练后的微表情识别模型的第二损失函数;
31.基于该第二损失函数对该训练后的微表情识别模型进行调整,得到该微表情识别模型。
32.结合第一方面,在一种可能的实现方式中,该m帧人脸图像包括第j帧人脸图像,该m帧人脸图像的微表情特征信息包括该第j帧人脸图像的微表情特征信息,j为正整数;
33.该基于微表情识别模型对该m帧人脸图像进行识别,确定该m帧人脸图像中每帧人脸图像的微表情特征信息,包括:
34.基于该微表情识别模型对该第j帧人脸图像进行灰度化处理,得到灰度图像;
35.对该灰度图像进行特征提取,得到第一图像特征,该第一图像特征用于表征该第j帧人脸图像的边缘信息;
36.对该灰度图像和该第一图像特征进行特征提取,得到第二图像特征,该第二图像特征用于表征该第j帧人脸图像的语义信息;
37.将该第一图像特征和该第二图像特征确定为该第j帧人脸图像的微表情特征信息。
38.结合第一方面,在一种可能的实现方式中,该预设面试规则包括该第一类别的数量大于数量阈值和/或标记问题对应的视频片段的类别信息均是该第一类别,该标记问题为多个该预设问题中被标记的一个或者多个;
39.该基于该n个视频片段中每个视频片段对应的类别信息与预设面试规则确定该用户的面试结果,包括:
40.若该n个视频片段对应的类别信息中该第一类别的数量大于该数量阈值,则确定该用户的面试结果为通过;和/或,
41.若该标记问题对应的视频片段的类别信息均为该第一类别,则确定该用户的面试结果为通过;和/或,
42.若该n个视频片段对应的类别信息中该第一类别的数量大于该数量阈值,且该标记问题对应的视频片段的类别信息均为该第一类别,则确定该用户的面试结果为通过。
43.第二方面,本技术提供一种数据处理装置,包括:
44.数据获取模块,用于获取用户在面试过程中的多媒体数据,该多媒体数据包括语音数据和视频数据;
45.语音提取模块,用于提取该语音数据中的n个关键信息,基于该n个关键信息对该语音数据进行划分,得到n个语音片段,一个关键信息对应一个语音片段,该一个关键信息为该用户针对一个预设问题的回答信息;
46.视频划分模块,用于分别获取该n个语音片段的时间信息,基于该n个语音片段的时间信息对该视频数据进行划分,得到n个视频片段,一个语音片段对应一个视频片段,一个语音片段的时间信息与该语音片段对应的视频片段的时间信息相同;
47.视频识别模块,用于分别对该n个视频片段进行识别,确定该n个视频片段中每个视频片段对应的类别信息,该类别信息包括第一类别或第二类别,该第一类别用于反映该用户针对预设问题的回答为真,该第二类别用于反映该用户针对预设问题的回答为假;
48.结果确定模块,用于基于该n个视频片段中每个视频片段对应的类别信息与预设面试规则确定该用户的面试结果。
49.结合第二方面,在一种可能的实现方式中,该语音提取模块,包括:
50.语音转换单元,用于对该语音数据进行语音识别,得到该语音数据对应的文本数据;
51.词语提取单元,用于对该文本数据进行文本识别,将该文本数据中与预设关键词匹配的词语确定为该文本数据中的关键词,基于该关键词提取该语音数据中的n个关键信息。
52.结合第二方面,在一种可能的实现方式中,该n个视频片段包括第i个视频片段,i为正整数;该视频识别模块,包括:
53.人脸确定单元,用于对该第i个视频片段中的m帧视频图像进行人脸识别,确定该第i个视频片段对应的m帧人脸图像,m为正整数;
54.人脸识别单元,用于基于微表情识别模型对该m帧人脸图像进行识别,确定该m帧人脸图像中每帧人脸图像的微表情特征信息;
55.特征匹配单元,用于基于该m帧人脸图像中每帧人脸图像的微表情特征信息与预设微表情特征信息库进行匹配,确定该第i个视频片段对应的类别信息,直至确定出该n个视频片段中每个视频片段对应的类别信息,该预设微表情特征信息库用于存储微表情特征信息与类别信息之间的对应关系。
56.结合第二方面,在一种可能的实现方式中,该数据处理装置还包括:模型训练模块,其中,模型训练模块包括:
57.第一获取单元,用于获取训练样本视频片段,以及该训练样本视频片段的训练标签;
58.第一确定单元,用于对该训练样本视频片段中的k帧训练样本视频图像进行人脸识别,确定该训练样本视频片段对应的k帧训练样本人脸图像,k为正整数;
59.样本识别单元,用于基于初始微表情识别模型对该k帧训练样本人脸图像进行识别,确定该k帧训练样本人脸图像中每帧训练样本人脸图像的训练微表情特征信息;
60.函数确定单元,用于基于该训练标签和该训练微表情特征信息确定该初始微表情识别模型的第一损失函数;
61.模型训练单元,用于基于该第一损失函数对该初始微表情识别模型进行训练,得到该微表情识别模型。
62.结合第二方面,在一种可能的实现方式中,该数据处理装置还包括:模型测试模块,其中,模型测试模块包括:
63.第二获取单元,用于获取测试样本视频片段,以及该测试样本视频片段的测试标签;
64.第二确定单元,用于对该测试样本视频片段中的p帧测试样本视频图像进行人脸识别,确定该测试样本视频片段对应的p帧测试样本人脸图像,p为正整数;
65.该第一训练单元,具体用于:
66.基于该第一损失函数对该初始微表情识别模型进行训练,得到训练后的微表情识别模型;
67.基于该训练后的微表情识别模型对该p帧测试样本人脸图像进行识别,确定该p帧测试样本人脸图像中每帧测试样本人脸图像的测试微表情特征信息;
68.基于该测试标签和该测试微表情特征信息确定该训练后的微表情识别模型的第二损失函数;
69.基于该第二损失函数对该训练后的微表情识别模型进行调整,得到该微表情识别模型。
70.结合第二方面,在一种可能的实现方式中,该m帧人脸图像包括第j帧人脸图像,该m帧人脸图像的微表情特征信息包括该第j帧人脸图像的微表情特征信息,j为正整数;该人脸识别单元,具体用于:
71.基于该微表情识别模型对该第j帧人脸图像进行灰度化处理,得到灰度图像;
72.对该灰度图像进行特征提取,得到第一图像特征,该第一图像特征用于表征该第j帧人脸图像的边缘信息;
73.对该灰度图像和该第一图像特征进行特征提取,得到第二图像特征,该第二图像特征用于表征该第j帧人脸图像的语义信息;
74.将该第一图像特征和该第二图像特征确定为该第j帧人脸图像的微表情特征信息。
75.结合第二方面,在一种可能的实现方式中,该预设面试规则包括该第一类别的数量大于数量阈值和/或标记问题对应的视频片段的类别信息均是该第一类别,该标记问题为多个该预设问题中被标记的一个或者多个;该结果确定模块,具体用于:
76.若该n个视频片段对应的类别信息中该第一类别的数量大于该数量阈值,则确定该用户的面试结果为通过;和/或,
77.若该标记问题对应的视频片段的类别信息均为该第一类别,则确定该用户的面试结果为通过;和/或,
78.若该n个视频片段对应的类别信息中该第一类别的数量大于该数量阈值,且该标记问题对应的视频片段的类别信息均为该第一类别,则确定该用户的面试结果为通过。
79.第三方面,本技术提供了一种计算机设备,包括:处理器、存储器、网络接口;
80.上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使包含该处理器的计算机设备执行上述方法。
81.第四方面,本技术提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行上述方法。
82.第五方面,本技术提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术第一方面中的各种可选方式中提供的方法。
83.本技术实施例中,通过获取用户在面试过程中的多媒体数据,多媒体数据包括语音数据和视频数据;提取语音数据中的n个关键信息并基于n个关键信息对语音数据进行划分,得到n个语音片段;分别获取n个语音片段的时间信息,基于n个语音片段的时间信息对视频数据进行划分,得到n个视频片段;分别对n个视频片段进行识别,确定n个视频片段中每个视频片段对应的类别信息,类别信息包括第一类别或第二类别;基于n个视频片段中每个视频片段对应的类别信息与预设面试规则确定用户的面试结果。通过提取用户(如面试者)在面试过程中的语音数据中的关键信息,基于关键信息对视频数据进行分段处理,可以得到用户回答预设问题的多个视频片段,基于关键信息对视频数据进行分段处理,在后续识别视频片段对应的类别信息时,可以只对划分得到的视频片段进行识别处理,无需对视频数据中的无关视频片段进行识别,可以提高识别效率。并且,基于微表情识别模型对用户面试过程中的视频数据进行识别,可以提高视频识别的准确性;进一步地,通过结合预先设定的面试规则对用户的面试情况进行二次判断,可以更准确地确定用户在面试过程中回答问题的真实性,从而提高数据处理的准确性。
附图说明
84.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
85.图1是本技术实施例提供的一种数据处理系统的架构示意图;
86.图2是本技术实施例提供的一种数据处理方法的流程示意图;
87.图3是本技术实施例提供的另一种数据处理方法的流程示意图;
88.图4是本技术实施例提供的一种数据处理装置的组成结构示意图;
89.图5是本技术实施例提供的一种计算机设备的组成结构示意图。
具体实施方式
90.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
91.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
92.人工智能技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
93.本技术涉及人工智能中的语音处理技术、自然语言处理技术以及视频处理技术,可以利用语音处理技术和自然语言处理技术提取语音数据中的n个关键信息,基于n个关键信息对语音数据进行划分,得到n个语音片段。进一步地,还可以利用视频处理技术分别对n个视频片段进行识别,确定n个视频片段中每个视频片段对应的类别信息,从而基于n个视频片段中每个视频片段对应的类别信息与预设面试规则确定用户的面试结果。采用本技术的技术方案,由于采用了人工智能中的语音处理技术、自然语言处理技术以及视频处理技术,可以提高数据处理的准确性。
94.请参见图1,图1是本技术实施例提供的一种数据处理系统的架构示意图,该系统架构示意图包括面试系统对应的服务器101和用户终端102,服务器101和用户终端102可以进行数据交互。其中,服务器101可以获取用户在面试过程中的多媒体数据,该多媒体数据包括语音数据和视频数据;提取语音数据中的n个关键信息,基于n个关键信息对语音数据进行划分,得到n个语音片段;分别获取n个语音片段的时间信息,基于n个语音片段的时间信息对视频数据进行划分,得到n个视频片段;分别对n个视频片段进行识别,确定n个视频片段中每个视频片段对应的类别信息,类别信息包括第一类别或第二类别;基于n个视频片段中每个视频片段对应的类别信息与预设面试规则确定用户的面试结果。用户终端102可
以用于采集用户在面试过程中的多媒体数据,以及输出用户的面试结果等。
95.可以理解的是,本技术实施例中所提及的面试系统对应的服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。以上所提及的用户终端102可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(augmented reality/virtual reality,ar/vr)设备、头盔显示器、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,mid)等。
96.进一步地,请参见图2,图2是本技术实施例提供的一种数据处理方法的流程示意图。如图2所示,该数据处理方法可以应用于计算机设备(如服务器),该数据处理方法包括但不限于以下步骤:
97.s101,获取用户在面试过程中的多媒体数据。
98.本技术实施例中,计算机设备可以获取用户在面试过程中的多媒体数据,其中,多媒体数据包括语音数据和视频数据。多媒体数据可以是指在用户(如面试者)面试过程中采集到的多媒体数据,例如包含语音和视频的音视频数据。具体实现中,面试者在面试过程中针对面试官或者智能面试系统的提问进行回答时,数据采集装置可以对用户的面试过程进行录音录像等操作,从而采集到包含语音和视频的多媒体数据。数据采集装置可以是指用户终端或者其他具有多媒体数据采集功能的装置。例如数据采集装置为用户终端,则用户终端对用户在面试过程中的多媒体数据进行采集后,将得到的多媒体数据发送至计算机设备,则计算机设备获取到用户在面试过程中的多媒体数据。
99.s102,提取语音数据中的n个关键信息,基于n个关键信息对语音数据进行划分,得到n个语音片段。
100.本技术实施例中,计算机设备可以提取语音数据中的n个关键信息,基于n个关键信息对语音数据进行划分,得到n个语音片段。其中,一个关键信息对应一个语音片段,一个关键信息为用户针对一个预设问题的回答信息。预设问题可以是面试中的常用问题,例如可以是指预先设置的面试问题,预设问题可以包括用于描述用户是否愿意加班、出差、是否接受该岗位、工作经历、心理素质、心理健康或者其他方面的问题。
101.可选地,计算机设备提取语音数据中的n个关键信息的方法可以包括:对语音数据进行语音识别,得到语音数据对应的文本数据;对文本数据进行文本识别,将文本数据中与预设关键词匹配的词语确定为文本数据中的关键词,基于关键词提取语音数据中的n个关键信息。
102.具体地,计算机设备可以采用自动语音识别(automatic speech recognition,asr)技术对语音数据进行识别,得到语音数据对应的文本数据,对文本数据进行文本识别,将文本数据中与预设关键词匹配的词语确定为文本数据中的关键词,从而提取文本数据中的关键词,将文本数据中的关键词确定为语音数据中的关键信息。其中,预设关键词可以与预设问题相对应,例如可以包括用于描述是否愿意加班、是否愿意出差、是否接受该岗位、工作经历、心理素质、心理健康或者其他方面的问题的词语。例如,预设关键词可以包括“愿
意”、“加班”、“接受”、“出差”、“不愿意”、“不接受”、“抗压”、“无”、“工作经历”,等等。可选地,计算机设备可以将一个关键词确定为一个关键信息,即文本数据中包含n个关键词,则得到n个关键信息。或者,计算机设备可以根据一个或者多个关键词确定关键信息。例如,计算机设备识别到文本数据为“愿意啊,我很愿意出差”,则识别到的关键词可以包括“愿意”、“愿意”、“出差”,计算机设备可以获取语音数据中每个关键词对应的时间信息,若两个关键词之间的时间信息之差小于时间阈值,则可以将该两个关键词确定为同一个关键信息,即此时提取到的关键信息为“愿意”、“加班”。可以理解的是,若两个关键词之间的时间信息之差小于时间阈值,可以表示用户针对一个问题进行了重复描述或者语义加强描述;若两个关键词之间的时间信息之差大于或等于时间阈值,可以表示该两个关键词为用户针对两个预设问题的回答。或者,计算机设备也可以使用自然语言处理(natural language processing,nlp)技术对语音数据对应的文本数据进行识别,得到语音数据中的n个关键信息,本技术实施例中对提取关键信息的方式不进行限定。
103.可选地,计算机设备在提取到语音数据中的n个关键信息之后,可以基于n个关键信息对语音数据进行划分,得到n个语音片段。具体地,计算机设备可以确定n个关键信息中每个关键信息在语音数据中对应的起始时间点和结束时间点,基于该起始时间点和结束时间点对语音数据进行划分,得到包含关键信息的语音片段,针对n个关键信息中每个关键信息都可以参考该种方式,从而将语音数据划分为n个语音片段。
104.s103,分别获取n个语音片段的时间信息,基于n个语音片段的时间信息对视频数据进行划分,得到n个视频片段。
105.本技术实施例中,计算机设备可以分别获取n个语音片段的时间信息,基于n个语音片段的时间信息对视频数据进行划分,得到n个视频片段,其中,一个语音片段对应一个视频片段,一个语音片段的时间信息与该语音片段对应的视频片段的时间信息相同。
106.可选地,计算机设备可以确定n个语音片段中每个语音片段在语音数据中的起始语音点和结束语音点,从而确定每个语音片段的时间信息,再从视频数据中获取与每个语音片段的时间信息对应的时间信息,作为视频片段的时间信息,从而实现基于每个语音片段的时间信息对视频数据进行划分,得到n个视频片段。可以理解的是,本技术实施例中也可以使用其他方式基于多媒体数据中的n个关键信息对视频数据进行划分,得到n个关键信息对应的视频片段,一个关键信息对应一个视频片段。例如,针对面试官提出的n个问题,采集用户(面试者)的回答得到对应的视频片段,从而得到n个视频片段。
107.本技术实施例中,计算机设备可以提取语音数据中的关键信息,得到语音片段,基于语音片段的时间信息对视频数据进行划分,得到每个关键信息对应的视频片段,在后续进行数据处理(例如微表情识别)的过程中,只需要对每个关键信息对应的视频片段进行识别,无需对视频数据中的所有视频片段进行识别,可以减少工作量,从而提升处理效率。
108.s104,分别对n个视频片段进行识别,确定n个视频片段中每个视频片段对应的类别信息。
109.本技术实施例中,计算机设备可以分别对n个视频片段进行识别,确定n个视频片段中每个视频片段对应的类别信息。其中,类别信息包括第一类别或第二类别,第一类别用于反映用户针对预设问题的回答为真,第二类别用于反映用户针对预设问题的回答为假。本技术实施例中,通过对n个视频片段进行识别,确定n个视频片段中每个视频片段对应的
类别信息可以是指通过识别每个视频片段,可以确定出每个视频片段中用户回答预设问题时的微表情,从而基于用户的微表情判断用户针对预设问题的回答为真或者为假。由于微表情是一种自发式的表情,既无法伪造也无法抑制,而面试过程中用户为了得到面试职位往往回答的问题与内心想法不符,因此通过微表情识别的方法可以判断出用户回答该问题的真实想法,即判断用户回答预设问题时是在说真话或者假话,从而根据用户的真实想法确定是否给用户提供该工作岗位,避免给用户提供工作岗位后,用户没有正向反馈,导致后续人力物力的浪费。
110.可选地,计算机设备可以对n个视频片段中每个视频片段进行分帧处理,将每个视频片段拆分成至少一帧视频图像,从而可以对每个视频片段对应的至少一帧视频图像中的每帧视频图像进行识别,确定每个视频片段对应的类别信息。
111.以n个视频片段包括第i个视频片段为例进行说明,其中i为正整数,第i个视频片段可以是指n个视频片段中的任意一个视频片段,也就是说,对于n个视频片段中的每个视频片段都可以参考该第i个视频片段的处理方法。具体地,对第i个视频片段中的m帧视频图像进行人脸识别,确定第i个视频片段对应的m帧人脸图像,m为正整数;基于微表情识别模型对m帧人脸图像进行识别,确定m帧人脸图像中每帧人脸图像的微表情特征信息;基于m帧人脸图像中每帧人脸图像的微表情特征信息与预设微表情特征信息库进行匹配,确定第i个视频片段对应的类别信息,直至确定出n个视频片段中每个视频片段对应的类别信息。其中,微表情特征信息库用于存储微表情特征信息与类别信息之间的对应关系。
112.具体实现中,计算机设备可以采用人脸关键点定位技术对第i个视频片段中的m帧视频图像中的每帧视频图像进行人脸识别,定位出每帧视频图像中人脸所在位置,基于人脸所在位置对视频图像进行剪裁,得到包含人脸特征点的人脸图像,对于第i个视频片段中的m帧视频图像中的每帧视频图像都进行上述处理,可以得到第i个视频片段对应的m帧人脸图像,即一帧视频图像对应一帧人脸图像。在确定出人脸图像之后,可以使用微表情识别模型对m帧人脸图像中的每帧人脸图像进行识别,确定m帧人脸图像中每帧人脸图像的微表情特征信息;基于m帧人脸图像中每帧人脸图像的微表情特征信息与预设微表情特征信息库进行匹配,确定第i个视频片段对应的类别信息,直至确定出n个视频片段中每个视频片段对应的类别信息。
113.可以理解的是,若任意一帧人脸图像的微表情特征信息与预设微表情特征信息库相匹配,即该帧人脸图像的微表情特征信息与预设微表情特征信息库中微表情特征信息相匹配,则将预设微表情特征信息库中微表情特征信息对应的类别信息确定为该帧人脸图像对应的类别信息。通过对m帧人脸图像中的每帧人脸图像的微表情特征信息与预设微表情特征信息库进行匹配,可以确定出m帧人脸图像中每帧人脸图像对应的类别信息,从而根据m帧人脸图像中每帧人脸图像对应的类别信息确定该第i个视频片段对应的类别信息。例如m帧人脸图像中对应的类别信息为第一类别的数量大于为第二类别的数量,则将第一类别确定为该第i个视频片段对应的类别信息。例如m为10,其中7帧人脸图像对应的类别信息为第一类别,3帧人脸图像对应的类别信息为第二类别,则可以将第一类别确定为第i个视频片段对应的类别信息。
114.可选地,若任意一帧人脸图像的微表情特征信息与预设微表情特征信息库均不匹配,即该帧人脸图像的微表情特征信息与预设微表情特征信息库中微表情特征信息均不匹
配,则可以不对该帧人脸图像进行处理,即对于难以识别的人脸图像可以不进行后续处理,从而提高识别效率。
115.可选地,计算机设备在确定人脸图像的微表情特征信息时,可以对人脸图像进行预处理,提高图像识别的准确度,其中人脸图像预处理可以包括人脸图像灰度化处理、低级图像特征提取和高级图像特征提取等。以m帧人脸图像包括第j帧人脸图像,m帧人脸图像的微表情特征信息包括第j帧人脸图像的微表情特征信息为例进行说明,其中,j为正整数。具体地,计算机设备基于微表情识别模型对第j帧人脸图像进行灰度化处理,得到灰度图像;对灰度图像进行特征提取,得到第一图像特征,其中,第一图像特征用于表征第j帧人脸图像的边缘信息;对灰度图像和第一图像特征进行特征提取,得到第二图像特征,其中,第二图像特征用于表征第j帧人脸图像的语义信息;将第一图像特征和第二图像特征确定为第j帧人脸图像的微表情特征信息。对于m帧人脸图像中的每帧人脸图像都可以参考该第j帧人脸图像的处理方法,从而得到m帧人脸图像中的每帧人脸图像的微表情特征信息。
116.具体实现中,计算机设备可以对第j帧人脸图像进行灰度化处理,由rgb三通道的图像经过灰度化得到单通道的灰度图像。使用光流法对灰度图像提取光流,进行光流估计,得到灰度图像对应的第一图像特征。第一图像特征可以是指低级图像特征,例如可以包括人脸图像中的一些边缘信息,例如边缘、角、颜色、像素、梯度等细节信息。进一步地,计算机设备还可以将灰度图像和第一图像特征作为卷积神经网络的输入,基于卷积神经网络对灰度图像和第一图像特征进行特征提取,得到第二图像特征。第二图像特征可以是指高级图像特征,例如可以包括人脸图像中的语义信息,例如微表情的含义等信息,人脸图像中的语义信息可以根据图像中的纹理信息、环境信息等信息综合得到。由于计算机设备提取到第j帧人脸图像的第一图像特征和第二图像特征,则可以将第一图像特征和第二图像特征确定为第j帧人脸图像的微表情特征信息。
117.本技术实施例中,计算机设备通过对人脸图像进行灰度化处理,可以减少人脸图像中的干扰信息,提高人脸图像识别的准确度。以及分别提取人脸图像的低级图像特征和高级图像特征,可以使得每帧人脸图像的微表情特征信息更完整,进而在基于每帧人脸图像的微表情特征信息确定每个视频片段对应的类别信息时,可以提高类别确定的准确率。
118.s105,基于n个视频片段中每个视频片段对应的类别信息与预设面试规则确定用户的面试结果。
119.本技术实施例中,计算机设备基于n个视频片段中每个视频片段对应的类别信息与预设面试规则确定用户的面试结果,即计算机设备基于微表情识别模型识别得到用户针对每个预设问题的回答为真或者假,则可以基于用户针对每个预设问题的回答为真或者假与预设面试规则确定用户的面试结果。
120.可选地,预设面试规则可以包括第一类别的数量大于数量阈值和/或标记问题对应的视频片段的类别信息均是第一类别,其中,标记问题为多个预设问题中被标记的一个或者多个。具体地,计算机设备基于n个视频片段中每个视频片段对应的类别信息与预设面试规则确定用户的面试结果的方法可以包括以下三种:
121.第一种方法,若n个视频片段对应的类别信息中第一类别的数量大于数量阈值,则确定用户的面试结果为通过。
122.也就是说,若预设问题的数量为n个,其中用户针对预设问题的回答为真的数量大
于数量阈值时,则计算机设备确定用户的面试结果为通过。例如,预设问题的数量为10个,数量阈值为7个,用户针对预设问题的回答为真的数量为8个,则确定用户的面试结果为通过。
123.第二种方法,若标记问题对应的视频片段的类别信息均为第一类别,则确定用户的面试结果为通过。
124.其中,标记问题可以为多个预设问题中被标记的一个或者多个问题。例如,预设问题为10个,标记问题包括预设问题中的第1个问题、第3个问题、第5个问题、第6个问题、第8个问题,也就是说,若用户针对每个标记问题的回答均为真,则计算机设备确定用户的面试结果为通过。若存在用户针对一个或者多个标记问题的回答为假,则计算机设备确定用户的面试结果为不通过。由于在面试过程中可能存在很多预设问题,但是每个预设问题的重要程度不同,因此可以将面试官较为关注的问题设置为标记问题,后续可以重点关注用户针对标记问题的回答。例如标记问题可以包括描述用户是否接受该岗位、工作经历、心理素质等方面的问题。
125.第三种方法,若n个视频片段对应的类别信息中第一类别的数量大于数量阈值,且标记问题对应的视频片段的类别信息均为第一类别,则确定用户的面试结果为通过。
126.可以理解的是,对于某些面试要求较高的职位,计算机设备可以在用户针对预设问题的回答为真的数量大于数量阈值且用户针对标记问题的回答均为真的情况下,确定用户面试结果为通过。可选地,计算机设备也可以在n个视频片段对应的类别信息中第二类别的数量小于或等于数量阈值情况下,确定用户的面试结果为通过。也就是说,计算机设备也可以设置在用户针对预设问题回答为假的数量小于数量阈值的情况下,确定用户面试结果为通过。由于本技术实施例中结合了用户的视频数据进行微表情识别确定用户回答问题的真实性,以及结合预先设定的面试规则对用户的面试情况进行二次判断,可以更准确地确定用户在面试过程中回答问题的真实性,从而提高面试准确度,即提高数据处理的准确性。
127.本技术实施例中,通过获取用户在面试过程中的多媒体数据,多媒体数据包括语音数据和视频数据;提取语音数据中的n个关键信息并基于n个关键信息对语音数据进行划分,得到n个语音片段;分别获取n个语音片段的时间信息,基于n个语音片段的时间信息对视频数据进行划分,得到n个视频片段;分别对n个视频片段进行识别,确定n个视频片段中每个视频片段对应的类别信息,类别信息包括第一类别或第二类别;基于n个视频片段中每个视频片段对应的类别信息与预设面试规则确定用户的面试结果。通过提取用户(如面试者)在面试过程中的语音数据中的关键信息,基于关键信息对视频数据进行分段处理,可以得到用户回答预设问题的多个视频片段,基于关键信息对视频数据进行分段处理,在后续识别视频片段对应的类别信息时,可以只对划分得到的视频片段进行识别处理,无需对视频数据中的无关视频片段进行识别,可以提高识别效率。并且,基于微表情识别模型对用户面试过程中的视频数据进行识别,可以提高视频识别的准确性;进一步地,通过结合预先设定的面试规则对用户的面试情况进行二次判断,可以更准确地确定用户在面试过程中回答问题的真实性,从而提高数据处理的准确性。
128.可选地,为了提高微表情识别模型对人脸图像进行识别的准确性,在使用微表情识别模型对人脸图像进行识别之前,计算机设备可以使用大量训练样本视频片段对初始微表情识别模型进行训练,得到微表情识别模型,从而使得基于微表情识别模型识别人脸图
像得到的人脸图像的微表情特征信息更准确,进而使得面试结果更准确。具体训练微表情识别模型的方法请参见图3,图3是本技术实施例提供的另一种数据处理方法的流程示意图。如图3所示,该数据处理方法可以应用于计算机设备(如服务器),该数据处理方法包括但不限于以下步骤:
129.s201,获取训练样本视频片段,以及训练样本视频片段的训练标签。
130.本技术实施例中,计算机设备可以获取大量微表情数据集,即大量样本视频片段,样本视频片段可以包括用于训练初始微表情识别模型的训练样本视频片段和用于测试训练后的微表情识别模型的测试样本视频片段。可选地,本技术实施例中还可以采用仿射变换的方式进行数据增强构建,即对样本视频片段进行平移、缩放、旋转以及错切等操作,得到更多样本视频片段,进而使用大量训练样本视频片段对初始微表情识别模型进行训练,提高微表情识别模型的准确度。其中,训练样本视频片段的训练标签是指预先给训练样本视频片段设定的标签,训练标签用于指示该训练样本视频片段对应的样本类别信息,样本类别信息包括第一类别或第二类别。
131.s202,对训练样本视频片段中的k帧训练样本视频图像进行人脸识别,确定训练样本视频片段对应的k帧训练样本人脸图像。
132.本技术实施例中,计算机设备可以采用人脸关键点定位技术对训练样本视频片段中的k帧训练样本视频图像进行人脸识别,定位出k帧训练样本视频图像中每帧训练样本视频图像中人脸所在位置,基于人脸所在位置对训练样本视频图像进行剪裁,得到包含人脸特征点的训练样本人脸图像,其中,k为正整数。
133.s203,基于初始微表情识别模型对k帧训练样本人脸图像进行识别,确定k帧训练样本人脸图像中每帧训练样本人脸图像的训练微表情特征信息。
134.本技术实施例中,步骤s203中基于初始微表情识别模型识别训练样本人脸图像的具体实现方式可参考前述图2对应的步骤s104中基于微表情识别模型识别人脸图像的实现方式,此处不再赘述。可选地,本技术实施例中的初始微表情识别模型可以是指卷积神经网络模型,该初始微表情识别模型可以包括卷积层、池化层、以及全连接层。其中,卷积层用于对输入的训练样本人脸图像进行特征提取。池化层用于对基于卷积层进行特征提取后的图像进行压缩,使特征图变小,简化网络计算复杂度,并且对基于卷积层进行特征提取后的图像进行特征压缩,提取图像中的主要特征。全连接层用于对卷积层和池化层提取到的特征进行连接。
135.s204,基于训练标签和训练微表情特征信息确定初始微表情识别模型的第一损失函数。
136.由于上述步骤基于初始微表情识别模型识别出每帧训练样本人脸图像的训练微表情特征信息,计算机设备可以基于每帧训练样本人脸图像的训练微表情特征信息与预设微表情特征信息库进行匹配,确定训练样本视频片段对应的样本类别信息,从而根据训练样本视频片段对应的样本类别信息与训练样本视频片段的训练标签确定初始微表情识别模型的第一损失函数。其中,样本类别信息包括第一类别或第二类别,第一类别用于反映用户针对预设问题的回答为真,第二类别用于反映用户针对预设问题的回答为假。
137.本技术实施例中是针对大量训练样本视频片段中的任意一个训练样本视频片段进行的识别,得到该训练样本视频片段对应的训练微表情特征信息,基于训练微表情特征
信息与预设微表情特征信息库进行匹配,确定该训练样本视频片段对应的样本类别信息,针对大量训练样本视频片段中的其他训练样本视频片段可参考该种方式,从而得到每个训练样本视频片段对应的样本类别信息。进一步地,计算机设备再基于每个训练样本视频片段的训练标签和每个训练样本视频片段对应的样本类别信息,确定初始微表情识别模型的第一损失函数。
138.s205,基于第一损失函数对初始微表情识别模型进行训练,得到表情识别模型。
139.可选地,训练样本视频片段的训练标签和训练样本视频片段对应的样本类别信息之间的重合度越高,则初始微表情识别模型的第一损失函数越小;训练样本视频片段的训练标签和训练样本视频片段对应的样本类别信息之间的重合度越低,则初始微表情识别模型的第一损失函数越大。举例进行说明,若训练样本视频片段的数量为1000份,若其中800份训练样本视频片段的训练标签和训练样本视频片段对应的样本类别信息之间均重合,例如训练样本视频片段的训练标签指示第一类别,训练样本视频片段对应的样本类别信息也为第一类别,此时初始微表情识别模型的第一损失函数为l1。若其中700份训练样本视频片段的训练标签和训练样本视频片段对应的样本类别信息之间均重合,此时初始微表情识别模型的第一损失函数为l2,则l1<l2。也就是说,初始微表情识别模型的输出结果与预先标记的训练标签之间的重合度越高,则第一损失函数越小,对应的初始微表情识别模型的准确度越高。当初始微表情识别模型的第一损失函数大于或等于第一损失阈值时,继续采用训练样本视频片段对初始微表情识别模型进行训练,调整初始微表情识别模型中的参数;当初始微表情识别模型的第一损失函数小于第一损失阈值时,可以将此时的初始微表情识别模型保存下来,确定为训练后的微表情识别模型。
140.可选地,计算机设备在得到训练后的微表情识别模型后,还可以使用大量测试样本视频片段对训练后的微表情识别模型进行测试,进一步提高微表情识别模型的识别准确度。
141.具体地,计算机设备可以获取测试样本视频片段,以及测试样本视频片段的测试标签;对测试样本视频片段中的p帧测试样本视频图像进行人脸识别,确定测试样本视频片段对应的p帧测试样本人脸图像,p为正整数。对应的,计算机设备基于第一损失函数对初始微表情识别模型进行训练,得到微表情识别模型的方法具体可以包括:
142.计算机设备基于第一损失函数对初始微表情识别模型进行训练,得到训练后的微表情识别模型;基于训练后的微表情识别模型对p帧测试样本人脸图像进行识别,确定p帧测试样本人脸图像中每帧测试样本人脸图像的测试微表情特征信息;基于测试标签和测试微表情特征信息确定训练后的微表情识别模型的第二损失函数;基于第二损失函数对训练后的微表情识别模型进行调整,得到微表情识别模型。
143.本技术实施例中,测试样本视频片段是对上述训练后的微表情识别模型进行测试,进一步提高模型识别准确度。计算机设备在确定p帧测试样本人脸图像中每帧测试样本人脸图像的测试微表情特征信息之后,可以基于每帧测试样本人脸图像的测试微表情特征信息与预设微表情特征信息库进行匹配,确定测试样本视频片段对应的样本类别信息,从而根据测试样本视频片段对应的样本类别信息与测试样本视频片段的测试标签确定训练后的微表情识别模型的第二损失函数。其中,样本类别信息包括第一类别或第二类别,第一类别用于反映用户针对预设问题的回答为真,第二类别用于反映用户针对预设问题的回答
为假。
144.可选地,测试样本视频片段的测试标签和测试样本视频片段对应的样本类别信息之间的重合度越高,则训练后的微表情识别模型的第二损失函数越小;测试样本视频片段的测试标签和测试样本视频片段对应的样本类别信息之间的重合度越低,则训练后的微表情识别模型的第二损失函数越大。当训练后的微表情识别模型的第二损失函数大于或等于第二损失阈值时,继续采用测试样本视频片段对训练后的微表情识别模型进行训练,调整训练后的微表情识别模型中的参数;当训练后的微表情识别模型的第二损失函数小于第二损失阈值时,可以将此时的训练后的微表情识别模型保存下来,确定为微表情识别模型。
145.可选地,计算机设备在确定训练样本人脸图像的样本微表情特征信息时,可以对训练样本人脸图像进行灰度化处理,得到训练样本灰度图像,从而提取训练样本灰度图像的第一训练样本图像特征和第二训练样本图像特征,并将第一训练样本图像特征和第二训练样本图像特征确定为训练样本人脸图像的训练样本微表情特征信息,进而在后续确定训练样本视频片段对应的样本类别信息时,提高类别确定的准确度。
146.可选地,计算机设备在确定测试样本人脸图像的样本微表情特征信息时,可以对测试样本人脸图像进行灰度化处理,得到测试样本灰度图像,从而提取测试样本灰度图像的第一测试样本图像特征和第二测试样本图像特征,并将第一测试样本图像特征和第二测试样本图像特征确定为测试样本人脸图像的测试样本微表情特征信息,进而在后续确定测试样本视频片段对应的样本类别信息时,提高类别确定的准确度。
147.本技术实施例中,由于在使用微表情识别模型对人脸图像进行识别之前,使用了大量训练样本视频片段对初始微表情识别模型进行训练,得到训练后的微表情识别模型,以及使用了大量测试样本视频片段对训练后的微表情识别模型进行测试,得到微表情识别模型,从而使得基于微表情识别模型识别人脸图像得到的人脸图像的微表情特征信息更完整,进而使得面试结果更准确。
148.上面介绍了本技术实施例的方法,下面介绍本技术实施例的装置。
149.参见图4,图4是本技术实施例提供的一种数据处理装置的组成结构示意图,上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该数据处理装置可以用于执行本技术实施例提供的数据处理方法中的相应步骤。该数据处理装置40包括:
150.数据获取模块41,用于获取用户在面试过程中的多媒体数据,该多媒体数据包括语音数据和视频数据;
151.语音提取模块42,用于提取该语音数据中的n个关键信息,基于该n个关键信息对该语音数据进行划分,得到n个语音片段,一个关键信息对应一个语音片段,该一个关键信息为该用户针对一个预设问题的回答信息;
152.视频划分模块43,用于分别获取该n个语音片段的时间信息,基于该n个语音片段的时间信息对该视频数据进行划分,得到n个视频片段,一个语音片段对应一个视频片段,一个语音片段的时间信息与该语音片段对应的视频片段的时间信息相同;
153.视频识别模块44,用于分别对该n个视频片段进行识别,确定该n个视频片段中每个视频片段对应的类别信息,该类别信息包括第一类别或第二类别,该第一类别用于反映该用户针对预设问题的回答为真,该第二类别用于反映该用户针对预设问题的回答为假;
154.结果确定模块45,用于基于该n个视频片段中每个视频片段对应的类别信息与预设面试规则确定该用户的面试结果。
155.可选地,该语音提取模块42,包括:
156.语音转换单元421,用于对该语音数据进行语音识别,得到该语音数据对应的文本数据;
157.词语提取单元422,用于对该文本数据进行文本识别,将该文本数据中与预设关键词匹配的词语确定为该文本数据中的关键词,基于该关键词提取该语音数据中的n个关键信息。
158.可选地,该n个视频片段包括第i个视频片段,i为正整数;该视频识别模块44,包括:
159.人脸确定单元441,用于对该第i个视频片段中的m帧视频图像进行人脸识别,确定该第i个视频片段对应的m帧人脸图像,m为正整数;
160.人脸识别单元442,用于基于微表情识别模型对该m帧人脸图像进行识别,确定该m帧人脸图像中每帧人脸图像的微表情特征信息;
161.特征匹配单元443,用于基于该m帧人脸图像中每帧人脸图像的微表情特征信息与预设微表情特征信息库进行匹配,确定该第i个视频片段对应的类别信息,直至确定出该n个视频片段中每个视频片段对应的类别信息,该预设微表情特征信息库用于存储微表情特征信息与类别信息之间的对应关系。
162.可选地,该数据处理装置40还包括:模型训练模块46,其中,模型训练模块46包括:
163.第一获取单元461,用于获取训练样本视频片段,以及该训练样本视频片段的训练标签;
164.第一确定单元462,用于对该训练样本视频片段中的k帧训练样本视频图像进行人脸识别,确定该训练样本视频片段对应的k帧训练样本人脸图像,k为正整数;
165.样本识别单元463,用于基于初始微表情识别模型对该k帧训练样本人脸图像进行识别,确定该k帧训练样本人脸图像中每帧训练样本人脸图像的训练微表情特征信息;
166.函数确定单元464,用于基于该训练标签和该训练微表情特征信息确定该初始微表情识别模型的第一损失函数;
167.模型训练单元465,用于基于该第一损失函数对该初始微表情识别模型进行训练,得到该微表情识别模型。
168.可选地,该数据处理装置40还包括:模型测试模块47,其中,模型测试模块47包括:
169.第二获取单元471,用于获取测试样本视频片段,以及该测试样本视频片段的测试标签;
170.第二确定单元472,用于对该测试样本视频片段中的p帧测试样本视频图像进行人脸识别,确定该测试样本视频片段对应的p帧测试样本人脸图像,p为正整数;
171.该第一训练单元465,具体用于:
172.基于该第一损失函数对该初始微表情识别模型进行训练,得到训练后的微表情识别模型;
173.基于该训练后的微表情识别模型对该p帧测试样本人脸图像进行识别,确定该p帧测试样本人脸图像中每帧测试样本人脸图像的测试微表情特征信息;
174.基于该测试标签和该测试微表情特征信息确定该训练后的微表情识别模型的第二损失函数;
175.基于该第二损失函数对该训练后的微表情识别模型进行调整,得到该微表情识别模型。
176.可选地,该m帧人脸图像包括第j帧人脸图像,该m帧人脸图像的微表情特征信息包括该第j帧人脸图像的微表情特征信息,j为正整数;该人脸识别单元442,具体用于:
177.基于该微表情识别模型对该第j帧人脸图像进行灰度化处理,得到灰度图像;
178.对该灰度图像进行特征提取,得到第一图像特征,该第一图像特征用于表征该第j帧人脸图像的边缘信息;
179.对该灰度图像和该第一图像特征进行特征提取,得到第二图像特征,该第二图像特征用于表征该第j帧人脸图像的语义信息;
180.将该第一图像特征和该第二图像特征确定为该第j帧人脸图像的微表情特征信息。
181.可选地,该预设面试规则包括该第一类别的数量大于数量阈值和/或标记问题对应的视频片段的类别信息均是该第一类别,该标记问题为多个该预设问题中被标记的一个或者多个;该结果确定模块45,具体用于:
182.若该n个视频片段对应的类别信息中该第一类别的数量大于该数量阈值,则确定该用户的面试结果为通过;和/或,
183.若该标记问题对应的视频片段的类别信息均为该第一类别,则确定该用户的面试结果为通过;和/或,
184.若该n个视频片段对应的类别信息中该第一类别的数量大于该数量阈值,且该标记问题对应的视频片段的类别信息均为该第一类别,则确定该用户的面试结果为通过。
185.需要说明的是,图4对应的实施例中未提及的内容可参见方法实施例的描述,这里不再赘述。
186.本技术实施例中,通过获取用户在面试过程中的多媒体数据,多媒体数据包括语音数据和视频数据;提取语音数据中的n个关键信息并基于n个关键信息对语音数据进行划分,得到n个语音片段;分别获取n个语音片段的时间信息,基于n个语音片段的时间信息对视频数据进行划分,得到n个视频片段;分别对n个视频片段进行识别,确定n个视频片段中每个视频片段对应的类别信息,类别信息包括第一类别或第二类别;基于n个视频片段中每个视频片段对应的类别信息与预设面试规则确定用户的面试结果。通过提取用户(如面试者)在面试过程中的语音数据中的关键信息,基于关键信息对视频数据进行分段处理,可以得到用户回答预设问题的多个视频片段,基于关键信息对视频数据进行分段处理,在后续识别视频片段对应的类别信息时,可以只对划分得到的视频片段进行识别处理,无需对视频数据中的无关视频片段进行识别,可以提高识别效率。并且,基于微表情识别模型对用户面试过程中的视频数据进行识别,可以提高视频识别的准确性;进一步地,通过结合预先设定的面试规则对用户的面试情况进行二次判断,可以更准确地确定用户在面试过程中回答问题的真实性,从而提高数据处理的准确性。
187.参见图5,图5是本技术实施例提供的一种计算机设备的组成结构示意图。如图5所示,上述计算机设备50可以包括:处理器501,网络接口504和存储器505,此外,上述计算机
设备50还可以包括:用户接口503,和至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,用户接口503可以包括显示屏(display)、键盘(keyboard),可选用户接口503还可以包括标准的有线接口、无线接口。网络接口504可选的可以包括标准的有线接口、无线接口(如wi

fi接口)。存储器505可以是高速ram存储器,也可以是非易失性的存储器(non

volatile memory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示,作为一种计算机可读存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
188.在图5所示的计算机设备50中,网络接口504可提供网络通讯功能;而用户接口503主要用于为用户提供输入的接口;而处理器501可以用于调用存储器505中存储的设备控制应用程序,以实现:
189.获取用户在面试过程中的多媒体数据,该多媒体数据包括语音数据和视频数据;
190.提取该语音数据中的n个关键信息,基于该n个关键信息对该语音数据进行划分,得到n个语音片段,一个关键信息对应一个语音片段,该一个关键信息为该用户针对一个预设问题的回答信息;
191.分别获取该n个语音片段的时间信息,基于该n个语音片段的时间信息对该视频数据进行划分,得到n个视频片段,一个语音片段对应一个视频片段,一个语音片段的时间信息与该语音片段对应的视频片段的时间信息相同;
192.分别对该n个视频片段进行识别,确定该n个视频片段中每个视频片段对应的类别信息,该类别信息包括第一类别或第二类别,该第一类别用于反映该用户针对预设问题的回答为真,该第二类别用于反映该用户针对预设问题的回答为假;
193.基于该n个视频片段中每个视频片段对应的类别信息与预设面试规则确定该用户的面试结果。
194.应当理解,本技术实施例中所描述的计算机设备50可执行前文图2和图3所对应实施例中对上述数据处理方法的描述,也可执行前文图4所对应实施例中对上述数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
195.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被计算机执行时使该计算机执行如前述实施例该的方法,该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器501。作为示例,程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
196.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)或随机存储记忆体(random access memory,ram)等。
197.以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范
围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献