一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

情绪识别方法、装置、电子设备和存储介质与流程

2022-11-23 14:16:40 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,尤其涉及一种情绪识别方法、装置、电子设备和存储介质。


背景技术:

2.情绪作为一种主观体验,是人们对外界刺激产生的心理反应,以及附带的生理反应,其在医疗、教育、审讯等领域中有着重要意义。随着人工智能的迅猛发展和深度学习软硬件资源的丰富,人们对于人机交互的关注度越来越高,情绪识别作为人机交互中的一个重要分支,自然成为了热门的研究课题。
3.目前的情绪识别技术,集中在语音、面部表情、脑电信号、文本等单模态层面,而单模态的情绪识别得准确率较低,识别结果的可信度不高;除此之外,还有一些基于深度学习的情绪识别方法,这类方法通常采用多任务学习的网络结构进行情绪预测,对应地,也是采用多任务学习的方式进行模型训练的,此种训练方式需以不同模态间抽象表征信息完全共享为前提条件,此种情况下,若模型无法聚合得到匹配的高维信息表达,则会导致模型的训练效果不佳,预测性能较差。


技术实现要素:

4.本发明提供一种情绪识别方法、装置、电子设备和存储介质,用以解决现有技术中因多任务学习的训练方式要求不同模态间的抽象表征信息完全共享,以致在模型无法聚合得到匹配的高维信息表达时,模型训练出现偏差,训练效果不佳的缺陷。
5.本发明提供一种情绪识别方法,包括:
6.确定至少两个模态的待识别数据;
7.基于各个模态的情绪识别模型,确定所述各个模态的待识别数据的情绪概率分布;
8.基于所述各个模态的情绪概率分布,确定情绪识别结果;
9.所述情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;
10.所述各个模态的情绪识别模型是基于所述各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到。
11.根据本发明提供的一种情绪识别方法,所述各个模态的情绪识别模型基于如下步骤训练:
12.基于所述各个模态的初始情绪识别模型,确定所述各个模态的样本数据的样本数据特征和预测概率分布;
13.将所述各个模态的样本数据的样本数据特征映射到同一空间,得到同一空间内所述各个模态的样本数据的样本投影特征;
14.基于所述各个模态的样本数据的样本投影特征之间的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,确定联合训练损失;
15.基于所述联合训练损失,对所述各个模态的初始情绪识别模型进行参数迭代,得到所述各个模态的情绪识别模型。
16.根据本发明提供的一种情绪识别方法,所述基于所述各个模态的样本数据的样本投影特征之间的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,确定联合训练损失,包括:
17.从所述各个模态的样本数据中,选取样本情绪识别结果相同的至少两个模态的样本数据,作为正样本数据集,从所述各个模态的样本数据中,选取样本情绪识别结果不同的至少两个模态的样本数据,作为负样本数据集;
18.基于所述正样本数据集中各样本数据的样本投影特征之间的特征相似度,以及所述负样本数据集中各样本数据的样本投影特征的之间的特征相似度,确定对比损失;
19.基于所述正样本数据集中各样本数据的预测概率分布之间的分布相似度,确定分布损失;
20.基于所述对比损失和/或所述分布损失,确定联合训练损失。
21.根据本发明提供的一种情绪识别方法,所述基于所述联合训练损失,对所述各个模态的初始情绪识别模型进行参数迭代,得到所述各个模态的情绪识别模型,包括:
22.基于所述各个模态的样本数据的预测概率分布,以及所述各个模态的样本数据对应的样本情绪识别结果,确定所述各个模态的初始情绪识别模型的预测损失;
23.基于所述预测损失和所述联合训练损失,对所述各个模态的初始情绪识别模型进行参数迭代,得到所述各个模态的情绪识别模型。
24.根据本发明提供的一种情绪识别方法,所述各个模态的初始情绪识别模型基于如下步骤训练:
25.确定至少两个模态的样本数据;
26.将所述各个模态的样本数据输入至对应模态的第一情绪识别模型,得到所述第一情绪识别模型输出的各个模态的第一预测概率分布;
27.基于所述第一预测概率分布和样本情绪识别结果,对所述各个模态的第一情绪识别模型进行参数迭代,得到所述各个模态的初始情绪识别模型。
28.根据本发明提供的一种情绪识别方法,所述确定至少两个模态的样本数据,包括:
29.确定至少两个模态的初始样本数据,所述至少两个模态包括音频模态、图像模态、文本模态、脑电信号模态、行为模态、遗传模态中的至少两种;
30.对所述各个模态的初始样本数据进行时间区间划分,得到所述各个模态的样本数据。
31.根据本发明提供的一种情绪识别方法,所述基于所述各个模态的情绪概率分布,确定情绪识别结果,包括:
32.对所述各个模态的情绪概率分布进行加权融合,得到融合情绪概率分布;
33.基于所述融合情绪概率分布,确定情绪识别结果。
34.本发明还提供一种情绪识别装置,包括:
35.待识别数据确定单元,用于确定至少两个模态的待识别数据;
36.概率分布确定单元,用于基于各个模态的情绪识别模型,确定所述各个模态的待识别数据的情绪概率分布;所述情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;所述各个模态的情绪识别模型是基于所述各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到;
37.识别结果确定单元,用于基于所述各个模态的情绪概率分布,确定情绪识别结果。
38.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的情绪识别方法。
39.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的情绪识别方法。
40.本发明提供的情绪识别方法、装置、电子设备和存储介质,以各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度为基准,对各个模态的初始情绪识别模型进行联合训练,能够使模型在训练过程中充分学习到不同模态的样本数据对应的样本数据特征和/或预测概率分布之间的远近关系,从而能够为情绪识别准确率和精确度的提升提供关键性的助力,克服了传统方案中因多任务学习的训练方式要求不同模态间的抽象表征信息完全共享,以致在模型无法聚合得到匹配的高维信息表达时,模型训练出现偏差,训练效果不佳的缺陷;并且,利用相同情绪在不同模态间的互补关系训练模型,能够提升模型的泛化能力,实现了情绪识别结果可信度,以及情绪识别过程精准度的双重提升。
附图说明
41.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本发明提供的情绪识别方法的流程示意图;
43.图2是本发明提供的情绪识别模型的训练过程的示意图;
44.图3是本发明提供的情绪识别方法中步骤230的流程示意图;
45.图4是本发明提供的情绪识别方法中步骤240的流程示意图;
46.图5是本发明提供的初始情绪识别模型的训练过程的示意图;
47.图6是本发明提供的情绪识别方法中步骤510的流程示意图;
48.图7是本发明提供的情绪识别方法中步骤130的流程示意图;
49.图8是本发明提供的情绪识别模型的训练过程的总体框架图;
50.图9是本发明提供的情绪识别装置的结构示意图;
51.图10是本发明提供的电子设备的结构示意图。
具体实施方式
52.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本
发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
53.情绪是一种内部的主观体验,是人们对外界刺激产生的心理反应,以及附带的生理反应,其在医疗、教育、审讯等领域中有着重要作用。而随着人工智能的发展,以及深度学习软硬件资源的丰富,人机交互受到了越来越多学者和研究人员的关注,情绪识别作为人机交互中的一个重要分支,自然成为了当前热门的研究课题。
54.目前的情绪识别技术,大多集中在语音、面部表情、脑电信号、文本等单模态层面。传统的面部表情识别大多由人工设计特征或浅层学习特征,具体的识别流程包括图像获取、预处理、特征提取、分类等,其中,预处理操作通常包括数据增强、人脸识别、归一化等。此外,语音情绪识别也随着数据集的丰富而得到发展,语音是人们日常交流最直接的手段,其中也涵盖了丰富的情绪信息,人们的情绪变化可以通过语音特征进行显现,语音情绪识别正是将包含情绪信息的语音信号转化为可读的物理特征,并从中提取与情绪表达相关的语音特征,再通过训练好的情绪识别分类器进行情绪识别,最后输出情绪识别结果。
55.而近年来,深度学习方法在众多领域取得了令人瞩目的成就,其通过组合分析低层特征,形成抽象的高层属性描述,以确定数据的分布式特征表示。深度学习方法无需储备较多领域专业知识,也无需定义提取的特征参数实际的物理含义,主要是设计神经网络结构,以通过神经网络进行特征提取,并识别相对应的情绪类别,此类情绪识别方法是一种端到端的识别方法,其通过神经网络建立数学模型和算法,并训练得到连接权重参数,以使网络能够实现基于数据的模式识别、函数映射等;而利用携带情绪类别标注的样本数据,训练模型,可实现样本数据中蕴含的微弱情绪的本质信息的深度挖掘,采用深度学习方法进行情绪识别,无需通过人工预先设计精细特征的参数提取方法,减少了研究人员对相关专业的先验知识的依赖,降低了研究门槛,因而成为了情绪识别领域中较为先进的技术。
56.目前,基于深度学习的情绪识别方法通常是采用多任务学习的网络结构,将多模态的输入信号分别输入至对应的神经网络,例如,tdnn(time delay neural networks,时延神经网络)、rnn(recurrent neural network,循环神经网络)、cnn(convolutional neural networks,卷积神经网络)等,通过多层信息连接和高层信息共享,将多模态的输入信号抽象融合到一起,然后对该输入信号所属的情绪类别进行预测。而在众多神经网络中,卷积神经网络所拥有的局部感受野、权重共享、池化计算等模块,能够在很大程度上缩小网络规模,以及缓解网络因规模庞大而出现的过拟合问题,通过参数随机初始化生成的卷积神经网络,对多模态的输入信号进行情绪类别预测,并使用该预测值和真实情绪类别的标注值之间的误差,驱动卷积神经网络进行参数更新,而经过若干轮的参数更新后即可得到较为精确的模型参数,如此即完成了模型训练。
57.然而,上述方案是采用多任务学习的方式进行模型训练的,从不同模态间抽象出的情绪表征向量,然后通过共享融合的方式合并在一起,此类训练方式需以不同模态间的抽象表征信息完全共享为前提,即要求不同模态间的抽象表征信息完全共享,若模型无法聚合得到匹配的高维信息表达,则会导致模型的训练出现偏差,训练效果不佳,预测性能较差。
58.针对上述情况,本发明提供一种情绪识别方法,旨在从多模态层面进行情绪识别,
利用不同模态的样本数据所表征的情绪信息的一致性进行模型训练,能够使训练所得的模型面向多模态的待识别数据时,能够提升情绪识别的准确率,从而实现情绪识别结果可信度和精确度的双重提升,图1是本发明提供的情绪识别方法的流程示意图,如图1所示,该方法包括:
59.步骤110,确定至少两个模态的待识别数据;
60.具体地,在进行情绪识别之前,首先需要确定需要进行情绪识别的数据,即待识别数据,由于情绪识别为多模态层面的,因此,需确定至少两个模态的待识别数据,此处的至少两个模态可以是音频模态、图像模态、文本模态、脑电信号模态、行为模态、遗传模态等。
61.并且,为保证各个模态的待识别数据所表征的情绪信息的一致性,本发明实施例中要求各个模态的待识别数据的数据来源相同,即各个模态的待识别数据需源自于同一多模态数据,该多模态数据可以是音视频数据,即可以是从实时录制的音视频数据流中截取的一段音视频数据,例如,可以预先设定音视频数据的时长,在录制的过程中,每隔预设时长对音视频数据流进行一次截取,从而得到最新录制的一段预设时长的音视频数据;也可以是从已经录制完成的音视频数据中截取的一段音视频数据,或者是已经录制完成的整段音视频数据。
62.需要说明的是,在得到音视频数据后,还需对音视频数据进行模态分离,以得到至少两个单个模态的初始数据,例如,音频模态的初始数据、图像模态的初始数据、文本模态的初始数据等,为使此部分初始数据的规格能够与情绪识别模型的输入窗的尺寸相适配,本发明实施例中还需对各个模态的初始数据进行时间区间划分,即可以利用预设时间窗,对各个模态的初始数据进行切分,如此即可得到各个模态的待识别数据。此处,预设时间窗的窗长是固定的,其可以根据实际情况预先设定,例如,可以是4秒、5秒、6秒等,本发明实施例对此不做具体限定。
63.另外,值得注意的是,若截取音视频数据流所用的预设时长与预设时间窗的窗长恰好相等,则从截取得到的音视频数据中分离出来的各个模态的初始数据的规格也能够符合情绪识别模型的输入要求,此种情况下,无需对分离得到的各个模态的初始数据进行时间区间划分,可将其直接作为待识别数据。
64.相应地,若分离得到的任一模态的初始数据的时长小于预设时间窗的窗长,则需对该模态的初始数据进行复制和拼接,即复制多份该模态的初始数据,并将复制的初始数据与原有的该模态的初始数据进行拼接,以使拼接后的初始数据对应的时长能够大于或等于预设时间窗的窗长,此后即可对拼接后的初始数据进行时间区间划分。
65.此外,至少两个模态的待识别数据构成的数据组可以是一个也可以是多个,在数据组为多个的情况下,需确定每一数据组归属的情绪类别,即需对每一数据组进行情绪识别,以确定其对应的情绪识别结果。
66.步骤120,基于各个模态的情绪识别模型,确定各个模态的待识别数据的情绪概率分布;情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;
67.各个模态的情绪识别模型是基于各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到;
68.具体地,在步骤110中,确定至少两个模态的待识别数据后,可以执行步骤120,应用各个模态的情绪识别模型,确定各个模态的待识别数据的情绪概率分布,这一过程具体包括如下步骤:
69.首先,将各个模态的待识别数据输入至对应模态的情绪识别模型中,然后,情绪识别模型对输入的对应模态的待识别数据进行特征提取,提取对应模态的待识别数据中能够表征情绪信息的特征,从而得到对应模态的待识别数据的数据特征,此后,情绪识别模型可根据该数据特征进行情绪识别,以确定对应模态的待识别数据的情绪概率分布,即对应模态的待识别数据所表征的情绪信息归属于各类情绪的后验概率,最终得到各个模态的情绪识别模型输出的各个模态的待识别数据的情绪概率分布。
70.而在将各个模态的待识别数据输入至对应模态的情绪识别模型之前,还可以预先训练得到各个模态的情绪识别模型。区别于传统方案中采用多任务学习的方式进行模型训练,本发明实施例中考虑到多任务学习的训练方式要求不同模态间的抽象表征信息完全共享,若这一条件不成立,模型则无法聚合得到匹配的高维信息表达,从而使得模型的训练出现偏差,进而导致模型预测性能不佳的情况,因此,采用各个模态的样本数据所表征的情绪信息的一致性进行模型训练,以得到训练完成的各个模态的情绪识别模型。
71.具体在进行模型训练时,首先,需收集大量的至少两个模态的样本数据,并通过各个模态的初始情绪识别模型,确定各个模态的样本数据的样本数据特征和预测概率分布,此处的样本数据特征是对对应模态的样本数据进行特征提取得到的,预测概率分布则是基于样本数据特征进行情绪识别得到的;随即,应用各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,对各个模态的初始情绪识别模型进行联合训练,从而得到训练完成的各个模态的情绪识别模型。
72.此处,各个模态的初始情绪识别模型可以是原始的情绪识别模型,即其模型参数是由随机数字产生器直接生成的,也可以是预先训练好的情绪识别模型,即利用单个模态的样本数据进行模型训练,得到该模态下最优的初始情绪识别模型。
73.本发明实施例中,在联合训练的过程中,直接加载预先训练得到的各个模态下最优的初始情绪识别模型,能够在极大程度上缩减联合训练的时间,且可以使得联合训练过程中各个模态的初始情绪识别模型的训练效果更优,训练所得的各个模态的情绪识别模型的预测性能更佳,精进了联合训练过程,推动了多模态情绪识别的整体进程。
74.较之传统方案中从不同模态间抽象出情绪表征向量,通过共享融合的方式对其进行合并,然后统一进行情绪类别预测,使用预测值和标注值之间的误差驱动模型进行参数更新,本发明实施例中选用的各个模态的样本数据所表征的情绪信息的一致性的训练方式,无需以不同模态间的抽象表征信息完全共享为前提条件,并且应用样本数据特征在同一空间内的特征相似度,和/或,预测概率分布之间的分布相似度,训练初始情绪识别模型,能够使初始情绪识别模型充分学习到不同模态的样本数据对应的样本数据特征和/或预测概率分布之间的远近关系,从而为情绪识别准确率和精确度的提升提供了关键性的助力。
75.本发明实施例中,结合特征相似度和/或分布相似度的联合训练过程,可以使初始情绪识别模型依据样本数据对应的样本情绪识别结果,判断样本数据特征在同一空间内的特征相似度和/或预测概率分布之间的分布相似度,以在各个模态的样本数据对应的样本
情绪识别结果相同时,即各个模态的样本数据可以构成正样本数据集时,使得样本数据特征在同一空间内的特征相似度和/或预测概率分布之间的分布相似度尽可能的高;反之,在各个模态的样本数据对应的样本情绪识别结果不同时,即各个模态的样本数据可以构成负样本数据集时,使得样本数据特征在同一空间内的特征相似度和/或预测概率分布之间的分布相似度尽可能的低。
76.步骤130,基于各个模态的情绪概率分布,确定情绪识别结果。
77.具体地,经过步骤120,得到各个模态的待识别数据的情绪概率分布后,可以执行步骤130,依据各个模态的情绪概率分布,确定情绪识别结果,具体过程可以包括如下步骤:
78.首先,可以对各个模态的待识别数据的情绪概率分布进行融合,从而得到融合情绪概率分布,此处的融合方式可以是相加、拼接、加权融合等,本发明实施例对此不做具体限定;
79.而作为优选,本发明实施例中将融合方式确定为加权融合,即对不同模态的待识别数据的情绪概率分布中同一情绪对应的后验概率进行加权融合,即以各个模态的待识别数据的权重为基准,对各个模态的情绪概率分布中同一情绪对应的后验概率进行融合,从而得到融合情绪概率分布,该融合情绪概率分布中包含各类情绪对应的融合后验概率。
80.随后,即可参考融合情绪概率分布,确定情绪识别结果,此处可以直接从融合情绪概率分布中确定最大融合后验概率,并确定最大融合后验概率对应的情绪类别,将此情绪类别作为各个模态的待识别数据统一归属的情绪类别,即情绪识别结果,也可以将最大融合后验概率及其对应的情绪类别,共同作为最终的情绪识别结果,本发明实施例对此不做具体限定。
81.本发明提供的情绪识别方法,以各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度为基准,对各个模态的初始情绪识别模型进行联合训练,能够使模型在训练过程中充分学习到不同模态的样本数据对应的样本数据特征和/或预测概率分布之间的远近关系,从而能够为情绪识别准确率和精确度的提升提供关键性的助力,克服了传统方案中因多任务学习的训练方式要求不同模态间的抽象表征信息完全共享,以致在模型无法聚合得到匹配的高维信息表达时,模型训练出现偏差,训练效果不佳的缺陷;并且,利用相同情绪在不同模态间的互补关系训练模型,能够提升模型的泛化能力,实现了情绪识别结果可信度,以及情绪识别过程精准度的双重提升。
82.基于上述实施例,图2是本发明提供的情绪识别模型的训练过程的示意图,如图2所示,各个模态的情绪识别模型基于如下步骤训练:
83.步骤210,基于各个模态的初始情绪识别模型,确定各个模态的样本数据的样本数据特征和预测概率分布;
84.步骤220,将各个模态的样本数据的样本数据特征映射到同一空间,得到同一空间内各个模态的样本数据的样本投影特征;
85.步骤230,基于各个模态的样本数据的样本投影特征之间的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,确定联合训练损失;
86.步骤240,基于联合训练损失,对各个模态的初始情绪识别模型进行参数迭代,得到各个模态的情绪识别模型。
87.具体地,各个模态的情绪识别模型的训练过程,包括如下步骤:
88.首先,执行步骤210,确定各个模态的初始情绪识别模型,此处的初始情绪识别模型可以是原始的情绪识别模型,即其模型参数是由随机数字产生器直接生成的,也可以是预先训练好的情绪识别模型,即利用单个模态的样本数据进行模型训练,得到该模态下最优的初始情绪识别模型,然后将各个模态的样本数据输入至对应模态的初始情绪识别模型中,由初始情绪识别模型对输入的对应模态的样本数据进行特征提取,并基于特征提取所得的样本数据特征进行情绪识别,最终能够得到各个模态的初始情绪识别模型输出的各个模态的样本数据的预测概率分布,预测概率分布中包含了对应模态的样本数据归属于各类情绪的预测后验概率;
89.随即,执行步骤220,对各个模态的样本数据的样本数据特征进行投影,以将各个模态的样本数据的样本数据特征映射到同一空间,这一过程可以借助mlp(multilayer perceptron,多层感知机)实现,即可以利用多层感知机模块,将各个模态的样本数据的样本数据特征映射到同一空间,从而得到各个模态的样本数据特征在该空间内的投影特征,即各个模态的样本数据的样本投影特征;
90.随后,执行步骤230,确定各个模态的样本数据的样本投影特征之间的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,并以此特征相似度和/或分布相似度为基准,计算联合训练过程中的损失,即联合训练损失,具体可以是,确定样本情绪识别结果相同的不同模态的样本数据的样本投影特征之间的特征相似度,和/或,预测概率分布之间的分布相似度,以及样本情绪识别结果不同的不同模态的样本数据的样本投影特征之间的特征相似度,和/或,预测概率分布之间的分布相似度,然后根据样本情绪识别结果相同,以及样本情绪识别结果不同情况下的特征相似度和/或分布相似度,确定联合训练损失;
91.由于初始情绪识别模型的训练目标是,在不同模态的样本数据能够构成正样本数据集的情况下,即样本数据对应的样本情绪识别结果相同的情况下,使各个模态的样本数据的样本投影特征之间的特征相似度和/或预测概率分布之间的分布相似度尽可能的高;对应地,在不同模态的样本数据构成负样本数据集的情况下,即样本数据对应的样本情绪识别结果不同的情况下,使各个模态的样本数据的样本投影特征之间的特征相似度和/或预测概率分布之间的分布相似度尽可能的低。
92.因此,在正样本数据集中各样本数据的样本投影特征之间的特征相似度和/或预测概率分布之间的分布相似度高,且负样本数据集中各样本数据的样本投影特征之间的特征相似度低的情况下,可以确定联合训练损失较小;相应地,在正样本数据集中各样本数据的样本投影特征之间的特征相似度和/或预测概率分布之间的分布相似度低,和/或,负样本数据集中各样本数据的样本投影特征之间的特征相似度高的情况下,可以确定联合训练损失较大。
93.此后,执行步骤240,依据联合训练损失,对各个模态的初始情绪识别模型进行参数迭代,具体可以是,根据联合训练损失,调整各个模态的初始情绪识别的参数,以使调整后的各个模态的初始情绪识别模型能够在各个模态的样本数据归属于正样本数据集的情况下,判断其样本投影特征之间的特征相似度和/或预测概率分布之间的分布相似度尽可能的高,在各个模态的样本数据归属于负样本数据集的情况下,判断其样本投影特征之间
的特征相似度尽可能的低,最终得到训练完成的各个模态的情绪识别模型。
94.基于上述实施例,图3是本发明提供的情绪识别方法中步骤230的流程示意图,如图3所示,步骤230包括:
95.步骤231,从各个模态的样本数据中,选取样本情绪识别结果相同的至少两个模态的样本数据,作为正样本数据集,从各个模态的样本数据中,选取样本情绪识别结果不同的至少两个模态的样本数据,作为负样本数据集;
96.步骤232,基于正样本数据集中各样本数据的样本投影特征之间的特征相似度,以及负样本数据集中各样本数据的样本投影特征的之间的特征相似度,确定对比损失;
97.步骤233,基于正样本数据集中各样本数据的预测概率分布之间的分布相似度,确定分布损失;
98.步骤234,基于对比损失和/或分布损失,确定联合训练损失。
99.具体地,步骤230中,根据各个模态的样本数据的样本投影特征之间的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,确定联合训练损失的过程,具体包括如下步骤:
100.步骤231,从各个模态的样本数据中确定正样本数据集,具体可以是,首先,确定各个模态的样本数据对应的样本情绪识别结果,此处的样本情绪识别结果可以理解为样本数据的标签,然后,依据样本情绪识别从各个模态下选取样本数据,以形成正样本数据集,即从各个模态的样本数据中,选取样本情绪识别结果相同的至少两个模态的样本数据,并以此组建正样本数据集;需要说明的是,此处的正样本数据集中的样本数据对应不同模态;
101.与此同时,需从各个模态的样本数据中,选取样本情绪识别结果不同的至少两个模态的样本数据,以据此组建负样本数据集,同样,此处的负样本数据集中的样本数据也对应不同模态;
102.步骤232,确定正样本数据集中各样本数据的样本投影特征之间的特征相似度,以及负样本数据集中各样本数据的样本投影特征之间的特征相似度,样本数据的样本投影特征的确定过程上文已详细说明,此处不在赘述,并据此两者确定初始情绪识别模型的联合训练过程中的对比学习损失,即对比损失;值得注意的是,此处的特征相似度可以表示为余弦相似度、欧式距离、闵氏距离等;
103.步骤233,确定正样本数据集中各样本数据的预测概率分布之间的分布相似度,样本数据的预测概率分布的确定过程上文已详细说明,此处不在赘述,并据此分布相似度确定联合训练过程的分布损失,具体可以是,引入kld(kullback-leibler divergence,相对熵),将正样本数据集中各样本数据归属于各类情绪的预测后验概率的相对熵,作为正样本数据集中各样本数据的预测概率分布之间的差异损失,即联合训练过程的分布损失;
104.步骤234,即可根据对比损失或分布损失,确定联合训练损失,即可以直接将对比损失或分布损失,作为联合训练损失,具体可以是,在正样本数据集中各样本数据的样本投影特征之间的特征相似度高,且负样本数据集中各样本数据的样本投影特征之间的特征相似度低的情况下,确定对比损失较小,即联合训练损失较小;同理,在正样本数据集中各样本数据的预测概率分布之间的分布相似度高的情况下,可以确定分布损失较小,即联合训练损失较小。
105.对应地,在正样本数据集中各样本数据的样本投影特征之间的特征相似度低,和/
或,负样本数据集中各样本数据的样本投影特征之间的特征相似度高的情况下,可以确定对比损失较大,即联合训练损失较大;同理,在正样本数据集中各样本数据的预测概率分布之间的分布相似度低的情况下,可以确定分布损失较大,即联合训练损失较大。
106.还可以根据对比损失和分布损失,确定联合训练损失,即综合对比损失和分布损失,确定联合训练损失,具体可以是,在对比损失和分布损失均较小的情况下,可以确定联合训练损失较小;在对比损失和分布损失均较大的情况下,可以确定联合训练损失较大;而在对比损失较大且分布损失较小,或者,对比损失较小且分布损失较大的情况下,需结合对比损失和分布损失的权重,衡量联合训练损失的大小。
107.基于上述实施例,图4是本发明提供的情绪识别方法中步骤240的流程示意图,如图4所示,步骤240包括:
108.步骤241,基于各个模态的样本数据的预测概率分布,以及各个模态的样本数据对应的样本情绪识别结果,确定各个模态的初始情绪识别模型的预测损失;
109.步骤242,基于预测损失和联合训练损失,对各个模态的初始情绪识别模型进行参数迭代,得到各个模态的情绪识别模型。
110.本发明实施例中,在对各个模态的初始情绪识别模型进行参数迭代,以得到各个模态的情绪识别模型时,除了考虑初始情绪识别模型在联合训练过程中的联合训练损失,还可以对各个模态的初始情绪识别模型的预测损失予以考虑。
111.因此,步骤240中,依据联合训练损失,对各个模态的初始情绪识别模型进行参数迭代,以得到各个模态的情绪识别模型的过程,具体包括如下步骤:
112.步骤241,确定各个模态的初始情绪识别模型在进行情绪识别时的预测损失,即根据各个模态的样本数据的预测概率分布,以及各个模态的样本数据对应的样本情绪识别结果,计算各个模态的初始情绪识别模型的预测损失,具体可以是,采用交叉熵准则(cross entropy,ce),计算各个模态的初始情绪识别模型的预测损失,即计算各个模态的样本数据的预测概率分布中各类情绪对应的预测后验概率,与对应模态的样本数据对应的样本情绪识别结果之间的差距,此差距即为初始情绪识别模型输出的预测值与真实的标注值之间的误差,并据此差距确定各个模态的初始情绪识别模型的预测损失;
113.步骤242,即可根据预测损失,以及联合训练损失,对初始情绪识别模型进行参数迭代,从而得到各个模态的情绪识别模型,具体可以是,以预测损失和联合训练损失为基准,利用误差反向传播算法(error back propagation,bp),完成各个模态的初始情绪识别模型的参数更新,多个损失函数的联合训练可以极大地提升模型的性能,使训练所得的情绪识别模型的特征提取能力和情绪识别能力更优,而依据预测损失调整模型参数,则可以使得模型的输出更加趋近于真实的标注。
114.本发明实施例中,从样本数据的样本投影特征、预测概率分布以及预测识别结果三个不同的层面,确定初始情绪识别模型训练过程中的损失,并依据此损失进行参数调整,从不同角度实现了模型性能的优化,多重优化的叠加可以使训练所得的情绪识别模型的情绪识别能力有了本质的提升,精进了情绪识别过程,为情绪识别结果可信度和精确度的提升提供了强有力的支撑。
115.基于上述实施例,各个模态的初始情绪识别模型的预测损失、分布损失、对比损失以及模型整体损失,可以通过如下公式进行表示:
116.下面以音频模态和图像模态为例,对损失函数进行说明:
117.其中,各个模态的初始情绪识别模型的预测损失的计算公式为:
[0118][0119][0120]
其中,lv为图像模态的初始情绪识别模型的预测损失,表示图像模态的样本数据对应的样本情绪识别结果i对应的预测后验概率,其可以通过softmax函数计算得到,v表示图像模态的样本数据的样本数据特征。
[0121]
lw为音频模态的初始情绪识别模型的预测损失,表示音频模态的样本数据对应的样本情绪识别结果j对应的预测后验概率,其可以通过softmax函数计算得到,w表示音频模态的样本数据的样本数据特征。
[0122]
分布损失,可以通过如下公式进行表示:
[0123][0124]
其中,l
kld
表示联合训练过程中的分布损失,qv为图像模态的样本数据对应的样本情绪识别结果对应的预测后验概率,qw为音频模态的样本数据对应的样本情绪识别结果对应的预测后验概率,v和w分别表示图像模态的样本数据的样本数据特征和音频模态的样本数据的样本数据特征,且此处的音频模态的样本数据和图像模态的样本数据对应的样本情绪识别结果相同,即两者为正样本数据集中的样本数据。
[0125]
对比损失,则可以通过如下公式进行表示:
[0126][0127]
其中,l
contrast
表示联合训练过程中的对比损失,(v0,w0)表示正样本数据集,和表示负样本数据集,s(v0,w0)表示正样本数据集中图像模态的样本数据的样本投影特征v0和音频模态的样本数据的样本投影特征w0之间的特征相似度,表示负样本数据集中图像模态的样本数据的样本投影特征v0和音频模态的样本数据的样本投影特征之间的特征相似度,表示负样本数据集中图像模态的样本数据的样本投影特征和音频模态的样本数据的样本投影特征w0之间的特征相似度。
[0128]
其中,正样本数据集中各样本数据的样本投影特征之间的特征相似度,可以通过如下公式计算得到:
[0129][0130]
其中,(v0)
t
表示正样本数据集中图像模态的样本数据的样本投影特征v0的转置,‖v0‖表示v0的模,‖w0‖表示音频模态的样本数据的样本投影特征w0的模。
[0131]
模型整体损失则可以通过如下公式进行表示:
[0132]
l=lv lw αl
kld
βl
contrast
[0133]
其中,l表示模型整体损失,lv为图像模态的初始情绪识别模型的预测损失,lw为音频模态的初始情绪识别模型的预测损失,l
kld
为分布损失,α为分布损失对应的权重,l
contrast
为对比损失,β为对比损失对应的权重。
[0134]
基于上述实施例,图5是本发明提供的初始情绪识别模型的训练过程的示意图,如图5所示,各个模态的初始情绪识别模型基于如下步骤训练:
[0135]
步骤510,确定至少两个模态的样本数据;
[0136]
步骤520,将各个模态的样本数据输入至对应模态的第一情绪识别模型,得到第一情绪识别模型输出的各个模态的第一预测概率分布;
[0137]
步骤530,基于第一预测概率分布和样本情绪识别结果,对各个模态的第一情绪识别模型进行参数迭代,得到各个模态的初始情绪识别模型。
[0138]
具体地,在训练得到各个模态的情绪识别模型之前,还需确定各个模态的初始情绪识别模型,而为缩短联合训练的时间,精进联合训练过程,本发明实施例中还可以预先训练得到各个模态的初始情绪识别模型,其训练过程可以包括如下步骤:
[0139]
首先,执行步骤510,确定至少两个模态的样本数据,并将其作为样本数据集,该样本数据集中包含样本情绪识别结果相同的不同模态的样本数据,也包含样本情绪识别结果不同的不同模态的样本数据,亦可以理解为,此处的样本数据集中包含能够构成正样本数据集的样本数据,同样包含能够构成负样本数据集的样本数据;
[0140]
其中,能够构成正样本数据集的样本数据可以基于同一样本多模态数据确定,即可以对样本多模态数据进行模态分离和时间区间划分,以得到同一时间区间的样本数据,时间区间相同即可保证样本情绪识别结果相同。
[0141]
对应地,构成负样本数据集的样本数据则可以基于同一样本多模态数据或不同样本多模态数据确定,即可以对同一样本多模态数据或不同样本多模态数据进行模态分离和时间区间划分,以筛选出样本情绪识别结果不同的不同模态的样本数据。
[0142]
随后,可以将各个模态的样本数据输入至对应模态的第一情绪识别模型中,此处的第一情绪识别模型可以理解为未经训练的初始情绪识别模型,由第一情绪识别模型对输入的对应模态的样本数据进行特征提取,并基于特征提取所得的样本数据特征进行情绪识别,最终能够得到各个模态的第一情绪识别模型输出的各个模态的样本数据的第一预测概率分布;
[0143]
此后,即可以第一预测概率分布和样本情绪识别结果为基准,对各个模态的第一情绪识别模型进行参数迭代,从而得到各个模态的初始情绪识别模型,具体可以是,采用交叉熵准则(cross entropy,ce),计算各个模态的第一情绪识别模型的第一预测损失,即在第一预测概率分布的基础上,结合样本情绪识别结果,确定各个模态的第一情绪识别模型在训练过程中的损失,即确定第一预测概率分布中各类情绪对应的第一预测后验概率,与样本情绪识别结果之间的第一差距,此第一差距实际上是第一情绪识别模型输出的预测值与真实的标注值之间的误差,并可据此第一差距确定各个模态的第一情绪识别模型的第一预测损失,而后即可以第一预测损失为参考,调整对应模态的第一情绪识别模型的参数,以使调整后的第一情绪识别模型输出的预测值与真实的标注值之间的误差无限趋近于0,即
第一预测损失趋近于0,如此即可得到训练完成的各个模态的初始情绪识别模型。
[0144]
本发明实施例中,经过训练得到各个模态的初始情绪识别模型,可以在后续的联合训练过程中,直接加载预先训练得到的各个模态下最优的初始情绪识别模型,从而在极大程度上了缩减联合训练的时间,并且,能够使得联合训练过程中各个模态的初始情绪识别模型的训练效果更优,训练所得的各个模态的情绪识别模型的预测性能更佳,精进了联合训练过程,推动了多模态的情绪识别的整体进程。
[0145]
基于上述实施例,图6是本发明提供的情绪识别方法中步骤510的流程示意图,如图6所示,步骤510包括:
[0146]
步骤511,确定至少两个模态的初始样本数据,至少两个模态包括音频模态、图像模态、文本模态、脑电信号模态、行为模态、遗传模态中的至少两种;
[0147]
步骤512,对各个模态的初始样本数据进行时间区间划分,得到各个模态的样本数据。
[0148]
具体地,步骤510中,确定至少两个模态的样本数据的过程,具体可以包括以下两个步骤:
[0149]
首先,执行步骤511,确定至少两个模态的初始样本数据,此处的初始样本数据可以理解为从样本多模态数据中分离得到各个模态的初始样本数据,此处的至少两个模态可以是音频模态、图像模态、文本模态、行为模态、遗传模态以及脑电信号模态中的至少两种,即需从上述模态中确定至少两个模态,并确定此至少两个模态的初始样本数据;
[0150]
其中,行为模态可以是行为动作、姿态手势、心理行为等,其对应的初始样本数据则可以是行为动作数据、姿态手势数据、心理行为数据及其对应的测试数据等;遗传模态则可以理解为生物特征,例如,血液、心率变化、细胞活跃度、激素分泌状况、肌肉收缩舒张。
[0151]
随即,执行步骤512,由于初始样本数据是在样本多模态数据的基础上进行模态分离得到,因此,此时仅需对各个模态的初始样本数据进行时间区间划分,以使时间区间划分后的初始样本数据的规格能够与第一情绪识别模型的输入窗的尺寸相适配,即可以利用预设时间窗,对各个模态的初始样本数据进行切分,以得到各个模态的样本数据,即可以将切分得到的各个时间区间下的各个模态的初始样本数据,均作为各个模态的样本数据,也可以从各个时间区间下的各个模态的初始样本数据中,选取能够组建正样本数据集和负样本数据集的样本数据,作为各个模态的样本数据。
[0152]
需要说明的是,此处的预设时间窗的窗长是固定的,其可以根据实际情况预先设定,例如,可以是4秒、5秒、6秒等,而作为优选,本发明实施例中将预设时间窗的窗长确定为5秒,即每隔5秒,对各个模态的初始样本数据进行切分,如此即可得到各个模态的样本数据。
[0153]
另外,值得注意的是,若任一模态的初始样本数据的时长小于预设时间窗的窗长,则需对该模态的初始样本数据进行复制和拼接,即复制多份该模态的初始样本数据,并将复制的初始样本数据与原有的该模态的初始样本数据进行拼接,以使拼接后的初始样本数据对应的时长能够大于或等于预设时间窗的窗长,此后即可对拼接后的初始样本数据进行时间区间划分。
[0154]
基于上述实施例,图7是本发明提供的情绪识别方法中步骤130的流程示意图,如图7所示,步骤130包括:
[0155]
步骤131,对各个模态的情绪概率分布进行加权融合,得到融合情绪概率分布;
[0156]
步骤132,基于融合情绪概率分布,确定情绪识别结果。
[0157]
具体地,步骤130中,根据各个模态的情绪概率分布,确定情绪识别结果的过程,具体包括如下步骤:
[0158]
步骤131,首先,可以对各个模态的待识别数据的情绪概率分布进行加权融合,从而得到融合情绪概率分布,即可以对不同模态的待识别数据的情绪概率分布中同一情绪对应的后验概率进行加权融合,亦可以理解为,以各个模态的待识别数据的权重为基准,对各个模态的情绪概率分布中同一情绪对应的后验概率进行融合,从而得到融合情绪概率分布,该融合情绪概率分布中包含各类情绪对应的融合后验概率;
[0159]
步骤132,随后,可以参考融合情绪概率分布,确定情绪识别结果,即可以直接从融合情绪概率分布中选取最大融合后验概率,并确定最大融合后验概率对应的情绪类别,将此情绪类别作为各个模态的待识别数据统一归属的情绪类别,即情绪识别结果,也可以将最大融合后验概率及其对应的情绪类别,共同作为最终的情绪识别结果,本发明实施例对此不做具体限定。
[0160]
基于上述实施例,图8是本发明提供的情绪识别模型的训练过程的总体框架图,如图8所示,以图像模态和音频模态为例,对情绪识别模型的训练过程的总体流程进行说明:
[0161]
第一,需确定音频模态的初始情绪识别模型,以及图像模态的初始情绪识别模型,其可以通过如下步骤训练得到:
[0162]
图像模态的初始情绪识别模型的训练过程为:
[0163]
首先,确定图像模态的初始样本数据,并对图像模态的初始样本数据进行时间区间划分,从而得到图像模态的样本数据;
[0164]
随即,可将图像模态的样本数据输入至图像模态的第一情绪识别模型中,然后利用图像模态的第一情绪识别模型中的多个卷积模块、残差模块以及池化模块,对图像模态的样本数据进行特征提取,得到图像模态的样本数据的样本数据特征v;此处的图像模态的第一情绪识别模型是在残差网络(residual network,resnet)的基础上构建的;
[0165]
随后,可以以样本数据特征v为基准,通过一个线性层(fully connection layer)进行情绪识别,从而得到图像模态的第一情绪识别模型输出的第一预测概率分布;
[0166]
此后,即可结合图像模态的样本数据对应的样本情绪识别结果和图像模态的第一情绪识别模型输出的第一预测概率分布,确定图像模态的第一情绪识别模型的第一预测损失,具体可以是,采用交叉熵准则(cross entropy,ce),计算第一预测损失其中表示图像模态的样本数据对应的样本情绪识别结果i对应的预测后验概率;
[0167]
最后,可以以第一预测损失lv为基准,通过误差反向传播算法(error back propagation,bp),对图像模态的第一情绪识别模型进行参数迭代,从而得到图像模态的初始情绪识别模型。
[0168]
音频模态的初始情绪识别模型的训练过程为:
[0169]
首先,确定音频模态的初始样本数据,并对音频模态的初始样本数据进行时间区间划分,从而得到音频模态的样本数据;
[0170]
随即,可将音频模态的样本数据输入至音频模态的第一情绪识别模型中,然后由
音频模态的第一情绪识别模型对输入的音频模态的样本数据进行特征提取,得到音频模态的样本数据的样本数据特征w;此处的音频模态的第一情绪识别模型是在时延神经网络(time delay neural networks,tdnn)的基础上构建的;
[0171]
随后,可以以样本数据特征w为基准,通过一个线性层(fully connection layer)进行情绪识别,从而得到音频模态的第一情绪识别模型输出的第一预测概率分布;
[0172]
此后,即可结合音频模态的样本数据对应的样本情绪识别结果和音频模态的第一情绪识别模型输出的第一预测概率分布,确定音频模态的第一情绪识别模型的第一预测损失,具体可以是,采用交叉熵准则,计算第一预测损失其中,表示音频模态的样本数据对应的样本情绪识别结果j对应的预测后验概率;
[0173]
最后,可以以第一预测损失lw为基准,通过误差反向传播算法,对音频模态的第一情绪识别模型进行参数迭代,从而得到音频模态的初始情绪识别模型。
[0174]
第二,可以应用图像模态的初始情绪识别模型,确定图像模态的样本数据的样本数据特征和预测概率分布,应用音频模态的初始情绪识别模型,确定音频模态的样本数据的样本数据特征和预测概率分布;
[0175]
第三,可以通过mlp(multilayer perceptron,多层感知机)模块,将图像模态的样本数据的样本数据特征,以及音频模态的样本数据的样本数据特征映射到同一空间,从而得到同一空间内图像模态的样本数据的样本投影特征,以及音频模态的样本数据的样本投影特征;
[0176]
第四,即可根据图像模态的样本数据的样本投影特征,与音频模态的样本数据的样本投影特征之间的特征相似度,和/或,图像模态的样本数据的预测概率分布,与音频模态的样本数据的预测概率分布之间的分布相似度,确定联合训练损失;
[0177]
联合训练损失的确定过程具体包括如下步骤:
[0178]
首先,从图像模态的样本数据和音频模态的样本数据中,选取样本情绪识别结果相同的样本数据,作为正样本数据集,正样本数据集中的样本数据对应不同模态;与此同时,可以从图像模态的样本数据和音频模态的样本数据中,选取样本情绪识别结果不同的样本数据,作为负样本数据集,负样本数据集中的样本数据也对应不同模态;
[0179]
然后,可以以正样本数据集中图像模态的样本数据的样本投影特征,与音频模态的样本数据的样本投影特征之间的特征相似度,以及负样本数据集中图像模态的样本数据的样本投影特征,与音频模态的样本数据的样本投影特征之间的特征相似度为基准,确定联合训练过程的对比损失(contrast loss);
[0180]
同时,可以以正样本数据集中图像模态的样本数据的预测概率分布,与音频模态的样本数据的预测概率分布之间的分布相似度为基准,确定联合训练过程的分布损失(kld loss);
[0181]
此后,即可依据对比损失和/或分布损失,确定联合训练损失。
[0182]
第五,可以根据联合训练损失,对图像模态的初始情绪识别模型和音频模态的初始情绪识别模型进行联合训练,即对图像模态的初始情绪识别模型和音频模态的初始情绪识别模型进行参数迭代,从而得到图像模态的情绪识别模型,以及音频模态的情绪识别模型。
[0183]
进一步地,在参数迭代的过程中,还可以在联合训练损失的基础上,结合图像模态的初始情绪识别模型的预测损失,以及音频模态的初始情绪识别模型的预测损失,共同进行参数调整,从而得到训练完成的图像模态的情绪识别模型和音频模态的情绪识别模型。
[0184]
其中,初始情绪识别模型的预测损失(ce loss)的确定过程,具体可以是,根据图像模态的样本数据的预测概率分布,以及图像模态的样本数据对应的样本情绪识别结果,确定图像模态的初始情绪识别模型的预测损失,同理,可以根据音频模态的样本数据的预测概率分布,以及音频模态的样本数据对应的样本情绪识别结果,确定音频模态的初始情绪识别模型的预测损失。
[0185]
本发明实施例提供的方法,将情绪识别模型的训练,划分为两个阶段,前期训练得到各个模态的初始情绪识别模型,后期直接加载预先训练得到的各个模态下最优的初始情绪识别模型,并通过联合训练损失和预测损失,对其进行联合训练,可以实现各个模态的初始情绪识别模型的统一优化,并且,结合多个目标函数的联合训练过程,可以使模型在训练过程中充分学习到不同模态的样本数据对应的样本数据特征和/或预测概率分布之间的远近关系,从而能够为情绪识别准确率和精确度的提升提供关键性的助力;此外,利用相同情绪在不同模态间的互补关系训练模型,能够提升模型的泛化能力,实现了情绪识别结果可信度,以及情绪识别过程精准度的双重提升。
[0186]
下面对本发明提供的情绪识别装置进行描述,下文描述的情绪识别装置与上文描述的情绪识别方法可相互对应参照。
[0187]
图9是本发明提供的情绪识别装置的结构示意图,如图9所示,该装置包括:
[0188]
待识别数据确定单元910,用于确定至少两个模态的待识别数据;
[0189]
概率分布确定单元920,用于基于各个模态的情绪识别模型,确定所述各个模态的待识别数据的情绪概率分布;所述情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;所述各个模态的情绪识别模型是基于所述各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到;
[0190]
识别结果确定单元930,用于基于所述各个模态的情绪概率分布,确定情绪识别结果。
[0191]
本发明提供的情绪识别装置,以各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度为基准,对各个模态的初始情绪识别模型进行联合训练,能够使模型在训练过程中充分学习到不同模态的样本数据对应的样本数据特征和/或预测概率分布之间的远近关系,从而能够为情绪识别准确率和精确度的提升提供关键性的助力,克服了传统方案中因多任务学习的训练方式要求不同模态间的抽象表征信息完全共享,以致在模型无法聚合得到匹配的高维信息表达时,模型训练出现偏差,训练效果不佳的缺陷;并且,利用相同情绪在不同模态间的互补关系训练模型,能够提升模型的泛化能力,实现了情绪识别结果可信度,以及情绪识别过程精准度的双重提升。
[0192]
基于上述实施例,所述装置还包括联合训练单元,用于:
[0193]
基于所述各个模态的初始情绪识别模型,确定所述各个模态的样本数据的样本数据特征和预测概率分布;
[0194]
将所述各个模态的样本数据的样本数据特征映射到同一空间,得到同一空间内所述各个模态的样本数据的样本投影特征;
[0195]
基于所述各个模态的样本数据的样本投影特征之间的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,确定联合训练损失;
[0196]
基于所述联合训练损失,对所述各个模态的初始情绪识别模型进行参数迭代,得到所述各个模态的情绪识别模型。
[0197]
基于上述实施例,联合训练单元用于:
[0198]
从所述各个模态的样本数据中,选取样本情绪识别结果相同的至少两个模态的样本数据,作为正样本数据集,从所述各个模态的样本数据中,选取样本情绪识别结果不同的至少两个模态的样本数据,作为负样本数据集;
[0199]
基于所述正样本数据集中各样本数据的样本投影特征之间的特征相似度,以及所述负样本数据集中各样本数据的样本投影特征的之间的特征相似度,确定对比损失;
[0200]
基于所述正样本数据集中各样本数据的预测概率分布之间的分布相似度,确定分布损失;
[0201]
基于所述对比损失和/或所述分布损失,确定联合训练损失。
[0202]
基于上述实施例,联合训练单元用于:
[0203]
基于所述各个模态的样本数据的预测概率分布,以及所述各个模态的样本数据对应的样本情绪识别结果,确定所述各个模态的初始情绪识别模型的预测损失;
[0204]
基于所述预测损失和所述联合训练损失,对所述各个模态的初始情绪识别模型进行参数迭代,得到所述各个模态的情绪识别模型。
[0205]
基于上述实施例,所述装置还包括初始模型训练单元,用于:
[0206]
确定至少两个模态的样本数据;
[0207]
将所述各个模态的样本数据输入至对应模态的第一情绪识别模型,得到所述第一情绪识别模型输出的各个模态的第一预测概率分布;
[0208]
基于所述第一预测概率分布和样本情绪识别结果,对所述各个模态的第一情绪识别模型进行参数迭代,得到所述各个模态的初始情绪识别模型。
[0209]
基于上述实施例,初始模型训练单元用于:
[0210]
确定至少两个模态的初始样本数据,所述至少两个模态包括音频模态、图像模态、文本模态、脑电信号模态、行为模态、遗传模态中的至少两种;
[0211]
对所述各个模态的初始样本数据进行时间区间划分,得到所述各个模态的样本数据。
[0212]
基于上述实施例,识别结果确定单元930用于:
[0213]
对所述各个模态的情绪概率分布进行加权融合,得到融合情绪概率分布;
[0214]
基于所述融合情绪概率分布,确定情绪识别结果。
[0215]
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(communications interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行情绪识别方法,该方法包括:确定至少两个模态的待识别数据;基于各个模态的情绪识别模型,确定所述各个
模态的待识别数据的情绪概率分布;基于所述各个模态的情绪概率分布,确定情绪识别结果;所述情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;所述各个模态的情绪识别模型是基于所述各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到。
[0216]
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0217]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的情绪识别方法,该方法包括:确定至少两个模态的待识别数据;基于各个模态的情绪识别模型,确定所述各个模态的待识别数据的情绪概率分布;基于所述各个模态的情绪概率分布,确定情绪识别结果;所述情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;所述各个模态的情绪识别模型是基于所述各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到。
[0218]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的情绪识别方法,该方法包括:确定至少两个模态的待识别数据;基于各个模态的情绪识别模型,确定所述各个模态的待识别数据的情绪概率分布;基于所述各个模态的情绪概率分布,确定情绪识别结果;所述情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;所述各个模态的情绪识别模型是基于所述各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,所述各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到。
[0219]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0220]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0221]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献