一种情绪识别方法、系统及终端设备与流程

2022-06-09 02:23:07 来源：中国专利 TAG：

1.本发明涉及智能识别领域，尤其涉及一种情绪识别方法、系统、终端设备及计算机可读存储介质。

背景技术：

2.随着现代社会心理学、神经学和计算机科学的发展，情绪识别技术取得了显著的成绩。情绪识别结合了语音处理和自然语言处理两大领域以及行为学、认知学等心理学问题。人的情绪有三个外在的表现：主观感受、生理唤醒和行为表达。目前，已有的情绪识别是分别从面部图像、语音和语义的角度各自分析得出情绪的结论。这些虽然取得了一定的成果，但是，人类表达语言的行为是通过面部表情、语言表达、语音语调以及肢体动作相结合的方式表达的，而仅仅只考虑其中的一项表达方式作为人情绪的判断依据是十分片面和主观的。
3.早期的情绪识别研究是基于特征建模的。根据不同的行为表现，通过不同方法提取到特征进行分析，例如：面部表情情感识别是针对采集到的图像根据图像处理、变换等技术进行特征的提取，语音语言的情感识别是利用基于词汇的方法，依赖词汇的资源进行建模，通过挖掘大量的情感文本和关键字进行情绪识别，这些方法耗时、复杂，且准确率不高。随着深度学习技术的爆发式兴起，神经网络模型逐渐应用于各个研究领域，使用深度学习进行图像的处理与分析能够得到更准确的结果，而深度学习最重要的一点就是需要大量的、具有强泛化能力的特征，但是仅仅用单一的行为特征进行情绪识别对于深度学习的方法并不适用。
4.故有必要提出一种新的技术方案，以解决上述技术问题。

技术实现要素：

5.鉴于此，本发明实施例提供了一种情绪识别方法、系统及终端设备，通过该方法可以准确的识别出人类情绪。
6.本发明实施例的第一方面提供了一种情绪识别方法，所述情绪识别方法包括：
7.接收用户发出的语音，从预先建立的情感数据库中选取与所述语音对应的语音信息；
8.提取所述语音信息的文字信息，以文本文件的形式保存所述文字信息；
9.将所述语音信息的特征项和所述文字信息的特征项进行融合，得到融合信息；
10.根据预先训练的情绪识别模型和所述融合信息对所述用户的情绪进行识别。
11.可选地，在本技术提供的另一实施例中所述将所述语音信息的特征项和所述文字信息的特征项进行融合，得到融合信息，包括：
12.将所述语音信息、文字信息作为卷积神经的输入，分别提取所述语音信息的特征向量和所述文字信息的特征向量；
13.将所述语音信息的特征向量和所述文字信息的特征向量进行融合，得到融合之后
的向量，以所述融合之后的向量作为所述融合信息。
14.可选地，在本技术提供的另一实施例中所述分别提取所述语音信息的特征向量和所述文字信息的特征向量，包括：
15.提取所述语音信息中的能量、声波以及提取所述文字信息中的关键词、语义特征。
16.可选地，在本技术提供的另一实施例中所述预先建立的情感数据库，包括casia汉语情感数据库和accorpus系列汉语情感数据库。
17.可选地，在本技术提供的另一实施例中，所述情绪识别模型为通过长短记忆网络训练得到的情绪识别模型。
18.本发明实施例的第二方面提供了一种情绪识别系统，所述情绪识别系统包括：
19.接收模块，用于接收用户发出的语音，从预先建立的情感数据库中选取与所述语音对应的语音信息；
20.提取模块，用于提取所述语音信息的文字信息，以文本文件的形式保存所述文字信息；
21.融合模块，用于将所述语音信息的特征项和所述文字信息的特征项进行融合，得到融合信息；
22.识别模块，用于根据预先训练的情绪识别模型和所述融合信息对所述用户的情绪进行识别。
23.可选地，在本技术提供的另一实施例中所述融合模块具体用于：
24.将所述语音信息、文字信息作为卷积神经的输入，分别提取所述语音信息的特征向量和所述文字信息的特征向量；
25.将所述语音信息的特征向量和所述文字信息的特征向量进行融合，得到融合之后的向量，以所述融合之后的向量作为所述融合信息。
26.可选地，在本技术提供的另一实施例中，所述分别提取所述语音信息的特征向量和所述文字信息的特征向量，包括：
27.提取所述语音信息中的能量、声波以及提取所述文字信息中的关键词、语义特征。
28.本发明实施例的第三方面提供了一种终端设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现上述第一方面任一项提及的方法。
29.本发明实施例的第四方面提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现上述第一方面任一项提及的方法。
30.本发明实施例与现有技术相比存在的有益效果是：本发明提出一种基于语义的情绪识别方法，融合人的情感表达方式的语义。由于人类的语言是反映人类情感的一个重要的行为信号，基于语音语言的情绪识别的研究是最符合人类的情感表达习惯的。因此，本发明从语言文本和语音语调两个方面出发，多角度分析人类情感，提取特征，实现对人类的情绪识别的准确性及实用性。
附图说明
31.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述
中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
32.图1为本发明实施例一提供的一种情绪识别方法的流程示意图；
33.图2为本发明实施例二提供的情绪识别系统的结构示意图；
34.图3为本发明实施例提供的情绪识别系统的示意图；
35.图4为本发明实施例三提供的终端设备的结构示意图。
具体实施方式
36.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。
37.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
38.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
39.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
40.如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0041]
为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。
[0042]
实施例一
[0043]
图1是本发明实施例一提供的一种情绪识别方法的流程示意图，该方法可以包括以下步骤：
[0044]
s101：接收用户发出的语音，从预先建立的情感数据库中选取与所述语音对应的语音信息。
[0045]
所述预先建立的情感数据库，包括casia汉语情感数据库和accorpus系列汉语情感数据库。
[0046]
该步骤中预先收集语音情感数据库，目前国内较为流行的是casia汉语情感数据库和accorpus系列汉语情感数据库。casia汉语情感数据库是两男两女录制的500句不同文本，分为六类情感：高兴、悲伤、愤怒、惊讶、中性和恐惧。accorpus系列汉语情感数据库相对casia汉语情感数据库更丰富一些，代表性更强，它的语音子库由男女各25人对5类情感：中性、高兴、生气、恐惧和悲伤，各自表演得到，情感更饱满，更易分辨。
[0047]
s102：提取所述语音信息的文字信息，以文本文件的形式保存所述文字信息。
[0048]
s103：将所述语音信息的特征项和所述文字信息的特征项进行融合，得到融合信息。
[0049]
所述分别提取所述语音信息的特征向量和所述文字信息的特征向量，包括：
[0050]
提取所述语音信息中的能量、声波以及提取所述文字信息中的关键词、语义特征。
[0051]
所述将所述语音信息的特征项和所述文字信息的特征项进行融合，得到融合信息，包括：
[0052]
将所述语音信息、文字信息作为卷积神经的输入，分别提取所述语音信息的特征向量和所述文字信息的特征向量；
[0053]
将所述语音信息的特征向量和所述文字信息的特征向量进行融合，得到融合之后的向量，以所述融合之后的向量作为所述融合信息。
[0054]
以一条语音为例，为了实现语言文本与语音语调的融合，得到最终的融合语义特征，本文先对语音进行文字转换并保存到文本文件中，其中，可利用多种speech-to-text软件进行转换，例如：讯飞听见，微信，google cloud speech-to-text，watson speech to text等，得到最准确的转换结果。为了实现特征的融合，本专利分别使用语音文件和文本文件作为卷积神经网络(cnn)的输入，分别提取语音中的能量、声波等音频特征和文本中的关键词、前后语境依赖等语义特征，之后对两组特征进行特征融合，这样做的目的是提供了更完整的语音语义特征来表征不同种类的情绪，从而使情绪识别分类更准确，更有依据。特征融合的方法是使用典型相关分析(canonical correlation analysis,cca)。典型相关分析是将两组特征向量之间的相关特征作为有效的判别形式，它具有既能融合信息，又能消除特征中的冗余信息的优点。它的做法是对于两组特征向量，建立向量之间的相关函数，提取他们的相关特征为有效的判别向量，作为融合后的向量。
[0055]
s104：根据预先训练的情绪识别模型和所述融合信息对所述用户的情绪进行识别。所述情绪识别模型为通过长短记忆网络训练得到的情绪识别模型。
[0056]
该步骤中，在cca提取到融合特征之后，本专利使用长短时记忆网络(long-short time memory network,lstm)来训练情绪识别模型。lstm网络能够极好地处理特征前后的长期依赖关系，该网络默认能记住较长的历史信息，利用网络中的“记忆门”实现。同时，网络中设置“遗忘门”来决定我们要从每个记忆单元(也称为“细胞状态”)中丢弃的信息，只需记住关键的信息，来防止信息量过多导致的网络参数冗余和过拟合。最后，使用softmax函数对情绪进行识别。
[0057]
下面结合具体实施例进行说明：
[0058]
收集语音情感数据库：casia汉语情感数据库和accorpus系列汉语情感数据库作为训练和验证数据。
[0059]
语音转文本。利用speech-to-text软件，如：讯飞听见，微信，google cloud speech-to-text，watson speech to text将语音数据转化成文本数据并保存下来。
[0060]
数据预处理。对文本数据进行预处理：去掉停用词、特殊符号、数字，词干化，词向量化。对语音数据预处理：去噪，预加重，分帧、加窗，进行端点检测，使用mfcc提取特征参数作为卷积神经网络的输入。
[0061]
特征提取与融合。利用卷积神经网络(cnn)模型分别提取语音数据的音频特征和文本数据的语义特征，再使用典型相关分析算法对提取到的两类特征做特征融合，得到强
相关的融合特征。
[0062]
建模与识别。使用长短时记忆网络(lstm)模型进行情绪识别的训练，网络的输入为融合后的特征，模型使用softmax函数进行分类来识别不同的情绪。
[0063]
本发明提出一种基于语义的情绪识别方法，融合人的情感表达方式的语义。由于人类的语言是反映人类情感的一个重要的行为信号，基于语音语言的情绪识别的研究是最符合人类的情感表达习惯的。因此，本发明从语言文本和语音语调两个方面出发，多角度分析人类情感，提取特征，实现对人类的情绪识别的准确性及实用性。
[0064]
实施例二
[0065]
图2是本发明实施例二提供的一种情绪识别系统的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分。图3示出了本技术提供的情绪识别系统的流程图。
[0066]
该故障检测系统可以是内置于机器人内的软件单元、硬件单元或者软硬结合的单元，也可以作为独立的挂件集成到所述计算机或其他终端中。
[0067]
所述情绪识别系统，包括：
[0068]
接收模块21，用于接收用户发出的语音，从预先建立的情感数据库中选取与所述语音对应的语音信息；
[0069]
提取模块22，用于提取所述语音信息的文字信息，以文本文件的形式保存所述文字信息；
[0070]
融合模块23，用于将所述语音信息的特征项和所述文字信息的特征项进行融合，得到融合信息；
[0071]
识别模块24，用于根据预先训练的情绪识别模型和所述融合信息对所述用户的情绪进行识别。
[0072]
可选地，在本技术提供的另一实施例中，所述将所述语音信息的特征项和所述文字信息的特征项进行融合，得到融合信息，包括：
[0073]
将所述语音信息、文字信息作为卷积神经的输入，分别提取所述语音信息的特征向量和所述文字信息的特征向量；
[0074]
将所述语音信息的特征向量和所述文字信息的特征向量进行融合，得到融合之后的向量，以所述融合之后的向量作为所述融合信息。
[0075]
可选地，在本技术提供的另一实施例中，所述分别提取所述语音信息的特征向量和所述文字信息的特征向量，包括：
[0076]
提取所述语音信息中的能量、声波以及提取所述文字信息中的关键词、语义特征。
[0077]
可选地，在本技术提供的另一实施例中，所述预先建立的情感数据库，包括casia汉语情感数据库和accorpus系列汉语情感数据库。
[0078]
可选地，在本技术提供的另一实施例中，所述情绪识别模型为通过长短记忆网络训练得到的情绪识别模型。
[0079]
该情绪识别方法系统的工作过程参见上述情绪识别方法方法的实现过程，在此不再赘述。
[0080]
实施例三
[0081]
图4是本发明实施例四提供的终端设备的结构示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行
的计算机程序42，例如情绪识别方法方法程序。所述处理器40执行所述计算机程序42时实现上述方法实施例一中的步骤，例如图1所示的步骤s101至s104。所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块21至24的功能。
[0082]
示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。例如，所述计算机程序42可以被分割成不同模块各模块具体功能如下：
[0083]
设定模块，用于设定机器人的故障检测内容，所述故障检测内容包括待检对象、检测周期以及故障条件；
[0084]
检测模块，用于按照所述检测周期检测待检对象是否达到故障条件，得到检测结果；
[0085]
记录模块，用于根据所述检测结果以xml形式记录所述待检对象的运行状态。
[0086]
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0087]
所述处理器40可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0088]
所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
[0089]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0090]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0091]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不
应认为超出本发明的范围。
[0092]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0093]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0094]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0095]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0096]
以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种图像拼接、距离测量方法及系统与流程

一种情绪识别方法、系统及终端设备与流程

相关文献

最热文献