问答系统的处理方法、装置、设备及存储介质与流程

2022-03-16 14:29:20 来源：中国专利 TAG：

1.本技术涉及人工智能领域，尤其涉及一种问答系统的处理方法、装置、设备及存储介质。

背景技术：

2.随着互联网技术的发展，很多用户选择网上消费、娱乐、办理业务等，足不出户，方便快捷。因此随之而来的是用户通过网上途径进行问题咨询的爆炸式增长，但受限于人工客服的人数、精力、人力成本等因素的制约，用户的问题咨询往往不能及时得到响应，从而造成不好的用户体验。
3.智能问答系统是客服系统的重要组成部分，可以代替人工客服对用户问句进行实时的解答。目前大多数的社交平台采用引导方式进行人机交互，在交互问答过程中，很多用户会以发送表情包的形式来表达情感或者表明意图，甚至会发送一些自制的表情包，这就给问答机器人理解用户带来很大困难，用户的问答体验效果不佳。
4.虽然现有的智能问答系统已支持表情包识别，但目前只能对已经标注的表情包作出响应，对很多未标注的表情包反馈正确率低。

技术实现要素：

5.本技术实施例提供一种问答系统的处理方法、装置、设备及存储介质，提升问答系统反馈正确率，降低系统情感分析的误判。
6.本技术实施例的第一方面提供一种问答系统的处理方法，包括：
7.获取来自客户端的表情包以及历史问答信息；
8.确定所述表情包对应的情感分析结果以及所述历史问答信息对应的情感分析结果，根据所述表情包对应的情感分析结果和所述历史问答信息对应的情感分析结果确定所述表情包对应的最大概率的情感类别；所述情感分析结果包括多个预设情感类别的概率值；
9.向所述客户端发送与所述最大概率的情感类别对应的反馈信息。
10.本技术第一方面的一个可选实施例中，所述历史问答信息包括文本数据、语音数据的至少一项；确定所述历史问答信息对应的情感分析结果，包括：
11.确定所述文本数据对应的情感分析结果；和/或
12.确定所述语音数据对应的情感分析结果。
13.本技术第一方面的一个可选实施例中，所述确定所述文本数据对应的情感分析结果，包括：
14.对所述文本数据进行分词处理，得到所述文本数据对应的文本词向量；
15.将所述文本词向量输入预设的文本情感分析模型，得到所述文本数据对应的情感分析结果；所述文本情感分析模型是采用长短期记忆网络模型对标注后的文本样本进行训练得到的。
16.本技术第一方面的一个可选实施例中，所述方法还包括：
17.获取所述文本数据，所述文本数据包括以下至少一项：
18.所述客户端与所述问答系统的交互文本；
19.对所述语音数据进行语音识别获取的本文；
20.对所述表情包进行文字识别获取的文本。
21.本技术第一方面的一个可选实施例中，所述确定所述语音数据对应的情感分析结果，包括：
22.对所述语音数据进行特征提取，得到所述语音数据对应的音频特征向量；
23.将所述音频特征向量输入预设的语音情感分析模型，得到所述语音数据对应的情感分析结果；所述语音情感分析模型是采用卷积神经网络模型对标注后的语音样本进行训练得到的。
24.本技术第一方面的一个可选实施例中，所述对所述语音数据进行特征提取，得到所述语音数据对应的音频特征向量，包括：
25.对所述语音数据进行短时傅里叶变换，得到二维声谱图，所述二维声谱图描述语音数据在频域上的振幅或功率信息；
26.从所述二维声谱图获取所述语音数据对应的音频特征向量。
27.本技术第一方面的一个可选实施例中，所述表情包包括第一表情包，所述第一表情包采用预设编码方式编码；
28.所述确定所述表情包对应的情感分析结果，包括：
29.通过对所述第一表情包进行解码，获取所述第一表情包对应的情感分析结果。
30.本技术第一方面的一个可选实施例中，所述表情包包括第二表情包，所述第二表情包至少包括自定义的表情图片；
31.所述确定所述表情包对应的情感分析结果，包括：
32.对所述表情图片进行特征提取，得到所述表情图片的特征图；
33.将所述特征图输入预设的表情包情感分析模型，得到所述第二表情包对应的情感分析结果；所述表情包情感分析模型是采用卷积神经网络模型对标注后的图片样本进行训练得到的。
34.本技术第一方面的一个可选实施例中，所述根据所述表情包对应的情感分析结果和所述历史问答信息对应的情感分析结果确定所述表情包对应的最大概率的情感类别，包括：
35.根据所述表情包对应的情感分析结果、所述历史问答信息对应的情感分析结果、所述表情包对应的情感分析结果的权重值以及所述历史问答信息对应的情感分析结果的权重值，确定所述表情包对应的最大概率的情感类别。
36.本技术第一方面的一个可选实施例中，所述表情包对应的情感分析结果的权重值包括表情包情感分析模型的权重值，所述历史问答信息对应的情感分析结果的权重值包括文本情感分析模型的权重值、语音情感分析模型的权重值的至少一项；
37.所述根据所述表情包对应的情感分析结果、所述历史问答信息对应的情感分析结果、所述表情包对应的情感分析结果的权重值以及所述历史问答信息对应的情感分析结果的权重值，确定所述表情包对应的最大概率的情感类别，包括：
38.通过如下公式确定所述表情包对应的最大概率的情感类别：
39.f＝max(δ1*f1 δ2*f2 δ3*f3)
40.其中，δ1为所述表情包情感分析模型的权重值，δ2为所述文本情感分析模型的权重值，δ3为所述语音情感分析模型的权重值，f1为表情包对应的情感分析结果，f2为文本数据对应的情感分析结果，f3为语音数据对应的情感分析结果，f为表情包对应的最大概率的情感类别。
41.本技术第一方面的一个可选实施例中，所述方法还包括：
42.若确定所述表情包对应的最大概率的情感类别为第一类别，向所述问答系统的人工客服终端发送提示信息，所述提示信息用于指示人工客服介入。
43.本技术实施例的第二方面提供一种问答系统的处理装置，包括：
44.获取模块，用于获取来自客户端的表情包以及历史问答信息；
45.处理模块，用于确定所述表情包对应的情感分析结果以及所述历史问答信息对应的情感分析结果，根据所述表情包对应的情感分析结果和所述历史问答信息对应的情感分析结果确定所述表情包对应的最大概率的情感类别；所述情感分析结果包括多个预设情感类别的概率值；
46.发送模块，用于向所述客户端发送与所述最大概率的情感类别对应的反馈信息。
47.本技术实施例的第三方面提供一种电子设备，包括：
48.存储器；
49.处理器；以及
50.计算机程序；
51.其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法。
52.本技术实施例的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法。
53.本技术实施例的第五方面提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。
54.本技术实施例提供一种问答系统的处理方法、装置、设备及存储介质，可应用于问答服务器或问答机器人，该方法包括：通过获取来自客户端的表情包以及历史问答信息，通过对表情包以及历史问答信息进行情感分析，确定表情包对应的情感分析结果以及历史问答信息对应的情感分析结果，根据表情包对应的情感分析结果以及历史问答信息对应的情感分析结果确定表情包对应的最大概率的情感类别，向客户端发送与该最大概率的情感类别对应的反馈信息，实现对用户表情包的精准响应。上述方案在分析表情包情感类别时结合对历史问答信息的情感分析，可提升问答系统反馈正确率，降低系统情感分析的误判。
附图说明
55.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
56.图1为本技术实施例提供的问答系统的处理方法的场景示意图；
57.图2为本技术实施例提供的问答系统的处理方法的流程示意图一；
58.图3为本技术实施例提供的问答系统的处理方法的流程示意图二；
59.图4为本技术实施例提供的问答系统的处理方法的流程示意图三；
60.图5为本技术实施例提供的问答系统的处理方法的流程示意图四；
61.图6为本技术实施例提供的问答系统的处理装置的结构示意图；
62.图7为本技术实施例提供的电子设备的硬件结构图。
63.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
64.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
65.本技术实施例的说明书、权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述之外的顺序实施。
66.应当理解，本文中使用的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
67.在本技术实施例的描述中，术语“对应”可表示两者之间具有直接对应或间接对应的关系，也可以表示两者之间具有关联关系，也可以是指示与被指示、配置与被配置等关系。
68.下面首先对本技术实施例涉及到的专业术语进行简要说明。
69.自动语音识别技术(automatic speech recognition，asr)，是一种将人的语音转换为文本的技术。
70.自然语言处理(natural language processing，nlp)，是一门集语言学、数学及计算机科学于一体的科学，它的核心目标就是把人的自然语言转换为计算机可以阅读的指令，简单来说就是让机器读懂人的语言。
71.光学字符识别(optical character recognition，ocr)，是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。
72.智能问答系统，是一种利用nlp、人工智能技术，对用户问句文本进行语义分析理解，并将用户问句对应的答案自动返送给用户的智能系统，中间过程不需要人为操作，24小时在线，实时高效，大大节省人力成本。
73.目前，智能问答系统在人机交互过程中，除了接收用户发送的文本、语音信息外，还可能接收到用户发送的社交表情包，以表达其喜怒哀乐等情绪。例如当用户的问题未得到正确解答时，用户发送表达生气愤怒的表情包，如果问答系统不能很好地理解这些表情包，不能及时有效安抚用户，做出正确的响应，给用户带来的体验将大打折扣。
74.虽然现有的智能问答系统已支持表情包识别，但只针对已标注的表情包有正确反馈，对于未标注的表情包，其识别精度及反馈正确率低。针对上述问题，本技术实施例提出一种问答系统的处理方法，可应用于问答服务器或问答机器人，其主要发明思路如下：在获取用户发送的表情包，对表情包进行情感分析的同时，结合表情包上文中的问答文本、用户发送的语音等历史数据，进行综合分析，确定用户真实情感状态，实现对用户表情包的精准识别，发送正确的应答反馈，提高问答系统的智能化程度，提升智能问答服务体验。
75.在介绍本技术实施例的问答系统的处理方法之前，首先对该方法的应用场景进行简要介绍。
76.图1为本技术实施例提供的问答系统的处理方法的场景示意图。如图1所示，该场景包括终端设备11以及至少一个问答服务器，例如图1所示的问答服务器12、13和14。终端设备11通过网络与问答服务器12、13和14通信连接。终端设备11安装有如电商、社交、银行等应用程序app，应用程序提供智能问答服务，用户可以通过终端设备11上安装的应用程序发起问题寻求帮助。
77.应理解，不同的应用程序对应不同的智能问答系统，例如图1所示的电商应用对应问答服务器12，社交应用对应问答服务器13，银行应用对应问答服务器14。问答服务器通过执行本技术实施例提供的处理方法，与用户进行人机对话。
78.终端设备11可以为台式计算机、智能手机、平板电脑、电子阅读器、mp3播放器、mp4播放器、膝上型便携计算机、问答机器人及可穿戴智能设备，如智能手表中的任一种。
79.基于上述应用场景，下面通过具体实施例对本技术实施例提供的技术方案进行详细说明。需要说明的是，本技术实施例提供的技术方案可以包括以下内容中的部分或全部，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。
80.图2为本技术实施例提供的问答系统的处理方法的流程示意图一。本实施例提供的处理方法可应用于图1所示的各问答服务器，或者，问答机器人，对此本技术实施例不作任何限制。
81.为了方便描述，下文以问答服务器为执行主体对方案进行说明。如图2所示，本实施例的问答系统的处理方法，包括：
82.步骤201、获取来自客户端的表情包以及历史问答信息。
83.本实施例中，表情包包括以下任意一种：emoji表情包，图片表情包，文字表情包。其中，emoji表情包有对应的unicode编码，可以提前标注对应的情感类别。图片表情包包括用户自定义的例如包含用户头像、用户绘制的表情包，图片内容可以对应至少一种情感类别。文字表情包实际也是图片表情包，只是图片中展示的内容为文字内容，如英文单词、中文词组、英文缩写等。需要说明的是，一些表情包可能同时包括图片和文字，在对该表情包进行情感分析时，需要结合图像和文字两个维度进行情感分析。
84.可选的，表情包包括静态表情包和动态表情包。需要说明的是，动态表情包通常由
多帧静态图片组成，在对动态表情包进行情感分析时，需要结合动态表情包的多帧静态图片进行综合分析。
85.本实施例中，历史问答信息包括用户发送表情包之前与问答服务器的交互信息，例如包括文本数据、语音数据的至少一项。
86.可选的，在一些实施例中，历史问答信息还可以包括用户上传的视频数据。需要说明的是，在对视频数据进行情感分析时，需要结合视频数据中音频数据和图像数据进行综合分析。
87.需要说明的是，用户在发送表情包之前，通常已进行多轮问答，为了提高对表情包情感分析的准确率，问答服务器在获取来自客户端的表情包后，进一步获取上述问答历史信息，用于后续的情感分析。
88.步骤202、确定表情包对应的情感分析结果以及历史问答信息对应的情感分析结果。
89.在一种可选实施例中，历史问答信息包括文本数据，问答服务器确定表情包的情感分析结果，以及文本数据对应的情感分析结果。
90.在一种可选实施例中，历史问答信息包括语音数据，问答服务器确定表情包的情感分析结果，以及语音数据对应的情感分析结果。
91.在一种可选实施例中，历史问答信息包括文本数据和语音数据，问答服务器确定表情包的情感分析结果，文本数据对应的情感分析结果以及语音数据对应的情感分析结果。
92.本实施例中，情感分析结果包括多个预设情感类别的概率值，情感分析结果可用于指示表情包或者文本数据或者语音数据对应的情感类别。
93.示例性的，预设情感类别包括但不限于高兴、生气、伤心、平稳，情感分析结果包括预设的多个情感类别的打分，即多个情感类别的概率值。应理解，最大概率值对应的情感类别可作为最终确定的情感类别。
94.本实施例对如何确定表情包的情感类别不作具体限定，可以通过训练模型确定表情包的情感类别，也可以通过预设的表情包与情感类别的对应关系确定表情包的情感类别。
95.本实施例对如何确定历史问答信息，如文本数据或语音数据的情感类别不作具体限定，可以通过训练模型确定文本数据或语音数据的情感类别，也可以通过文本识别技术确定文本数据的情感类别，通过语音识别技术确定语音数据的情感类别。
96.步骤203、根据表情包对应的情感分析结果和历史问答信息对应的情感分析结果确定表情包对应的最大概率的情感类别。
97.在一种可选实施例中，根据表情包对应的情感分析结果、历史问答信息对应的情感分析结果、表情包对应的情感分析结果的权重值以及历史问答信息对应的情感分析结果的权重值，确定表情包对应的最大概率的情感类别。
98.在一种可选实施例中，历史问答信息包括文本数据，问答服务器可根据表情包对应的情感分析结果、文本数据对应的情感分析结果、表情包对应的情感分析结果的权重值以及文本数据对应的情感分析结果的权重值，确定表情包对应的最大概率的情感类别。
99.在一种可选实施例中，历史问答信息包括语音数据，问答服务器可根据表情包对
应的情感分析结果、语音数据对应的情感分析结果、表情包对应的情感分析结果的权重值以及语音数据对应的情感分析结果的权重值，确定表情包对应的最大概率的情感类别。
100.在一种可选实施例中，历史问答信息包括文本数据和语音数据，问答服务器可根据表情包对应的情感分析结果、语音数据对应的情感分析结果、文本数据对应的情感分析结果、表情包对应的情感分析结果的权重值、语音数据对应的情感分析结果的权重值以及文本数据对应的情感分析结果的权重值，确定表情包对应的最大概率的情感类别。
101.步骤204、向客户端发送与最大概率的情感类别对应的反馈信息。
102.本实施例中，问答服务器的数据库预存有不同情感类别对应的反馈信息，其中反馈信息包括文本、图片、表情包、音视频等。问答服务器基于步骤203确定的最大概率的情感类别，从数据库中获取与其对应的反馈信息，向客户端发送该反馈信息，达到安抚用户的目的。
103.本技术实施例示出的问答系统的处理方法，通过获取来自客户端的表情包以及历史问答信息，通过对表情包以及历史问答信息进行情感分析，确定表情包对应的情感分析结果以及历史问答信息对应的情感分析结果，根据表情包对应的情感分析结果以及历史问答信息对应的情感分析结果确定表情包对应的最大概率的情感类别，向客户端发送与该最大概率的情感类别对应的反馈信息，实现对用户表情包的精准响应。上述方案在分析表情包情感类别时结合对历史问答信息的情感分析，可提升问答系统反馈正确率，降低系统情感分析的误判。
104.下面一个实施例以历史问答信息包括文本数据为例，对系统情感分析过程进行详细说明。图3为本技术实施例提供的问答系统的处理方法的流程示意图二。如图3所示，本实施例提供的问答系统的处理方法，包括：
105.步骤301、获取来自客户端的表情包以及表情包之前的文本数据。
106.步骤302、确定表情包对应的情感分析结果。
107.本实施例的一个可选实施例中，表情包包括第一表情包，第一表情包采用预设编码方式编码，例如上文所述的emoji表情包。针对第一表情包，问答服务器通过对第一表情包进行解码，获取第一表情包对应的情感分析结果，该情感分析结果可直接指示第一表情包对应的情感类别。本实施例中，客户端发送第一表情包，该表情包信息中携带了表情包对应的情感类别，通过对第一表情包进行解码即可确定该第一表情包表达的情感类别。
108.本实施例的一个可选实施例中，表情包包括第二表情包，第二表情包至少包括自定义的表情图片，即上文的图片表情包。针对第二表情包，问答服务器对第二表情包中的表情图片进行特征提取，得到表情图片的特征图；将特征图输入预设的表情包情感分析模型，得到第二表情包对应的情感分析结果。其中，表情包情感分析模型是采用卷积神经网络模型(cnn模型)对标注后的图片样本进行训练得到的。
109.本实施例中，表情包情感分析模型的训练过程包括表情包样本的获取、标注和训练。具体的，可使用网络爬虫获取网络上的图片表情包，一部分作为训练样本，一部分作为测试样本。将图片表情包样本进行情感标注，标注的情感类别包括：高兴、生气、伤心、平稳等。将标注后的图片表情包作为cnn网络的输入，cnn网络输出不同情感类别对应的概率值，通常情况下，不同情感类别对应的概率值的差距不大，因此可通过softmax回归分类器的后处理，根据后处理结果确定图片表情包对应的最大概率的情感类别。其中cnn网络的输出作
为softmax回归分类器的输入。通过训练样本进行模型训练，并使用测试样本验证模型预测效果，在满足预设条件，例如预测准确率大于预设阈值时，完成模型训练，得到训练好的表情包情感分析模型。
110.可选的，在一些实施例中，针对图片表情包，若图片表情包包括文本信息，可执行如下步骤：首先对图片表情包进行图像增强，随后进行ocr图片文本识别，对ocr获取的文本进行分词处理，可采用步骤303的处理方法获取图片表情包中文本信息对应的情感分析结果。
111.步骤303、确定文本数据对应的情感分析结果。
112.本实施例的一个可选实施例中，对文本数据进行分词处理，得到文本数据对应的文本词向量；将文本词向量输入预设的文本情感分析模型，得到文本数据对应的情感分析结果；文本情感分析模型是采用长短期记忆网络模型(lstm模型)对标注后的文本样本进行训练得到的。
113.本实施例中，文本数据包括以下至少一项：客户端与问答系统的交互文本，对表情包进行文字识别获取的文本。
114.可选的，在一些实施例中，文本数据还包括：对语音数据进行语音识别获取的文本，语音数据即表情包之前用户发送的语音数据。
115.本实施例中，文本情感分析模型的训练过程包括文本样本的获取、分词、标注和训练。具体的，将获取的文本样本分为两部分，一部分作为训练样本，一部分作为测试样本。对文本样本分词后获取文本词向量，并进行情感标注，标注类别同上文。将标注后的文本样本作为lstm网络的输入，lstm网络输出不同情感类别对应的概率值，与上文类似，可通过softmax回归分类器的后处理，根据后处理结果确定文本样本对应的最大概率的情感类别。其中lstm网络的输出作为softmax回归分类器的输入。通过训练样本进行模型训练，并使用测试样本验证模型预测效果，在满足预设条件，例如预测准确率大于预设阈值时，完成模型训练，得到训练好的文本情感分析模型。
116.需要说明的是，本实施例对步骤302和步骤303的执行顺序不作具体限定，可以顺序执行或并行执行。
117.步骤304、根据表情包对应的情感分析结果以及文本数据对应的情感分析结果，确定表情包对应的最大概率的情感类别。
118.可选的，问答服务器根据表情包对应的情感分析结果、文本数据对应的情感分析结果、表情包对应的情感分析结果的权重值以及文本数据对应的情感分析结果的权重值，确定表情包对应的最大概率的情感类别。具体的，可通过如下公式确定表情包对应的最大概率的情感类别：
119.f＝max(δ1*f1 δ2*f2)
120.其中，δ1为表情包情感分析模型的权重值，δ2为文本情感分析模型的权重值，f1为表情包对应的情感分析结果，f2为文本数据对应的情感分析结果，f为表情包对应的最大概率的情感类别。需要说明的是，f、f1和f2均为多维向量，包括不同情感类别的概率值。
121.步骤305、向客户端发送与最大概率的情感类别对应的反馈信息。
122.本实施例示出的问答系统的处理方法，在获取来自客户端的表情包以及表情包之前的文本数据后，通过表情包情感分析模型获取表情包对应的情感分析结果，通过文本情
感分析模型获取文本数据对应的情感分析结果，基于表情包以及文本数据对应的情感分析结果，确定当前用户的情感类别，向客户端发送与该情感类别对应的反馈信息。上述方案采用训练模型对表情包以及文本数据进行情感分析，可提升间答系统情感识别的准确率，降低系统情感分析的误判，从而提高问答系统反馈正确率。
123.下面一个实施例以历史问答信息包括语音数据为例，对系统情感分析过程进行详细说明。图4为本技术实施例提供的问答系统的处理方法的流程示意图三。如图4所示，本实施例提供的问答系统的处理方法，包括：
124.步骤401、获取来自客户端的表情包以及表情包之前的语音数据。
125.步骤402、确定表情包对应的情感分析结果。
126.本实施例的步骤402与上述实施例的步骤302类似，具体可参见上文实施例，此处不再赘述。
127.步骤403、确定语音数据对应的情感分析结果。
128.本实施例中，用户发送的语音数据不仅包含语义信息，还包含音频的特征参数，例如音频的语速、语调、能量、频峰等，用户情感可以通过语音数据的语义信息和/或音频特征参数来表达。
129.本实施例的一个可选实施例中，对语音数据进行语音识别，获取语音数据对应的文本信息(即语义信息)，对语音数据对应的文本进行分词处理，然后通过上文实施例的文本情感分析模型获取语音数据对应的文本信息的情感分析结果。
130.本实施例的一个可选实施例中，对语音数据进行特征提取，得到语音数据对应的音频特征向量；将音频特征向量输入预设的语音情感分析模型，得到语音数据对应的情感分析结果；语音情感分析模型是采用卷积神经网络模型(cnn模型)对标注后的语音样本进行训练得到的。
131.本实施例的一个可选实施例中，对语音数据进行短时傅里叶变换(stft)，得到二维声谱图；从二维声谱图获取语音数据对应的音频特征向量。其中，二维声谱图描述语音数据在频域上的振幅或功率信息。
132.本实施例中，语音情感分析模型的训练过程包括语音样本的获取、预处理、标注和训练。具体的，将获取的语音样本分为两部分，一部分作为训练样本，一部分作为测试样本。将语音样本进行短时傅里叶变换，得到二维声谱图，将语音样本的二维声谱图进行情感标注，标注类别同上文。将标注后的二维声谱图作为cnn网络的输入，cnn网络输出不同情感类别对应的概率值，与上文类似，可通过softmax回归分类器的后处理，根据后处理结果确定二维声谱图对应的最大概率的情感类别。其中cnn网络的输出作为softmax回归分类器的输入。通过训练样本进行模型训练，并使用测试样本验证模型预测效果，在满足预设条件，例如预测准确率大于预设阈值时，完成模型训练，得到训练好的语音情感分析模型。
133.可选的，在一些实施例中，在对语音数据进行语音识别之前，对语音数据进行去噪处理，将去噪后的语音数据进行asr语音识别，获取语音数据对应的文本信息。上述去噪过程可提高语音识别的准确率。
134.需要说明的是，本实施例对步骤402和步骤404的执行顺序不作具体限定，可以顺序执行或并行执行。
135.步骤404、根据表情包对应的情感分析结果以及语音数据对应的情感分析结果，确
定表情包对应的最大概率的情感类别。
136.可选的，问答服务器根据表情包对应的情感分析结果、语音数据对应的情感分析结果、表情包对应的情感分析结果的权重值以及语音数据对应的情感分析结果的权重值，确定表情包对应的最大概率的情感类别。具体的，可通过如下公式确定表情包对应的最大概率的情感类别：
137.f＝max(δ1*f1 δ3*f3)
138.其中，δ1为表情包情感分析模型的权重值，δ3为文本情感分析模型的权重值，f1为表情包对应的情感分析结果，f3为语音数据对应的情感分析结果，f为表情包对应的最大概率的情感类别。需要说明的是，f、f1和f3均为多维向量，包括不同情感类别的概率值。
139.步骤405、向客户端发送与最大概率的情感类别对应的反馈信息。
140.本实施例示出的问答系统的处理方法，在获取来自客户端的表情包以及表情包之前的语音数据后，通过表情包情感分析模型获取表情包对应的情感分析结果，通过文本情感分析模型获取语音数据对应的情感分析结果，基于表情包以及语音数据对应的情感分析结果，确定当前用户的情感类别，向客户端发送与该情感类别对应的反馈信息。上述方案采用训练模型对表情包以及语音数据进行情感分析，可提升间答系统情感识别的准确率，降低系统情感分析的误判，从而提高问答系统反馈正确率。
141.基于上述实施例，可选的，在一些实施例中，历史间答信息包括文本数据和语音数据，对文本数据和语音数据的情感分析过程可分别参考图3实施例、图4实施例。在确定表情包对应的情感分析结果、文本数据对应的情感分析结果以及语音数据对应的情感分析结果后，可通过如下公式确定表情包对应的最大概率的情感类别：
142.f＝max(δ1*f1 δ2*f2 δ3*f3)
143.其中，δ1为表情包情感分析模型的权重值，δ2为文本情感分析模型的权重值，δ3为语音情感分析模型的权重值，f1为表情包对应的情感分析结果，f2为文本数据对应的情感分析结果，f3为语音数据对应的情感分析结果，f为表情包对应的最大概率的情感类别。
144.可选的，在一些实施例中，问答服务器除了向客户端发送反馈信息之外，还可以包括如下步骤：
145.若确定表情包对应的最大概率的情感类别为第一类别，向问答系统的人工客服终端发送提示信息，提示信息用于指示人工客服介入。
146.可选的，第一类别包括例如愤怒、生气等极端情感类别，在确定用户发送的表情包为极端情感类别时，则需要尽快将客户端与问答系统的历史交互数据推送至人工客服端，以便人工客服能够尽快介入，安抚用户情绪，尽快解决用户提出的智能系统无法处理的问题。
147.可选的，在一些实施例中，若确定表情包对应的最大概率的情感类别为第一类别的次数大于或等于预设阈值，例如3次，向问答系统的人工客户终端发送提示信息，提醒人工客服主动介入。
148.图5为本技术实施例提供的问答系统的处理方法的流程示意图四。如图5所示，智能问答交互过程，包括：
149.1、当用户发送表情包时，会将表情包及上文中的问答交互文本、用户发送的语音推送给后端进行处理；
150.2、若存在语音数据时后端对语音数据进行降噪处理；
151.3、将降噪的语音进行asr语音识别；
152.4、并将语音识别获取的文本进行分词；
153.5、将交互文本进行分词处理；
154.6、将用户发送的表情包进行分类，分为emoji表情包和图片表情包；
155.7、将图片表情包进行图片增强；
156.8、将增强后的图片表情包进行ocr文字识别；
157.9、若ocr识别出存在文本，则将获取的文本进行分词处理；
158.10、将降噪的语音数据发送给语音情感分析模型得到语音情感分类概率向量；
159.11、将分词后的所有文本内容发送给文本情感分析模型得到文本情感分类概率向量；
160.12、将增强后的图片表情包发送给图片表情包情感分析模型得到该图片表情包对应的情感分类概率向量；
161.13、若为emoji表情则直接判定标注好的情感类别；若为图片表情包则综合分析语音情感分类概率向量、文本情感分类概率向量、图片表情包情感分类概率向量加权求和后，将最大概率的情感类别作为用户发送的表情包的情感类型；
162.14、通过nlp将情感对应的回复内容反馈给用户，若多次为极端情感则提醒在线人工客服介入问答过程。
163.上文实施例中，智能问答系统在用户发送未标注的表情包时，综合分析了用户发送的表情包及其对应的上文内容数据中的交互文本和用户语音，多维度的分析用户发送的表情包的代表情感，提高了对未标注表情包的正确应答反馈率，同时为人工坐席介入问答过程提供依据。
164.通过分别建立语音情感分析模型、文本情感分析模型和表情包情感分析模型，综合分析智能问答交互过程中用户发送的表情包，判定表情包对应情感，自动给予正确的问答反馈，提高了智能问答服务体验。
165.针对智能问答交互过程中，用户发送的表情包，本技术综合分析了表情包及表情包上文中的交互文本和用户语音，并建立相应的情感分析模型，进一步提高了智能问答系统对用户发送的表情包的情感类别的识别准确度，进而为智能问答系统带来更高的反馈正确率，提高了用户体验。
166.上文描述了本技术实施例提供的问答系统的处理方法，下面将描述本技术实施例提供的问答系统的处理装置。
167.本技术实施例可以根据上述方法实施例对问答系统的处理装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现，也可以使用软件功能模块的形式实现。需要说明的是，本技术实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。
168.图6为本技术实施例提供的问答系统的处理装置的结构示意图。如图6所示，本实施例提供的问答系统的处理装置600，包括：获取模块601，处理模块602和发送模块603。
169.获取模块601，用于获取来自客户端的表情包以及历史问答信息；
170.处理模块602，用于确定所述表情包对应的情感分析结果以及所述历史问答信息对应的情感分析结果，根据所述表情包对应的情感分析结果和所述历史问答信息对应的情感分析结果确定所述表情包对应的最大概率的情感类别；所述情感分析结果包括多个预设情感类别的概率值；
171.发送模块603，用于向所述客户端发送与所述最大概率的情感类别对应的反馈信息。
172.本实施例的一个可选实施例中，所述历史问答信息包括文本数据、语音数据的至少一项；处理模块602，用于：
173.确定所述文本数据对应的情感分析结果；和/或
174.确定所述语音数据对应的情感分析结果。
175.本实施例的一个可选实施例中，处理模块602，用于：
176.对所述文本数据进行分词处理，得到所述文本数据对应的文本词向量；
177.将所述文本词向量输入预设的文本情感分析模型，得到所述文本数据对应的情感分析结果；所述文本情感分析模型是采用长短期记忆网络模型对标注后的文本样本进行训练得到的。
178.本实施例的一个可选实施例中，获取模块601，用于获取所述文本数据，所述文本数据包括以下至少一项：
179.所述客户端与所述问答系统的交互文本；
180.对所述语音数据进行语音识别获取的本文；
181.对所述表情包进行文字识别获取的文本。
182.本实施例的一个可选实施例中，处理模块602，用于：
183.对所述语音数据进行特征提取，得到所述语音数据对应的音频特征向量；
184.将所述音频特征向量输入预设的语音情感分析模型，得到所述语音数据对应的情感分析结果；所述语音情感分析模型是采用卷积神经网络模型对标注后的语音样本进行训练得到的。
185.本实施例的一个可选实施例中，处理模块602，用于：
186.对所述语音数据进行短时傅里叶变换，得到二维声谱图，所述二维声谱图描述语音数据在频域上的振幅或功率信息；
187.从所述二维声谱图获取所述语音数据对应的音频特征向量。
188.本实施例的一个可选实施例中，所述表情包包括第一表情包，所述第一表情包采用预设编码方式编码；
189.处理模块602，用于通过对所述第一表情包进行解码，获取所述第一表情包对应的情感分析结果。
190.本实施例的一个可选实施例中，所述表情包包括第二表情包，所述第二表情包至少包括自定义的表情图片；处理模块602，用于：
191.对所述表情图片进行特征提取，得到所述表情图片的特征图；
192.将所述特征图输入预设的表情包情感分析模型，得到所述第二表情包对应的情感分析结果；所述表情包情感分析模型是采用卷积神经网络模型对标注后的图片样本进行训
练得到的。
193.本实施例的一个可选实施例中，处理模块602，用于：
194.根据所述表情包对应的情感分析结果、所述历史问答信息对应的情感分析结果、所述表情包对应的情感分析结果的权重值以及所述历史问答信息对应的情感分析结果的权重值，确定所述表情包对应的最大概率的情感类别。
195.本实施例的一个可选实施例中，所述表情包对应的情感分析结果的权重值包括表情包情感分析模型的权重值，所述历史问答信息对应的情感分析结果的权重值包括文本情感分析模型的权重值、语音情感分析模型的权重值的至少一项；处理模块602，用于通过如下公式确定所述表情包对应的最大概率的情感类别：
196.f＝max(δ1*f1 δ2*f2 δ3*f3)
197.其中，δ1为所述文本情感分析模型的权重值，δ2为所述语音情感分析模型的权重值，δ3为所述表情包情感分析模型的权重值，f1为表情包对应的情感分析结果，f2为文本数据对应的情感分析结果，f3为语音数据对应的情感分析结果，f为表情包对应的最大概率的情感类别。
198.本实施例提供的问答系统的处理装置，可以执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
199.图7为本技术实施例提供的电子设备的硬件结构图。如图7所示，本实施例提供的电子设备700，包括：
200.存储器701；
201.处理器702；以及
202.计算机程序；
203.其中，计算机程序存储在存储器701中，并被配置为由处理器702执行以实现上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
204.可选的，存储器701既可以是独立的，也可以跟处理器702集成在一起。当存储器701是独立于处理器702之外的器件时，电子设备700还包括：总线703，用于连接存储器701和处理器702。
205.本技术实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器702执行以实现如前述任一方法实施例的技术方案。
206.本技术实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前述任一方法实施例的技术方案。
207.本技术实施例还提供了一种芯片，包括：处理模块与通信接口，该处理模块能执行前述任一方法实施例的技术方案。
208.进一步地，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例的技术方案。
209.应理解，上述处理器可以是中央处理单元(英文：central processing unit，简称：cpu)，还可以是其他通用处理器、数字信号处理器(英文：digital signal processor，简称：dsp)、专用集成电路(英文：application specific integrated circuit，简称：asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发
明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
210.存储器可能包含高速ram存储器，也可能还包括非易失性存储nvm，例如至少一个磁盘存储器，还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
211.总线可以是工业标准体系结构(industry standard architecture，isa)总线、外部设备互连(peripheral component，pci)总线或扩展工业标准体系结构(extended industry standard architecture，eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
212.上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
213.一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，简称：asic)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备中。
214.最后应说明的是：以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例的技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于长短时记忆网络和网格化匹配的公交匹配方法及装置与流程

问答系统的处理方法、装置、设备及存储介质与流程

相关文献

最热文献