会议互动方法、会议互动装置、设备及存储介质与流程

2022-06-25 04:49:37 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种会议互动方法、会议互动装置、设备及存储介质。

背景技术：

2.目前线上会议互动主要是以主持人讲解材料和播放课件的形式进行信息传递。但仅通过主持人自主地开展讲课和互动，需要主持人具有很高的临场能力，对于主持经验缺乏的用户，难以提高讲课的吸引力，使得听课的其他人员容易失去兴趣，从而降低了信息传递的效果。

技术实现要素：

3.本公开实施例的主要目的在于提出一种会议互动方法、会议互动装置、设备及存储介质，能够提高目标嘉宾听课的吸引力，从而提高信息传递的效果。
4.为实现上述目的，本公开实施例的第一方面提出了会议互动方法，包括：
5.获取目标演示材料，所述目标演示材料包括：主题标签和当前演示图像；
6.对所述当前演示图像进行关键词提取，以得到演示关键词；
7.根据所述演示关键词从所述主题标签对应的预设数据库中提取逻辑主题；
8.获取目标主持人的情感特征和当前讲解内容；
9.对所述当前讲解内容进行内容分析，以得到讲解主题；
10.根据所述逻辑主题、所述情感特征和所述讲解主题对预设反馈模型进行反馈预测，得到反馈操控信息；
11.根据所述反馈操控信息操控虚拟会议助理，以通过操控所述虚拟会议助理构建所述目标主持人与目标嘉宾进行会议互动。
12.在一些实施例，所述对所述当前演示图像进行关键词提取，以得到演示关键词，包括：
13.对所述当前演示图像进行内容识别，以得到演示内容；
14.对所述演示内容进行关键词提取，以得到所述演示关键词。
15.在一些实施例，所述根据所述演示关键词从所述主题标签对应的预设数据库中提取逻辑主题，包括：
16.根据所述演示关键词从所述主题标签对应的预设数据库中提取多个候选关键词；
17.将所述候选关键词和所述演示关键词进行关联性分析，以得到所述候选关键词的关联度；
18.根据所述关联度获取最大关联度值；其中，所述最大关联度值为取值最大的关联度；
19.将所述最大关联度值对应的所述候选关键词作为所述逻辑主题。
20.在一些实施例，所述获取目标主持人的情感特征和当前讲解内容，包括：
21.获取所述目标主持人的音视频数据；其中，所述音视频数据包括音频数据和视频数据；
22.对所述视频数据中人脸图像进行人脸识别，以得到情绪特征；
23.对所述音频数据进行语调识别，以得到语调特征；
24.根据所述情绪特征和所述语调特征生成所述情感特征；
25.对所述音频数据进行内容分析，以得到所述当前讲解内容。
26.在一些实施例，所述对所述视频数据中人脸图像进行人脸识别，以得到情绪特征，包括：
27.将所述视频数据进行分帧处理，以得到多个视频帧图像；
28.提取所述多个视频帧图像的表情特征和动作特征；
29.对所述表情特征、所述动作特征进行特征分析，以得到所述情绪特征。
30.在一些实施例，所述根据所述逻辑主题、所述情感特征和所述讲解主题对预设反馈模型进行反馈预测，得到反馈操控信息，包括：
31.将所述逻辑主题进行参数转换，以得到逻辑参数；
32.将所述情感特征进行参数转换，以得到情感参数；
33.将所述讲解主题进行参数转换，以得到讲解参数；
34.根据所述逻辑参数、所述情感参数和所述讲解参数对所述预设反馈模型进行反馈分析，以得到所述反馈操控信息。
35.在一些实施例，所述反馈操控信息包括：人脸操控信息、动作操控信息和语音操控信息；所述根据所述反馈操控信息操控虚拟会议助理，以通过操控所述虚拟会议助理构建所述目标主持人与目标嘉宾进行会议互动，包括:
36.根据所述人脸操控信息操控所述虚拟会议助理显示对应的表情状态；
37.根据所述动作操控信息操控所述虚拟会议助理切换对应的动作；
38.根据所述语音操控信息操控所述虚拟会议助理播放对应的语音信息，以通过操控所述虚拟会议助理以构建所述目标主持人与目标嘉宾进行会议互动。
39.为实现上述目的，本公开的第二方面提出了会议互动装置，包括：
40.第一获取模块，用于获取目标演示材料，所述目标演示材料包括：主题标签和当前演示图像；
41.关键词提取模块，用于对所述当前演示图像进行关键词提取，以得到演示关键词；
42.主题提取模块，用于根据所述演示关键词从所述主题标签对应的预设数据库中提取逻辑主题；
43.第二获取模块，用于获取目标主持人的情感特征和当前讲解内容；
44.分析模块，用于对所述当前讲解内容进行内容分析，以得到讲解主题；
45.反馈预测模块，用于根据所述逻辑主题、所述情感特征和所述讲解主题对预设反馈模型进行反馈预测，得到反馈操控信息；
46.操控模块，用于根据所述反馈操控信息操控虚拟会议助理，以通过操控所述虚拟会议助理构建所述目标主持人与目标嘉宾进行会议互动。
47.为实现上述目的，本公开的第三方面提出了电子设备，包括：
48.至少一个存储器；
49.至少一个处理器；
50.至少一个程序；
51.所述程序被存储在所述存储器中，处理器执行所述至少一个程序以实现：
52.如第一方面所述的方法。
53.为实现上述目的，本公开的第四方面提出了存储介质，所述存储介质为计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：
54.如第一方面所述的方法。
55.本公开实施例提出的会议互动方法、会议互动装置、设备及存储介质，通过根据逻辑主题、情感特征和讲解主题输入预设反馈模型进行反馈预测，以得到反馈操控信息，根据反馈操控信息对虚拟会议助理进行对应的操控，以实现目标主持人和目标嘉宾的互动，从而提高目标主持人进行会议互动时的吸引力，进而提高目标主持人进行信息传递的效果。
附图说明
56.图1是本公开实施例提供的会议互动方法的流程图；
57.图2是图1中的步骤s200的流程图；
58.图3是图1中的步骤s300的流程图；
59.图4是图1中的步骤s400的流程图；
60.图5是图4中的步骤s420的流程图；
61.图6是图1中的步骤s600的流程图；
62.图7是图1中的步骤s700的流程图；
63.图8是本公开另一实施例提供的会议互动装置的模块框图；
64.图9是本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
65.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
66.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
67.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。
68.首先，对本技术中涉及的若干名词进行解析：
69.人工智能(artificial intelligence，ai)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反
应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
70.命名实体识别(named entity recognition，ner)：ner又称作专名识别，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。ner系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。
71.mtcnn(multi-task cascaded convolutional networks)：人脸检测中应用较广的算法就是mtcnn。mtcnn算法是一种基于深度学习的人脸检测和人脸对齐方法。该算法主要采用了三个级联的网络，采用候选框加分类器的思想，进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的p-net、进行高精度候选窗口过滤选择的r-net和生成最终边界框与人脸关键点的o-net。和很多处理图像问题的卷积神经网络模型，该模型也用到了图像金字塔、边框回归、非最大值抑制等技术。
72.长短期记忆网络(long short-term memory，lstm)：是一种时间循环神经网络，是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的rnn都具有一种重复神经网络模块的链式形式。
73.光学字符识别(optical character recognition，ocr)：是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。
74.三维模型：三维模型是物体的多边形表示，通常用计算机或者其它视频设备进行显示。显示的物体是可以是现实世界的实体，也可以是虚构的物体。任何物理自然界存在的东西都可以用三维模型表示。三维模型经常用三维建模工具这种专门的软件生成，但是也可以用其它方法生成。作为点和其它信息集合的数据，三维模型可以手工生成，也可以按照一定的算法生成。尽管通常按照虚拟的方式存在于计算机或者计算机文件中，但是在纸上描述的类似模型也可以认为是三维模型。三维模型广泛用任何使用三维图形的地方。
75.会议互动一般以主持人讲解材料为主，并以课件播放的形式进行信息传递，但是目标嘉宾难以集中注意力进行被动的信息传递，主持人只能通过自动地开启一些规则的互动功能，如抽奖等功能进行会场的活跃以吸引目标嘉宾集中注意力进行信息传递，但是采用抽奖等功能难以持续性地让目标嘉宾保持注意力，从而降低了会议互动传递信息的效果。例如，若开展会议互动进行保险材料的讲解时，无法提高目标嘉宾的吸引力，则难以让目标嘉宾完全了解保险产品，难以提高保险签售的成功率。
76.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及
应用系统。
77.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
78.基于此，本公开实施例提供一种会议互动方法，通过引入虚拟会议助理，以在目标主持人进行目标演示材料演示和讲解时，根据目标演示材料的内容和目标主持人的情感状态对虚拟会议助理进行操控，以提高目标嘉宾对目标演示材料的注意力，从而提高信息传递的效果。
79.本公开实施例提供一种会议互动方法、会议互动装置、设备及存储介质，具体通过如下实施例进行说明，首先描述本公开实施例的一种会议互动方法。
80.本技术实施例提供的会议互动方法、会议互动装置、设备及存储介质，涉及人工智能技术领域，尤其涉及三维建模技术领域。本技术实施例提供的会议互动方法可应用于终端或服务器端，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现会议互动方法的应用等，但并不局限于以上形式。
81.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
82.请参照图1，图1是本技术一些实施例提供的会议互动方法的一个可选的流程图，该会议互动方法包括步骤s100、s200、s300、s400、s500、s600、s700，应理解，本技术实施例的会议互动方法包括但不限于步骤s100至步骤s700，下面结合图1对步骤s100至步骤s700进行详细介绍。
83.步骤s100：获取目标演示材料，目标演示材料包括：主题标签和当前演示图像。
84.需要说明的是，当目标主持人需要进行信息传递时，需要使用目标演示材料进行演讲，则获取目标主持人当前所使用的目标演示材料。其中，若目标演示材料正在电脑或者终端上演示，则通过和电脑或终端建立通讯连接以获取目标演示材料。其次，目标演示材料可以由目标主持人主动上传至会议互动系统，以得到目标演示材料。目标演示材料的材料类型包括以下至少一种：图文、视频和网页。因此，目标演示材料的材料类型可以为图文、视频和网页中的一种，则对于目标演示材料的材料类型限制降低，便于目标主持人将当前演讲的目标演示材料上传，从而提高目标演示材料上传的便利性。
85.具体地，目标演示材料包括主题标签和当前演示图像，主题标签由目标主持人根据目标演示材料的主题类型提前进行主题标签打标，则可以根据主题标签确定目标演示材料的主题类型。由于目标演示材料的材料类型包括以下至少一种：图文、视频和网页，且目标演示材料包括当前演示图像，若目标演示材料的材料类型为图文，则直接获取当前演示的图文作为当前演示图像；若目标演示材料的材料类型为视频，则从视频中获取当前演示的视频帧图像，以视频帧图像作为当前演示图像；若目标演示材料的材料类型为网页，则直接截取当前演示的网页页面以得到当前演示图像。例如，若当前演示的目标演示材料的主题类型为医疗材料，则目标主持人提前对医疗材料进行打标上“医疗险”，因此可以确定当前演示材料的主题标签为“医疗险”，也即确定当前演示材料的材料主题，使得目标演示材料的主题明确。
86.步骤s200：对当前演示图像进行关键词提取，以得到演示关键词。
87.需要说明的是，由于目标演示材料的主题类型通过主题标签确定，但是为了使虚拟会议助理根据当前演示的内容做出的反馈更加匹配，所以需要对当前演示图形进行关键词提取得到演示关键词，以获取当前时刻目标主持人的演示内容，以便于根据演示关键词做出更加匹配的反馈，从而提高目标嘉宾观看目标演示材料的注意力。
88.例如，目标主持人演示的目标演示材料为医疗材料，获取当前演示图像为讲解医疗险的文本信息，则通过对当前演示图像进行关键词提取以得到演示关键词包括“住院”、“大病”等。通过演示关键词提取可以更加清楚当前演示的内容。
89.步骤s300：根据演示关键词从主题标签对应的预设数据库中提取逻辑主题。
90.需要说明的是，预设数据库设置多个，不同的主题标签对应不同的预设数据库，且预设数据库中存储演示关键词和逻辑主题的匹配信息。因此根据主题标签确定对应的预设数据库，再根据演示关键词从对应的预设数据库中提取逻辑主题，以确定当前演示内容的逻辑主题，以明确当前演示内容的主题，则可以根据逻辑主题控制虚拟会议助理做出对应的反馈。
91.步骤s400：获取目标主持人的情感特征和当前讲解内容。
92.需要说明的是，仅根据当前演示图像的逻辑主题操控虚拟会议助理做出反馈会存在错误操控，不能够准确地表达当前演示图像。因此，通过获取目标主持人的情感特征和当前讲解内容，通过根据逻辑主题、情感特征和当前讲解内容进行虚拟会议助理的操控，以提高虚拟会议助理做出的反馈更加符合当前的实际情况，进而提高目标主持人和目标嘉宾的体验感。其中，情感特征通过对目标主持人的人脸变化、肢体形态、情绪表情进行识别和分类以确定情感特征。除此之外，还根据目标主持人的音频内容和声音情绪进行检测识别和分类以进一步确定情感特征，因此可以通过情感特征准确地表达目标主持人的情感状态。当前讲解内容则通过语音识别目标主持人的音频得到。
93.步骤s500：对当前讲解内容进行内容分析，以得到讲解主题。
94.需要说明的是，通过预设时间和当前时间确定讲解采集时间区间，则采集时间位于采集时间区间的音频数据，通过对音频数据进行语音识别以得到当前讲解内容。因此当前讲解内容为一段话或者一句话，所以需要对当前讲解内容进行内容分析，以得到讲解主题，且讲解主题表征当前讲解内容的内容主题，可以更加准确地表征音频数据。
95.步骤s600：根据逻辑主题、情感特征和讲解主题对预设反馈模型进行反馈预测，得
到反馈操控信息。
96.需要说明的是，通过将逻辑主题、情感特征和讲解主题输入到预设反馈模型进行反馈预测以得到反馈操控信息，且反馈操控信息综合逻辑主题、情感特征和讲解主题进行反馈预测，则反馈操控信息可以更加准确地表示当前演示内容和目标主持人的情感状态，从而根据反馈操控信息进行虚拟会议助理的操控更加准确。
97.步骤s700：根据反馈操控信息操控虚拟会议助理，以通过操控虚拟会议助理构建目标主持人与目标嘉宾进行会议互动。
98.需要说明的是，通过反馈操控信息对虚拟会议助理进行操控，一方面反馈操控信息通过根据逻辑主题、情感特征和讲解主题进行反馈预测得到，则根据反馈操控信息对虚拟会议助理进行操控更加符合当前场景的情感氛围，从而提高目标主持人和目标嘉宾的注意力。另一方面，通过操控虚拟会议助理构建目标主持人和目标嘉宾进行会议互动，可以提高目标嘉宾对目标主持人的信任感，从而提高目标主持人和目标嘉宾合作的成功率。其中，虚拟会议助理可以根据品牌形象设计生成，且可以根据真人模拟形象生成。若虚拟会议助理根据品牌形象设计生成则根据设计师自动设计动画角色得到。若虚拟会议助理根据真人模拟，则获取目标人物的人脸特征和身体特征，根据人脸特征和身体特征进行三维构建得到。
99.综合步骤s100至步骤s700，通过获取目标演示材料的当前演示图像，然后对当前演示图像进行关键词提取以得到演示关键词，再根据主题标签确定对应的预设数据库，则根据演示关键词从对应的预设数据库中提取对应的逻辑主题，然后获取目标主持人的情感特征和当前讲解内容，以对当前讲解内容进行内容分析得到讲解主题，最后根据逻辑主题、情感特征和讲解主题输入预设反馈模型进行反馈预测，以得到反馈操控信息，并根据反馈操控信息对虚拟会议助理进行对应的操控，以实现目标主持人和目标嘉宾的互动，从而提高目标主持人进行会议互动时的吸引力，进而提高目标主持人进行信息传递的效果。
100.请参照图2，在本技术的一些实施例中，步骤s200可以包括但不限于步骤s210和步骤s220。
101.步骤s210：对当前演示图像进行内容识别，以得到演示内容。
102.需要说明的是，当前演示图像可以是从图文、视频和网页中提取得到，且当前演示图像包括图片信息和文字信息中的至少一种，因此需要对当前演示图像进行内容识别以得到演示内容。其中，对当前演示图像进行ocr识别以将当前演示图像中的文字识别出来以得到演示内容。
103.步骤s220：对演示内容进行关键词提取，以得到演示关键词。
104.需要说明的是，将当前演示图像中的文字提取得到演示内容后，需要对演示内容中的关键字提取以得到演示关键词。其中，对演示内容进行ner提取以得到演示关键词，以提取的演示关键词能够准确表达演示内容。
105.例如，若当前演示图像为医疗险相关的图像，将当前演示图像进行ocr识别得到文字信息的演示内容，并对演示内容进行ner提取以得到演示关键词，且演示关键词包括“住院”、“大病”等词语。因此，通过演示关键词的提取能够更加准确地表达当前演示图像的内容。
106.请参照图3，在本技术的一些实施例中，步骤s300可以包括但不限于步骤s310、步
骤s320、步骤s330和步骤s340。
107.步骤s310：根据演示关键词从主题标签对应的预设数据库中提取多个候选关键词。
108.需要说明的是，不同的主题标签对应不同的预设数据库，且预设数据库中存储的演示关键词和候选关键词的匹配信息，因此，不同主题标签对应的预设数据库存储的匹配信息是不同的。通过主题标签确定对应的预设数据库，然后根据演示关键词从对应的预设数据库中提取对应的匹配信息，根据演示关键词和匹配信息确定对应的候选关键词。由于演示关键词存在多个，且一个演示关键词匹配的候选关键词也存在若干个，所以根据演示关键词从预设数据库提取多个候选关键词。
109.例如，针对保险领域，对应于目标演示材料的主题标签包括：重疾险、医疗险、储蓄险、意外险、寿险，则根据主题标签匹配对应的预设数据库。若主题标签为“医疗险”，演示关键词为“住院”，则根据在“医疗险”对应预设数据库中提取与“住院”对应的候选关键词包括“社保”、“国际部”、“医疗资源”。因此，通过根据演示关键词在主题标签对应的预设数据库中提取对应的候选关键词，以找到更加符合当前演示图像的主题词语。
110.步骤s320：将候选关键词和演示关键词进行关联性分析，以得到候选关键词的关联度。
111.需要说明的是，为了确定从预设数据库中提取的多个候选关键词和演示关键词的关联性，以筛选出最能匹配演示关键词的逻辑主题，所以将多个候选关键词和演示关键词进行关联性分析以得到对应候选关键词的关联度。其中，候选关键词的关联度表示候选关键词和演示关键词的关联程序，若关联度越高则表示候选关键词和演示关键词的关联程度越高。
112.步骤s330：根据关联度获取最大关联度值；其中，最大关联度值为取值最大的关联度。
113.需要说明的是，每个候选关键词和演示关键词的关联程度不同，为了获取关联度最高的候选关键词，从多个关联度中获取最大关联度值，且最大关联度值对应的候选关键词和演示关键词的关联性最高。
114.步骤s340：将最大关联度值对应的候选关键词作为逻辑主题。
115.需要说明的是，最大关联度值对应的候选关键词和演示关键词之间的关联性最高，所以将最大关联度值对应的候选关键词作为逻辑主题能够准确表达当前演示内容的主题。
116.例如，若确定多个候选关键词包括“社保”、“普通部”、“国际部”和“医疗资源”，且计算四个候选关键词和演示关键词之间的关联度，获取最大关联度值对应的候选关键词为“社保”，则将“社保”作为逻辑主题。因此通过获取最大关联度值对应的候选关键词作为逻辑主题，能够更加准确地表征当前演示内容的主题。
117.请参照图4，在本技术的一些实施例中，步骤s400可以包括但不限于步骤s410、步骤s420、步骤s430、步骤s440和步骤s450。
118.步骤s410：获取目标主持人的音视频数据；其中，音视频数据包括音频数据和视频数据。
119.需要说明的是，通过摄像头采集目标主持人的音视频数据，也即对目标主持人进
行目标演示材料演示时进行录像以得到音视频数据。其中，音视频数据包括音频数据和视频数据，通过对音视频数据进行分解成音频数据和视频数据。
120.步骤s420：对视频数据中人脸图像进行人脸识别，以得到情绪特征。
121.需要说明的是，视频数据记录了目标主持人的人脸变化、肢体形态、情绪表情，所以通过对视频数据进行人脸识别以得到目标主持人的情绪特征。其中，通过对视频数据进行图像分析，主要对人脸检测和特征点识别以得到空间坐标信息，根据空间坐标信息的时序迁移特征进行分类以得到情绪特征。在对视频数据进行识别主要采用mtcnn技术得到情绪特征。
122.步骤s430：对音频数据进行语调识别，以得到语调特征。
123.需要说明的是，音频数据主要记录了目标主持人进行演讲时的演讲内容和声音情绪，所以先对音频数据进行语调识别，也即对音频数据的声音情绪进行检测，以得到语调特征。其中，通过对音频数据进行语调识别主要获取音频数据中的声调频率，对声调频率进行特征分类以得到对应的语调特征。在本实施例中，采用神经网络算法，主要采用lstm算法对音频数据进行语调识别得到语调特征。
124.例如，若将语调特征分为正向特征、中性特征、负向特征，情绪特征也分为正向特征、中性特征和负向特征。当对视频数据中人脸图像进行人脸识别得到情绪特征是中性特征，对音频数据进行语调识别得到语调特征为负向特征，因此通过对音频数据进行语调识别能够进一步确定目标主持人的情感状态。
125.步骤s440：根据情绪特征和语调特征生成情感特征。
126.需要说明的是，通过综合情绪特征和语调特征以得到情感特征，以准确表征目标主持人的情感状态。例如，若情绪特征是中性特征，语调特征为负向特征，由于中性特征无法判断目标主持人的情感状态，通过将情绪特征和语调特征结合得到情感特征为负向特征，因此可以根据负向特征操控虚拟会议助理做出难过的表情，以提高目标嘉宾对于当前讲解内容的兴趣，从而提高信息传递的效果。
127.步骤s450：对音频数据进行内容分析，以得到当前讲解内容。
128.需要说明的是，音频数据记录了目标主持人的演讲内容和声音情绪，所以对音频数据拆分成词性数据和声调频率，通过获取音频数据中的词性数据，然后对词性数据进行语义识别以得到对应的当前讲解内容。因此，通过对音频数据中的音频内容识别以得到当前讲解内容，使得当前讲解内容获取简易，即可根据当前讲解内容操控虚拟会议助理需要做出反馈更加符合当前场景
129.请参照图5，在本技术的一些实施例中，步骤s420可以包括但不限于步骤s421、步骤s422和步骤s423。
130.步骤s421：将视频数据进行分帧处理，以得到多个视频帧图像。
131.需要说明的是，获取当前时段的视频数据，并将视频数据分成多个视频帧图像，即可根据多个视频帧图像中确定目标主持人的人脸变化，也即可以确定目标主持人的情感状态。
132.步骤s422：提取多个视频帧图像的表情特征和动作特征。
133.需要说明的是，通过提取多个视频帧图像的表情特征和动作特征，且每一个视频帧图像对应的表情特征和动作特征不同，即可根据不同的表情特征和动作特征确定人脸变
化，以分析出目标主持人的情感状态。其中，表情特征为视频帧图像中的人脸表情特征，而动作特征为视频帧图像中的面部动作特征，因此，通过获取视频帧图像的表情特征和动作特征，可以准确地分析人脸变化。
134.步骤s423：对表情特征、动作特征进行特征分析，以得到情绪特征。
135.需要说明的是，通过对多个表情特征、动作特征按照时序变化进行特征分析，以确定目标主持人的情绪特征。其中，通过根据表情特征和动作特征对应的特征点进行识别以得到空间坐标信息，然后对空间坐标信息的时序迁移进行分类以确定目标主持人的情绪特征。
136.请参照图6，在本技术的一些实施例中，步骤s600可以包括但不限于步骤s610、步骤s620、步骤s630和步骤s640。
137.步骤s610：将逻辑主题进行参数转换，以得到逻辑参数。
138.需要说明的是，预设反馈模型主要根据逻辑主题、情感特征和讲解主题进行逻辑推进预测以得到操控虚拟会议助理的反馈操控信息。但是预设反馈模型输入的是具体参数，所以需要将逻辑主题转换为参数形式，所以将逻辑主题进行参数转换以得到逻辑参数。其中，逻辑参数对应于逻辑主题的推进预测参数。
139.步骤s620：将情感特征进行参数转换，以得到情感参数。
140.需要说明的是，由于预设反馈模型需要输入参数进行反馈预测，所以需要将情感特征以参数形式进行转换，以得到情感参数。其中，情感参数对应情感的另一个推进预测参数。
141.步骤s630：将讲解主题进行参数转换，以得到讲解参数。
142.需要说明的是，讲解主题需要进行参数转换，以得到讲解参数，且讲解参数对应于讲解主题的另一个推进预测参数，因此可以根据逻辑参数、情感参数和讲解参数进行反馈预测，得到的反馈操控信息更加符合当前的场景和情感状态，从而引起目标嘉宾的共鸣，以提高目标嘉宾的吸引力。
143.步骤s640：根据逻辑参数、情感参数和讲解参数对预设反馈模型进行反馈分析，以得到反馈操控信息。
144.需要说明的是，将参数形式的逻辑参数、情感参数和讲解参数输入至预设反馈模型进行反馈分析，以得到反馈操控信息。因此，得到的反馈操控信息更加符合当前的场景和情感氛围，则根据反馈操控信息操控虚拟会议助理做出的反馈也更加容易引起目标嘉宾的互动，从而使得目标嘉宾和目标主持人的互动效果更优。
145.具体地，反馈操控信息包括：人脸操控信息、动作操控信息和语音操控信息，且不同的操控信息对应不同的预设反馈模型，所以根据逻辑参数、情感参数和讲解参数输入对应的预设反馈模型得到的操控信息不同。若预设反馈模型为基础策略模型，且基础策略模型为人脸操控信息对应的模型，且基础策略模型如下：
[0146][0147]
其中，x为对应状态特征值，b为对应特征的标准值，an为对应特征的权重系数，n为特征对应的序号，m为特征的数量，在时序上求积分值，获得f1(x)，即表情操控信息，各项参
数指标由神经网络模型计算得到，动作操控信息、语音操控信息同上。
[0148]
其中，通过神经网络模型生成逻辑参数、情感参数和讲解参数，且参数包括x、b、an，则将对应参数输入到基础策略模型以得到对应的操控信息，即可直接操控虚拟会议助理做出对应的反馈。
[0149]
例如，若当前时刻目标主持人讲解到“在面对重大疾病时，我们确实是非常脆弱的”、“医疗费用的支出可能会压垮一个家庭”、“不知道大家身边是否有类似的情况”，其次，分析视频数据中的情绪特征为负向，分析音频数据的语调特征也为负向，则根据逻辑参数、情感参数和讲解参数对预设反馈模型进行反馈分析得到反馈操控信息，根据反馈操控信息操控虚拟会议助理做出难过的表情和苦恼的动作，从而提高目标嘉宾和目标主持人的共情，以提高信息传递的效果。
[0150]
请参照图7，在本技术的一些实施例中，反馈操控信息包括人脸操控信息、动作操控信息和语音操控信息。因此，步骤s700可以包括但不限于步骤s710、步骤s720、步骤s730。
[0151]
步骤s710：根据人脸操控信息操控虚拟会议助理显示对应的表情状态；
[0152]
需要说明的是，人脸操控信息用于操控虚拟会议助理的表情，因此根据人脸操控信息操控虚拟会议助理显示对应的表情状态，从而实现目标嘉宾和目标主持人的互动，以提高目标主持人进行会议时的互动性。
[0153]
例如，若当前讲解内容和目标主持人的情感状态都是负向，则根据人脸操控信息操控虚拟会议助理做出难过的表情，从而带动目标嘉宾融入当前的讲解氛围，从而提高信息传递的效果。
[0154]
步骤s720：根据动作操控信息操控虚拟会议助理切换对应的动作；
[0155]
需要说明的是，通过根据动作操控信息操控虚拟会议助理做出对应的动作，以提高虚拟会议助理操控的丰富性，从而给目标嘉宾更加互动感，以提高信息传递的效果。
[0156]
例如，若当前讲解内容和目标主持人的情感状态为正向，则根据动作操控信息控制虚拟会议助理做出欢乐的动作，以丰富目标嘉宾和目标主持人的互动，从而提高信息传递的效果。
[0157]
步骤s730：根据语音操控信息操控虚拟会议助理播放对应的语音信息，以通过操控虚拟会议助理以构建目标主持人与目标嘉宾进行会议互动。
[0158]
需要说明的是，通过根据语音操控信息操控虚拟会议助理播放对应的语音信息，更加进一步丰富了虚拟会议助理的操控，从而丰富目标嘉宾和目标主持人之间的互动，进而提高信息传递的效果。
[0159]
例如，若当前讲解内容和目标主持人的情感状态都是负向，则根据语音操控信息操控虚拟会议助理播放的语音信息为“我们可以解决的，一切都会好起来的”。因此，通过操控虚拟会议助理播放语音信息，使得目标嘉宾更加融入当前会议氛围，从而提高信息传递的效果。
[0160]
综合上述，获取目标主持人的目标演示材料，并提取目标演示材料中的当前演示图像，对当前演示图像进行内容识别以得到演示内容，并对演示内容进行关键词提取以得到演示关键词。若主题标签为“医疗险”，演示关键词为“住院”，则根据“住院”从“医疗险”对应的预设数据库中提取多个候选关键词，且多个候选关键词分别为“社保”、“普通部”、“国际部”、“医疗资源”，并计算候选关键词和演示关键词之间的关联度，获取最大关联度值对
应的候选关键词作为逻辑主题，若最大关联度值对应的候选关键词为“社保”，则“社保”作为逻辑主题，并将“社保”转换为逻辑参数。同事获取目标主持人的音视频数据，对视频数据进行人脸表情变化分析和面部动作分析以得到情绪特征，再根据音频数据进行语调分析以得到语调特征，并综合语调特征和情绪特征以确定目标主持人的情感特征，且将情感特征转换为情感参数。同时，从音频数据中进行内容识别以得到当前讲解内容，并对当前讲解内容进行关键词提取以得到讲解主题，并将讲解主题转换为讲解参数。若得到情绪特征为负向，讲解主题为“癌症”，则将逻辑参数、情感参数和讲解参数对预设反馈模型进行反馈预测得到反馈操控信息，且根据反馈操控信息操控虚拟会议助理做出难过的表情、苦恼的动作以及安慰人心的语音信息。因此，通过考虑多方面的特征参数生成反馈操控信息，既能控制虚拟会议助理做出符合当前会议氛围的反馈，又能够提高目标嘉宾和目标主持人的互动效果，从而提高了信息传递的效果。
[0161]
另外，请参照图8，本技术的另一个实施例公开了一种会议互动装置，该装置包括：第一获取模块801，用于获取目标演示材料，目标演示材料包括：主题标签和当前演示图像；关键词提取模块802，用于对当前演示图像进行关键词提取，以得到演示关键词；主题提取模块803，用于根据演示关键词从主题标签对应的预设数据库中提取逻辑主题；第二获取模块804，用于获取目标主持人的情感特征和当前讲解内容；分析模块805，用于对当前讲解内容进行内容分析，以得到讲解主题；反馈预测模块806，用于根据逻辑主题、情感特征和讲解主题对预设反馈模型进行反馈预测，得到反馈操控信息；操控模块807，用于根据反馈操控信息操控虚拟会议助理，以通过操控虚拟会议助理构建目标主持人与目标嘉宾进行会议互动。
[0162]
本公开实施例的会议互动装置用于执行上述实施例中的会议互动方法，其具体处理过程与上述实施例中的会议互动方法相同，此处不再一一赘述。
[0163]
本公开实施例提供的会议互动装置，通过获取目标演示材料的当前演示图像，然后对当前演示图像进行关键词提取以得到演示关键词，再根据主题标签确定对应的预设数据库，则根据演示关键词从对应的预设数据库中提取对应的逻辑主题，然获取目标主持人的情感特征和当前讲解内容，以对当前讲解内容进行内容分析得到讲解主题，最后根据逻辑主题、情感特征和讲解主题输入预设反馈模型进行反馈预测，以得到反馈操控信息，根据反馈操控信息对虚拟会议助理进行对应的操控，以实现目标主持人和目标嘉宾的互动，从而提高目标主持人进行会议互动时的吸引力，进而提高目标主持人进行信息传递的效果。
[0164]
另外，本技术的另一个实施例公开了电子设备，至少一个存储器；
[0165]
至少一个处理器；
[0166]
至少一个程序；
[0167]
所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本公开实施上述的会议互动方法。该计算机设备可以为包括手机、平板电脑、台式电脑、个人数字助理(personal digital assistant，简称pda)、车载电脑等任意智能终端。
[0168]
请参阅图9，图9示意了另一实施例的计算机设备的硬件结构，计算机设备包括：
[0169]
处理器901，可以采用通用的cpu(centralprocessingunit，中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；
[0170]
存储器902，可以采用rom(readonlymemory，只读存储器)、静态存储设备、动态存储设备或者ram(randomaccessmemory，随机存取存储器)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本公开实施例的会议互动方法；
[0171]
输入/输出接口903，用于实现信息输入及输出；
[0172]
通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信；
[0173]
总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；
[0174]
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
[0175]
本公开实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述会议互动方法。
[0176]
存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0177]
本公开实施例提供的会议互动方法、会议互动装置、电子设备及存储介质，通过当前演示图像确定逻辑主题，再获取目标主持人的情感特征和当前讲解内容，并对当前讲解内容进行分析得到讲解主题，最后根据逻辑主题、情感特征和讲解主题对预设反馈预测模型进行反馈预测以得到反馈操控信息，以根据反馈操控信息操控虚拟会议助理做出对应的反馈，使得目标主持人和目标嘉宾进行互动，从而提高目标嘉宾的吸引力，以提高信息传递的效果。
[0178]
本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。
[0179]
本领域技术人员可以理解的是，图1至图7中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
[0180]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0181]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0182]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的
数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0183]
应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
[0184]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0185]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0186]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0187]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序的介质。
[0188]
以上参照附图说明了本公开实施例的优选实施例，并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本公开实施例的权利范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种通信方法、模型处理方法及相关设备与流程

会议互动方法、会议互动装置、设备及存储介质与流程

相关文献

最热文献