视频会议中的错误音频设置的智能检测和自动纠正的制作方法

2022-02-24 18:45:11 来源：中国专利 TAG：

视频会议中的错误音频设置的智能检测和自动纠正
1.版权声明
2.本专利文档的公开的一部分包含受版权保护的材料。版权所有人不反对任何人在专利文档或专利公开出现在专利商标局文件或记录中时对其进行复制再现，但是除此之外保留所有一切版权权利。
技术领域
3.本发明总体上涉及用于基于视频的通信的系统和方法，并且特别地涉及在视频会议中智能地将端点静音和解除静音。

背景技术：

4.在电话会议期间以下情况是常见的：期望某人讲话，而听到静默，随后一个或多个其它参与者询问：“您静音了吗？”，有时甚至有必要通过不同的通道(例如，聊天)与试图讲话的参与者沟通，让他们知道他们没有被听到，很可能是因为他们仍处于静音。其它参与者要么继续进行，忽略来自试图讲话者的贡献，要么等待直到他们被解除静音。一旦讲话者意识到他在静音下说话并且解除了静音，讲话者就必须重复在静音时所说的一切。
5.相反，主持人经常需要宣告：“请没有讲话的那些人静音，好吗？”，以避免从没有讲话的参与者的通信设备拾取的无关的谈话和背景噪声。会议管理者可能需要在整个会议期间一遍又一遍地提醒参与者注意这一点。无关的噪声可能使人分心，或者使得更难甚至无法理解预期的内容。此外，无关的噪声和无意地静音的讲话者导致会议参与者的差的体验。会议的连续性或流程被中断和/或期望的内容可能被忽略。

技术实现要素：

6.在商业和其它环境中，其中至少两个参与者通过网络经由通信端点进行沟通的电子会议或开会(在本文中，“会议”或“视频会议”) 是常见的。不幸的是，讲话者一直说话而没有意识到他们处于静音也是常见的，这导致了混乱、浪费时间和视频会议被扰乱。无关的噪声被从与没有讲话并且可以被静音的参与者关联的解除静音的端点拾取并且插入到视频会议中也是常见的。
7.本文呈现的各种实施例和方面解决了这些和其它需求。取决于特定配置，实施例提供了若干优点。
8.在一个实施例中，并且作为对本文中的实施例的总体介绍，提供了一种系统，以识别端点正在向视频会议提供无关的音频(例如，与端点关联的参与者没有讲话，但是该端点正在向视频会议提供音频) 的事实，并且智能地采取动作；和/或该系统识别讲话者在静音下正在讲话的事实，并且类似地在需要任何人工干预之前自动采取动作以将视频会议中的参与者静音/解除静音。
9.某些现有技术系统将会议参与者连同该参与者用来提供其音频和视频以包括到视频会议中的端点终端一起登记。这允许服务器可以辨识到达服务器的媒体流来自特定
参与者。这样的现有技术系统可以允许参与者看到所有会议参与者的列表和当前讲话的参与者的标记，诸如突出显示。类似地，当参与者处于静音时，可以连同参与者的标记 (诸如参与者的名字、头像、缩略图等)一起提供标记(诸如静音符号(例如，))，以将参与者辨识为被静音。本文中提供的实施例超越了现有技术系统，并且总体上推动了现有技术水平。此外，如果参与者没有分享视频，则可以连同辨识参与者的标记一起提供标记，诸如
10.在一个实施例中，提供了一种系统以实现端点的智能静音/解除静音，这可以由执行功能或模块的微处理器(在本文中，“处理器”) 执行，这可以包括以下中的一个或多个：
11.1.人工智能(ai)驱动的面部移动识别和分析模块：在一个实施例中，处理器执行模块，该模块负责分析从端点接收的媒体流的视频部分，以确定视频部分中的参与者是否正在活跃讲话或没有讲话。该分析可以包括对参与者的嘴唇的移动、讲话中涉及的其它面部特征、他的目光的方向(例如，朝着与远离端点、其它地方等)和/或面部表情做出确定。该分析可以进一步包括确定在视频部分中检测到多少个人(如果有的话)。
12.2.自然语言处理模块：在一个实施例中，处理器执行模块，该模块用于支持以上#1中描述的话音分析和处理模块、以及下面描述的音频分析和处理模块#3。这里，自然语言处理模块将实时处理和分析视频会议中的谈话以确定上下文。例如，从在会议期间捕获的参与者的讲出的名字中辨识出捕获的语音是说给视频会议中的特定参与者的。
13.一旦辨识出特定参与者的名字，诸如从视频会议的一部分期间的使用辨识出，就可以利用自然语言处理(nlp)来确定使用该名字的句子的上下文、以及该句子是说给该参与者的问题还是提及了会议的非参与者。这个确定可以进一步用于增强参与者现在正在活跃讲话或者预计将在视频会议中讲话(例如，对问题进行响应)的事实。
14.3.音频分析和处理模块：在一个实施例中，服务器的处理器执行模块，以从参与者的端点接收音频流。可以针对诸如强度/响度、音高、音调等的音频特性来分析音频部分。对音频流进行分析，优选地与其它数据(诸如来自视频分析和处理模块和/或自然语言处理模块)一起实时分析。其它数据，诸如参与者名单、会议议程等，也可以用于加强视频会议中的活跃讲话者的确定。
15.当参与者使用软客户端(或web客户端)连接到会议并且使用软 /web客户端将他自己/她自己静音时，数据流仍然可以被传递到会议服务器，然而服务器不将该流广播给其它参与者。因此，参与者可能在静音下讲话，然而，服务器仍然能够访问来自参与者的端点/终端的数据流。
16.软客户端在将数据传递给服务器之前会在它那一端做筛选。初始筛选可以包括检查，以确定语音的强度是否超过某个阈值，诸如人类的听觉极限，并且过滤掉低于这个极限的音频信号。高于该极限的信号被传递给会议服务器。
17.当参与者在静音下讲话时，服务器使用从软客户端接收的数据来将它与基线数据(诸如来自nlp模块的信号和/或训练数据)进行比较，以确定该参与者正在会议中活跃讲话，但是在静音下讲话。
18.4.置信模块：在一个实施例中，处理器执行模块，以在接收到与动作/提醒事件关联的置信分数时执行动作。该模块可以在任何人工干预之前，或者为了避免任何人工干
预，包括在确定活跃参与者正在静音下讲话时，基于置信分数主动地采取动作：
19.非常低的置信分数：不采取动作。
20.低置信分数：触发参与者的端点进行的视觉指示符的呈现，指示他们正在静音下讲话。
21.中等：触发参与者的端点进行的他们正在静音下讲话的听觉通告。
22.高：在基于法律考虑许可的情况下，自动将参与者的音频解除静音。
23.当做出在端点没有静音时提供的音频不是用于包括在会议中的确定时，具体的置信水平可以导致特定的动作，包括：
24.非常低的置信分数：不采取动作。
25.低置信分数：触发参与者的端点进行的视觉和/或听觉暗示的呈现，指示他们正在向会议提供音频并且可能需要被静音。
26.中等：触发他们正在生成被提供到会议的噪声并且如果没有参与会议则应当静音的视觉和/或听觉通告的呈现。
27.高：自动将参与者的端点静音。
28.除了自动确定阈值置信分数以外，参与者、会议主持人或其它管理员还可以配置阈值和/或禁用自动静音/解除静音，带有或不带有通告或指示参与者应当手动发起对其端点的静音/解除静音的通告功能。以下可能是必要的或有益的：警告参与者在被静音时他们的音频将被监视，但是这样的监视仅仅是为了确定在静音时提供的音频是否指示音频应当被解除静音，或者反之，诸如根据本发明将被用于的当地国家/地区强制实施的法律/法规。
29.如上所述收集的数据然后可以被用于训练一个或多个机器学习 (ml)模型。为了减少误报，可以执行过滤，以便排除人类可听水平之外的声音。这个数据被用于随后的视频会议中。
30.在另一实施例中，利用训练数据和来自参与者的端点的传入的实时流(例如，视频和音频)，置信模块分配置信分数，该置信分数反映参与者正在活跃讲话、要向会议提供语音但是处于静音的置信度。响应于置信分数高于先前确定的阈值，创建提醒事件并且将其发送到会议服务器，诸如提醒模块(参见下文)。
31.#5提醒/静音模块：在一个实施例中，处理器执行模块，以向端点发送关于静音/解除静音状态的通知。例如，该通知可以在执行静音动作之前或之后发送。提醒/通知可以包括以下中的至少一个：文本、视觉和/或听觉提醒。
32.此外，系统可以包括会议参与者登记和辨识模块：在一个实施例中，当参与者加入会议时，会议服务器或系统的处理器将参与者连同参与者使用的端点终端一起登记。这允许服务器将到达服务器的媒体流(例如，音频和视频部分)与来自特定端点/参与者关联。如本文所述，会议服务器的至少一个处理器可以执行组件/模块，以便响应于确定参与者可能正在讲话，意图是使语音被包括在会议中，但是当前被静音，而确定参与者的端点是否应当被自动解除静音或者是否应当采取其它动作(例如，传送解除静音的通知)。此外，会议服务器可以响应于确定来自端点的音频部分与视频会议无关(例如，参与者的语音不旨在用于视频会议、语音不可辨别、音频包括背景噪声等)，而确定参与者的端点是否应当被自动静音或者被自动通知进行静音。
33.本文中的实施例提供了使用nlp/人工智能(ai)(其也可以包括机器学习、深度学习或其它机器智能和话音识别技术)分析参与者的贡献的音频和/或视频，以做出用户没有在视频会议中讲话但是正在向视频会议贡献音频(例如，噪声、无关的语音等)的确定，并且在需要任何人工干预之前自动采取适当的动作，由此保留视频会议中的参与者的丰富用户体验。
34.本文中的其它实施例提供了分析参与者的贡献的音频和/或视频，以做出用户在视频会议中实际上是在静音下讲话的确定，并且由系统自动采取适当的动作，而不需要任何人工干预，由此保留视频会议中的参与者的丰富用户体验。可以利用nlp或其它机器智能来解析由对一个参与者说话或者提及一个参与者的另一个参与者讲出的句子。例如，问针对另一个参与者的问题(例如，“让我们看看文档。您准备好了吗，爱丽丝？”)是针对爱丽丝的问题，并且作为结果，爱丽丝利用的端点应当进行响应。如果没有，则可以向该端点发送提醒/通知。在一些实施例中，该端点可以被自动解除静音。如果nlp确定该提及不是针对另一个参与者(例如，“让我们看看由爱丽丝分享的文档。”)，那么可以不期望爱丽丝利用的端点进行响应，并且当前的静音/解除静音状态保持不变。
35.公开了各种实施例和实施例的一些方面，包括：
36.在一个实施例中，公开了一种视频会议服务器。所述视频会议服务器包括：去往网络的网络接口；存储组件，包括非暂态存储设备；处理器，包括至少一个微处理器；并且其中所述处理器在访问机器可执行指令时使所述处理器执行：经由所述网络向多个端点中的每一个广播会议内容，其中所述会议内容包括从所述多个端点中的每一个接收的音频部分和视频部分；智能地处理来自至少一个端点的至少视频部分以确定相应的音频部分是否与所述会议内容无关；以及在确定所述相应的音频部分与所述会议内容无关时，执行静音动作以将所述相应的音频部分从所述会议内容中排除。
37.在另一实施例中，公开了一种在视频会议中智能地将端点静音的方法。所述方法包括：向多个端点中的每一个广播会议内容，其中所述会议内容包括从所述多个端点中的每一个接收的音频部分和视频部分；智能地处理来自至少一个端点的至少视频部分以确定相应的音频部分是否与所述会议内容无关；以及在确定所述相应的音频部分与所述会议内容无关时，执行静音动作以将所述相应的音频部分从所述会议内容中排除。
38.在另一实施例中，公开了一种在视频会议中智能地将端点解除静音的方法。所述方法包括：向多个端点中的每一个广播会议内容，其中所述会议内容包括从所述多个端点中的每一个接收的音频部分和视频部分；智能地处理来自至少一个端点的至少视频部分以确定参与者是否被无意地静音；以及在确定所述参与者可能被无意地静音时，执行向与被无意地静音的参与者关联的端点发信号以使所述关联的端点提示所述被无意地静音的参与者将其音频解除静音。
39.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器自动将与所述相应的音频部分关联的端点静音；以及向被自动静音的端点传送消息，指示所述端点被自动静音了。
40.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器给与所述相应的音频部分关联的端点发信号以使所述关联的端点提示参与者将其音频静音。
41.前述实施例中的任何一个或多个的一些方面包括当置信分数高于阈值时，所述
视频会议服务器自动将与所述相应的音频部分关联的端点静音。
42.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器确定所述至少视频部分中的参与者正在讲话但是没有看着其屏幕。
43.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器确定所述至少视频部分中的参与者没有讲话和/或所述相应的音频部分不包括语音。
44.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器确定在所述至少视频部分中不存在人。
45.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器确定正在从所述至少一个端点分享音频；并且确定以下中的至少一个：参与者的嘴唇没有移动、参与者的其它面部部分没有指示讲话、和/或参与者的面部表情没有指示讲话。
46.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器智能地处理来自至少一个端点的至少视频部分以确定参与者是否被无意地静音；以及在确定所述参与者可能被无意地静音时，给与被无意地静音的参与者关联的端点发信号以使所述关联的端点提示所述被无意地静音的参与者将其音频解除静音。
47.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器确定所述至少一个端点被静音，与所述至少一个端点关联的参与者正在看着相机和/或屏幕，以及以下中的至少一个：所述参与者的嘴唇正在移动、所述参与者的其它面部部分指示讲话、和/或所述参与者的面部表情指示讲话。
48.前述实施例中的任何一个或多个的一些方面包括所述视频会议服务器智能地处理来自至少一个端点的至少音频部分以确定与特定的会议参与者关联的名字被讲出了；以及在确定与所述特定的会议参与者关联的名字被讲出了时，向与所述特定的会议参与者关联的端点传送将其音频解除静音的提示。
49.前述实施例中的任何一个或多个的一些方面，其中所述提示以下中的至少一个：文本、视觉、和/或听觉提醒。
50.前述实施例中的任何一个或多个的一些方面包括向与所述相应的音频部分关联的端点发送信号以使所述关联的端点提示参与者将其音频静音。
51.前述实施例中的任何一个或多个的一些方面包括当置信分数高于阈值时，自动将与所述相应的音频部分关联的端点静音。
52.前述实施例中的任何一个或多个的一些方面包括确定所述至少视频部分中的参与者正在讲话但是其目光没有指向其设备。
53.前述实施例中的任何一个或多个的一些方面包括确定所述至少视频部分中的参与者没有讲话和/或所述相应的音频部分不包括语音。
54.前述实施例中的任何一个或多个的一些方面包括确定所述至少一个端点被静音，所述参与者正在看着相机和/或屏幕，以及以下中的至少一个：所述参与者的嘴唇正在移动、所述参与者的其它面部部分指示讲话、和/或所述参与者的面部表情指示讲话。
55.前述实施例中的任何一个或多个的一些方面包括智能地处理来自至少一个端点的至少音频部分以确定与特定的会议参与者关联的名字被讲出了；以及在确定与所述特定的会议参与者关联的名字被讲出了时，给与所述特定的会议参与者关联的端点发信号以提示特定的会议参与者将其音频解除静音。
56.短语“至少一个”、“一个或多个”、“或者”以及“和/或”是在操作中既是联合的也是分离的开放式表达。例如，表达“a、b和c中的至少一个”、“a、b或c中的至少一个”、“a、b和c中的一个或多个”、
ꢀ“
a、b或c中的一个或多个”、“a、b和/或c”以及“a、b或c”中的每一个意指单独a、单独b、单独c、a和b一起、a和c一起、b 和c一起，或者a、b和c一起。
57.术语“一”或“一个”实体指的是一个或多个该实体。这样，术语
ꢀ“
一”(或“一个”)、“一个或多个”以及“至少一个”在本文中可以可互换地使用。还应当注意，术语“包括”、“包含”以及“具有”可以可互换地使用。
58.本文中所使用的术语“自动”及其变型指的是任何过程或操作，该过程或操作一般是连续的或半连续的，并且在过程或操作被执行时在没有实质的人工输入的情况下完成。然而，如果输入在过程或操作的执行之前被接收到，则过程或操作可以是自动的，即使过程或操作的执行使用实质或非实质的人工输入。如果人工输入影响过程或操作将如何被执行，则这样的输入被认为是实质的。同意过程或操作的执行的人工输入不被认为是“实质的”。
59.本公开的方面可以采用完全是硬件的实施例、完全是软件(包括固件、驻留软件、微代码等)的实施例、或者组合软件和硬件方面的实施例(在本文中一般可以全部被称为“电路”、“模块”或“系统”)的形式。一种或多种计算机可读介质的任何组合可以被利用。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质，其在由微处理器读取时使微处理器执行其中编码的指令。
60.计算机可读存储介质可以是例如，但不限于，电子的、磁的、光学的、电磁的、红外的或半导体的系统、装置或设备，或者前面的任何合适组合。计算机可读存储介质的更多具体示例(非穷尽列举)将包括以下：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器 (eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光学存储设备、磁存储设备，或者前面的任何合适组合。在本文档的上下文中，计算机可读存储介质可以是可包含或存储由或者结合指令执行系统、装置或设备使用的程序的任何有形、非暂态的介质。
61.计算机可读信号介质可以包括例如在基带中或者作为载波的一部分的传播的数据信号(其中包含有计算机可读程序代码)。这样的传播信号可以采取各种各样的形式(包括，但不限于，电磁的、光学的、或它们的任何合适组合)中的任何一种。计算机可读信号介质可以是任何计算机可读介质，该计算机可读介质不是计算机可读存储介质并且可以传达、传播或传输程序以由或者结合指令执行系统、装置或设备使用。包含在计算机可读介质上的程序代码可以使用任何适当的介质(包括但不限于无线、有线线路、光纤电缆、rf等、或者前面的任何合适组合)来传输。
62.本文中所使用的术语“确定”、“计算”和“运算”、以及它们的变型可互换地使用，并且包括任何类型的方法、过程、数学运算或技术。
63.本文中所使用的术语“手段”应当根据35u.s.c.第112(f)部分和 /或第112部分第6段来给予其最广泛的可能解释。因此，含有术语“手段”的权利要求应当覆盖本文中阐述的所有结构、材料或动作、及其全部等同物。此外，结构、材料或动作及其等同物应当包括发明内容、附图说明、具体实施方式、摘要和权利要求自身中描述的所有那些。
64.前面是简化的发明内容以提供本发明的一些方面的理解。这个发明内容既不是
本发明及其各种实施例的广泛性概述，也不是穷尽性概述。它既不是旨在认定本发明的关键或紧要的要素，也不是旨在划定本发明的范围，而是要以简化的形式呈现本发明的选择的概念，作为对以下呈现的更详细的描述的介绍。如将意识到的，本发明的其它实施例单独地或组合地利用以上阐述的或者以下详细描述的特征中的一个或多个是可能的。而且，虽然本公开从示例性实施例的角度呈现，但是应当意识到，本公开的各个方面可以单独地请求保护。
附图说明
65.本公开结合附图进行描述：
66.图1描绘了根据本公开的实施例的第一系统；
67.图2描绘了根据本公开的实施例的第一交互；
68.图3a-3c描绘了根据本公开的实施例的第二交互；
69.图4描绘了根据本公开的实施例的第一过程；
70.图5描绘了根据本公开的实施例的第二过程；
71.图6a-6b描绘了根据本公开的实施例的第三交互；
72.图7a-7b描绘了根据本公开的实施例的第四交互；
73.图8a-8b描绘了根据本公开的实施例的第五交互；
74.图9a-9c描绘了根据本公开的实施例的第六交互；以及
75.图10描绘了根据本公开的实施例的视频会议服务器。
具体实施方式
76.接下来的描述仅提供实施例，并不旨在限制权利要求的范围、适用性或配置。更确切地说，接下来的描述将向本领域技术人员提供用于实现实施例的可行描述。将理解到，在不脱离所附权利要求的精神和范围的情况下，可以在元素的功能和布置上进行各种改变。
77.包括元素编号的描述中的任何引用(当子元素标识符存在于附图中时没有子元素标识符、当以复数使用时)旨在引用具有相似的元素编号的任何两个或更多个元素。当这样的引用是以单数形式进行时，它旨在引用具有相似的元素编号的元素中的一个，而不限于元素中的特定一个。本文中相反的或者提供进一步的限定或标识的任何明确的使用应当优先。
78.本公开的示例性系统和方法也将关于分析软件、模块和关联的分析硬件来进行描述。然而，为了避免不必要地模糊本公开，以下描述省略了众所周知的结构、组件和设备，这些结构、组件和设备可以从附图中省略或者在附图中以简化的形式示出，或者以其它方式概述。
79.出于解释的目的，阐述了许多细节以便提供本公开的透彻理解。然而，应当意识到，本公开可以以超出本文中阐述的具体细节的各种方式来实施。
80.图1描绘了根据本公开的实施例的系统100。在一个实施例中，在参与者102(例如，参与者102a-d)之间建立和维持视频会议，其中音频、视频、文档、共同浏览和/或其它媒体被广播给参与者102a-d 中的每一个。会议的音频部分可以包括由参与者102a-d中的
在单个会议中会议管理员将需要多次做出这种请求，这并不罕见。另一个问题是，用户在静音时讲话，而且没有被听到。这可能导致其它用户问：
ꢀ“
您静音了吗？”或者“我的音频正常吗？我什么都听不到。”其它用户必须等待，直到静音的讲话者解除静音，而且在静音的讲话者解除静音之后，讲话者必须重复在静音时所说的内容。这些交流是相当常见的，并且不能导致高效和有效的会议。这些扰乱中断了视频会议的连续性/流程。
86.如果视频会议系统能够自动检测到讲话者正在向视频会议中讲话时被静音，或者用户没有向会议中讲话但是由于该用户没有被静音所以对视频会议贡献了非预期的噪声(例如，背景噪声、向视频会议外的某人讲话等)，则可以向会议参与者提供丰富得多的体验。在智能地检测到参与者应当被静音/解除静音之后，视频会议系统可以自动且智能地采取动作，而不需要来自会议管理员/其它参与者的人工干预。在一些示例中，视频会议系统可以利用技术，诸如人工智能，特别是深度学习、图像识别和自然语言处理，以智能地检测到参与者应当被静音/解除静音。
87.在一些实施例中，ai驱动的面部移动识别和分析模块可以采用一个或多个ai视觉库，这些ai视觉库将被利用人类面部结构和面部特性的大量样本进行训练，以便该模块识别任何新提供的面部图像的不同部分并且辨识该图像中的不同面部部分的移动。可以使用人工神经网络来实现这一点。nlp也可以基于机器学习，并且nlp模块也将被充分训练，在一些情况下利用会议系统将被用于的特定领域的语言/ 术语。这些组件也可以是由第三方云服务提供商提供的云中托管的服务。
88.例如，参与者102a可能正在试着向视频会议讲话，然而参与者 102a可能不经意地处于静音，并且视频会议中的其它参与者102b-d 没有觉察到参与者102a试图做出的贡献。相反，参与者102b可能正在贡献与会议无关的声音。该声音可能是针对没有参加会议的另一方的讲话或者其它不需要的噪声(例如，背景噪声、敲击声、嗡嗡声等)。参与者102b可能错误地认为他们处于静音，或者认为不需要的噪声正在被关联的麦克风108b拾取。作为结果，其它参与者(例如，参与者102a、102c、102d)可能发现不需要的噪声使人分心或者难以听到视频会议中的活跃讲话者。在前面的示例中，资源经常被浪费，并且会议的流程被中断，直到参与者102b被恰当地静音/解除静音。
89.图2描绘了根据本公开的实施例的交互200。应当意识到，这篇文章的性质使得可以体现为声波或编码的电信号或数据包的讲话内容和其它声音需要被表示为文本。这个使用文本的表示不应当与实际的文本(例如，文本聊天、短信息服务(sms)、电子邮件等)混淆。虽然文本的发送和接收可以可选择性地被利用并且被融入到视频会议内容中，但是基于文本的通信在本文提供的实施例的范围之外。另外，交互200和300(参见图2和图3a-b)中的每一个图示了系统100及其组件(参见图1)的某些特征和动作，并且省略了其它特征和动作以避免不必要地使附图和关联的描述复杂化。
90.在一个实施例中，服务器110正在呈现会议内容210，其包括经由其各自的端点104a-d传送到参与者102a-d的音频和视频内容。会议内容的视频部分在图2中没有描绘，以避免不必要地使附图和关联的描述复杂化。会议内容210的音频部分包括由一个或多个端点(例如，端点104a-c)和关联或集成的麦克风108连续地或间歇地贡献的音频202、204和206。
91.在一个实施例中，端点104a向服务器110提供音频202，该服务器110继而广播现
在包括贡献的语音(例如，音频202)的会议内容 210。类似地，端点104c向服务器110提供音频206，该服务器110 继而广播现在包括贡献的语音(例如，音频202)的会议内容210。端点104b向服务器110提供音频204(例如，背景噪声)。在服务器 110确定音频204与会议无关时，服务器110执行静音动作以将音频 204从会议内容210中排除。确定声音(诸如音频204)与会议无关针对随后的实施例更完整地讨论。在一个实施例中，服务器110向端点 104b发送静音通知/动作信号208，并且作为响应，端点104b激活通知电路或逻辑以提示参与者102b手动激活端点104b的静音特征和/ 或自动激活端点104b的静音特征。在一个实施例中，静音特征允许声音继续被捕获并且从端点104b发送到服务器110，但是服务器110 将该声音从会议内容210中排除。在其它实施例中，静音通知/动作信号208可以进一步包括向端点104b发信号通知它们已被置于静音，和/或向所有端点104a-d发信号通知端点104b处于静音。尽管服务器110可以自动将参与者(例如，参与者102b)静音，但是在一些示例中，由于隐私和/或法律忧虑，服务器可能不自动将参与者102(例如，参与者102b)解除静音。
92.图3a-3b描绘了根据本公开的实施例的交互300。如图3a中所示，参与者102d向服务器110提供音频部分302，“爱丽丝，我们在会议之前需要做什么？”。参与者102a(例如，爱丽丝)经由麦克风 108a和端点104a贡献音频部分304(例如，语音)“对于客户会议，我们将需要
……
。”然而，端点104a被静音，使得音频部分304没有被服务器110接收到，并且其它参与者102(例如，参与者102b、 102d)仅听到音频部分306(例如，《静默》)。
93.在服务器110上运行的视频会议系统可以智能地确定参与者 102a正在试图向视频会议中讲话。在一个示例中，服务器110可以使用自然语言处理(nlp)或其它语音识别方法来检测名字/关键字320 被讲出。在这个示例中，爱丽丝是参与者102a的名字，其由参与者 102d讲出。nlp可以进一步确定预计有来自爱丽丝(例如，参与者 102a)的响应。如将针对随后的实施例更详细地讨论的，在确定特定端点104是否被错误地静音时，可以使用其它标准。可以利用nlp来指示正在对参与者说话并且预计有响应(例如，“让我们看看文档并且转交给爱丽丝。”、“爱丽丝，请审阅文档。”、“爱丽丝，您能对文档进行解释吗？”等)，而不是仅仅提及参与者(例如，“让我们看看爱丽丝提供的文档。”等)。
94.在另一示例中，服务器110可以智能地分析由参与者102a贡献的视频部分，以确定参与者102a正在向视频会议中讲话(例如，目光朝向端点104a并且嘴唇正在移动)。为了避免由于端点104a不经意地处于静音而使音频部分304被从会议内容中排除，服务器110可以确定端点104a被错误地静音，并且作为响应，执行解除静音通知/ 动作310以使音频部分304被包括在会议内容中，如图3b中所示。在一些实施例中，服务器110还可以缓冲来自端点104a的音频部分 304，并且一旦参与者102a已解除静音就播放缓冲的音频部分304。
95.在一个实施例中，解除静音通知/动作310可以包括使端点104a 的电路或逻辑通电，以通知参与者102a他们处于静音和/或提示参与者102a手动对端点104a解除静音。例如，端点104a可以播放生成或记录的消息或提示音和/或在与端点104a关联的显示器上提供视觉提示(例如，“爱丽丝，您处于静音。”)。作为进一步的选项，端点104a可以重放音频部分302的全部或一部分。重放音频部分302 的全部或一部分重新提示参与者102a提供响应。如果参与者102a确实提供了响应(诸如在静音时)，则可以进行静音时接收到的音频部分304的录音，并且将其重放到会议中。例如，参与者102a在端点 104a处于静音时可以通过
说出一两个字词(例如，“对于
……”
)来开始提供音频部分304。在端点104a被解除静音之后，服务器110 可以缓冲在端点104a被解除静音之后提供的字词，并且缓冲的语音之前录音的语音可以作为会议内容(例如，会议内容308)被回放到会议中，直到音频部分304是现场的。如果在静音期间提供的音频部分304多于几个词(例如，多于十秒)，那么可以提示用户102a发起回放静音时提供的音频部分304或者再次重复音频部分304。一旦参与者102(例如，参与者102a)被解除静音，解除静音通知/动作 310就可以进一步包括参与者102关闭了静音的通知(例如，提示音、消息、弹出消息等)。作为进一步的选项，可以向所有端点(例如，端点104a-d)通知端点104的开启静音/关闭静音状态，并且当改变时，每个端点104被相应地更新，诸如利用消息(例如，“爱丽丝开启了静音”或者“爱丽丝关闭了静音”)或者具有与静音状态关联的含义的图形图标。如图3c中所示，可选地，音频部分304可以被缓冲并且作为会议内容308被重放，使得在解除静音通知/动作310导致端点104a解除静音之前提供的任何语音被作为不中断的语音提供，但是具有由音频部分304的开始和解除静音动作的发生所决定的延迟。在这样的实施例中，音频部分304可以被实时提供，并且可以被缓冲，而且仅缓冲的内容被提供作为会议内容308。解除静音动作(例如，解除静音通知/动作310)可以使缓冲终结。一旦缓冲的内容被播放，实时语音就可以被提供作为会议内容308，以便对会议参与者提供最佳体验。
96.图4描绘了根据本公开的实施例的过程400。过程400可以体现为被编码为机器可读指令的算法，这些机器可读指令在被处理器(诸如服务器110的处理器)读取时，使处理器执行该算法的步骤。在一个实施例中，过程400确定从参加会议的特定端点104接收的音频与会议无关并且应当被从会议内容中排除。
97.在一个实施例中，过程400在步骤402中向参与者102广播会议内容(例如，音频和视频部分)，诸如由服务器110向每个端点104 广播会议内容以呈现给关联的参与者102。步骤402发起或继续广播会议内容，并且在过程400的其它步骤被执行时可以被连续地执行，直到会议终止。会议内容包括在步骤404中从一个或多个个体端点104 接收的音频和视频。测试406确定由特定端点104接收的音频是否与会议无关，并且如果确定为否定，则处理继续到测试410。如果测试 406被确定为肯定，则处理继续到步骤408，其中由特定端点104接收的音频被静音以排除从该端点接收的当前和/或未来的音频在步骤402 中被广播。静音可以通过服务器(诸如提供会议内容的服务器110) 的处理器自动执行，或者通过到特定端点104的执行静音电路的信号自动执行，该信号在被关联的参与者102接收时执行静音动作。测试 410确定会议是否已终止，并且如果确定为肯定，则过程400可以结束，并且在步骤402中发起/继续的会议内容的广播可以不继续(如果尚未终结的话)，否则处理可以继续并且循环回到步骤404。
98.测试406被各种各样地体现以确定从特定端点104接收的音频与会议无关。例如，从特定端点104接收的音频可以包括高于某个阈值水平(例如，音量)或持续期的非语音声音(例如，图6a-6b)。这可以包括环境噪声(例如，街道、敲击笔、办公设备、餐厅背景噪声、动物、婴儿哭声、儿童玩耍等)，并且因不包括语音或者不包括足够的可理解的语音而被排除。对传入的音频执行音频分析，可以针对人类话音的各种特性(诸如强度、音量、音调、音高、范围以及可选地语言(如果它与会议的语言相同的话))对其进行分析。作为示例，人类话音的强度为50-70分贝，而其它声音(诸如狗叫或车辆鸣笛等) 的强度则高得多，大约
为90分贝。
99.从特定端点104接收的音频可以包括语音，但是被从会议内容中排除，因为该语音被进一步确定为与会议无关。例如，语音可能是办公环境的喧闹，其中其它人的语音形成噪声的喧闹，并且语音是部分或完全不可理解的。可理解的语音可能仍然被确定为与会议无关，并且被从会议内容中排除，这将针对图7a-7b和图9a-9b更完整地讨论。
100.图5描绘了根据本公开的实施例的过程500。过程500可以体现为被编码为机器可读指令的算法，这些机器可读指令在被处理器(诸如服务器110的处理器)读取时，使处理器执行该算法的步骤。在一个实施例中，过程500确定参与者可能被错误地静音并且应当被通知解除静音。
101.在一个实施例中，过程500在步骤502中向参与者广播会议内容，诸如由服务器110向每个端点104广播会议内容以呈现给关联的参与者102。步骤502发起或继续广播会议内容，并且在过程500的其它步骤被执行时可以被连续地执行，直到会议终止。会议内容包括在步骤504中从一个或多个个体端点104接收的音频和/或视频。
102.测试506确定特定参与者102/端点104是否在特定端点104处于静音时正在试着传送音频。在一些实施例中，服务器110接收音频部分，但是不传送处于静音的参与者的音频部分。在其它实施例中，当参与者被静音时，服务器110不接收关联的端点104的音频。如果测试506被确定为否定，则过程500继续到测试512，该测试512确定会议是否已终止。如果测试512被确定为肯定，则过程500可以结束，并且在步骤502中发起/继续的会议内容的广播可以不继续(如果尚未终结的话)，否则处理可以继续并且循环回到步骤504。测试506可以确定特定参与者102/端点104处于静音并且在处于静音时正在试图传送音频(步骤508)。例如，服务器110可以检测特定端点104的静音信号以及其由服务器110提供的静音。在另一实施例中，静音可以由特定端点104自身提供，其中服务器110接收指示音频正在被特定端点接收但是由于处于静音而没有被转发到服务器110的信号。
103.如果测试506被确定为肯定(例如，特定端点104被静音)，则测试508确定静音是否是错误的(例如，图3a-3c和图8a-8b)，并且如果确定为肯定，则执行步骤510以执行通知动作。如果测试508 被确定为否定，则处理可以继续到测试512。步骤510可以向被错误地静音的端点104发送视觉和/或音频通知(例如，提示音、消息、弹出消息、其它视觉指示等)以解除静音。如果许可，则步骤510可以自动将错误地静音的端点104解除静音，并且从特定端点104接收音频，诸如当静音由服务器110执行时，或者通过向特定端点104发送解除静音的信号，并且作为响应，特定端点解除静音。自动解除静音可能仅在某些情况下可用，或者可能不被许可，这取决于使用会议服务器的国家强制实行的隐私法律。
104.由测试508执行的静音是错误的确定可以被各种各样地体现。在一个实施例中，会议内容的前面部分，诸如由不同的端点104提供的，诸如通过名字、角色、位置等来对与特定端点104关联的参与者102 说话。在另一实施例中，被静音的参与者102的视频部分的分析指示被静音的参与者正在试图向视频会议讲话。例如，视频部分的分析可以指示被静音的参与者的目光指向关联的端点104，并且参与者的嘴唇/嘴巴/其它面部特征正在移动，指示在讲话，这将针对图8a-8b更完整地讨论。
105.在一个实施例中，在会议服务器基于人的视频分析检测到被静音的参与者正在试图讲话并且向视频会议贡献音频内容时，可以由服务器通过以下操作来执行附加步骤：
发信号通知端点将音频内容传送到服务器，因此服务器的音频分析和处理模块可以针对话音特性对音频进行分析，以确定贡献的音频实际上包含具有某一幅度的各种语音特性(例如，强度、音高、范围、音调、语言等)的人类话音，这指示用户实际上正在向会议贡献内容。
106.图6a-6b描绘了视频会议600。视频会议600包括分别在会议窗口601a-d中示出的参与者102a-d。参与者102a-d经由各自的端点 104a-d连接到视频会议600。所图示的参与者102a没有分享视频或音频。参与者102b正在分享音频(例如，如音频/噪声指示符602b 所示)和视频，并且当前是视频会议600中的活跃讲话者。参与者102c 正在分享视频和音频(例如，被解除静音)，但是当前没有讲话/贡献音频。参与者102d正在分享视频和音频(例如，被解除静音)，尽管参与者102d当前没有讲话，但是存在音频正在被贡献给会议内容，如音频/噪声指示符602d所示。
107.会议内容包括从与参与者102a-d关联的一个或多个个体端点(例如，端点104a-d)接收的音频和视频。在这个示例中，会议内容的音频部分包括由参与者102b贡献的语音和由参与者102d贡献的不是语音的音频。服务器110确定由特定端点104接收的音频是否与视频会议无关。在这个示例中，由参与者102b贡献的语音被确定为是视频会议600的一部分并且旨在用于视频会议600。相反，来自参与者102d 的音频部分被确定为是不同于语音的噪声(例如，环境噪声、背景噪声、不可理解的语音等)。在一些实施例中，视频会议系统可以执行由参与者102d贡献的视频部分的分析，在分析参与者102d的视频部分时，视频会议系统确定尽管端点104d正在贡献音频，并且参与者 102d的目光指向端点104d，但是参与者102d的嘴巴/嘴唇/其它面部特征没有移动。在一些实施例中，视频会议服务器可以使用一个或多个ai视觉库或者托管在云中的第三方服务，其已经利用人类面部结构和面部特性的大量样本进行训练，以便识别任何新提供的面部图像的不同部分并且辨识该图像中的不同面部部分的移动。也可以使用人工神经网络来实现这一点。
108.可以针对话音特性(例如，强度、音量、响度、音调、音高、范围、语言等)来分析音频部分。例如，人类话音的范围为50-70分贝，而无关噪声的范围一般较高，大约为80-100分贝。另外，在人类语音与其它噪声之间，其它声音特性也显著变化。讲出的语言也可以用于确定上下文(例如，如果语音是打算用于视频会议的)，因为用户也可能正在对会议之外的某人讲话，例如，用不同于会议的语言的语言通过另一电话呼叫与某人在讲话。附加地或替代地，视频会议系统可以使用nlp来分析来自参与者102d/端点104d的音频部分，以确定来自参与者102d/端点104d的音频部分不包括语音(例如，街道噪声、狗叫等)或者不包括不针对会议的语音，并且确定该声音要被从会议内容中排除并且执行静音动作。一旦视频会议系统确定来自参与者 102d/端点104d的音频部分是无关的，视频会议系统就可以自动将参与者102d/端点104d静音，以排除从参与者102d/端点104d接收的当前和/或未来的音频在会议内容中广播。静音可以通过服务器(诸如提供会议内容的服务器110)的处理器执行，或者通过到端点104d的信号执行，该信号在被接收到时执行静音动作。
109.如图6b中所示，参与者102d已被静音(例如，如静音图标305 所指示)。此外，参与者102d可以接收静音动作的通知608。通知 608可以包括提示音、消息、弹出消息等。通知608可以在自动静音动作之前或之后提供给参与者(例如，“您正在被系统静音”或者“您已被系统静音”)。在一些实施例中，可以在会议应用中的端点(例如，端点104d)上提供视
觉指示符。
110.图7a-7b描绘了视频会议700。视频会议700包括分别在会议窗口601a-d中示出的参与者102a-d。参与者102a-d经由各自的端点 104a-d连接到视频会议700。所图示的参与者102a没有分享视频或音频。参与者102b正在分享音频(例如，如音频/噪声指示符702b 所示)和视频，并且当前是视频会议700中的活跃讲话者。参与者102c 正在分享视频和音频(例如，如音频/噪声指示符702c所指示)，并且当前正在讲话。参与者102d正在分享视频，并且被解除静音，但是没有讲话。
111.会议内容包括来自参与者102b和102c的音频和来自参与者 102b-d的视频。在这个示例中，会议内容的音频部分包括由参与者 102b和102c贡献的语音。服务器110确定由特定端点104接收的音频是否与视频会议无关。在这个示例中，由参与者102b贡献的语音被确定为是视频会议700的一部分并且旨在用于视频会议700。相反，来自参与者102c的音频部分被确定为是不针对视频会议700的无关噪声。在一些实施例中，视频会议系统可以执行由参与者102c贡献的视频部分的分析，在分析参与者102c的视频部分时，视频会议系统确定尽管端点104c正在贡献音频(例如，语音)，但是参与者102c 的目光没有指向端点104c。参与者102c从端点104c转开，并且以侧面示出。参与者102c正在讲话和/或来自参与者102c的音频包括语音的确定可以通过分析来自参与者102c的视频部分和/或使用话音特性分析和/或nlp以分析来自端点104c的音频部分来完成。例如，一个人对一组远程视频会议参与者讲话可能具有特定的讲话方式，其与面对面对同事或其它方讲话时不同。这些方式可以被量化为各种语音属性，并且用于确定由参与者提供的语音是否旨在包括到会议内容中。音频部分的上下文也可以被确定，并且用于确定语音是否旨在包括到会议内容中。例如，参与者讨论其下班后的计划可能不旨在用于视频会议700。
112.一旦视频会议系统确定来自端点104c的音频部分是无关的，视频会议系统就可以自动将端点104c静音以排除从端点104c接收的当前和/或未来的音频在会议内容中广播。如图7b中所描绘的，参与者 102c被视频会议系统自动静音(例如，如静音图标305所示)。静音可以通过服务器(诸如提供会议内容的服务器110)的处理器执行，或者通过到端点104c的信号执行，该信号在被接收到时执行静音动作。尽管不是必须的，但是在一些实施例中，参与者102c可以在静音动作被执行之前或之后接收静音动作的通知708。在一些实施例中，可以向端点104c提供消息以通知参与者102c执行手动静音。
113.图8a-8b描绘了视频会议800。视频会议800包括分别在会议窗口601a-d中示出的参与者102a-d。参与者102a-d经由各自的端点 104a-d连接到视频会议800。所图示的参与者102a没有分享视频或音频。参与者102b被静音(例如，如静音图标802b所指示)，但是正在分享视频。参与者102c和102d都被解除静音，并且正在分享视频。如语音泡泡803所示，参与者102b可能在处于静音时正在试图讲话。如果视频会议系统确定参与者(例如，参与者102b)可能被错误地静音，则视频会议系统通知被错误地静音的参与者解除静音。在一些实施例中，如果许可，系统将会自动将被错误地解除静音/静音的参与者静音/解除静音。附加地或替代地，系统可以缓冲被静音的音频部分以在参与者被解除静音之后重放。
114.会议内容包括来自参与者102c和102d的音频和来自参与者 102b-d的视频。由于参与者102c和参与者102d都没有讲话，所以音频部分可能仅包括静默。视频会议系统确定特定参与者102/端点104 是否在特定端点104处于静音时正在试着传送音频。在一些实施
例中，服务器110接收音频部分，但是不传送处于静音的参与者的音频部分。在其它实施例中，当参与者被静音时，视频会议系统不接收关联的端点104的音频。例如，视频会议系统可以检测端点104b的静音信号。在另一实施例中，静音可以由端点104b自身提供，其中视频会议系统接收指示音频正在被端点104b接收但是由于端点104b处于静音而没有转发到视频会议系统的信号。
115.视频会议系统确定端点104b上的静音是否是错误的。在一些实施例中，从端点104c贡献的视频和/或音频部分的分析可以导致参与者102b正在试图向视频会议800讲话的确定。例如，基于从端点102b 贡献的视频部分的分析，视频会议系统可以确定参与者102b的目光指向端点104b，并且参与者102b的嘴巴/嘴唇/其它面部特征正在移动。附加地或替代地，nlp可以被用于确定需要口头响应的问题是针对参与者102b的。视频会议系统向参与者102b/端点104b发送提醒 804b(例如，提示音、消息、弹出视觉指示符等)，以对被错误地静音的参与者102b/端点104b解除静音。如果许可，视频会议系统可以自动将被错误地静音的参与者102b/端点104b解除静音，并且从端点 104b接收音频，诸如当静音由视频会议系统执行时，或者通过向端点 104b发送解除静音的信号，并且作为响应，端点104b解除静音。在执行解除静音动作之前或之后，可以向参与者提供消息形式的通知(例如，“您正在被系统解除静音”或者“您已被系统解除静音。”)。基于法律和道德的考虑，自动解除静音可能仅在某些情况下可用。图 8b描绘了参与者102b已被解除静音(例如，自动或手动)之后的视频会议800。参与者102b现在能够向视频会议800贡献音频，如音频 /噪声指示符806b所示。
116.会议服务器在进行参与者是否被错误地静音或解除静音的确定时还可以使用置信水平或阈值。为了实现多个置信水平，系统可以利用 nlp、视频分析和音频分析。当来自nlp、视频和音频分析的结论全部匹配时，置信水平可能高；当任何两个匹配时，置信水平可能中等；并且如果三个都不匹配，或者仅可以确定一个，则置信水平可能低。
117.图9a-9c描绘了视频会议900。视频会议900包括分别在会议窗口601a-d中示出的参与者102a-d。参与者102a-d经由各自的端点 104a-d连接到视频会议900。所图示的参与者102a没有分享视频或音频。参与者102b正在分享音频(例如，如音频/噪声指示符902b 所指示)和视频，并且当前是视频会议900中的活跃讲话者。参与者 102c正在分享视频和音频(例如，如音频/噪声指示符902c所示)，并且当前正在讲话。参与者102d正在分享视频，并且被解除静音，但是没有讲话。
118.会议内容包括来自参与者102b和102c的音频和来自参与者 102b-d的视频。在这个示例中，会议内容的音频部分包括由参与者 102b和102c贡献的语音。视频会议系统确定由特定端点104接收的音频是否与视频会议无关。在这个示例中，由参与者102b贡献的语音被确定为是视频会议900的一部分并且旨在用于视频会议900。相反，来自参与者102c的音频部分被确定为是不针对视频会议900的无关噪声。在一些实施例中，视频会议系统可以执行由参与者102c 贡献的视频部分的分析，并且在分析参与者102c的视频部分时，视频会议系统可以确定尽管参与者102c/端点104c正在贡献音频(例如，语音)，但是参与者102c的目光没有指向端点104c。在这个示例中，视频的分析可以进一步指示，在视频中存在另一个人与参与者 102c在一起。参与者102c正在与某个其它人讲话而不是向视频会议 900讲话的确定可以附加地或替代地通过使用nlp分析来自端点 104c的音频部分以确定语
音的上下文来完成。当nlp和视频分析一起采用时，参与者102c没有对视频会议900讲话的确定可能具有较高的置信分数。此外，可以执行传入的音频部分的音频分析以基于强度、音高、范围、音调、语言等分析语音的参数。在一些示例中，当参与者正在与某个其它人讲话时，他们可能会大声讲话或低声讲话，这可能使音频的音高和强度比正常的音高和强度改变更多。
119.一旦视频会议系统确定来自端点104c的音频部分是无关的，视频会议系统就自动将端点104c静音以排除从端点104c接收的当前和 /或未来的音频在会议内容中广播。如图9b中所描绘的，端点104c 被视频会议系统自动静音(例如，如静音图标305所指示)。静音可以通过服务器(诸如提供会议内容的服务器110)的处理器执行，或者通过到端点104c的信号执行，该信号在被接收到时执行静音动作。参与者102c可以在静音动作被执行之前或之后接收静音动作的通知 908。
120.如图9c中所示，尽管参与者102a没有分享视频，如图标所指示，但是参与者102a正在分享音频，如音频/噪声指示符902a所指示。由于不存在与参与者102a关联的视频部分，因此可以仅分析音频部分以确定音频部分是否与视频会议900无关。可以执行来自参与者102a的传入的音频部分的音频分析以基于强度、音高、范围、音调、语言等分析语音的参数。
121.图10描绘了根据本公开的实施例的视频会议服务器1000。视频会议服务器1000智能地对视频会议中的参与者的音频部分静音/解除静音。类似的计算系统可以全部或部分包括在本文描述的用于自动将参与者静音/提示参与者静音和/或自动将参与者解除静音/提示参与者解除静音的服务器110中。计算系统1000是任何一个或多个计算系统的代表，具有本文公开的用于分析视频会议的至少视频部分以确定参与者是否应当被静音/解除静音的各种操作结构、过程、场景和序列，包括各种组件和与其它组件和/或系统的连接。此外，可以分析音频部分以进一步增强确定。
122.计算系统1000是服务器110的示例，但是可以存在其它示例。计算系统1000包括通信接口1001、用户接口模块1002、和处理系统 1003。处理系统1003链接到通信接口1001和用户接口模块1002。处理系统1003包括微处理器和/或处理电路1005以及存储操作软件1007 的存储系统1006。计算系统1000可以包括其它众所周知的组件，诸如电池和外壳，为了清楚起见没有示出这些组件。计算系统1000可以包括服务器、用户设备、桌面型计算机、膝上型计算机、平板计算设备或者某种其它用户通信装置。
123.通信接口1001包括通过通信链路通信的组件，诸如网卡、端口、射频(rf)、处理电路和软件，或者一些其它通信设备。通信接口 1001可以被配置为通过金属、无线或光学链路通信。通信接口1001 可以被配置为使用时分复用(tdm)、互联网协议(ip)、以太网、光网络、无线协议、通信信令或某种其它通信格式
–
包括其组合。在一些实现中，通信接口1001被配置为与其它终端用户设备通信，其中通信接口1001被用于传递和接收设备的话音和视频通信。另外，通信接口1001可以与web服务相接口，其中该服务可以包括可经由网站访问的视频会议服务。
124.用户接口模块1002包括以下组件：这些组件与用户交互以呈现媒体和/或信息，接收来自参与者端点应用的事件，并且还允许用户(例如，管理员)配置视频会议服务器的设置。用户接口模块1002可以包括扬声器、麦克风、按钮、灯、显示屏幕、触摸屏、触摸板、滚
轮、通信端口或者某种其它用户输入/输出装置
–
包括其组合。用户接口模块1002在一些示例中可以被省略。
125.处理电路1005可以体现为单个电子微处理器或多处理器设备(例如，多核)，其中具有诸如控制单元、输入/输出单元、算术逻辑单元、寄存器、主存储器和/或其它组件的组件，这些其它组件访问诸如经由总线接收的信息(例如，数据、指令等)，执行指令，并且再次诸如经由总线输出数据。在其它实施例中，处理电路1005可以包括共享处理设备，其可以被其它过程和/或过程所有者利用，诸如在处理阵列或分布式处理系统(例如，“云”、集群等)中。应当意识到，处理电路1005是非暂态计算设备(例如，包括电路和连接以与其它组件和设备通信的电子机器)。处理电路1005可以操作虚拟处理器，以便处理对于处理器非原生的机器指令(例如，翻译9xx芯片集代码以仿真不同处理器的芯片集或非原生操作系统，诸如mac上的vax操作系统)，然而，这样的虚拟处理器是由底层处理器(例如，处理器 704)及其硬件和其它电路执行的应用。
126.处理电路1005包括微处理器和其它电路，其从存储系统1006检索并且执行操作软件1007。存储系统1006可以包括以任何方法或技术实现的易失性和非易失性、可移除和不可移除的介质，以用于存储信息，诸如计算机可读指令、数据结构、程序模块或其它数据。存储系统1006可以实现为单个存储设备，但是也可以跨多个存储设备或子系统实现。存储系统1006可以包括附件的元件，诸如读取操作软件 1007的控制器。存储介质的示例包括随机存取存储器、只读存储器、磁盘、光盘和闪存，以及其任何组合或变化，或者任何其它类型的存储介质。在一些实现中，存储介质可以是非暂态存储介质。在一些情况下，存储介质的至少一部分可以是暂态的。应当理解到，在任何情况下存储介质都不是传播的信号。
127.处理电路1005通常被安装在电路板上，该电路板还可以保持存储系统1006以及通信接口1001和用户接口模块1002的一些部分。操作软件1007包括计算机程序、固件或某种其它形式的机器可读程序指令。操作软件1007包括视频模块1008、自然语言处理(nlp)模块 1010、音频模块1012和置信模块1014，但是应用内的任何数量的软件模块都可以提供相同的操作。操作软件1007可以进一步包括操作系统、实用程序、驱动程序、网络接口、应用或者某种其它类型的软件。在被处理电路1005执行时，操作软件1007引导处理系统1003操作如本文所述的视频会议服务器1000。
128.在至少一个实现中，视频模块1008在被处理系统1003读取和执行时，引导处理系统1003处理视频会议的至少视频部分以智能地确定参与者是否应当被静音或解除静音。在一些示例中，视频模块包括ai 驱动的面部移动识别和分析模块#1。nlp模块1010在被处理系统1003 读取和执行时，引导处理系统1003实时分析转换(例如，音频部分) 以确定上下文。在一些示例中，npl模块1010可以包括语言模块。音频模块1012在被处理系统1003读取和执行时，引导处理系统1003 针对语音/音频特性(例如，音量、强度、范围、音调、音高、语言等) 上下文等分析视频会议的音频部分。置信模块1014在被处理系统1003 读取和执行时，引导处理系统1003确定静音/解除静音动作的置信分数。置信模块1014与视频模块1008、nlp模块1010和音频模块1012 相接口，以便确定解除静音/静音动作的置信水平。提醒/静音模块1016 在被处理系统1003读取和执行时，引导处理系统1003自动将端点静音/解除静音(在许可的情况下)，并且发送关于静音/解除静音动作的提醒/通知。
129.应当意识到，计算机可读数据可以被各种各样的组件发送、接收、存储、处理和呈现。还应当意识到，图示的组件可以控制其它组件，不管是本文图示的还是其它。本领域的普通技术人员将意识到，在不脱离实施例的范围的情况下，可以利用某种通信设备作为本文描述的那些的附加或替代。
130.在前面的描述中，出于图示的目的，按特定次序描述了方法。应意识到，在替代实施例中，在不脱离实施例的范围的情况下，可以按与所描述的次序不同的次序执行所述方法。还应意识到，上述方法可以被作为由专门被构建为执行本文中描述的一个或多个算法或它们的部分的硬件组件(例如，电路系统)执行的算法执行。在另一个实施例中，所述硬件组件可以包括首先被转换为专用微处理器的通用微处理器(例如，cpu、gpu)。所述专用微处理器然后使编码信号加载于其中，所述编码信号使现在专用的微处理器维护使得该微处理器能够读取并且执行从所述算法推导的机器可读指令集的机器可读指令和 /或本文中描述的其它指令。用于执行所述算法或它的部分的机器可读指令不是无限的，而是利用微处理器已知的有限的指令集。所述机器可读指令可以在信号生成组件中被作为信号或值编码在微处理器中，并且在一个或多个实施例中，包括存储器电路中的电压、交换电路的配置、和/或通过特定的逻辑门电路的选择性使用。另外地或替代地，所述机器可读指令可以供微处理器访问，并且被作为磁场、电压值、电荷值、反射/非反射部分和/或物理标记编码在介质或设备中。
131.在另一个实施例中，微处理器进一步包括以下中的一个或多个：单个微处理器、多核处理器、多个微处理器、分布式处理系统(例如，阵列、刀片、服务器群、“云”、多用途处理器阵列、集群等)，和/ 或可以与执行其它处理操作的微处理器共处一处。任何一个或多个微处理器可以被集成到单个处理器材(例如，计算机、服务器、刀片等) 中，或者被完全或部分地安置在经由通信链接(例如，总线、网络、背板等、或多个总线、网络、背板等)连接的分立的组件中。
132.通用微处理器的例子可以包括具有被编码在指令寄存器(或维护指令的其它电路系统)中的数据值、或者包括存储器位置的数据值(这些数据值又包括用作指令的值)的中央处理单元(cpu)。存储器位置可以进一步包括cpu外部的存储器位置。这样的cpu外部的组件可以被实施为以下中的一个或多个：现场可编程门阵列(fpga)、只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、随机存取存储器(ram)、总线可访问储存器、网络可访问储存器等。这些机器可执行指令可以被存储在一个或多个机器可读介质上，诸如cd-rom或其它类型的光盘、软盘、 rom、ram、eprom、eeprom、磁卡或光学卡、闪存、或适合于存储电子指令的其它类型的机器可读介质。可替代地，所述方法可以用硬件和软件的组合来执行。
133.在另一个实施例中，微处理器可以是处理硬件组件的系统或集合，诸如客户端设备上的微处理器和服务器上的微处理器、具有它们的相应的微处理器的设备的集合、或共享或远程处理服务(例如，基于“云
”ꢀ
的微处理器)。处理器系统可以包括处理任务和/或共享的或分布式的处理任务的任务特定的分派。在又一个实施例中，微处理器可以执行提供模仿不同的一个微处理器或多个微处理器的服务的软件。结果，由第一组硬件组件组成的第一微处理器可以几乎提供第二微处理器服务，由此，与第一微处理器相关联的硬件可以使用与第二微处理器相关联的指令集来进行操作。
134.虽然机器可执行指令可以被存储在特定机器(例如，个人计算机、移动计算设备、膝上型电脑等)的本地并且在该机器的本地执行，但是应意识到，数据和/或指令的存储、和/或指令的至少一部分的执行可以经由与远程数据储存器和/或处理设备或设备集合(常被称为
ꢀ“
云”)的连接来提供，但是可以包括公共的、私有的、专用的、共享的和/或其它的服务局、计算服务和/或“服务器群”。本文中描述的微处理器的示例可以包括，但不限于，800 和801、具有4g lte集成和64位计算的610 和615、具有64位架构的a7微处理器、m7运动协处理器、系列、core
tm
微处理器族、微处理器族、atom
tm
微处理器族、intel微处理器族、 i5-4670k和i7-4770k 22nm haswell、 i5-3570k 22nm ivy bridge、fx
tm
微处理器族、fx-4300， fx-6300和fx-8350 32nm vishera、kaveri微处理器、texas jacinto c6000
tm
汽车信息娱乐微处理器、texas omap
tm
汽车级移动微处理器、cortex
tm-m微处理器、cortex-a和arm926ej-s
tm
微处理器、其它行业等同的微处理器中的至少一个，并且可以使用任何已知的或将来开发的标准、指令集、库和/或架构来执行计算功能。本文中讨论的步骤、功能和操作中的任何一个可以连续地和自动地执行。
135.本发明的示例性系统和方法已关于用于监视、增强以及修饰通信和消息的通信系统和组件进行描述。然而，为了避免不必要地模糊本发明，前面的描述省略了众多已知的结构和设备。这种省略不应被理解为对请求保护的发明的范围的限制。具体细节被阐述以提供本发明的理解。然而，应当意识到，本发明可以以超出本文中阐述的具体细节的各种各样的方式来实施。
136.而且，虽然本文中说明的示例性实施例示出了系统的并置的各种组件，但是系统的某些组件可以位于远处、分布式网络(诸如lan和/或因特网)的远端部分处、或者专用系统内。因此，应当意识到，系统的组件或其部分(例如，微处理器、存储器/储存器、接口等)可以被组合到一个或多个设备(诸如一个服务器、多个服务器、计算机、计算设备、终端、“云”或其它分布式处理)，或者并置在分布式网络(诸如模拟和/ 或数字电信网络、分组交换网络或电路交换网络)的特定节点上。在另一个实施例中，组件可以物理地或逻辑地分布在多个组件上(例如，微处理器可以包括一个组件上的第一微处理和另一个组件上的第二微处理器，各自执行共享的任务和/或分配的任务的一部分)。出于计算效率的原因并且从前面的描述将意识到，系统的组件可以布置在组件的分布式网络内的任何位置，而不影响系统的操作。例如，各种组件可以位于交换机(诸如pbx)和媒体服务器、网关中、一个或多个通信设备中、一个或多个用户的所在地、或者它们的某种组合。类似地，系统的一个或多个功能部分可以分布在电信设备与相关联的计算设备之间。
137.而且，应当意识到，连接元件的各种链路可以是有线的或无线的链路、或者它们的任何组合、或者能够向和从连接的元件供给和/或传达数据的任何其它已知的或后来开发的元件。这些有线的或无线的链路也可以是安全的链路并且能够传达加密的信息。用作链路的传输媒介例如可以是用于电信号的任何合适的载体(包括同轴电缆、铜线和光纤)，
并且可以采用声波或光波的形式(诸如在无线电波和红外数据通信期间产生的那些)。
138.此外，虽然流程图已关于特定的事件序列进行讨论和说明，但是应当意识到，在不实质地影响本发明的操作的情况下可以发生对该序列的改变、添加和省略。
139.本发明的众多变型和修改可以被使用。将能够提供本发明的一些特征，而不提供其它特征。
140.在还另一个实施例中，本发明的系统和方法可以结合专用计算机、编程的微处理器或微控制器以及外围集成电路元件、asic或其它集成电路、数字信号微处理器、硬连线电子或逻辑电路(诸如分立元件电路)、可编程逻辑器件或门阵列(诸如pld、pla、fpga、pal)、专用计算机、任何可比较的手段等实现。一般而言，能够实现本文中说明的方法的任何设备或手段可以被用于实现本发明的各个方面。可以用于本发明的示例性硬件包括计算机、手持式设备、电话(例如，蜂窝的、支持因特网的、数字的、模拟的、混合的以及其它)、以及本领域已知的其它硬件。这些设备中的一些包括微处理器(例如，单个或多个微处理器)、存储器、非易失性存储装置、输入设备和输出设备。而且，替代的软件实现(包括，但不限于，分布式处理或组件/对象分布式处理、并行处理或虚拟机处理)也可以被构造以实现如由一个或多个处理组件提供的本文中描述的方法。
141.在还另一个实施例中，公开的方法可以结合使用对象或面向对象的软件开发环境(其提供可以在各种各样的计算机或工作站平台上使用的可移植的源代码)的软件容易地实现。替代地，公开的系统可以使用标准逻辑电路或vlsi设计以硬件部分地或全部地实现。是软件还是硬件被用于实现根据本发明的系统取决于系统的速度和/或效率要求、特定功能、以及正在被利用的特定软件或硬件系统或者微处理器或微计算机系统。
142.在还另一个实施例中，公开的方法可以以软件部分地实现，该软件可以存储在存储介质上，在具有控制器和存储器的协作的编程的通用计算机、专用计算机、微处理器等上执行。在这些情况下，本发明的系统和方法可以作为嵌入在个人计算机上的程序(诸如小程序(applet)、或cgi脚本)、作为驻留在服务器或计算机工作站上的资源、作为嵌入在专用测量系统、系统组件等中的例程实现。系统也可以通过将系统和/或方法物理地融合到软件和/或硬件系统中来实现。
143.本文中的包括软件的实施例被一个或多个微处理器执行，或者被存储以用于后续被一个或多个微处理器执行，并且被作为可执行代码执行。所述可执行代码被选择执行包括特定实施例的指令。被执行的指令是从微处理器理解的离散的本机指令集选择的受到约束的指令集，并且在执行之前，被提交给微处理器可访问的存储器。在另一个实施例中，人类可读“源代码”软件在被所述一个或多个微处理器执行之前，首先被转换为包括平台(例如，计算机、微处理器、数据库等)特定的、从该平台的本机指令集选择的指令集的系统软件。
144.尽管本发明参考特定的标准和协议描述了实施例中实现的功能和组件，但是本发明不限于这样的标准和协议。本文中未提到的其它类似的标准和协议是存在的并且被认为包括在本发明中。而且，本文中提到的标准和协议以及本文中未提到的其它类似的标准和协议周期性地被具有本质上相同的功能的更快或更有效的等同物取代。具有相同的功能的这样的替换标准和协议被认为是包括在本发明中的等同物。
145.本发明在各种实施例、配置和方面中包括基本上如本文中描绘和描述的组件、方
法、过程、系统和/或装置，包括各种实施例、子组合以及它们的子集。本领域技术人员在理解本公开之后将理解如何制造和使用本发明。本发明在各种实施例、配置和方面中包括在没有在本文中或本文的各种实施例、配置或方面中未描绘和/或描述的项目的情况下(包括在没有可能已用于先前的设备或过程中(例如，用于改善性能、实现便利和/或降低实现的成本)的这样的项目的情况下)提供设备和过程。
146.本发明的前面的讨论已出于说明和描述的目的而给出。前面的内容并非旨在将本发明限制于本文中公开的一种形式或多种形式。例如在前面的具体实施方式部分，本发明的各种特征出于简化本公开的目的而在一个或多个实施例、配置或方面中聚集在一起。本发明的实施例、配置或方面的特征可以在除了以上讨论的那些之外的替代实施例、配置或方面中组合。本公开的这种方法不应被解释为反映了请求保护的发明要求比每个权利要求中明确记载的特征多的特征的意图。相反，如以下权利要求所反映的，发明的方面在于少于单个前面公开的实施例、配置或方面的所有特征。因此，以下权利要求由此并入这个具体实施方式部分中，其中每个权利要求独自代表本发明的单独的优选实施例。
147.而且，尽管本发明的描述已包括一个或多个实施例、配置或方面以及某些变型和修改的描述，但是在理解本公开之后，其它变型、组合和修改在本发明的范围内，例如，可以在本领域技术人员的技能和知识内。旨在获得包括允许的程度内的替代实施例、配置或方面(包括对请求保护的那些的替代、互换和/或等同的结构、功能、范围或步骤)的权利，无论这样的替代、互换和/或等同的结构、功能、范围或步骤是否在本文中公开，并且无意公开捐献任何可专利的主题。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种频偏检测方法、装置、计算机设备和存储介质与流程

视频会议中的错误音频设置的智能检测和自动纠正的制作方法

相关文献

最热文献