会议发言人定位方法、装置、会议设备及存储介质与流程

2022-06-05 06:51:50 来源：中国专利 TAG：

1.本发明涉及视频会议技术领域，尤其涉及一种会议发言人定位方法、装置、会议设备及存储介质。

背景技术：

2.会议场景一般会用到大型会议平板，会议平板上装有阵列麦克风和摄像头，在会议开始时当开启影随声动功能后，阵列麦克风会采集声音数据进行人声角度的输出、摄像头会采集视频数据进行人脸识别和唇动检测，在经过上述算法的检测以及对算法结果进行处理后，会议平板识别并输出发言人当前的位置坐标，以供会议平板后续处理的使用。
3.现有大型会议平板在识别并输出发言人当前的位置坐标上存在许多不足之处，比较突出的是有的检测算法的种类不够完善，有的缺少音频算法、有的缺少唇动检测等，其主要原因是由于外挂的小型处理器的算力不够而导致一些算法的缺失或者算法的配置变低。所以目前市面上以存在的带音视频算法的发言人定位技术，都普遍比较消耗算力，一些性能较差的处理板处理音视频算法会存在算力的压力。

技术实现要素：

4.本发明实施例提供了一种会议发言人定位方法、装置、会议设备及存储介质，旨在解决现有会议平板在识别并输出发言人当前的位置坐标时消耗太多算力，存在算力压力的问题。
5.第一方面，本发明实施例提供了一种会议发言人定位方法，该方法通过获取声源信息并根据所述声源信息确定所述声源信息对应的发言人所在的预设角度区间及角度；判断所述发言人所在的角度是否超出预设发言人区间；若所述发言人所在的角度在所述预设发言人区间内，则基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表，其中，所述预设会议信息暂存表是基于所述预设角度区间建立的，所述预设会议信息暂存表中存储有与预设角度区间对应的发言人的历史位置坐标；若所述发言人所在的角度超出所述预设发言人区间，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表。
6.第二方面，本发明实施例还提供了一种会议发言人定位装置，该装置包括：获取确定单元，用于获取声源信息并根据所述声源信息确定所述声源信息对应的发言人所在的预设角度区间及角度；第一判断单元，用于判断所述发言人所在的角度是否超出预设发言人区间；预测输出单元，用于若所述发言人所在的角度在所述预设发言人区间内，则基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表，其中，所述预设会议信息暂存表是基于所述预设角度区间建立的，所述预设会议信息暂存表中存储有与预设角
度区间对应的发言人的历史位置坐标；第一检测单元，用于若所述发言人所在的角度超出所述预设发言人区间，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表。
7.第三方面，本发明实施例还提供了一种会议设备，所述会议设备设有阵列麦克风和摄像头，所述会议设备还包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行上述计算机程序时实现上述方法。
8.第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时实现上述方法。
9.本发明实施例提供了一种会议发言人定位方法、装置、会议设备及存储介质，其中所述方法通过获取声源信息并根据所述声源信息确定所述声源信息对应的发言人所在的预设角度区间及角度；判断所述发言人所在的角度是否超出预设发言人区间；若所述发言人所在的角度在所述预设发言人区间内，则基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表，其中，所述预设会议信息暂存表是基于所述预设角度区间建立的，所述预设会议信息暂存表中存储有与预设角度区间对应的发言人的历史位置坐标；若所述发言人所在的角度超出所述预设发言人区间，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表。通过预设的会议信息暂存表来预测并输出发言人当前的位置坐标以减轻仅通过人脸检测算法检测发言人当前的位置坐标所消耗的算力，缓解会议平板在识别并输出发言人的位置时算力压力的问题。
附图说明
10.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
11.图1为本发明实施例提供的一种会议发言人定位方法流程示意图；
12.图2为本发明实施例提供的一种会议发言人定位方法的子流程示意图；
13.图3为本发明实施例提供的一种会议发言人定位方法的子流程示意图；
14.图4为本发明实施例提供的一种会议发言人定位方法的子流程示意图；
15.图5为本发明实施例提供的一种会议发言人定位装置的示意性框图；
16.图6为本发明实施例提供的一种会议设备的示意性框图；
17.图7为本发明实施例提供的一种会议发言人定位方法的应用场景示意图。
具体实施方式
18.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例，都属于本发明保护的范围。
19.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
20.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
21.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
22.如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0023]
本发明实施例的会议发言人定位方法适用于会议场景，可应用于设有阵列麦克风和摄像头的会议设备中以对会议中的发言人进行定位，所述会议设备可为会议平板。通过安装于所述会议平板上的应用软件来实现相应的功能，下面以会议平板为例进行说明。
[0024]
在本发明实施例中，会议开始时当开启发言人追踪后，基于获取的声源信息通过声源定位方法会定位到声源所在的一个局部的角度，也即发言人所在的角度区间，将该角度区间通过横向的均分法映射到摄像头画面上，便转化为了一幅局部的画面，再将此局部画面传入人脸检测算法，并对人脸数目进行判断，当人脸数目n＝1时，直接输出当前画面的人脸；当人数目脸n》1时，再通过唇动检测对局部的人脸进行检测，并将唇动检测成功的人脸进行放大并输出。
[0025]
在局部检测的基础上，本发明基于会议场景，加入了会议信息暂存表的概念，进一步地对处理器的算力消耗进行优化。因为会议场景大部分人的位置都是固定的，故会议时的人脸位置信息会随着一次次的局部检测而完善，故可将局部检测获取到的发言人的位置信息保存到会议信息暂存表中，并将人脸检测算法的图片检测速率降低，以降低算力消耗。在一些只有声音算法没有视频算法的帧中，则可根据会议信息暂存表中的信息对发言人的位置进行一个预测，再由后面有视频算法的帧对此输出画面进行微调，并更新会议信息暂存表，并基于更新后的会议信息暂存表实现后续的位置预测。通过本发明实施例的上述技术方案，可在确保定位准确性的情况下减轻所消耗的算力。
[0026]
请参阅图1，图1是本发明实施例提供的会议发言人定位方法的流程示意图。如图1所示，该方法包括以下步骤s1-s4。
[0027]
s1，获取声源信息并根据所述声源信息确定所述声源信息对应的发言人所在的角度及所对应的预设角度区间。
[0028]
具体实施中，获取声源信息并根据所述声源信息确定所述声源信息对应的发言人所在的预设角度区间及角度。具体地，在一实施例中，阵列麦克风只能检测0到180度的角度，故结合具体的会议场景以及与会人员的位置，将阵列麦克风检测的区间分为等角度的若干个角度区间，所划分出来的每个角度区间定义为预设角度区间。通过阵列麦克风可采声源信息并基于所采集的声源信息确定发言人所在的角度，基于所确定的角度从预先所划
分的多个角度区间确定其所对应的预设角度区间。请参见图7，该图为本发明实施例提供的一种会议发言人定位方法的应用场景示意图。图中每个预设角度区间所涵盖的角度范围为10
°
，其中，发言人b所在的角度区间为51-60
°
，发言人c所在的角度区间为41-50
°
。
[0029]
s2，判断所述发言人所在的角度是否超出预设发言人区间。
[0030]
具体实施中，判断所述发言人所在的角度是否超出预设发言人区间。具体地，在一实施例中，以该发言人所在的角度为基点，该基点的左右两侧的预设角度范围设定为预设发言人区间，例如将该基点的左右各10
°
，共20
°
的区间设定为预设发言人区间。请参见图7，图中发言人a正在发言，发言人a所在的角度为90
°
，则发言人a所在的预设发言人区间如图所示为80-100
°
。
[0031]
s3，若所述发言人所在的角度在所述预设发言人区间内，则基于所述发言人所在的角度根据预设的会议信息暂存表预测并输出所述发言人的当前位置坐标，将所述发言人的当前位置坐标更新至所述预设的会议信息暂存表。
[0032]
具体实施中，若所述发言人所在的角度在所述预设发言人区间内，则基于所述发言人所在的角度根据预设的会议信息暂存表预测并输出所述发言人的当前位置坐标，将所述发言人的当前位置坐标更新至所述预设的会议信息暂存表。具体地，所述预设会议信息暂存表是基于所述预设角度区间建立的，所述预设会议信息暂存表中存储有与预设角度区间对应的发言人的历史位置坐标。在一实施例中，每一预设角度区间最多记录发言人的100个历史位置坐标，超出100个的历史位置坐标时，将舍弃该预设角度区间中最先存入的发言人位置坐标。
[0033]
若发言人所在的角度在预设发言人区间的范围内变化或固定不变，则判定该发言人所在的角度在预设发言人区间内，实际的应用场景为发言人在预设发言人区间内身体不动或者轻微的晃动身体，此种情况说明发言人的实际位置并未发生变化，则可基于先前记录在会议信息暂存表中的发言人的历史位置坐标预测发言人的当前位置坐标。
[0034]
例如，如图7所示，预先设定摄像头与麦克风所在位置为原点，并以原点所在的水平线为角度的0
°
起点与终点180
°
，以(x，y)表示发言人当前的位置坐标。其中x为发言人所在的角度，在一实施例中，例如图7所示实施例，x的取值范围为30-120
°
，y为发言人与原点的直线距离，例如，图中发言人a的位置坐标可表示为(xa，ya)。若图中发言人a正在发言，发言人a所在的角度为90
°
，其所在的预设角度区间为81-90
°
，则发言人a所在的预设发言人区间如图所示为80-100
°
。也即，此时发言人a所在角度属于预设发言人区间内，则可从会议信息暂存表中查询预设角度区间为80-100
°
的范围所对应的发言人历史位置坐标，在该历史位置坐标的基础上预测出发言人a的当前位置坐标。
[0035]
在一实施例中，请参见图2，所述基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标的步骤包括：步骤s3a～s3c。
[0036]
s3a，基于所述预设的会议信息暂存表内的发言人的历史位置坐标建立二次线性预测方程。
[0037]
具体实施中，基于所述预设的会议信息暂存表内的发言人的历史位置坐标建立二次线性预测方程。具体地，在一实施例中，所述预设的会议信息暂存表是基于所述预设角度区间建立的，用于存储记录发言人信息，所述发言人信息包括发言人所在的预设角度区间以及历史位置坐标；通过预设的会议信息暂存表记录发言人当前的位置坐标以及该发言人
所在的预设角度区间，以便当发言人在预设发言人区间内时为发言人当前的位置坐标输出提供预测基础，避免通过人脸检测算法检测发言人当前的位置坐标消耗大量的算力。
[0038]
在一实施例中，请参见图3，所述步骤s3a包括：步骤s3a1～s3a4。
[0039]
s3a1，判断所述预设发言人区间所对应的发言人的历史位置坐标的数量是否满足建立二次线性预测方程的预设条件。
[0040]
具体实施中，判断所述预设发言人区间所对应的发言人的历史位置坐标的数量是否满足建立二次线性预测方程的预设条件。具体地，在一实施例中，预设的会议信息暂存表中预先按照预设角度区间来划分存储区间。根据发言人所在的角度对应的预设角度区间将发言人当前的位置坐标存入预设的会议信息暂存表相应的区间。满足建立二次线性预测方程的预设条件为：当预设发言人区间内存储的发言人位置坐标的数量均大于或等于预设数值，例如在本实施例中，所述预设数值取值为100。具体地，在会议开始时，预设的会议信息暂存表内未存储发言人当前的位置坐标，此时，会议设备启动人脸检测算法检测出发言人当前的位置坐标并将发言人当前的位置坐标对应存储于相应的区间内。待预设发言人区间内存储的发言人位置坐标的数量满足预设条件后，触发建立二次线性预测方程的步骤。基于大量准确的发言人位置坐标才能保证通过预设会议信息暂存表预测的结果更准确。具体地，也可根据实际的应用场景来设定建立二次线性预测方程的预设条件。
[0041]
s3a2，若所述预设发言人区间所对应的发言人的历史位置坐标的数量满足所述预设条件，则基于所述预设发言人区间所对应的发言人的历史位置坐标建立二次线性预测方程。
[0042]
具体实施中，若所述预设发言人区间所对应的发言人的历史位置坐标的数量满足所述预设条件，则基于所述预设发言人区间所对应的发言人的历史位置坐标建立二次线性预测方程。具体地，在一实施例中，将预设发言人区间所对应的发言人的历史位置看作一个点，将这些点通过二次线性回归拟合得到一条二次曲线，其由二次线性回归方程(1)表示：
[0043]
y＝a(x b)2 cx d
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0044]
其中，x表示发言人所在的角度，y表示发言人与原点的直线距离，a、b、c、d为二次线性回归方程的参数。
[0045]
s3a3，若所述预设发言人区间所对应的发言人的历史位置坐标的数量不满足所述预设条件，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取发言人当前的位置坐标。
[0046]
具体实施中，若所述预设发言人区间所对应的发言人的历史位置坐标的数量不满足所述预设条件，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取发言人当前的位置坐标。具体地，在一实施例中，当预设发言人区间所对应的发言人的历史位置坐标的数量不满足建立二次线性预测方程的预设条件时，通过预设会议信息暂存表预测得到的结果误差较大，不能准确的定位发言人当前的位置坐标，故通过人脸检测算法检测获取发言人当前的位置坐标。
[0047]
s3a4，输出所述发言人当前的位置坐标并将该发言人当前的位置坐标更新至所述预设的会议信息暂存表。
[0048]
具体实施中，输出所述发言人当前的位置坐标并将该发言人当前的位置坐标更新至所述预设的会议信息暂存表。具体地，在一实施例中，通过人脸检测算法检测获取发言人
当前的位置坐标后，将该位置坐标更新至预设的会议信息暂存表以备下次建立二次线性预测方程使用。
[0049]
s3b，通过损失函数计算所述二次线性预测方程的参数以得到预测方程。
[0050]
具体实施中，通过损失函数计算所述二次线性预测方程的参数以得到预测方程。具体地，在一实施例中，所述损失函数为其中表示第k个发言人所在的角度通过二次线性回归方程所预测的该发言人当前的位置坐标，yk为实际的第k个发言人所在的角度对应的该发言人的实际位置坐标。将损失函数带入二次线性回归方程(1)中，通过梯度下降法获取二次线性回归方程的参数a、b、c、d的最优的参数值a、b、c、d以得到预测方程(2)：
[0051]
y＝a(x b)2 cx d
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0052]
s3c，基于所述发言人所在的角度根据所述预测方程预测所述发言人当前的位置坐标。
[0053]
具体实施中，基于所述发言人所在的角度根据所述预测方程预测所述发言人当前的位置坐标。具体地，在一实施例中，已知发言人所在的角度，即预测方程(2)中的x值，将其代入预测方程(2)中，便可得到与该发言人角度对应的发言人位置坐标。如此通过预设的会议信息暂存表来预测并输出发言人当前的位置坐标以减轻通过人脸检测算法检测发言人当前的位置坐标所消耗的算力，缓解会议平板在识别并输出发言人的位置时算力压力的问题。
[0054]
需要说明的是，当通过预测方程预测发言人当前的位置坐标时，人脸检测算法低速率的运行，以为预测的结果提供校正的依据。具体地，在通过预测方程预测发言人当前的位置坐标时，根据所述发言人所在的角度裁取预设区间的图片信息，通过指数衰减动态调节人脸检测算法的速率对所述图片信息进行检测以获取所述发言人的参考位置坐标；通过公式调节人脸检测算法的速率，其中f为人脸检测算法每秒的人脸检测速率，t为发言人在所述发言人区间内停留的时间。在该公式中，f的值总是大于等于1，当发言人在发言人区间内停留的时间t比较小时，f较大，人脸检测算法以较高的速率运行；当发言人在发言人区间内停留的时间t比较大时，f趋近于1，人脸检测算法维持在一个低速运行的状态，以便使用人脸检测算法检测的结果对预设的会议信息暂存表预测的结果进行校正。将所述发言人的参考位置坐标与根据所述预设的会议信息暂存表预测的所述发言人当前的位置坐标进行比较，若差值大于预设误差，则基于所述预设的会议信息暂存表内的发言人位置坐标重新建立二次线性预测方程。
[0055]
s4，若所述发言人所在的角度超出所述预设发言人区间，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表。
[0056]
具体实施中，若所述发言人所在的角度超出所述预设发言人区间，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表。具体地，在一实施例中，当发言人所在的角度超出预设发言人区间，将其
定义为声音角度的剧烈变化。对应于实际的会议场景为发言人当前的位置坐标出现大范围的移动或者发言人发生变化，在该场景下无法通过预测方程来对发言人的位置进行预测，故需要通过人脸检测算法来检测发言人当前的位置坐标。
[0057]
需要说明的是，预设区间为以该发言人所在的预设角度区间为基础，在该基础上再加上左右两侧的预设角度区间的角度范围设定为预设区间。请参见图7，以发言人c为例，发言人c所需裁取预设区间的角度范围为30-60
°
[0058]
需要说明的是，判断发言人超出预设发言人区间后，基于人脸检测算法来获取发言人的位置坐标，经判断若发言人所在的角度连续多次一致，例如连续出现五次一致，则以该角度为基点确定新的预设发言人区间，基于该新的预设发言人区间判断其是否满足通过预设的会议信息暂存表预测发言人的当前位置坐标的步骤。
[0059]
在一实施例中，请参见图4，所述步骤s4包括：步骤s41～s43。
[0060]
s41，检测所述图片信息中包含的人脸数量。
[0061]
具体实施中，检测所述图片信息中包含的人脸数量。具体地，在一实施例中，预设角度区间的角度为10
°
，图片信息为发言人的角度所在的预设角度区间的左右各加1个预设角度区间，组成1个30
°
的画面，将该30
°
的画面剪裁出来作为图片信息输入检测算法进行人脸检测。
[0062]
s42，若检测到所述人脸数量为1，则输出所述人脸对应发言人当前的位置坐标。
[0063]
具体实施中，若检测到所述人脸数量为1，则输出所述人脸对应发言人当前的位置坐标。具体地，在一实施例中，若检测图片信息中只有1个人脸，则确定该人脸对应的发言人即为正在说话的发言人，输出该发言人当前的位置坐标。
[0064]
s43，若检测到所述人脸数量大于1，则通过唇动检测算法检测所述图片信息中正在发言的发言人并输出该发言人当前的位置坐标。
[0065]
具体实施中，若检测到所述人脸数量大于1，则通过唇动检测算法检测所述图片信息中正在发言的发言人并输出该发言人当前的位置坐标。具体地，在一实施例中，若若检测图片信息中包含多个人脸，则不确定与发言人对应的人脸是哪个，故需要进一步通过唇动检测算法检测正在发言的发言人并输出该发言人当前的位置坐标。
[0066]
本发明实施例提供了一种会议发言人定位方法通过获取声源信息并根据所述声源信息确定所述声源信息对应的发言人所在的预设角度区间及角度；判断所述发言人所在的角度是否超出预设发言人区间；若所述发言人所在的角度在所述预设发言人区间内，则基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表，其中，所述预设会议信息暂存表是基于所述预设角度区间建立的，所述预设会议信息暂存表中存储有与预设角度区间对应的发言人的历史位置坐标；若所述发言人所在的角度超出所述预设发言人区间，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表。通过预设的会议信息暂存表来预测并输出发言人当前的位置坐标以减轻通过人脸检测算法检测发言人当前的位置坐标所消耗的算力，缓解会议平板在识别并输出发言人的位置时算力压力的问题。
[0067]
图5是本发明实施例提供的一种会议发言人定位装置的示意性框图。如图5所示，
对应于以上会议发言人定位方法，本发明还提供一种会议发言人定位装置100。该会议发言人定位装置100包括用于执行上述会议发言人定位方法的单元，该装置可以被配置于会议平板中。具体地，请参阅图5，该会议发言人定位装置100包括获取确定单元101、第一判断单元102、预测输出单元103以及第一检测单元104。
[0068]
所述获取确定单元101用于获取声源信息并根据所述声源信息确定所述声源信息对应的发言人所在的预设角度区间及角度；所述第一判断单元102用于判断所述发言人所在的角度是否超出预设发言人区间；所述预测输出单元103用于若所述发言人所在的角度在所述预设发言人区间内，则基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表，其中，所述预设会议信息暂存表是基于所述预设角度区间建立的，所述预设会议信息暂存表中存储有与预设角度区间对应的发言人的历史位置坐标；所述第一检测单元104用于若所述发言人所在的角度超出所述预设发言人区间，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表。
[0069]
在一实施例中，所述预测输出单元103，包括：第一建立单元，计算单元以及预测单元。
[0070]
所述第一建立单元用于基于所述预设的会议信息暂存表内的发言人的历史位置坐标建立二次线性预测方程；所述计算单元用于通过损失函数计算所述二次线性预测方程的参数以得到预测方程；所述预测单元用于基于所述发言人所在的角度根据所述预测方程预测所述发言人当前的位置坐标。
[0071]
在一实施例中，所述会议发言人定位装置100还包括：第二判断单元，第二建立单元，第二检测单元以及输出更新单元。
[0072]
所述第二判断单元用于判断所述预设发言人区间所对应的发言人的历史位置坐标的数量是否满足建立二次线性预测方程的预设条件；所述第二建立单元用于若所述预设发言人区间所对应的发言人的历史位置坐标的数量满足所述预设条件，则基于所述预设发言人区间所对应的发言人的历史位置坐标建立二次线性预测方程；所述第二检测单元用于若所述预设发言人区间所对应的发言人的历史位置坐标的数量不满足所述预设条件，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取发言人当前的位置坐标；所述输出更新单元用于输出所述发言人当前的位置坐标并将该发言人当前的位置坐标更新至所述预设的会议信息暂存表。
[0073]
在一实施例中，所述会议发言人定位装置100还包括：裁取检测单元以及比较建立单元。
[0074]
所述裁取检测单元用于根据所述发言人所在的角度裁取预设区间的图片信息，通过指数衰减动态调节的人脸检测算法的速率对所述图片信息进行检测以获取所述发言人的参考位置坐标；所述比较建立单元用于将所述发言人的参考位置坐标与根据所述预设的会议信息暂存表预测的所述发言人当前的位置坐标进行比较，若差值大于预设误差，则基于所述预设的会议信息暂存表内的发言人位置坐标重新建立二次线性预测方程。
[0075]
在一实施例中，所述第一检测单元，包括：第三检测单元，第一输出单元以及第二
输出单元。
[0076]
所述第三检测单元用于检测所述图片信息中包含的人脸数量；所述第一输出单元用于若检测到所述人脸数量为1，则输出所述人脸对应发言人当前的位置坐标；所述第二输出单元用于若检测到所述人脸数量大于1，则通过唇动检测算法检测所述图片信息中正在发言的发言人并输出该发言人当前的位置坐标。
[0077]
在一实施例中，所述裁取检测单元，包括：调节单元。
[0078]
所述调节单元用于通过公式调节人脸检测算法的速率，其中f为人脸检测算法每秒的人脸检测速率，t为发言人在所述发言人区间内停留的时间。
[0079]
在一实施例中，所述损失函数为其中表示第k个发言人所在的角度通过二次线性回归方程所预测的该发言人当前的位置坐标，yk为实际的第k个发言人所在的角度对应的该发言人的实际位置坐标。
[0080]
需要说明的是，所属领域的技术人员可以清楚地了解到，上述会议发言人定位装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。
[0081]
上述会议发言人定位装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的会议设备上运行。
[0082]
请参阅图6，该会议设备300包括通过系统总线301连接的处理器302、存储器和网络接口305，其中，存储器可以包括非易失性存储介质303和内存储器304。
[0083]
该非易失性存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时，可使得处理器302执行一种会议发言人定位方法。
[0084]
该处理器302用于提供计算和控制能力，以支撑整个会议设备300的运行。
[0085]
该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境，该计算机程序3032被处理器302执行时，可使得处理器302执行一种会议发言人定位方法。
[0086]
该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的会议设备300的限定，具体的会议设备300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0087]
其中，所述处理器302用于运行存储在存储器中的计算机程序3032，以实现如下步骤：
[0088]
获取声源信息并根据所述声源信息确定所述声源信息对应的发言人所在的预设角度区间及角度；判断所述发言人所在的角度是否超出预设发言人区间；若所述发言人所在的角度在所述预设发言人区间内，则基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表，其中，所述预设会议信息暂存表是基于所述预设角度区间建立的，所述预设会议信息暂存表中存储有与预设角度区间对应的发言人的历史位置坐标；若所述发言人所在的角度超出所述预设发言人区间，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，将所述发言人当前的位置坐标更新至所述预设的会议信息暂存表。
[0089]
在一实施例中，所述基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标，包括：基于所述预设的会议信息暂存表内的发言人的历史位置坐标建立二次线性预测方程；通过损失函数计算所述二次线性预测方程的参数以得到预测方程；基于所述发言人所在的角度根据所述预测方程预测所述发言人当前的位置坐标。
[0090]
在一实施例中，在所述基于所述预设的会议信息暂存表内的发言人的历史位置坐标建立二次线性预测方程之前还包括：判断所述预设发言人区间所对应的发言人的历史位置坐标的数量是否满足建立二次线性预测方程的预设条件；若所述预设发言人区间所对应的发言人的历史位置坐标的数量满足所述预设条件，则基于所述预设发言人区间所对应的发言人的历史位置坐标建立二次线性预测方程；若所述预设发言人区间所对应的发言人的历史位置坐标的数量不满足所述预设条件，则根据所述发言人所在的角度裁取预设区间的图片信息，通过人脸检测算法对所述图片信息进行检测以获取发言人当前的位置坐标；输出所述发言人当前的位置坐标并将该发言人当前的位置坐标更新至所述预设的会议信息暂存表。
[0091]
在一实施例中，所述基于所述发言人所在的角度根据所述预设的会议信息暂存表预测并输出所述发言人当前的位置坐标时，该方法还包括：根据所述发言人所在的角度裁取预设区间的图片信息，通过指数衰减动态调节的人脸检测算法的速率对所述图片信息进行检测以获取所述发言人的参考位置坐标；将所述发言人的参考位置坐标与根据所述预设的会议信息暂存表预测的所述发言人当前的位置坐标进行比较，若差值大于预设误差，则基于所述预设的会议信息暂存表内的发言人位置坐标重新建立二次线性预测方程。
[0092]
在一实施例中，所述通过人脸检测算法对所述图片信息进行检测以获取并输出所述发言人当前的位置坐标，包括：检测所述图片信息中包含的人脸数量；若检测到所述人脸数量为1，则输出所述人脸对应发言人当前的位置坐标；若检测到所述人脸数量大于1，则通过唇动检测算法检测所述图片信息中正在发言的发言人并输出该发言人当前的位置坐标。
[0093]
在一实施例中，所述通过指数衰减动态调节的人脸检测算法的速率，包括：通过公式调节人脸检测算法的速率，其中f为人脸检测算法每秒的人脸检测速率，t为发言人在所述发言人区间内停留的时间。
[0094]
在一实施例中，所述损失函数为其中表示第k个发言人所在的角度通过二次线性回归方程所预测的该发言人当前的位置坐标，yk为实际的第k个发言人所在的角度对应的该发言人的实际位置坐标。
[0095]
应当理解，在本技术实施例中，处理器302可以是中央处理单元(central processing unit，cpu)，该处理器302还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0096]
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，
该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。
[0097]
因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行本发明会议发言人定位方法的上述任意实施例。
[0098]
所述存储介质为实体的、非瞬时性的存储介质，例如可以是u盘、移动硬盘、只读存储器(read-only memory，rom)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
[0099]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0100]
在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
[0101]
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。
[0102]
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台会议设备执行本发明各个实施例所述方法的全部或部分步骤。
[0103]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。
[0104]
显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
[0105]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：目标案件的预测方法和装置、电子设备、存储介质与流程

会议发言人定位方法、装置、会议设备及存储介质与流程

相关文献

最热文献