一种音量调节方法、电子设备、终端及可存储介质与流程

2022-07-02 06:47:38 来源：中国专利 TAG：

1.本技术涉及终端技术领域，尤其涉及一种音量调节方法、电子设备、终端及可存储介质。

背景技术：

2.当前，终端技术发展迅速，且已被广泛普及使用。除了日常通信，用户在参加会议时也可随身携带终端，如手机。开会时，用户通常可通过会议设备观看和收听会议内容。当然，为了方便，随着技术发展，用户也可以将会议内容同步至终端上进行播放。
3.用户若用手机加入会议，如果手机在会议室内直接播放，会影响其他与会人员；但如果手机静音播放会议内容，用户离开会议室后又需要用户手动来回调节音量，才能避免错过会议内容。对于上述场景，当前尚未有合适的智能控制策略。

技术实现要素：

4.本技术的实施例提供一种音量调节方法、电子设备、终端及可存储介质，解决了用户在出入不同场合时需要手动调节终端播放音量的问题。
5.第一方面，本技术提供了一种音量调节方法，应用于终端，包括：当终端位于特定空间内时，首先获取所述特定空间中的设备播放/采集的多媒体内容；然后以第一音量播放所述多媒体内容的音频数据；再检测所述终端是否离开所述特定空间；当检测到所述终端离开所述特定空间时，所述终端继续播放所述多媒体内容，并自动调节为第二音量播放所述多媒体内容的音频数据，所述第二音量大于所述第一音量。
6.本技术实施例通过检测终端是否离开特定空间，当检测到离开特定空间时，自动调节终端至合适的音量，使终端的音量调节更加智能，避免频繁手动调节音量带来的体验不佳的问题。
7.可选的，第一音量为静音，防止音量外放影响特定空间内的人员，例如会议室的与会人员或电影放映厅内的观影人员；第二音量为终端进入特定空间之前的音量或经常使用的音量设置，当用户离开特定空间后，按平时用户习惯的音量播放音频内容。
8.在一个可能的实现中，上述检测所述终端是否离开所述特定空间，包括：获取第二音频数据，所述第二音频数据为所述终端当前采集的音频数据；比较第一音频数据和第二音频数据的相似程度，确定音频匹配度，其中，所述第一音频数据为所述多媒体内容的音频数据；至少基于所述音频匹配度，确定所述终端是否离开所述特定空间。
9.本技术实施例通过比较特定空间内播放的音频数据和终端当前采集到的音频数据是否匹配，判断终端是否离开特定空间，进而根据判断结果自动调节终端至合适的音量，使终端的音量调节更加智能，避免频繁手动调节音量带来的体验不佳的问题。
10.在一个可能的实现中，上述至少基于音频匹配度，确定所述终端是否离开特定空间的实现方式为：所述音频匹配度小于第一阈值，则确定所述终端离开所述特定空间。
11.在一个可能的实现中，上述至少基于音频匹配度，确定所述终端是否离开所述特
定空间的实现方式为：至少基于所述音频匹配度和接收信号强度突变结果，确定所述终端是否离开特定空间；其中，所述接收信号强度突变结果表征所述接收信号强度发生突变的概率，基于多组接收信号强度确定，所述多组接收信号强度为所述终端在连续时间内接收到的所述特定空间内的通信装置发送的信号强度。
12.通过音频匹配度和接收信号强度突变结果两个判断条件，更加准确的判断所述终端是否离开特定空间，避免终端未离开特定空间，就调节终端的音量至第二音量的情况发生。
13.在另一个可能的实现中，上述至少基于所述音频匹配度和接收信号强度突变结果，确定所述终端是否离开特定空间的实现方式为：对所述接收信号强度突变结果和所述音频匹配度进行加权求和，确定所述终端离开所述特定空间的概率p；所述p大于或等于预设概率值，则确定所述终端离开所述特定空间。
14.在另一个可能的实现中，上述至少基于音频匹配度，确定所述终端是否离开特定空间的实现方式为：基于所述音频匹配度、接收信号突变结果和图像识别结果，确定所述终端是否离开特定空间；其中，所述接收信号强度突变结果表征所述接收信号强度发生突变的概率，基于多组接收信号强度确定，所述多组接收信号强度为所述终端在连续时间内接收所述特定空间内的通信装置发送的信号强度；所述图像识别结果表征所述终端位于所述特定空间的概率，基于目标对象的图像和图像识别模型获得，所述图像识别模型用于基于目标对象的图像识别判断所述终端位于所述特定空间的概率。
15.进一步增加图像识别结果的判断条件，实现通过音频匹配度、接收信号突变结果和图像识别结果三个判断结果，来判断终端是否离开特定空间，进一步增加判断的准确性，提升用户的使用体验。
16.在另一个可能的实现中，上述基于所述音频匹配度、接收信号突变结果和图像识别结果，确定所述终端是否离开特定空间的实现方式为：所述音频匹配度小于第一阈值、所述接收信号强度突变结果大于第二阈值，所述图像识别结果小于第三阈值；或者，所述音频匹配度小于所述第一阈值和所述接收信号强度突变结果大于第二阈值；或者，所述音频匹配度小于第一阈值和所述图像识别结果小于第三阈值；或者，所述接收信号强度突变结果大于第二阈值和所述图像识别结果小于第三阈值；则判断所述终端离开所述特定空间。
17.在另一个可能的实现中，上述比较第一音频数据和第二音频数据的相似程度，确定音频匹配度包括：获取所述第二音频数据；对齐所述第一音频数据和第二音频数据；提取所述第一音频数据的预设时间段的连续n帧音频帧，得到第一音频帧序列；提取所述第二音频数据中与所述第一音频帧序列对齐的n帧音频帧，得到第二音频帧序列；所述n为大于或等于1的正整数；计算所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度；基于第二音频帧序列中达标的音频帧的数量与n的比值，确定所述预设时间段的第一音频数据和第二音频数据的音频匹配度，其中，达标的音频帧为所述第二音频帧序列中的音频帧和所述第一音频帧序列中的对应音频帧的相似度大于第四阈值的音频帧。
18.在另一个可能的实现中，上述计算所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度的实现方式为：分别提取获得表征所述第一音频帧序列中各帧音频帧的第一特征向量，和表征所述第二音频帧序列中各帧音频帧的第二特征向
量；基于所述第一特征向量与所述第二特征向量的相似度，确定所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度。
19.在另一个可能的实现中，上述对齐所述第一音频数据和第二音频数据的实现方式为：提取所述第二音频数据中自第一时刻起始的连续m帧音频帧序列，得到第三音频帧序列，提取所述第一音频数据中自多个不同第二时刻起始的连续m帧音频帧序列，得到多个第四音频帧序列，所述第二时刻大于或等于第一时刻，所述m为大于或等于1的正整数；基于所述第三音频帧序列和所述第四音频帧序列的相似度，确定时延补偿参数；基于所述时延补偿参数，对齐所述第一音频数据和第二音频数据。
20.在另一个可能的实现中，该方法还包括：获取连续时间的多组接收信号强度；基于所述多组接收信号强度，确定所述接收信号强度突变结果。
21.以多组接收信号强度，确定接收信号强度突变结果，避免单一接收信号强度发生异常影响接收信号强度突变结果的准确性。
22.在另一个可能的实现中，上述基于所述多组接收信号强度，确定所述接收信号强度突变结果的实现方式为：基于相邻时刻的两组接收信号强度的差值，确定表征接收信号强度变化特征的特征向量；将所述特征向量输入预设的预测模型，确定所述接收信号强度突变结果。
23.在另一个可能的实现中，上述基于相邻时刻的两组接收信号强度的差值，确定表征接收信号强度变化特征的特征向量的实现方式为：基于相邻时刻的信号强度的差值是否大于第五阈值，确定信号强度突变特征向量。
24.在另一个可能的实现中，上述多组接收信号强度为多组x个蓝牙接收信号强度，所述多组x个蓝牙接收信号强度为在连续时间内所述终端接收到的所述特定空间内的x个蓝牙设备发送的蓝牙信号强度，所述x为大于或等于3的正整数；所述多组接收信号强度中的一组接收信号强度为同一时间的所述终端接收到的所述特定空间内的x个蓝牙设备发送的蓝牙信号强度。
25.本技术通过利用特定空间内的终端的蓝牙信号强度作为接收信号强度，无需预设任何蓝牙设备，节省部署成本，同时适用范围更加广泛。
26.在另一个可能的实现中，上述检测到所述终端离开所述特定空间时，所述终端继续播放所述多媒体内容，并自动调节为第二音量播放所述多媒体内容的音频数据的实现方式为：若检测到所述终端离开所述特定空间，则控制所述终端的前置摄像头打开；判断是否满足所述前置摄像头采集到所述目标用户的面部图像持续预设时间和所述终端的显示页面为指定显示页面；若满足，则自动调节所述终端至所述第二音量播放所述多媒体内容的音频数据。实现在用户需要的时候播放音频内容，更加人性化。
27.在另一个可能的实现中，该方法还包括：若检测到所述终端离开所述特定空间；则采集第一信号指纹，所述第一信号指纹基于所述终端在当前位置采集到的接收信号强度确定；以预设频率采集多个第二信号指纹，当所述第二信号指纹与所述第一信号指纹匹配时；则调节所述终端的音量至第三音量，所述第三音量大于第一音量且小于第二音量。实现当用户即将进入特定空间时(例如会议室或电影放映厅)，调小音量，避免影响特定空间内的人员。
28.可选的，第三音量为较小音量，例如，当终端的最大音量为100时，第三音量为10。
29.在另一个可能的实现中，该方法还包括：若检测到所述终端离开所述特定空间后，则继续检测所述终端是否进入所述特定空间；若检测到所述终端进入所述特定空间，则自动调节所述终端的音量至所述第一音量播放所述多媒体内容的音频数据。
30.在另一个可能的实现中，上述多媒体数据还包括所述特定空间中的设备的显示内容。
31.在另一个可能的实现中，该方法还包括：根据音频匹配度、接收信号突变结果和图像识别结果，调整第四阈值、时延补偿参数和第五阈值。
32.在另一个可能的实现中，根据音频匹配度、接收信号突变结果和图像识别结果，调整第四阈值、时延补偿参数和第五阈值的实现方式为：当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；或，所述图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则调整所述时延补偿参数和第四阈值；
33.当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；或，当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调整所述第五阈值。实现音频匹配度的决定参数和接收信号强度突变结果的决定参数的相互学习，动态调整，提高终端是否离开特定空间的判断准确性。
34.在另一个可能的实现中，当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；或，所述图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则调整所述时延补偿参数和第四阈值的实现方式为：当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；则调大所述第四阈值至所述音频匹配度小于第一阈值；当图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则判断音频相似度变化率是否大于预设阈值；若是，则调整所述时延补偿参数至所述音频相似度变化率小于预设阈值；若否，则调小所述第四阈值至所述音频匹配度大于或等于第一阈值；
35.其中，所述音频相似度变化率基于第二时刻的所述第一音频数据的音频帧和第二语音数据的音频帧的相似度与第三时刻的所述第一音频数据的音频帧和第二语音数据的音频帧的相似度的差值与所述第二时刻和第三时刻的差值的比值确定，所述第二时刻为当图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值的时刻，所述第三时刻为所述第二时刻的前一相邻时刻。
36.在另一个可能的实现中，所述当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；或，当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调整所述第五阈值的实现方式为：当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；则调小所述第五阈值至所述接收信号强度突变结果大于第二阈值；当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调大所述第五阈值至所述接收信号强度突变结果小于或等于第二阈值。
37.第二方面，本技术还提供一种电子设备，包括：获取模块，用于当位于特定空间时，所述终端获取所述特定空间中的设备播放/采集的多媒体内容；播放模块，用于播放所述多媒体内容，并以第一音量播放所述多媒体内容的音频数据；检测模块，用于检测所述终端是否离开所述特定空间；调节模块，用于检测到所述终端离开所述特定空间时，所述终端继续播放所述多媒体内容，并自动调节为第二音量播放所述多媒体内容的音频数据，所述第二音量大于所述第一音量。
38.在一个可能的实现中，所述获取模块还用于：获取第二音频数据，所述第二音频数据为所述终端当前采集的音频数据；所述检测模块还用于：比较第一音频数据和第二音频数据的相似程度，确定音频匹配度，其中，所述第一音频数据为所述多媒体内容的音频数据；至少基于所述音频匹配度，确定所述终端是否离开所述特定空间。
39.在一个可能的实现中，所述至少基于音频匹配度，确定所述终端是否离开所述特定空间，包括：所述音频匹配度小于第一阈值，则确定所述终端离开所述特定空间。
40.在另一个可能的实现中，所述至少基于音频匹配度，确定所述终端是否离开特定空间，包括：至少基于所述音频匹配度和接收信号强度突变结果，确定所述终端是否离开特定空间；其中，所述接收信号强度突变结果表征所述接收信号强度发生突变的概率，基于多组接收信号强度确定，所述多组接收信号强度为所述终端在连续时间内接收到的所述特定空间内的通信装置发送的信号强度。
41.在另一个可能的实现中，所述至少基于所述音频匹配度和接收信号强度突变结果，确定所述终端是否离开特定空间，包括：对所述接收信号强度突变结果和所述音频匹配度进行加权求和，确定所述终端离开所述特定空间的概率p；所述p大于或等于预设概率值，则确定所述终端离开所述特定空间。
42.在另一个可能的实现中，所述至少基于音频匹配度，确定所述终端是否离开特定空间，包括：基于所述音频匹配度、接收信号突变结果和图像识别结果，确定所述终端是否离开特定空间；其中，所述接收信号强度突变结果表征所述接收信号强度发生突变的概率，基于多组接收信号强度确定，所述多组接收信号强度为所述终端在连续时间内接收所述特定空间内的通信装置发送的信号强度；所述图像识别结果表征所述终端位于所述特定空间的概率，基于目标对象的图像和图像识别模型获得，所述图像识别模型用于基于目标对象的图像识别判断所述终端位于所述特定空间的概率。
43.在另一个可能的实现中，所述基于所述音频匹配度、接收信号突变结果和图像识别结果，确定所述终端是否离开特定空间，包括：所述音频匹配度小于第一阈值、所述接收信号强度突变结果大于第二阈值，所述图像识别结果小于第三阈值；或者，所述音频匹配度小于所述第一阈值和所述接收信号强度突变结果大于第二阈值；或者，所述音频匹配度小于第一阈值和所述图像识别结果小于第三阈值；或者，所述接收信号强度突变结果大于第二阈值和所述图像识别结果小于第三阈值；则判断所述终端离开所述特定空间。
44.在另一个可能的实现中，检测模块还用于，对齐所述第一音频数据和第二音频数据；提取所述第一音频数据的预设时间段的连续n帧音频帧，得到第一音频帧序列；提取所述第二音频数据中与所述第一音频帧序列对齐的n帧音频帧，得到第二音频帧序列；所述n为大于或等于1的正整数；计算所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度；基于第二音频帧序列中达标的音频帧的数量与n的比值，确定所
述预设时间段的第一音频数据和第二音频数据的音频匹配度，其中，达标的音频帧为所述第二音频帧序列中的音频帧和所述第一音频帧序列中的对应音频帧的相似度大于第四阈值的音频帧。
45.在另一个可能的实现中，所述计算所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度，包括：分别提取获得表征所述第一音频帧序列中各帧音频帧的第一特征向量，和表征所述第二音频帧序列中各帧音频帧的第二特征向量；基于所述第一特征向量与所述第二特征向量的相似度，确定所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度。
46.在另一个可能的实现中，所述对齐所述第一音频数据和第二音频数据，包括：提取所述第二音频数据中自第一时刻起始的连续m帧音频帧序列，得到第三音频帧序列，提取所述第一音频数据中自多个不同第二时刻起始的连续m帧音频帧序列，得到多个第四音频帧序列，所述第二时刻大于或等于第一时刻，所述m为大于或等于1的正整数；基于所述第三音频帧序列和所述第四音频帧序列的相似度，确定时延补偿参数；基于所述时延补偿参数，对齐所述第一音频数据和第二音频数据。
47.在另一个可能的实现中，所述检测模块还用于，获取连续时间的多组接收信号强度；基于所述多组接收信号强度，确定所述接收信号强度突变结果。
48.在另一个可能的实现中，所述基于所述多组接收信号强度，确定所述接收信号强度突变结果，包括：基于相邻时刻的两组接收信号强度的差值，确定表征接收信号强度变化特征的特征向量；将所述特征向量输入预设的预测模型，确定所述接收信号强度突变结果。
49.在另一个可能的实现中，所述多组接收信号强度为多组x个蓝牙接收信号强度，所述多组x个蓝牙接收信号强度为在连续时间内所述终端接收到的所述特定空间内的x个蓝牙设备发送的蓝牙信号强度，所述x为大于或等于3的正整数；所述多组接收信号强度中的一组接收信号强度为同一时间的所述终端接收到的所述特定空间内的x个蓝牙设备发送的蓝牙信号强度。
50.在另一个可能的实现中，所述调节模块还用于：若检测到所述终端离开所述特定空间，则控制所述终端的前置摄像头打开；判断是否满足所述前置摄像头采集到所述目标用户的面部图像持续预设时间和所述终端的显示页面为指定显示页面；若满足，则自动调节所述终端至所述第二音量播放所述多媒体内容的音频数据。
51.在另一个可能的实现中，该设备还包括：采集模块，用于若所述终端离开所述特定空间；则采集第一信号指纹，所述第一信号指纹基于所述终端在当前位置采集到的接收信号强度确定；以预设频率采集多个第二信号指纹；调节模块还用于，当所述第二信号指纹与所述第一信号指纹匹配时；则调节所述终端的音量至第三音量，所述第三音量大于第一音量且小于第二音量。
52.在另一个可能的实现中，所述检测模块还用于：若检测到所述终端离开所述特定空间后，则继续检测所述终端是否进入所述特定空间；若检测到所述终端进入所述特定空间，则自动调节所述终端的音量至所述第一音量播放所述多媒体内容的音频数据。
53.在另一个可能的实现中，所述多媒体内容还包括所述特定空间中的设备的显示内容。
54.在另一个可能的实现中，该设备还包括参数优化模块，用于根据音频匹配度、接收
信号突变结果和图像识别结果，调整第四阈值、时延补偿参数和第五阈值。
55.在另一个可能的实现中，根据音频匹配度、接收信号突变结果和图像识别结果，调整第四阈值、时延补偿参数和第五阈值，包括：当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；或，所述图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则调整所述时延补偿参数和第四阈值；
56.当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；或，当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调整所述第五阈值。实现音频匹配度的决定参数和接收信号强度突变结果的决定参数的相互学习，动态调整，提高终端是否离开特定空间的判断准确性。
57.在另一个可能的实现中，当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；或，所述图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则调整所述时延补偿参数和第四阈值，包括：当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；则调大所述第四阈值至所述音频匹配度小于第一阈值；
58.当图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则判断音频相似度变化率是否大于预设阈值；若是，则调整所述时延补偿参数至所述音频相似度变化率小于预设阈值；若否，则调小所述第四阈值至所述音频匹配度大于或等于第一阈值；
59.其中，所述音频相似度变化率基于第二时刻的所述第一音频数据的音频帧和第二语音数据的音频帧的相似度与第三时刻的所述第一音频数据的音频帧和第二语音数据的音频帧的相似度的差值与所述第二时刻和第三时刻的差值的比值确定，所述第二时刻为当图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值的时刻，所述第三时刻为所述第二时刻的前一相邻时刻。
60.在另一个可能的实现中，所述当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；或，当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调整所述第五阈值，包括：当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；则调小所述第五阈值至所述接收信号强度突变结果大于第二阈值；当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调大所述第五阈值至所述接收信号强度突变结果小于或等于第二阈值。
61.第三方面，本技术还提供一种终端，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码，实现上述第一方面或第一方面任一种可能实现方式中所述的方法。
62.第四方面，本技术还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述第一方面或第一方面任一种可能实现
方式中所述的方法。
63.第五方面，本技术还提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品包括指令，当所述指令执行时，实现上述第一方面或第一方面任一种可能实现方式中所述的方法。
64.本技术在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。
附图说明
65.图1为本技术实施例的一种应用场景图；
66.图2a为本技术实施例提供的音量调节方法的流程图；
67.图2b为另一实施例的音量调节方法的流程图；
68.图3为本技术实施例的检测终端是否离开会议室的方法的流程图；
69.图4为音频匹配度确定流程图；
70.图5为音频数据的mfcc特征提取示意图；
71.图6为第一音频数据和第二音频数据的对齐过程示意图；
72.图7为rssi获取示意图；
73.图8为rssi突变结果确定流程图；
74.图9为另一个实施例中音量调节方法的流程图；
75.图10为另一个实施例中音频匹配度的参数调整示意图；
76.图11为另一个实施例中接收信号强度突变结果的参数调整示意图；
77.图12为本技术实施例的另一种应用场景图；
78.图13为本技术实施例提供的电子设备的结构示意图；
79.图14为本技术实施例提供的终端的结构示意图。
具体实施方式
80.下面通过附图和实施例，对本技术的技术方案做进一步的详细描述。
81.本技术实施例提供的音量调节方法及终端，可应用于用户出入需要终端安静的特定空间时的场景，例如会议室、电影放映厅等场所。下面以会议室场景为例介绍本技术实施例的方案进行具体说明。
82.图1为本技术实施例的应用场景图。如图1所示，用户正在参加有多名与会人员参与的会议，当用户需要短暂离开会议室(例如去卫生间)，但是又不想错过会议内容，可通过用户携带的终端与会议设备1建立连接，将会议内容同步至用户的终端进行播放。为了不影响其他与会人员，先静音播放该会议内容，当用户离开会议室后则自动调至正常音量播放会议内容。这样既保证了用户不会错过重要会议内容，又实现了终端智能化根据场景调节音量，不对其他与会人员造成声音干扰，提高用户使用体验。
83.图2a为本技术实施例提供的音量调节方法的流程图。如图2a所示，包括如下步骤：
84.s201、获取至少包括会议音频数据的会议内容数据，以第一音量播放会议音频数据。
85.当用户需要暂时离开会议室(即特定空间)时，为了不错过会议内容，用户通过终
端获取至少包括会议音频数据的会议内容数据(即多媒体数据)并将获取的会议音频数据在终端上以第一音量继续播放。
86.可以理解的是，终端与会议设备建立通信连接以获取会议内容数据有多种方法，例如当会议室内具有采集会议内容数据并可将采集到的会议内容同步至特定终端上的会议辅助设备，终端可通过“碰一碰”的方式与会议辅助设备建立连接，以将会议内容同步至终端上进行播放。或者，终端通过扫描二维码的方式与会议设备建立连接，将会议内容数据同步至终端上进行播放。或者，终端通过接收指令与特定会议设备建立通信连接的方式，将会议内容数据同步至终端上进行播放等，可根据实际情况采用任何可实现的获取方式获取，本技术不做限定。
87.需要解释的是，会议音频数据包括与会议相关的音频数据，例如会议设备播放的音频数据、与会人员的发言讨论产生的音频数据、其他会议设备产生的音频数据(例如有远程与会人员的远端语音通过扬声器播放)等。
88.在一个示例中，为了不影响与会人员，第一音量为静音，或极小音量，例如最高音量为100时，第一音量为1-5之间，即第一音量以近距离不被人感知到为宜。
89.终端可以为智能手机、智能穿戴设备、平板电脑、笔记本电脑、掌上电脑、个人数字助理等配置有收放音功能的终端。
90.会议设备可以为具有通信功能的显示设备(例如大屏显示器，显示播放会议内容数据)、或者拾音设备(例如麦克风，拾取与会人员的发言产生的音频数据)等与会议相关的设备。
91.s202、检测终端是否离开会议室。
92.当用户通过终端获取会议内容数据时(即当终端与会议设备建立通信连接时)，则开始检测其自身是否离开会议室。例如，当终端与会议辅助设备“碰一碰”建立通信连接，或者，当终端扫描二维码与会议设备建立通信连接，或者，当终端接收指令与会议设备建立通信连接时，则终端启动其内置的检测算法检测自身是否离开会议室。具体的检测终端是否离开会议室的方案参见下文。
93.s203、检测到终端离开会议室时，则自动调节为大于第一音量的第二音量进行播放会议内容的音频数据。
94.可以理解的是，这里的第二音量可以为终端进入会议室之前的音量或经常使用的音量当用户离开会议室后，按平时用户习惯的音量播放会议音频数据，当然第二音量也可以为预设的音量，例如终端的最大播放音量为100，可以将第二音量预设为50，本技术不做限定。
95.本技术实施例提供的音量调节方法，通过检测终端是否离开会议室，当检测到终端离开会议室时，自动调节终端至合适的音量播放会议内容的音频数据，使终端的音量调节更加智能，避免频繁手动调节音量带来的体验不佳的问题。
96.在另一个实施例中，为了进一步提升用户体验，实现当用户需要的时候再调大音量。如图2b所示，首先当判断终端离开会议室时，控制终端的前置摄像头打开，判断是否满足所述前置摄像头采集到所述目标用户的面部图像持续预设时间和所述终端的显示页面为会议播放页面(即指定页面)；若是，就表明用户有获取会议内容的需求，此时则将终端的音量调大至第二音量，即正常音量进行播放会议音频数据。
97.图3为本技术实施例提供的检测终端是否离开会议室的方法流程图。如图3所示，包括以下步骤：
98.s301、终端采集当前所处环境的音频数据。
99.当用户通过终端获取会议内容数据时，则控制终端的拾音设备(例如麦克风)开始采集当前所处环境的音频数据。
100.s302、比较终端采集到的音频数据和会议内容中的音频数据的相似程度，确定音频匹配度。
101.为了描述方便将会议音频数据表示为第一音频数据，将终端当前采集的音频数据表示为第二音频数据。比较终端采集到的音频数据和会议内容中的音频数据的相似程度，确定音频匹配度的方法参见图4。
102.如图4所示，首先在s401中对齐第一音频数据和第二音频数据。
103.具体的，先提取第二音频数据中自第一时刻起始的连续m帧音频帧序列，得到第三音频帧序列，提取第一音频数据中自多个不同第二时刻起始的连续m帧音频帧序列，得到多个第四音频帧序列，第二时刻大于或等于第一时刻，m为大于或等于1的正整数。然后找出与第三音频帧序列相似度最高的第四音频帧序列，该第四音频帧序列对应的第二时刻与第一时刻的差值即为时延补偿参数。最后基于时延补偿参数补偿第一音频数据的时延，即实现第一音频数据和第二音频数据的对齐。
104.上述计算第三音频帧序列和第四音频帧序列的相似度，可通过计算第三音频帧序列中的每帧的音频特征和第四音频帧序列中的音频特征的相似度得到。
105.音频特征可以为mfcc(mel frequency cepstrum coefficient，mel频谱倒谱系数)特征、fbank(filterbank)特征等，这里以音频特征为mfcc特征为例进行说明，mfcc特征提取过程参见图5。
106.在一个示例中，将音频数据分为40毫秒一帧，其中帧移10毫秒，每0.5秒可以提取12帧，每帧可以提取26个特征的特征向量。则第一音频数据中提取的第i帧的mfcc特征向量为mi＝[m
i1 m
i2
ꢀ…ꢀmip
],p＝26(即第一特征向量)，第二音频数据中提取的第j帧的mfcc特征向量为fj＝[f
j1 f
j2
ꢀ…ꢀfjp
],p＝26(即第二特征向量)。
[0107]
相似度的计算方法有多种，例如欧式距离、余弦相似度、曼哈顿距离等方法，这里以欧式距离为例进行说明，若第四音频帧序列中每帧的mfcc特征和第三语音帧序列中每帧的mfcc特征满足：即连续m帧的欧式距离之和最小，则判断第一音频数据和第二音频数据开始匹配重合，进而获得时延补偿参数delay＝δt*(i-1)，其中δt为帧长，即为上文中的40毫秒，利用时延补偿参数补偿第一音频数据使第一音频数据与第二音频数据实现对齐(如图6所示)。
[0108]
在步骤s402和s403中，提取第一音频数据的预设时间段(例如0.5秒)的连续n帧音频帧，得到第一音频帧序列和提取第二音频数据中与第一音频帧序列对齐的n帧音频帧，得到第二音频帧序列。
[0109]
在步骤s404中，计算第一音频帧序列中各帧音频帧与第二音频帧序列中对应的音频帧的相似度。其计算方法参见步骤s401中相似度计算的描述。
[0110]
s405、基于第二音频帧序列中达标的音频帧的数量与n的比值，确定预设时间段的
第一音频数据和第二音频数据的音频匹配度。
[0111]
若第二音频帧序列中音频帧与第一音频帧序列中的对应音频帧的相似度大于第四阈值，则判断该音频帧达标。每0.5秒为一个时刻，一个时刻有12(即为n)帧，计算该时刻的音频匹配度p
voicesimilarity
＝达标的音频帧的数量/12。
[0112]
回到图3，步骤s302执行完成后，执行步骤s303。在步骤s303中，至少基于音频匹配度，确定终端是否离开会议室。
[0113]
这里的音频匹配度是指两段音频数据的相似程度，两段音频数据的相似程度越高则匹配度越高，当两段音频数据完全相同时，则此时的音频匹配度最高。若终端位于会议室内则其采集到的音频数据必然包括会议音频数据，与会议音频数据有很高的相似程度，也就是说很高的音频匹配度。而当终端离开会议室，其当前采集到的音频数据不包括会议音频数据，则采集到的音频数据和会议音频数据的相似程度会很低，也就是说音频匹配度低。因此，可以利用音频匹配度判断终端是否离开会议室。例如，当音频匹配度小于第一阈值时，则确定终端离开会议室。
[0114]
相比于第一种方法，本技术实施例的检测终端是否离开会议室的方法对用户是否离开会议室的判断更加准确，避免了第一种方法中的需要线下大量试验采集、录入阈值以及无线网络的信号强度经常存在异常值，依靠其信号强度确定终端是否离开会议室的精度很低的问题，防止用户未离开会议室，就调节终端的音量至正常音量播放的情况发生，提升用户体验。
[0115]
在另一个实施例中，为了进一步提高终端是否离开会议判断的准确性，终端基于音频匹配度和接收信号强度(received signal strength indication，rssi)突变结果，确定终端是否离开会议室。
[0116]
其中rssi突变结果表征接收信号强度发生突变的概率，基于多组rssi确定，多组rssi为终端在连续时间内接收到的会议室内的通信装置发送的信号强度。
[0117]
例如，由于现在手机的功能的强大，人们几乎机不离身，因此，可以以终端在连续时间内接收到的会议室内的多个与会人员的手机的蓝牙rssi作为多组rssi(如图7所示)，每组数量x可以为终端可利用蓝牙设备的上限数量和搜索到的与会人员的手机设备数量中的较大值，或者为rssi中大于预设阈值的数量，保证rssi具有一定强度，减少较弱的rssi的异常波动带来的影响。
[0118]
在一个示例中，基于相邻时刻的两组rssi的差值，确定表征rssi变化特征的特征向量y,将y输入训练好的预测模型，预测模型输出rssi突变结果。
[0119]
特征向量y的提取方法可以基于相邻时刻的两组rssi的差值确定，例如，每0.5秒采集一组rssi数据，以0.5秒为一个时刻，定义第i时刻的第j个蓝牙信号的rssi为r
ij
，则i时刻的特征向量yi＝[y
i1 y
i2
ꢀ…ꢀyij
ꢀ…ꢀyix
],其中y
ij
的取值方法如下：
[0120][0121]
其中δj为第j个蓝牙rssi的容许的最大波动误差(即第五阈值)。
[0122]
可以理解的是，预测模型可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。预测模型也可被称为预测神
经网络、学习模型或学习网络等。预测模型有多种，例如长短期记忆网络(long short term memory，lstm)、深度神经网络(deep neural networks，dnn)、卷积神经网络(convolutional neural networks，cnn)、循环神经网络(recurrent neural networks，rnn)等。
[0123]
以预测网络是lstm为例进行说明，如图8所示，将表征rssi变化特征的特征向量y输入训练好的lstm,得到输出的rssi突变结果。即通过训练好的lstm，确定特征向量y和rssi数学映射关系。
[0124]
然后将得到的rssi突变结果和音频匹配度进行加权求和，得到终端离开会议室的概率p，当p大于或等于预设概率值，则确定终端离开会议室，反之则未离开会议室。
[0125]
在另一个实施例中，还获取图像识别结果，基于音频匹配度、接收信号突变结果和图像识别结果，确定终端是否离开会议室。
[0126]
例如，当音频匹配度小于第一阈值rssi突变结果大于第二阈值，图像识别结果小于第三阈值；或者，音频匹配度小于第一阈值和rssi突变结果大于第二阈值；或者，所述音频匹配度小于第一阈值和图像识别结果小于第三阈值；或者，所述接收信号强度突变结果大于第二阈值和图像识别结果小于第三阈值；则判断终端离开会议室，反之则未离开。增加三个判断因素判断终端是否离开会议室，更进一步增加判断的准确性。
[0127]
其中，图像识别结果表征终端位于会议室的概率，基于用户的图像和图像识别模型获得，图像识别模型用于基于用户对象的图像识别判断终端位于所述特定空间的概率。图像识别模型可设置在终端中，例如，终端与会议室内的摄像头建立通信连接实时获取摄像头采集的图像，将采集的图像输入图像识别模型，得到图像识别模型输出的图像识别结果。当然，图像识别模型也可以设置于会议辅助设备中，终端直接与会议辅助设备建立通信连接，获取图像识别模型输出的图像识别结果。图像识别结果为成熟的现有技术，为了简洁，这里不做赘述。
[0128]
当然，也可以只基于接收信号强度突变结果判断终端是否离开会议室，例如，当接收信号强度突变结果大于第二阈值，则确定终端离开会议室。
[0129]
或者，只基于图像识别结果判断终端是否离开会议室，例如，当图像识别结果小于第三阈值，则确定终端离开会议室。
[0130]
或者，基于接收信号强度突变结果和图像识别结果判断终端是否离开会议室，例如，当将接收信号强度突变结果和图像识别结果进行加权求和，确定所述终端离开会议室的概率p2；所述p2大于或等于预设概率值，则确定终端离开会议室。信号强度突变结果和图像识别结果获取方式参见上文描述，为了简洁，这里不做赘述。
[0131]
在另一个实施例中，如图9所示，音量调节方法还包括：当确定终端离开会议室时，则采集当前位置的rssi作为第一信号指纹，然后以预设频率采集多个第二信号指纹，当第二信号指纹与所述第一信号指纹匹配，则说明用户即将进入会议室，此时为了不影响会议室内的与会人员则调节终端的音量至第三音量，第三音量大于第一音量并小于第二音量。第三音量为较小音量，例如，当终端的音量上限为100时，可将第三音量设置为10左右，以自己可以听到但是不影响其他人为宜。
[0132]
可以理解的是，上述提到的信号指纹基于采集会议室内的蓝牙rssi、wifi rssi等无线信号rssi中的一个或多个生成。
[0133]
在另一实施例中，音量调节方法还包括：当第二信号指纹与第一信号指纹匹配，则至少基于音频匹配度、信号强度突变结果和图像识别结果中的一个，确定终端是否进入会议室，若是，则调节终端的播放音量至第一音量，避免影响会议室内其他与会人员。
[0134]
音频匹配度、信号强度突变结果和图像识别结果获取方式参见上文描述，为了简洁，这里不做赘述。
[0135]
基于音频匹配度，确定终端是否进入会议室的实现方式为：音频匹配度大于或等于第一阈值，则确定终端进入会议室。
[0136]
基于信号强度突变结果，确定终端是否进入会议室的实现方式为：信号强度突变结果大于第二阈值，则确定终端进入会议室。
[0137]
基于图像识别结果，确定终端是否进入会议室的实现方式为：图像识别结果大于或等于第三阈值，则确定终端进入会议室。
[0138]
基于音频匹配度和信号强度突变结果，确定终端是否进入会议室的实现方式为：对音频匹配度和信号强度突变结果进行加权求和，确定终端进入会议室的概率pj，pj大于或等于第一预设概率值，则确定终端进入会议室。基于音频匹配度和图像识别结果或信号强度突变结果和图像识别结果，确定终端进入会议室的实现方式与其类似，这里不再赘述。
[0139]
基于音频匹配度、信号强度突变结果和图像识别结果，确定终端是否进入会议室的实现方式为：音频匹配度大于或等于第一阈值、接收信号强度突变结果大于第二阈值，图像识别结果大于或等于第三阈值；或者，音频匹配度大于或等于第一阈值和接收信号强度突变结果大于第二阈值；或者，音频匹配度大于或等于第一阈值和图像识别结果大于或等于第三阈值；或者，接收信号强度突变结果大于第二阈值和图像识别结果大于或等于第三阈值；则确定终端进入会议室。
[0140]
可以理解的是，当会议室内使用会议设备(例如具有通信功能的显示器)播放会议内容时，获取的会议内容还包括会议设备的显示内容，例如文本信息、图像信息、视频信息等显示内容。或者会议内容还包括会议室内的摄像头采集到的图像信息或视频信息，例如，为了便于理解，与会人员在黑板上写的信息，摄像头将其拍下同步给终端进行同步播放。
[0141]
在另一个实施例中，上述音量调节方法还包括：基于音频匹配度、接收信号突变结果和图像识别结果，调整第四阈值、时延补偿参数和第五阈值，即实现实时调整优化决定音频匹配度的参数和接收信号突变结果的参数，使其更加准确。
[0142]
具体的，当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；或，所述图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则调整所述时延补偿参数和第四阈值。
[0143]
参见图10，若音频匹配度小于第一阈值，该时刻的音频相似度变化率k
ij
是否大于预设阈值，即k
ij
是否变化明显，若是，则说明第一音频数据和第二音频数据未对齐，上次计算出的时延补偿参数有误，调整时延补偿参数至k
ij
小于或等于预设阈值，即k
ij
不存在明显变化；若否，则说明第一音频数据和第二音频数据对齐，对相似度要求过于严格，即第四阈值过小，导致达标的音频帧过少，因此，调小第四阈值至音频匹配度大于或等于第一阈值。
[0144]
其中k
ij
表征音频相似度变化率，以欧式距离表征相似度为例说明k
ij
的计算方法：当前时刻(即第二时刻)的欧式距离di，前一时刻(第三时刻)的欧式距离d
i-1
，当前时刻和前
一时刻的时间差为δt,则k
ij
＝(d
i-d
i-1
)/δt。
[0145]
若音频匹配度大于或等于第一阈值，则表明第四阈值过小，相似度要求过低，导致达标的音频帧过多，因此，调大第四阈值至音频匹配度小于第一阈值。如此，实时动态调整优化音频匹配度的决定参数(时延补偿参数和第四阈值)，使判断终端是否位于会议室更加精准。
[0146]
当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；或，当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调整所述第五阈值。
[0147]
参见图11，若rssi突变结果大于第二阈值，则说明第五阈值过小，则调大第五阈值至rssi突变结果小于或等于第二阈值；反之，则说明第五阈值过大，则调小第五阈值至rssi突变结果大于第二阈值。
[0148]
实现音频匹配度的参数和接收信号强度的参数的互相学习，动态调整，使判断终端是否离开/进入会议室更加准确，进而实现语音调节更加准确，提升用户体验。
[0149]
当然上述音量调剂方法并不限于进出会议室场所的场景，可应用于任何需要终端静音的场所，例如电影放映厅、监控室等场所，当人们离开该场所时，但是又不想错过该场所内的信息，都可将该信息同步至终端进行播放，在未离开该场所时先静音播放，当终端离开该场所则控制终端音量调至正常音量。下面以电影放映厅场景为例进行说明。
[0150]
如图12所示，电影放映厅内的放映大屏设备12正在播放电影，当用户需要离开放映厅(例如去卫生间)，但是又不想错过精彩内容，用户可以通过携带的终端(例如手机)扫描椅子上的二维码，请求将放映大屏设备上放映的内容同步至手机上进行播放，同时终端通过内置算法判断其自身是否离开放映厅，为了不影响其他人员观影，在终端未离开放映厅前自动以静音播放，当判断终端离开放映厅后则自动调至正常音量进行播放。当终端即将进入放映厅时自动调至较小音量播放，进入放映厅后再自动调为静音播放或关闭播放。终端其自身是否离开/进入/即将进入放映厅的方法参见上文描述，这里不再赘述。
[0151]
图13为本技术实施例提供的电子设备的结构示意图。如图13所示，该电子设备130至少包括：
[0152]
获取模块131，用于当位于特定空间时，所述终端获取所述特定空间中的设备播放/采集的多媒体内容；
[0153]
播放模块132，用于播放所述多媒体内容，并以第一音量播放所述多媒体内容的音频数据；
[0154]
检测模块133，用于检测所述终端是否离开所述特定空间；
[0155]
调节模块135，用于检测到所述终端离开所述特定空间时，所述终端继续播放所述多媒体内容，并自动调节为第二音量播放所述多媒体内容的音频数据，所述第二音量大于所述第一音量。
[0156]
在一个可能的实现中，所述获取模块131还用于：获取第二音频数据，所述第二音频数据为所述终端当前采集的音频数据；
[0157]
所述检测模块133还用于：比较第一音频数据和第二音频数据的相似程度，确定音频匹配度，其中，所述第一音频数据为所述多媒体内容的音频数据；至少基于所述音频匹配度，确定所述终端是否离开所述特定空间。
[0158]
在一个可能的实现中，所述至少基于音频匹配度，确定所述终端是否离开所述特定空间，包括：所述音频匹配度小于第一阈值，则确定所述终端离开所述特定空间。
[0159]
在另一个可能的实现中，所述至少基于音频匹配度，确定所述终端是否离开特定空间，包括：至少基于所述音频匹配度和接收信号强度突变结果，确定所述终端是否离开特定空间；其中，所述接收信号强度突变结果表征所述接收信号强度发生突变的概率，基于多组接收信号强度确定，所述多组接收信号强度为所述终端在连续时间内接收到的所述特定空间内的通信装置发送的信号强度。
[0160]
在另一个可能的实现中，所述至少基于所述音频匹配度和接收信号强度突变结果，确定所述终端是否离开特定空间，包括：对所述接收信号强度突变结果和所述音频匹配度进行加权求和，确定所述终端离开所述特定空间的概率p；所述p大于或等于预设概率值，则确定所述终端离开所述特定空间。
[0161]
在另一个可能的实现中，所述至少基于音频匹配度，确定所述终端是否离开特定空间，包括：基于所述音频匹配度、接收信号突变结果和图像识别结果，确定所述终端是否离开特定空间；其中，所述接收信号强度突变结果表征所述接收信号强度发生突变的概率，基于多组接收信号强度确定，所述多组接收信号强度为所述终端在连续时间内接收所述特定空间内的通信装置发送的信号强度；所述图像识别结果表征所述终端位于所述特定空间的概率，基于目标对象的图像和图像识别模型获得，所述图像识别模型用于基于目标对象的图像识别判断所述终端位于所述特定空间的概率。
[0162]
在另一个可能的实现中，所述基于所述音频匹配度、接收信号突变结果和图像识别结果，确定所述终端是否离开特定空间，包括：所述音频匹配度小于第一阈值、所述接收信号强度突变结果大于第二阈值，所述图像识别结果小于第三阈值；或者，所述音频匹配度小于所述第一阈值和所述接收信号强度突变结果大于第二阈值；或者，所述音频匹配度小于第一阈值和所述图像识别结果小于第三阈值；或者，所述接收信号强度突变结果大于第二阈值和所述图像识别结果小于第三阈值；则判断所述终端离开所述特定空间。
[0163]
在另一个可能的实现中，检测模块133还用于，对齐所述第一音频数据和第二音频数据；提取所述第一音频数据的预设时间段的连续n帧音频帧，得到第一音频帧序列；提取所述第二音频数据中与所述第一音频帧序列对齐的n帧音频帧，得到第二音频帧序列；所述n为大于或等于1的正整数；计算所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度；基于第二音频帧序列中达标的音频帧的数量与n的比值，确定所述预设时间段的第一音频数据和第二音频数据的音频匹配度，其中，达标的音频帧为所述第二音频帧序列中的音频帧和所述第一音频帧序列中的对应音频帧的相似度大于第四阈值的音频帧。
[0164]
在另一个可能的实现中，所述计算所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度，包括：分别提取获得表征所述第一音频帧序列中各帧音频帧的第一特征向量，和表征所述第二音频帧序列中各帧音频帧的第二特征向量；基于所述第一特征向量与所述第二特征向量的相似度，确定所述第一音频帧序列中各帧音频帧与所述第二音频帧序列中对应的音频帧的相似度。
[0165]
在另一个可能的实现中，所述对齐所述第一音频数据和第二音频数据，包括：提取所述第二音频数据中自第一时刻起始的连续m帧音频帧序列，得到第三音频帧序列，提取所
述第一音频数据中自多个不同第二时刻起始的连续m帧音频帧序列，得到多个第四音频帧序列，所述第二时刻大于或等于第一时刻，所述m为大于或等于1的正整数；基于所述第三音频帧序列和所述第四音频帧序列的相似度，确定时延补偿参数；基于所述时延补偿参数，对齐所述第一音频数据和第二音频数据。
[0166]
在另一个可能的实现中，所述检测模块133还用于，获取连续时间的多组接收信号强度；基于所述多组接收信号强度，确定所述接收信号强度突变结果。
[0167]
在另一个可能的实现中，所述基于所述多组接收信号强度，确定所述接收信号强度突变结果，包括：基于相邻时刻的两组接收信号强度的差值，确定表征接收信号强度变化特征的特征向量；将所述特征向量输入预设的预测模型，确定所述接收信号强度突变结果。
[0168]
在另一个可能的实现中，所述多组接收信号强度为多组x个蓝牙接收信号强度，所述多组x个蓝牙接收信号强度为在连续时间内所述终端接收到的所述特定空间内的x个蓝牙设备发送的蓝牙信号强度，所述x为大于或等于3的正整数；所述多组接收信号强度中的一组接收信号强度为同一时间的所述终端接收到的所述特定空间内的x个蓝牙设备发送的蓝牙信号强度。
[0169]
在另一个可能的实现中，所述调节模块135还用于：若检测到所述终端离开所述特定空间，则控制所述终端的前置摄像头打开；判断是否满足所述前置摄像头采集到所述目标用户的面部图像持续预设时间和所述终端的显示页面为指定显示页面；若满足，则自动调节所述终端至所述第二音量播放所述多媒体内容的音频数据。
[0170]
在另一个可能的实现中，该电子设备130还包括：采集模块134，用于若所述终端离开所述特定空间；则采集第一信号指纹，所述第一信号指纹基于所述终端在当前位置采集到的接收信号强度确定；以预设频率采集多个第二信号指纹；调节模块135还用于，当所述第二信号指纹与所述第一信号指纹匹配时；则调节所述终端的音量至第三音量，所述第三音量大于第一音量且小于第二音量。
[0171]
在另一个可能的实现中，所述检测模块133还用于：若检测到所述终端离开所述特定空间后，则继续检测所述终端是否进入所述特定空间；若检测到所述终端进入所述特定空间，则自动调节所述终端的音量至所述第一音量播放所述多媒体内容的音频数据。
[0172]
在另一个可能的实现中，所述多媒体内容还包括所述特定空间中的设备的显示内容。
[0173]
在另一个可能的实现中，该电子设备130还包括参数优化模块136，用于根据音频匹配度、接收信号突变结果和图像识别结果，调整第四阈值、时延补偿参数和第五阈值。
[0174]
在另一个可能的实现中，根据音频匹配度、接收信号突变结果和图像识别结果，调整第四阈值、时延补偿参数和第五阈值，包括：当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；或，所述图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则调整所述时延补偿参数和第四阈值；
[0175]
当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；或，当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调整所述第五阈值。实现音频匹配度的决定参数和接收信号强度突变结果的决定参数的相互学习，动态调整，提高终端是
否离开特定空间的判断准确性。
[0176]
在另一个可能的实现中，当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；或，所述图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则调整所述时延补偿参数和第四阈值，包括：当图像识别结果小于第三阈值和接收信号强度突变结果大于第二阈值，所述音频匹配度大于或等于第一阈值；则调大所述第四阈值至所述音频匹配度小于第一阈值；
[0177]
当图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值时；则判断音频相似度变化率是否大于预设阈值；若是，则调整所述时延补偿参数至所述音频相似度变化率小于预设阈值；若否，则调小所述第四阈值至所述音频匹配度大于或等于第一阈值；
[0178]
其中，所述音频相似度变化率基于第二时刻的所述第一音频数据的音频帧和第二语音数据的音频帧的相似度与第三时刻的所述第一音频数据的音频帧和第二语音数据的音频帧的相似度的差值与所述第二时刻和第三时刻的差值的比值确定，所述第二时刻为当图像识别结果大于或等于第三阈值和接收信号强度突变结果小于或等于第二阈值，所述音频匹配度小于第一阈值的时刻，所述第三时刻为所述第二时刻的前一相邻时刻。
[0179]
在另一个可能的实现中，所述当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；或，当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调整所述第五阈值，包括：当图像识别结果小于第三阈值和音频匹配度小于第一阈值，接收信号强度突变结果小于或等于第二阈值时；则调小所述第五阈值至所述接收信号强度突变结果大于第二阈值；当图像识别结果大于或等于第三阈值和音频匹配度大于或等于第一阈值，接收信号强度突变结果大于第二阈值时；则调大所述第五阈值至所述接收信号强度突变结果小于或等于第二阈值。
[0180]
根据本技术实施例的电子设备130可对应于执行本技术实施例中描述的方法，并且电子设备130中的各个模块的上述和其它操作和/或功能分别为了实现图2-11中的各个方法的相应流程，为了简洁，在此不再赘述。
[0181]
另外需说明的是，以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本技术提供的设备实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。
[0182]
本技术还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。
[0183]
本技术还提供一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括指令，当该指令执行时，令计算机执行上述任一项方法。
[0184]
本技术还提供一种终端，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码，实现上述任一项方法。
[0185]
图14为本技术提供的终端的结构示意图。
[0186]
如14图所示，所述终端140包括处理器141、存储器142、总线143、麦克风144、扬声器145、显示器146和通信接口147。其中，处理器141、存储器142、麦克风144、扬声器145、显示器146和通信接口147通过总线143进行通信，也可以通过无线传输等其他手段实现通信。该麦克风144可采集音频数据、例如第一音频数据；扬声器145可播放音频数据，例如第二音频数据；该显示器146可显示多媒体内容，例如会议图像内容、会议文字内容、会议视频内容等会议室内的会议大屏设备显示的内容；该通信接口147用于与其他通信设备进行通信连接，例如与会议大屏设备建立通信连接，或与放映厅内的放映大屏设备建立通信连接；该存储器142存储可执行程序代码，且处理器141可以调用存储器142中存储的程序代码执行前述方法实施例中的音量调节方法。
[0187]
应理解，在本技术实施例中，该处理器141可以是中央处理单元cpu，该处理器141还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
[0188]
该存储器142可以包括只读存储器和随机存取存储器，并向处理器141提供指令和数据。存储器142还可以包括非易失性随机存取存储器。例如，存储器142还可以存储训练数据集。
[0189]
该存储器142可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data date sdram,ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlink dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,dr ram)。
[0190]
该总线143除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线143。
[0191]
应理解，根据本技术实施例的终端140可对应于本技术实施例中的电子设备，并可以对应于执行根据本技术实施例中图2-11所示方法中的相应主体，并且终端140中的各个器件的上述和其它操作和/或功能分别为了实现图2-11的各个方法的相应流程，为了简洁，在此不再赘述。
[0192]
本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的
功能，但是这种实现不应认为超出本技术的范围。
[0193]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0194]
以上所述的具体实施方式，对本技术的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本技术的具体实施方式而已，并不用于限定本技术的保护范围，凡在本技术的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种音量调节方法、电子设备、终端及可存储介质与流程

相关文献

最热文献