一种智能设备音频工作模式提示方法及装置与流程

2022-04-27 02:25:49 来源：中国专利 TAG：

1.本技术涉及声音处理技术领域，具体涉及一种智能设备音频工作模式提示方法和一种智能设备音频工作模式提示装置，以及另外一种智能设备音频工作模式提示方法，一种电子设备和一种计算机存储介质。

背景技术：

2.目前，手机、笔记本电脑为代表的智能设备越来越多的渗透到生活、工作中，采用智能设备进行远程沟通，如召开远程会议等，已经成为一种常见的工作方式。
3.在基于智能终端设备的远程会议中，经常会遇到需要提醒用户的情况，例如，在音视频会议(或者仅仅使用音频的音频会议)过程中，常常需要让某一个人发言，而其他人员需要静音以避免引入干扰音源，然而，处于静音模式的终端又可能需要进入会议讨论或者发言状态，而使用者却很可能忘记自己的终端已经处于静音模式
‑‑
即切断了声音传递功能的音频工作模式，导致该用户在不停的说话，但是其他音视频参会方没有听到任何声音，造成远程会议体验不顺畅，影响会议的进展。

技术实现要素：

4.本技术实施例提供一种拾音设备工作模式提示方法，以解决现有技术中终端设备在需要传送声音信息时却工作在静音模式的问题。本技术实施例还提供一种智能设备音频工作模式提示装置，以及另外一种智能设备音频工作模式提示方法，一种电子设备和一种计算机存储介质。
5.本技术实施例提供的智能设备音频工作模式提示方法，包括：
6.获取用户的发音部位图像；
7.获取拾音设备拾取的音量信息；
8.根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若是，则进入下一步；
9.判断所述拾音设备的工作模式是否为静音模式；若是，则进入下一步；
10.根据预设的方式，发出静音模式提示信息。
11.可选的，所述获取用户的发音部位图像，包括：
12.获得摄像设备采集的用户的发音部位图像；
13.从所述发音部位图像，提取所述发音部位图像中的用户的发音部位的第一图像信息和第二图像信息；所述第一图像信息与所述第二图像信息之间具有预定的获取时间间隔；
14.所述根据所述发音部位图像，判断是否存在需要传送的声音信息；若是，则进入下一步，包括：
15.将所述用户的一段规定时间内的发音部位的多组第一图像信息和第二图像信息进行比较，判断发音部位是否存在持续变化；若是，则确定存在需要传送的声音信息，并进
入下一步。
16.可选的，所述获取拾音设备拾取的音量信息，包括：
17.获取拾音设备采集的声音信号；
18.对所述声音信号进行预处理，提取发声信息；
19.对所述发声信息的音量进行估计，获取发声音量信息；
20.将所述发声音量信息确定为所述拾音设备拾取的音量信息。
21.可选的，所述根据所述音量信息，判断是否存在需要传送的声音信息；包括：
22.获得发声音量信息中的音量值和对应音量值的声音持续时间；
23.将所述音量值与预设音量值阈值进行比较，判断所述音量值是否满足所述预设音量值阈值；若满足，则进一步判断所述声音持续时间是否满足预设声音持续时间阈值；若是，则判断存在需要传送的声音信息。
24.可选的，还包括：
25.获得发声信息中的声纹特征信息；
26.将所述声纹特征信息与预设的声纹特征标准进行比对，确定是否存在需要传送的声音信息。
27.可选的，所述判断所述拾音设备的工作模式是否为静音模式，包括：
28.获取相关应用中拾音设备的状态设定，若设定为麦克风关闭的状态，则为静音模式。
29.可选的，所述静音模式提示信息包括如下信息中的至少一种：提示灯闪烁信息、扬声器播音信息、拾音设备震动信息以及与所述静音模式对应的静音图标信息。
30.可选的，还包括：若在预设时间内，未获得针对所述静音图标的触发操作，则将所述静音图标进行放大处理，且将放大处理后的静音图标展示在所述拾音设备的交互界面的居中位置。
31.可选的，在根据预设的方式，发出静音模式提示信息之后，还包括：获得针对所述静音模式提示信息反馈的解除触发操作，根据所述解除触发操作解除所述静音模式；或者，
32.在预设时间内，未获得针对所述静音模式提示信息反馈的解除触发操作，则触发生成针对解除静音模式的解除信号，并根据所述解除信号解除所述静音模式。
33.可选的，包括前置步骤：判断拾音设备是否处于静音模式，若是，则获取用户的发音部位图像，以及获取拾音设备拾取的音量信息。
34.本技术同时提供一种智能设备音频工作模式提示方法，包括：
35.获取拾音设备的工作模式为发言模式；
36.获取用户的发音部位图像；
37.获取拾音设备拾取的音量信息；
38.根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若否，则进入下一步；
39.根据预设的方式，将所述发言模式切换为静音模式。
40.本技术同时提供一种智能设备音频工作模式提示装置，包括：
41.图像获取单元，用于获取用户的发音部位图像；
42.音量信息获取单元，用于获取拾音设备拾取的音量信息；
43.声音信息判断单元，用于根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若是，则进入下一步；
44.静音模式判断单元，用于判断所述拾音设备的工作模式是否为静音模式；若是，则进入下一步；
45.静音模式提示信息发出单元，用于根据预设的方式，发出静音模式提示信息。
46.本技术同时提供一种智能设备音频工作模式提示装置，包括：
47.发言模式获取单元，用于获取拾音设备的工作模式为发言模式；
48.图像获取单元，用于获取用户的发音部位图像；
49.音量信息获取单元，用于获取拾音设备拾取的音量信息；
50.声音信息判断单元，用于根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若否，则进入下一步；
51.切换单元，用于根据预设的方式，将所述发言模式切换为静音模式。
52.本技术还提供一种电子设备，所述电子设备包括：处理器；存储器，用于存储计算机程序，该计算机程序被处理器运行，执行前述任意一项所述的方法。
53.本技术还提供一种计算机存储介质，，所述计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行前述任意一项所述的方法。
54.本技术实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行上述所述的方法。
55.与现有技术相比，本技术具有以下优点：
56.本技术实施例提供一种智能设备音频工作模式提示方法，包括：获取用户的发音部位图像；获取拾音设备拾取的音量信息；根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若是，则进入下一步；判断所述拾音设备的工作模式是否为静音模式；若是，则进入下一步；根据预设的方式，发出静音模式提示信息。本技术实施例通过发音部位图像来判断是否存在用户需要传送的声音信息，或者通过环境音量监测来判断是否存在需要传送的用户声音信息，并根据预设的方式，发出静音模式提示信息来提醒用户目前所使用的拾音设备处于静音模式，以便用户及时解除静音模式，从而提升电话会议等智能终端远程交流沟通的流畅程度和效率。
附图说明
57.图1是本技术第一实施例提供的智能设备音频工作模式应用场景的示意图；
58.图2为本技术第一实施例提供的智能设备音频工作模式提示方法的流程图；
59.图3为本技术第二实施例提供的智能设备音频工作模式提示装置的示意图；
60.图4为本技术第三实施例提供的智能设备音频工作模式提示方法的流程图；
61.图5为本技术第四实施例提供的智能设备音频工作模式提示装置的示意图；
62.图6为本技术第五实施例提供的电子设备的示意图。
具体实施方式
63.在下面的描述中阐述了很多具体细节以便于充分理解本技术实施例。但是本技术实施例能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申
请实施例内涵的情况下做类似推广，因此本技术实施例不受下面公开的具体实施的限制。
64.为了使本领域的技术人员更好的理解本技术方案，下面基于本技术提供的拾音设备工作模式提示方法对其实施例的具体应用场景进行详细描述，如图1所示，其为本技术第一实施例提供的应用场景的示意图。
65.本场景为视频会议场景，用户使用终端设备进行视频会议时，由于其误操作，或者仅仅是由于避免打扰其他发言者，终端设备获得使用者针对静音图标的触发操作，根据该触发操作，将所述静音图标对应的模式切换为静音模式。该静音模式可以是用户自己不知晓的，或者是其发言时忘了恢复正常的。其中，在本场景中，终端设备中包含拾音设备，终端设备的具体形态可以是手机、平板电脑或笔记本电脑、桌面电脑等。
66.在进行视频会议时，智能设备处于音视频工作环境(或者称为音视频工作模式，在本技术中，将其称为音视频工作环境，以便与技术主题中的音频工作模式相互区别)或者音频工作环境，所谓音视频工作环境，就是即传输音频信息，又传输视频信息，通常可以称为视频会议，此时，智能设备的视频采集设备(摄像设备)处于工作状态；所述音频工作环境，是指仅仅智能设备仅仅传输音频信息，通常可以称为电话会议。在上述两种工作环境下，本技术中可以采用不同的方式判断是否需要传送声音信息。
67.在所述音视频工作环境下，只能设备中的摄像设备处于工作状态，此时，摄像设备在其采集的视频信息中，通常包括用户的发音部位图像，用户的发音部位主要是指嘴部，相应的发音部位图像主要是指视频中的嘴部区域的视频。在摄像设备获得用户的发音部位图像后，会将该用户的发音部位图像发送给智能设备的图像处理器，图像处理器对采集到的所述发音部位图像进行处理。具体的，提取所述发音部位图像中的用户的发音部位在一个合适的时间间隔之间获得的第一图像信息和第二图像信息，并将第一图像信息和第二图像信息进行比较，判断发音部位是否存在变化，即判断第一图像信息和第二图像信息是否存在图像差异信息，若存在图像差异信息，则判断出则确定存在需要传送的声音信息。上述第一图像信息和第二图像信息可以不断采集和比对，形成一个连续过程，并可以设置合理的判断流程，通过一段时间中，在所述发音部位图像中截取的图像信息的彼此比较，获得是否存在需要传送的声音信息的准确判断。上述图像处理器，一般是指智能设备中对图像进行分析处理的软件程序，当然不排除实现该分析处理功能的专用硬件。
68.在所述音频工作环境下，摄像设备不工作，但是拾音设备仍然工作；但是，根据当前的音频工作模式不同，拾音设备采集的信号的处理和传输情况不同；具体而言，如果智能设备的拾音设备处于静音模式，则拾音设备采集的信号不会被解码处理，但是，拾音设备本身仍然会工作。这里需要注意，在很多情况下，智能设备的静音模式，是指智能设备处于不被外部来电信号打扰的工作模式，然而，本技术的静音模式，是针对远程会议等场景下的拾音设备的静音模式，在此场景下，所述静音模式，是指拾音设备处于静音模式，即操作界面上的麦克风标记被关闭(如果操作界面由该标记的话)，使用者的声音不会被传输到其他参加远程会议的智能设备的情况。在音频工作环境下，不管是否处于静音模式，所述拾音设备仍然可以拾取音量信息，语音处理器可以在获得音量信息的音量值和对应音量值的声音持续时间后，根据预定的判断标准——具体而言，包括音量值是否达到预设的音量值阈值，以及在满足上述条件的情况下，判断音量值阈值是否达到预设的声音持续时间阈值，如果也满足，则可以判断目前需要传送声音信息。
69.不论上述何种工作环境，如果确定需要传送声音信息，则进一步判断拾音设备是否工作在静音模式，如果是，则采用预定的方式提醒用户结束静音模式。
70.具体的，其会使用智能设备的灯光元件发出闪烁动作；或者，使用智能设备的扬声器发出语音信息；再或者，使用智能设备的震动设备发出震动动作；或者，在智能设备的交互界面上展示静音模式对应的静音图标信息。通过上述静音模式提示信息来提示用户当前视频会议环境下的工作模式为静音模式。当用户看到这些静音模式提示信息时，其会及时发现视频会议环境下的工作模式为静音模式，并及时解除该静音模式。
71.本场景通过图像识别比对技术和环境音量监测技术，来判断用户是否在发言，并通过拾音设备软件交互界面的提醒，同时通过硬件的声音、灯光、震动等方式来提醒用户目前所处的视频会议处于静音模式，以让用户或者拾音设备自动解除静音模式，从而提升沟通的流畅程度和效率。
72.与上述场景相对应的，本技术第一实施例提供了一种智能设备音频工作模式提示方法，如图2所示，图2为本技术第一实施例提供的一种智能设备音频工作模式提示方法的流程图。所述方法包括如下步骤：
73.步骤s201，获取用户的发音部位图像。
74.在本步骤中，音视频工作环境至少包括视频会议环境和视频聊天环境。音频工作环境至少包括语音会议环境、语音聊天环境和电话通信环境。
75.在音视频工作环境下，摄像设备处于开启状态，并且，摄像设备一般情况会采集用户的面部信息，其中自然包括发音部位图像。其中，用户的发音部位主要是指嘴部，相应的发音部位图像主要是指针对面部的视频中的嘴部部分。在摄像设备获得用户的发音部位图像后，会将该用户的发音部位图像发送给智能设备中设置的图像处理器，图像处理器将对获得的发音部位图像进行进一步处理。所述图像处理器，在本实施例中专门指对发音部位图像进行分析处理以便获得是否存在需要传送的声音的软件程序或者进程，当然，不排除用专门的硬件实现。
76.步骤s202，获取拾音设备拾取的音量信息。
77.在音频工作环境下，获取拾音设备拾取的音量信息。拾音设备，也可以称为拾音头，一般是指包括麦克风(俗称咪头)和音频放大电路构成，麦克风是通过电磁感应将音频震动转化为电信号的设备，一般为被动设备，即无需供电即可工作，所述音频放大电路则用于将麦克风采集转换的电信号进行整形放大，传送给后续元件进行编解码和传输。如前所述，即使已经将麦克风静音，其实质含义是拾音设备后续的编解码和传输程序被停止，但是拾音设备本身仍然在采集周围环境的音量信息。
78.在本步骤中，获取拾音设备拾取的音量信息，具体包括，获取拾音设备采集的声音信号，需要对所述声音信号进行预处理，提取发声信息，并对所述发声信息的音量进行估计，获取发声音量信息，将所述发声音量信息确定为所述拾音设备拾取的音量信息。该过程是为了将目标对象的发声信息和环境中的其他声音信息区别开。具体的实现方式在本领域有多种可能性，尤其是目标对象为自然人时，将自然人的声音信息和其他的环境中的声音信息区别开，是可以实现的技术。
79.在本步骤中，由于音量信息中不仅涉及有用户的声音，还可能涉及有其它用户或者是其它设备发出的声音，为了准确地确定出该声音是否为当前用户的声音，上述步骤还
包括，获得发声信息中的声纹特征信息，声纹特征信息表征一种声音特意的标准。例如，用户发出的声音，其声纹特征信息则对应有用户标准，电子设备发出的声音，其声纹特征信息则对应有电子设备标准。在获得声纹特征信息后，将所述声纹特征信息与预设的声纹特征标准进行比对，从而确定是否存在需要传送的声音信息的判定标准，从而确定出当前的音量信息是由特定的用户产生的。例如，智能手机的用户，可以预先在手机中存储其自己的声纹信息，在本步骤中，就可以使用该预存声纹信息作为标准，判断是否是其本人发出的声音。
80.步骤s203，根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若是，则进入下一步。
81.在获得发音部位图像和音量信息后，则可根据所述发音部位图像，或者所述音量信息，判断是否存在需要传送的声音信息。其中，在本技术第一实施例中，需要传送的声音信息是指当前用户发出的声音，当然，在其它实施例中，需要传送的声音信息还可以是指目标对象发出的声音，该目标对象包括可以发声的电子设备、动物等。以下将分别描述根据所述发音部位图像判断是否存在需要传送的声音信息，和根据所述音量信息，判断是否存在需要传送的声音信息的具体内容。
82.其中，根据所述发音部位图像判断是否存在需要传送的声音信息，若是，则进入下一步，具体包括：对应于上述步骤，从所述发音部位图像，提取所述发音部位图像中的用户的发音部位的第一图像信息和第二图像信息后，将所述用户的发音部位的第一图像信息和第二图像信息进行比较，判断发音部位是否存在变化，具体的，比较第一图像信息和第二图像信息是否存在图像差异信息，若存在图像差异信息，则确定发音部位存在变化，并确定存在需要传送的声音信息，并进入下一步。
83.具体而言，上述处理过程是将发音部位图像按照时间顺序进行分帧处理，以提取发音部位图像中的用户的发音部位的第一图像信息和第二图像信息，第一图像信息与第二图像信息具有不同获取时间，并且该不同的获取时间的时间间隔根据被观察的发音部位的运动频率进行适当设定。例如，第一图像信息和第二图像信息可以是相邻视频帧对应的图像信息，也可以是获得第一帧对应的第一图像信息后，再获得第十帧对应的第二图像信息。将第一图像信息和第二图像信息之间的视频帧的间隔增大，是为了可以获得图像信息明显不同的第一图像信息和第二图像信息。当然，根据发音部位图像进行是否存在需要传送的声音信息的判断，可以采用多种不同的方案，例如，采用机器学习技术训练专门的识别模型，在本技术中，优选采用上述直接比对第一图像信息和第二图像信息的方案，可以占用比较少的计算资源，只要发现第一图像信息和第二图像信息中的发音部位存在差异即可。当然，在本技术中，上述第一图像信息和第二图像信息的比对，仅仅是一种简化的方案，实际上可以才一定的时间段内，例如10-30秒，不断截取间隔固定时间的相关图像，并进行相邻的截取图像的比对判断，通过该时间段中的多组第一图像信息和第二图像信息比对，最终确定是否存在需要传送的声音信息。例如，所述比对结果都表明发音部位存在运动，则可以确定使用者在持续发声。对于本技术而言，在进行上述判断的过程中，需要非常注意不能错误判断，例如，仅仅有一组第一图像信息和第二图像信息之间发生了变化，则可能是使用者偶尔有发音部位的运动，并不一定是在发言。为了准确判断，需要将所述用户的一段时间内的发音部位的多组第一图像信息和第二图像信息进行比较，判断发音部位是否存在持续变
化。例如，可以设置观察的时间长度为30秒，每组第一图像信息和第二图像信息间隔为1秒，如果30秒内发现30组比对结果都是第一图像信息和第二图像信息之间存在变化，则可以确定使用者在发言，即存在需要传送的声音信息。
84.其中，根据所述音量信息，判断是否存在需要传送的声音信息，若是，则进入下一步。具体的，需要获取拾音设备采集的声音信号，对所述声音信号进行预处理，提取发声信息，并对所述发声信息的音量进行估计，获取发声音量信息，将所述发声音量信息确定为所述拾音设备拾取的音量信息。
85.在本步骤中，由于音量信息中不仅涉及有用户的声音，还可能涉及有其它用户或者是其它设备发出的声音，为了准确地确定出该声音是否为当前用户的声音，上述步骤还包括，获得发声信息中的声纹特征信息，声纹特征信息表征一种声音特意的标准。例如，用户发出的声音，其声纹特征信息则对应有用户标准，电子设备发出的声音，其声纹特征信息则对应有电子设备标准。在获得声纹特征信息后，将所述声纹特征信息与预设的声纹特征标准进行比对，从而确定是否存在需要传送的声音信息的判定标准，从而确定出当前的音量信息是由用户产生的。获得发声音量信息中的音量值和对应音量值的声音持续时间，将所述音量值与预设音量值阈值进行比较，判断所述音量值是否满足所述预设音量值阈值；若满足，则进一步判断所述声音持续时间是否满足预设声音持续时间阈值；若是，则判断存在需要传送的声音信息。举例说明，若发声音量信息中的音量值为40分贝，预设音量值阈值为40分贝，则音量值满足所述预设音量值阈值。且对应音量值的声音持续时间为5秒，预设声音持续时间阈值是5秒，则判断存在需要传送的声音信息。
86.上述判断过程的目的，同样是为了解决误判断的问题，例如，发音者偶尔窃窃私语，不能判断为其在发言，这种情况可以通过音量是否超过预定的标准阈值判断；或者，发音者是偶尔咳嗽，尽管造成有比较大的环境音量，但持续时间很短；所以，必须结合音量和持续时间，即，判断其音量超过一定阈值并持续一段时间，才能确认该使用者处于会议发言状态。
87.步骤s204，判断所述拾音设备的工作模式是否为静音模式；若是，则进入下一步。
88.在确定存在需要传送的声音信息后，判断所述拾音设备的工作模式是否为静音模式，具体的，判断正在运行的相关应用中，对拾音设备的状态设定，若设定为麦克风关闭的状态，则为静音模式。
89.在其它实施方案中，判断所述拾音设备的工作模式是否为静音模式还可以包括如下步骤：拾音设备获得需要传送的声音信息在音视频工作环境下对应播放的音频区域，并判断需要传送的声音信息是否在所述音频区域播放，若音频区域中播放有需要传送的声音信息，则确定所述需要传送的声音信息在音视频工作环境下被录入，并确定视频会议环境下的拾音设备的工作模式为非静音模式；反之，若音频区域中未播放有需要传送的声音信息，则确定所述需要传送的声音信息在音视频工作环境下未被录入，并确定视频会议环境下的拾音设备的工作模式为静音模式。其中，音频区域是指智能设备对音频信息进行编解码和传送的处理通道。
90.步骤s205，根据预设的方式，发出静音模式提示信息。
91.在确定拾音设备的工作模式为静音模式后，拾音设备会根据预设的方式，发出静音模式提示信息，以提示用户当前的拾音设备处于静音模式，以让用户及时解除当前的静
音模式。其中，在本技术第一实施例中，根据预设的方式，发出静音模式提示信息至少包括如下几种提示信息：提示灯闪烁信息、扬声器播音信息、拾音设备震动信息以及与静音模式对应的静音图标信息。以下将具体描述这几种提示信息的实现方式。
92.具体的，对于提示灯闪烁信息，在确定拾音设备的工作模式为静音模式后，拾音设备的处理器会向灯光设备发送闪烁信息，灯光设备根据该闪烁信息控制设置在拾音设备外部的灯执行闪烁动作，该灯的闪烁动作的频率和强度可根据闪烁信息中的闪烁频率和强度信号实现。进一步的，若在预设时间内，拾音设备未获得针对所述静音图标的触发操作，则将闪烁动作闪烁频率和强度增加，以便提醒用户当前拾音设备正处于静音模式。
93.对于扬声器播音信息，在确定拾音设备的工作模式为静音模式后，拾音设备的处理器会向扬声器发送播音信息，该播音信息可以具体是“静音模式”，或是其它的语音信息等。扬声器该播音信息控制扬声器播放语音信息。进一步的，若在预设时间内，拾音设备未获得针对所述静音图标的触发操作，则将扬声器播放语音的音量提高，以便提醒用户当前拾音设备正处于静音模式。
94.对于拾音设备震动信息，在确定拾音设备的工作模式为静音模式后，拾音设备的处理器会向震动设备发送震动信息，震动设备根据该震动信息控制震动设备的震动体带动拾音设备发生震动。其中，震动体的震动频率和强度可根据震动信息中的震动频率和强度信号实现。进一步的，若在预设时间内，拾音设备未获得针对所述静音图标的触发操作，则将震动动作的震动频率和强度增加，以便提醒用户当前拾音设备正处于静音模式。
95.对于静音模式对应的静音图标信息，在确定拾音设备的工作模式为静音模式后，拾音设备的处理器会获取静音模式对应的静音图标，并将该静音图标发送至拾音设备的交互界面展示。进一步的，若在预设时间内，拾音设备未获得针对所述静音图标的触发操作，则将静音图标进行放大处理，且将放大处理后的静音图标展示在拾音设备的交互界面的居中位置，以便提醒用户当前拾音设备正处于静音模式。
96.在本技术第一实施例中，在根据预设的方式，发出静音模式提示信息后，还包括：获得针对静音模式提示信息反馈的解除触发操作，根据解除触发操作解除静音模式。或者，在根据预设的方式，发出静音模式提示信息后，在预设时间内，未获得针对静音模式提示信息反馈的解除触发操作，则触发生成针对解除静音模式的解除信号，根据该解除信号解除静音模式以切换到发言模式。其中，在预设时间内，还包括在交互界面上呈现动态计时信息，所述动态计时信息至少包括数字倒计时信息和灯条弱化计时信息，以通过动态计时信息提示用户解除静音模式。可见，在本技术第一实施例中，用户可通过拾音设备提供的静音模式提示信息来手动解除静音模式，还可以通过拾音设备自身的控制方式来自动解除静音模式，进而从多方面实现对于静音模式的解除操作。
97.针对本实施例，还可以包括前置步骤：判断拾音设备是否处于静音模式，若是，则获取用户的发音部位图像，以及获取拾音设备拾取的音量信息的步骤。也就是说，首先判断是否需要监测拾音设备是否处于静音模式，而后根据对应的模式执行相关的操作步骤。
98.本技术实施例提供一种智能设备音频工作模式提示方法，包括：获取用户的发音部位图像；获取拾音设备拾取的音量信息；根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若是，则进入下一步；判断所述拾音设备的工作模式是否为静音模式；若是，则进入下一步；根据预设的方式，发出静音模式提示信息。本技术
实施例通过发音部位图像来判断是否存在用户需要传送的声音信息，或者通过环境音量监测来判断是否存在需要传送的用户声音信息，并根据预设的方式，发出静音模式提示信息来提醒用户目前所使用的拾音设备处于静音模式，以便用户及时解除静音模式，从而提升电话会议等智能终端远程交流沟通的流畅程度和效率。
99.与本技术第一实施例提供的拾音设备工作模式提示方法相对应的，本技术第二实施例对应提供一种智能设备音频工作模式提示装置。由于装置实施例基本相似于第一实施例，所以描述得比较简单，相关之处参见第一实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
100.请参照图3，其为本技术第二实施例提供的一种智能设备音频工作模式提示装置的示意图。该智能设备工作模式提示装置包括：图像获取单元301，用于获取用户的发音部位图像；音量信息获取单元302，用于获取拾音设备拾取的音量信息；声音信息判断单元303，用于根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若是，则进入下一步；静音模式判断单元304，用于判断所述拾音设备的工作模式是否为静音模式；若是，则进入下一步；静音模式提示信息发出单元305，用于根据预设的方式，发出静音模式提示信息。
101.可选的，图像获取单元301具体用于获得摄像设备采集的用户的发音部位图像；
102.从所述发音部位图像，提取所述发音部位图像中的用户的发音部位的第一图像信息和第二图像信息；所述第一图像信息与所述第二图像信息之间具有预定的获取时间间隔；对应的，声音信息判断单元302包括第一声音信息判断子单元，用于将所述用户的一段规定时间内的发音部位的多组第一图像信息和第二图像信息进行比较，判断发音部位是否存在持续变化；若是，则确定存在需要传送的声音信息，并进入下一步。
103.可选的，音量信息获取单元302具体用于获取拾音设备采集的声音信号；
104.对所述声音信号进行预处理，提取发声信息；
105.对所述发声信息的音量进行估计，获取发声音量信息；
106.将所述发声音量信息确定为所述拾音设备拾取的音量信息。
107.可选的，声音信息判断单元303包括第二声音信息判断子单元，用于获得发声音量信息中的音量值和对应音量值的声音持续时间；
108.将所述音量值与预设音量值阈值进行比较，判断所述音量值是否满足所述预设音量值阈值；若满足，则进一步判断所述声音持续时间是否满足预设声音持续时间阈值；若是，则判断存在需要传送的声音信息。
109.可选的，声音信息判断单元303还包括判定标准单元，用于获得发声信息中的声纹特征信息；
110.将所述声纹特征信息与预设的声纹特征标准进行比对，确定是否存在需要传送的声音信息。
111.可选的，静音模式判断单元304，具体用于获取相关应用中拾音设备的状态设定，若设定为麦克风关闭的状态，则为静音模式。
112.可选的，所述静音模式提示信息包括如下信息中的至少一种：提示灯闪烁信息、扬声器播音信息、拾音设备震动信息以及与所述静音模式对应的静音图标信息。
113.可选的，还包括静音图标处理单元，用于若在预设时间内，未获得针对所述静音图
标的触发操作，则将所述静音图标进行放大处理，且将放大处理后的静音图标展示在所述拾音设备的交互界面的居中位置。
114.可选的，静音图标处理单元，还用于在根据预设的方式，发出静音模式提示信息之后，还包括：获得针对所述静音模式提示信息反馈的解除触发操作，根据所述解除触发操作解除所述静音模式；或者，
115.在预设时间内，未获得针对所述静音模式提示信息反馈的解除触发操作，则触发生成针对解除静音模式的解除信号，并根据所述解除信号解除所述静音模式。
116.可选的，还包括处理单元，用于判断拾音设备是否处于静音模式，若是，则获取用户的发音部位图像，以及获取拾音设备拾取的音量信息。
117.本技术第三实施例还提供一种智能设备音频工作模式提示方法，如图4所示，图4为本技术第三实施例提供的一种智能设备音频工作模式提示方法的流程图。所述方法包括如下步骤：
118.步骤s401，获取拾音设备的工作模式为发言模式。
119.在本步骤中，获取拾音设备的工作模式为发言模式包括：判断正在运行的相关应用中，对拾音设备的状态设定，若设定为麦克风开放的状态，则为发言模式，从而获取拾音设备的工作模式为发言模式。
120.步骤s402，获取用户的发音部位图像。
121.在本步骤中，音视频工作环境至少包括视频会议环境和视频聊天环境。音频工作环境至少包括语音会议环境、语音聊天环境和电话通信环境。
122.在音视频工作环境下，摄像设备处于开启状态，并且，摄像设备一般情况会采集用户的面部信息，其中自然包括发音部位图像。其中，用户的发音部位主要是指嘴部，相应的发音部位图像主要是指针对面部的视频中的嘴部部分。在摄像设备获得用户的发音部位图像后，会将该用户的发音部位图像发送给智能设备中设置的图像处理器，图像处理器将对获得的发音部位图像进行进一步处理。所述图像处理器，在本实施例中专门指对发音部位图像进行分析处理以便获得是否存在需要传送的声音的软件程序或者进程，当然，不排除用专门的硬件实现。
123.步骤s403，获取拾音设备拾取的音量信息。
124.在音频工作环境下，获取拾音设备拾取的音量信息。拾音设备，也可以称为拾音头，一般是指包括麦克风(俗称咪头)和音频放大电路构成，麦克风是通过电磁感应将音频震动转化为电信号的设备，一般为被动设备，即无需供电即可工作，所述音频放大电路则用于将麦克风采集转换的电信号进行整形放大，传送给后续元件进行编解码和传输。如前所述，即使已经将麦克风静音，其实质含义是拾音设备后续的编解码和传输程序被停止，但是拾音设备本身仍然在采集周围环境的音量信息。
125.在本步骤中，获取拾音设备拾取的音量信息，具体包括，获取拾音设备采集的声音信号，需要对所述声音信号进行预处理，提取发声信息，并对所述发声信息的音量进行估计，获取发声音量信息，将所述发声音量信息确定为所述拾音设备拾取的音量信息。该过程是为了将目标对象的发声信息和环境中的其他声音信息区别开。具体的实现方式在本领域有多种可能性，尤其是目标对象为自然人时，将自然人的声音信息和其他的环境中的声音信息区别开，是可以实现的技术。
126.在本步骤中，由于音量信息中不仅涉及有用户的声音，还可能涉及有其它用户或者是其它设备发出的声音，为了准确地确定出该声音是否为当前用户的声音，上述步骤还包括，获得发声信息中的声纹特征信息，声纹特征信息表征一种声音特意的标准。例如，用户发出的声音，其声纹特征信息则对应有用户标准，电子设备发出的声音，其声纹特征信息则对应有电子设备标准。在获得声纹特征信息后，将所述声纹特征信息与预设的声纹特征标准进行比对，从而确定是否存在需要传送的声音信息的判定标准，从而确定出当前的音量信息是由特定的用户产生的。例如，智能手机的用户，可以预先在手机中存储其自己的声纹信息，在本步骤中，就可以使用该预存声纹信息作为标准，判断是否是其本人发出的声音。
127.步骤s404，根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若否，则进入下一步。
128.在获得发音部位图像和音量信息后，则可根据所述发音部位图像，或者所述音量信息，判断是否存在需要传送的声音信息。其中，在本技术第三实施例中，需要传送的声音信息是指当前用户发出的声音，当然，在其它实施例中，需要传送的声音信息还可以是指目标对象发出的声音，该目标对象包括可以发声的电子设备、动物等。以下将分别描述根据所述发音部位图像判断是否存在需要传送的声音信息，和根据所述音量信息，判断是否存在需要传送的声音信息的具体内容。
129.其中，根据所述发音部位图像判断是否存在需要传送的声音信息，若否，则进入下一步，具体包括：对应于上述步骤，从所述发音部位图像，提取所述发音部位图像中的用户的发音部位的第一图像信息和第二图像信息后，将所述用户的发音部位的第一图像信息和第二图像信息进行比较，判断发音部位是否存在变化，具体的，比较第一图像信息和第二图像信息是否存在图像差异信息，若不存在图像差异信息，则确定发音部位不存在变化，并确定不存在需要传送的声音信息，进入下一步。
130.具体而言，上述处理过程是将发音部位图像按照时间顺序进行分帧处理，以提取发音部位图像中的用户的发音部位的第一图像信息和第二图像信息，第一图像信息与第二图像信息具有不同获取时间，并且该不同的获取时间的时间间隔根据被观察的发音部位的运动频率进行适当设定。例如，第一图像信息和第二图像信息可以是相邻视频帧对应的图像信息，也可以是获得第一帧对应的第一图像信息后，再获得第十帧对应的第二图像信息。将第一图像信息和第二图像信息之间的视频帧的间隔增大，是为了可以获得图像信息明显不同的第一图像信息和第二图像信息。当然，根据发音部位图像进行是否存在需要传送的声音信息的判断，可以采用多种不同的方案，例如，采用机器学习技术训练专门的识别模型，在本技术中，优选采用上述直接比对第一图像信息和第二图像信息的方案，可以占用比较少的计算资源，只要发现第一图像信息和第二图像信息中的发音部位不存在差异即可。当然，在本技术中，上述第一图像信息和第二图像信息的比对，仅仅是一种简化的方案，实际上可以才一定的时间段内，例如10-30秒，不断截取间隔固定时间的相关图像，并进行相邻的截取图像的比对判断，通过该时间段中的多组第一图像信息和第二图像信息比对，最终确定是否存在需要传送的声音信息。例如，所述比对结果都表明发音部位不存在运动，则可以确定使用者不在持续发声。
131.需要说明的是，对于本技术而言，在进行上述判断的过程中，需要非常注意不能错
误判断，例如，仅仅有一组第一图像信息和第二图像信息之间发生了变化，则可能是使用者偶尔有发音部位的运动，并不一定是在发言。为了准确判断，需要将所述用户的一段时间内的发音部位的多组第一图像信息和第二图像信息进行比较，判断发音部位是否存在持续变化。例如，可以设置观察的时间长度为30秒，每组第一图像信息和第二图像信息间隔为1秒，如果30秒内发现30组比对结果都是第一图像信息和第二图像信息之间存在变化，则可以确定使用者在发言，即存在需要传送的声音信息。
132.其中，根据所述音量信息，判断是否存在需要传送的声音信息，若否，则进入下一步。具体的，需要获取拾音设备采集的声音信号，对所述声音信号进行预处理，提取发声信息，并对所述发声信息的音量进行估计，获取发声音量信息，将所述发声音量信息确定为所述拾音设备拾取的音量信息。
133.在本步骤中，由于音量信息中不仅涉及有用户的声音，还可能涉及有其它用户或者是其它设备发出的声音，为了准确地确定出该声音是否为当前用户的声音，上述步骤还包括，获得发声信息中的声纹特征信息，声纹特征信息表征一种声音特意的标准。例如，用户发出的声音，其声纹特征信息则对应有用户标准，电子设备发出的声音，其声纹特征信息则对应有电子设备标准。在获得声纹特征信息后，将所述声纹特征信息与预设的声纹特征标准进行比对，从而确定是否存在需要传送的声音信息的判定标准，从而确定出当前的音量信息是由用户产生的。获得发声音量信息中的音量值和对应音量值的声音持续时间，将所述音量值与预设音量值阈值进行比较，判断所述音量值是否满足所述预设音量值阈值；若不满足，则进一步判断所述声音持续时间是否满足预设声音持续时间阈值；若否，则判断不存在需要传送的声音信息。举例说明，若发声音量信息中的音量值为40分贝，预设音量值阈值为50分贝，则音量值满足所述预设音量值阈值。且对应音量值的声音持续时间为5秒，预设声音持续时间阈值是10秒，则判断不存在需要传送的声音信息。
134.反之，获得发声音量信息中的音量值和对应音量值的声音持续时间，将所述音量值与预设音量值阈值进行比较，判断所述音量值是否满足所述预设音量值阈值；若满足，则进一步判断所述声音持续时间是否满足预设声音持续时间阈值；若是，则判断存在需要传送的声音信息。举例说明，若发声音量信息中的音量值为40分贝，预设音量值阈值为40分贝，则音量值满足所述预设音量值阈值。且对应音量值的声音持续时间为5秒，预设声音持续时间阈值是5秒，则判断存在需要传送的声音信息。
135.上述判断过程的目的，同样是为了解决误判断的问题，例如，发音者偶尔窃窃私语，不能判断为其在发言，这种情况可以通过音量是否超过预定的标准阈值判断；或者，发音者是偶尔咳嗽，尽管造成有比较大的环境音量，但持续时间很短；所以，必须结合音量和持续时间，即，判断其音量超过一定阈值并持续一段时间，才能确认该使用者处于会议发言状态。
136.步骤s405，根据预设的方式，将所述发言模式切换为静音模式。
137.在确定使用者处于会议非发言状态后，拾音设备会根据预设的方式，将所述发言模式切换为静音模式。具体的，获得针对发言模式的切换操作，根据切换操作将发言模式切换为静音模式。或者，在预设时间内，未获得针对发言模式的切换操作，则触发生成针对切换发言模式的切换信号，根据该切换信号将发言模式切换为静音模式。其中，在预设时间内，还包括在交互界面上呈现动态计时信息，所述动态计时信息至少包括数字倒计时信息
和灯条弱化计时信息，通过动态计时信息提示用户当前需要将发言模式切换为静音模式。可见，在本技术第三实施例中，用户可手动将发言模式切换为静音模式，还可以通过拾音设备自身的控制方式来将发言模式切换为静音模式，进而从多方面实现对于发言模式的切换。
138.本技术第三实施例提供一种拾音设备工作模式提示方法，包括：获取拾音设备的工作模式为发言模式；获取用户的发音部位图像；获取拾音设备拾取的音量信息；
139.根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若否，则进入下一步；根据预设的方式，将所述发言模式切换为静音模式。本技术实施例通过发音部位图像来判断是否存在用户需要传送的声音信息，或者通过环境音量监测来判断是否存在需要传送的用户声音信息，以便用户及时切换对应的模式，从而提升电话会议等智能终端远程交流沟通的流畅程度和效率。
140.与本技术第三实施例提供的拾音设备工作模式提示方法相对应的，本技术第四实施例对应提供一种智能设备音频工作模式提示装置。由于装置实施例基本相似于第三实施例，所以描述得比较简单，相关之处参见第三实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
141.请参照图5，其为本技术第四实施例提供的一种智能设备音频工作模式提示装置的示意图。该智能设备工作模式提示装置包括：发言模式获取单元501，用于获取拾音设备的工作模式为发言模式；图像获取单元502，用于获取用户的发音部位图像；音量信息获取单元503，用于获取拾音设备拾取的音量信息；声音信息判断单元504，用于根据所述发音部位图像，或者根据所述音量信息，判断是否存在需要传送的声音信息；若否，则进入下一步；切换单元505，用于根据预设的方式，将所述发言模式切换为静音模式。
142.与本技术第一实施例和第三实施例的拾音设备工作模式提示方法相对应的，本技术第五实施例还提供一种电子设备。如图6所示，图6为本技术第五实施例中提供的一种电子设备的示意图。该电子设备，包括：处理器601；存储器602，用于存储计算机程序，该计算机程序被处理器运行，执行第一实施例和第三实施例的拾音设备工作模式提示方法。
143.与本技术第第一实施例和第三实施例的拾音设备工作模式提示方法相对应的，本技术第六实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行第一实施例和第三实施例的拾音设备工作模式提示方法。
144.本技术虽然以较佳实施例公开如上，但其并不是用来限定本技术，任何本领域技术人员在不脱离本技术的精神和范围内，都可以做出可能的变动和修改，因此本技术的保护范围应当以本技术权利要求所界定的范围为准。
145.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
146.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
147.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动
态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
148.本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于IP的去中心化端到端连接通信系统的制作方法

一种智能设备音频工作模式提示方法及装置与流程

相关文献

最热文献