电子装置及其控制方法与流程

2021-08-13 19:37:00 来源：中国专利 TAG：电子设备公开控制方法人脑

本公开涉及一种电子设备及其控制方法，并且更具体地，涉及一种执行语音识别的电子设备及其控制方法。

另外，本公开涉及一种使用机器学习算法模拟人脑的功能(诸如认知、确定等)的人工智能(ai)系统及其应用。

背景技术：

最近，人工智能系统正在各种领域中使用。人工智能系统与传统的基于规则的智能系统不同，是机器自身学习、确定并变得更智能的系统。因为被更多地使用，人工智能系统显示出更高的识别率，并且变得能够更准确地理解用户偏好。因此，传统的基于规则的智能系统正逐渐被基于深度学习的人工智能系统所取代。

人工智能技术包括机器学习(例如，深度学习)和利用机器学习的元素技术。

机器学习是指自身对输入数据的特征进行分类/学习的算法技术，并且元素技术是指通过使用机器学习算法(诸如深度学习)来模拟人脑功能(诸如认知和确定)的技术，并且包括诸如语言理解、视觉理解、推理/预测、知识表示和操作控制的技术领域。

应用人工智能技术的各种领域的示例如下。语言理解是指识别人类的语言/字符并应用/处理它们的技术，并且包括自然语音处理、机器翻译、通信系统、查询和回答、语音识别/合成等。视觉理解是指以与人类视觉类似的方式识别对象并处理对象的技术，并且包括对象的识别、对象的跟踪、图像的搜索、人类的识别、场景的理解、空间的理解、图像的改善等。推理/预测是指确定信息然后进行逻辑推理和预测的技术，并且包括基于知识/概率的推理、优化预测、基于偏好的规划、推荐等。知识表示是指将人类经验的信息自动处理成知识数据的技术，并且包括知识构建(数据生成/分类)、知识管理(数据利用)等。操作控制是指控制车辆的自主驾驶和机器人的移动的技术，并且包括移动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。

最近，已经开发了识别用户语音并相应地操作的电子设备(诸如ai扬声器)，但是将这样的电子设备放置在所有空间(诸如起居室、厨房和卧室)中可能是昂贵的。

因此，提供了一种使用处理用户语音的主(边缘)设备和接收用户语音并将用户语音提供给主设备的多个子(点)设备的方法。多个子设备可以被放置在诸如起居室、厨房和卧室的空间中。

在这种情况下，主设备可以控制子设备，以便向用户提供引导音频信号。然而，从子设备输出的引导音频信号可以由另一子设备接收以发送到主设备。这里，主设备存在处理从另一个子设备接收的引导音频信号的问题。换句话说，存在的问题是，除了用户语音或控制命令之外，不需要处理的引导音频信号被处理。

技术实现要素：

技术问题

本公开已经被作出以解决上述问题，并且本公开的目的是提供一种电子设备及其控制方法，该电子设备执行关于所接收的音频信号中的有效音频信号的语音识别。

技术方案

根据实施例，一种电子设备包括通信接口和处理器，所述处理器被配置为：基于通过通信接口从多个传感器装置中的第一传感器装置接收第一音频信号，执行与第一音频信号相应的操作，控制第一传感器装置输出指示执行与第一音频信号相应的操作的结果的第二音频信号，并且基于通过通信接口在从控制第一传感器装置的时间起的阈值时间内从所述多个传感器装置中的第二传感器装置接收第三音频信号，基于第二音频信号和第三音频信号确定是否处理第三音频信号。

所述处理器可获得第二音频信号与第三音频信号之间的相似度，且基于相似度等于或大于阈值，可不处理第三音频信号。

所述设备可进一步包含存储器，并且所述处理器可被配置为：基于相似度小于阈值，处理从第三音频信号去除了第二音频信号的第四音频信号，或者基于存储于所述存储器中的所述第一传感器装置和所述第二传感器装置的操作历史，处理第三音频信号。

操作历史可以包括以下项中的至少一项：关于发送到所述多个传感器装置中的一个传感器装置的音频信号与从所述多个传感器装置中的另一个传感器装置接收的音频信号之间的相似度的信息或所述多个传感器装置中的一个传感器装置的控制时间与从所述多个传感器装置中的另一个传感器装置接收到音频信号的时间之间的时间差。

所述处理器可以控制第一传感器装置输出第二音频信号和水印，并且基于第三音频信号包括水印，可以不处理第三音频信号。

所述处理器可以被配置为控制第一传感器装置将水印输出为低频声音、高频声音或听不见的声音中的至少一个。

所述设备还可以包括存储器，并且所述处理器可以被配置为基于存储在存储器中的第一传感器装置和第二传感器装置的操作历史来获得阈值时间。

所述处理器可以被配置为基于第一音频信号的信号强度或第三音频信号的信号强度中的至少一个来更新阈值时间。

所述处理器可以被配置为基于第二音频信号和第三音频信号来确定是否执行第三音频信号的语音识别。

所述处理器可以被配置为：基于通过通信接口在从第一传感器装置的控制时间起的阈值时间之后接收第三音频信号，处理第三音频信号。

根据实施例，电子设备的控制方法可以包括：基于从多个传感器装置中的第一传感器装置接收第一音频信号，执行与第一音频信号相应的操作；控制第一传感器装置输出指示执行与第一音频信号相应的操作的结果的第二音频信号；以及基于在从控制第一传感器装置的时间起的阈值时间内从所述多个传感器装置中的第二传感器装置接收第三音频信号，基于第二音频信号和第三音频信号确定是否处理第三音频信号。

所述确定步骤可以包括：获得第二音频信号与第三音频信号之间的相似度，并且且基于相似度等于或大于阈值，不处理第三音频信号。

所述确定步骤可以包括：基于相似度小于阈值，处理从所述第三音频信号中去除了所述第二音频信号的第四音频信号，或者基于存储在所述电子设备中的所述第一传感器装置和所述第二传感器装置的操作历史，处理所述第三音频信号。

操作历史可以包括以下项中的至少一项：关于发送到多个传感器装置中的一个传感器装置的音频信号与从多个传感器装置中的另一个传感器装置接收的音频信号之间的相似度的信息或多个传感器装置中的一个传感器装置的控制时间与从多个传感器装置中的另一个传感器装置接收到音频信号的时间之间的时间差。

所述控制步骤可以包括：控制第一传感器装置输出第二音频信号和水印，并且所述确定步骤可以包括：基于第三音频信号包括水印，不处理第三音频信号。

所述控制步骤可以包括控制第一传感器装置将水印输出为低频声音、高频声音或听不见的声音中的至少一个。

该方法还可以包括：基于存储在存储器中的第一传感器装置和第二传感器装置的操作历史来获得阈值时间。

该方法还可以包括：基于第一音频信号的信号强度或第三音频信号的信号强度中的至少一个来更新阈值时间。

所述确定步骤还可以包括：基于第二音频信号和第三音频信号来确定是否执行第三音频信号的语音识别。

所述确定还可以包括：基于通过通信接口在从第一传感器装置的控制时间起的阈值时间之后接收到第三音频信号，处理第三音频信号。

效果

根据本公开的各种实施例，电子设备可以在从接收的音频信号中去除了由传感器装置输出的音频信号之后确定是否执行处理，因此可以避免不必要的音频处理和重复处理。

附图说明

图1是示出根据实施例的电子系统的视图；

图2a是示出电子设备的配置的示例的框图；

图2b是示出电子设备的详细配置的示例的框图；

图3和图4是被提供用于解释根据实施例的电子设备的操作的视图；

图5是提供用于解释根据另一实施例的电子设备的操作的视图；

图6是示出根据实施例的另一电子设备的配置的框图；

图7是示出根据实施例的学习单元的框图；

图8是示出根据实施例的获取单元的框图；

图9是示出根据实施例的电子设备和外部服务器学习和确定彼此相关联的数据的示例的视图；以及

图10是提供用于解释根据实施例的电子设备的控制方法的流程图。

具体实施方式

在下文中，将参考附图详细描述本公开。

考虑到本公开中的功能，选择当前广泛使用的通用术语作为本公开的实施例中使用的术语，但是可以根据本领域技术人员的意图或司法判例、新技术的出现等进行改变。另外，在特定情况下，可能存在由申请人任意选择的术语。在这种情况下，这些术语的含义将在本公开的相应描述部分中被详细提及。因此，本公开中使用的术语应当基于术语的含义和贯穿本公开的内容而不是术语的简单名称来定义。

在本公开中，表述“具有”、“可以具有”、“包括”、“可以包括”等指示对应特征(例如，数值、功能、操作、诸如部件的组件等)的存在，并且不排除附加特征的存在。

诸如“a或/和b”的表述应理解为表示“a”、“b”或“a和b”之一。

本公开中使用的表述“第一”、“第二”等可以指示各种组件，而不管组件的顺序和/或重要性如何，将仅被用于将一个组件与其他组件区分开，并且不限制相应的组件。

当提及任何组件(例如，第一组件)与另一组件(例如，第二组件)“(可操作地或通信地)耦接/耦接到”另一组件(例如，第二组件)或“连接到”另一组件(例如，第二组件)时，应当理解，任何组件直接与另一组件耦接/耦接到另一组件，或者可以通过其他组件(例如，第三组件)与另一组件耦接/耦接到另一组件。

除非另有明确指示，否则本文使用的单数形式旨在包括复数形式。应当理解，本说明书中使用的术语“包括”或“包含”指定本说明书中提及的特征、数字、步骤、操作、组件、部分或其组合的存在，但不排除存在或添加一个或更多个其他特征、数字、步骤、操作、组件、部分或其组合。

在说明书中，词语“模块”或“单元”是指能够执行至少一个功能或操作的软件组件、硬件组件或其组合。除了需要在特定硬件中实现的那些模块或单元之外，多个模块或单元可以集成到至少一个模块中并且使用至少一个处理器(未示出)来实现。

在本公开中，术语“用户”可以指使用电子设备的人或使用电子设备的设备(例如，人工智能电子设备)。

在下文中，将参考附图更详细地描述本公开的实施例。

图1是示出根据实施例的电子系统1000的视图。

如图1所示，电子系统1000包括电子设备100和多个传感器装置200-1至200-5。这里，电子设备100可以被称为边缘装置或集线器装置，并且传感器装置可以被称为点装置。

根据各种实施例的电子设备100可以包括例如扬声器、智能电话、平板个人计算机(pc)、移动电话、视频电话、电子书阅读器、台式pc、膝上型pc、上网本计算机、工作站、服务器、个人数字助理(pda)、便携式多媒体播放器(pmp)、mp3播放器、医疗装置、相机或可穿戴装置中的至少一个。可穿戴装置可以包括配件类型的装置(例如，钟表、戒指、手镯、脚链、项链、眼镜、隐形眼镜或头戴式装置(hmd))、单件织物或衣服类型的电路(例如，电子衣服)、身体附着类型的电路(例如，皮肤垫或纹身)或生物可植入类型的电路中的至少一种。根据实施例，电子设备可以包括例如电视(tv)数字通用光盘(dvd)播放器、音频、冰箱、空调、清洁器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如，samsunghomesync^tm、appletv^tm或googletv^tm)、游戏机(例如，xbox^tm或playstation^tm)、电子词典、电子钥匙、摄像机、电子相框等中的至少一个。

在图1中，为了便于解释，电子设备100被实现为tv，但是电子设备100可以被实现为其他装置。例如，冰箱、洗衣机或扬声器中的一个可以作为电子设备100操作。

电子设备100可以从多个传感器装置200-1～200-5中的一个传感器装置接收第一音频信号。例如，电子设备100可以从放置在起居室中的第一传感器装置200-1接收“降低冰箱温度”的第一音频信号。在这种情况下，电子设备100可以将用于降低冰箱温度的控制命令发送到冰箱。这里，多个传感器装置200-1～200-5可以是接收周围音频并将音频信号发送到电子设备100的装置。另外，电子系统1000还可以包括除了电子设备100和多个传感器装置200-1～200-5之外的其他电子设备(诸如冰箱)。其他电子设备可以是由电子设备100控制并且可以与电子设备100通信的装置。

电子设备100可以控制多个传感器装置200-1～200-5中的一个传感器装置输出指示执行与第一音频信号相应的操作的结果的第二音频信号。在上述示例中，电子设备100可以将用于降低冰箱温度的控制命令发送到冰箱，并且将“冰箱温度已经降低”的第二音频信号发送到多个传感器装置200-1～200-5中的一个传感器装置。多个传感器装置200-1～200-5中的一个传感器装置可以输出第二音频信号。这里，多个传感器装置200-1～200-5中的一个传感器装置可以是已经接收到第一音频信号并将接收到的第一音频信号发送到电子设备100的传感器装置。

然而，本公开不限于上述实施例，并且电子设备100可以将第二音频信号发送到另一传感器装置，该另一传感器装置不是已经发送了第一音频信号的传感器装置。例如，电子设备100可以从放置在起居室中的第一传感器装置200-1接收“降低冰箱温度”的第一音频信号，然后，如果在将要发送第二音频信号时用户在厨房中，则可以将第二音频信号发送到放置在厨房中的第二传感器装置200-2。

随后，当在从多个传感器装置200-1～200-5中的一个传感器装置的控制时间起的阈值时间内从多个传感器装置中的另一个传感器装置接收到第三音频信号时，电子设备100可以基于第二音频信号和第三音频信号来确定是否处理第三音频信号。

例如，电子设备100可以在从第一传感器装置200-1的控制时间起0.1秒内从第二传感器装置200-2接收第三音频信号。这里，第三音频信号可以是在第二传感器200-2接收到由第一传感器装置200-1输出的第二音频信号之后发送到电子设备100的音频信号。在这种情况下，输入到第二传感器装置200-2的第二音频信号仅仅是指示执行操作的结果的信号，因此，不是用户的语音命令的第三音频信号可能是不需要被处理的音频信号。这是当第一传感器装置200-1和第二传感器装置200-2彼此相邻地设置时可能发生的现象。

在另一示例中，电子设备100可能在第一传感器装置200-1的控制时间之后五秒从第四传感器装置200-4接收到第三音频信号。在这种情况下，第四传感器装置200-4可以与第一传感器装置200-1间隔开，并且由于接收音频信号的时间存在差异，因此电子设备100可以处理第三音频信号。

如上所述，电子设备100可以通过比较第二音频信号和第三音频信号来确定是否处理第三音频信号。

多个传感器装置200-1～200-5中的每个可以接收用户语音或其他声音。具体地，当接收到用户语音时，多个传感器装置200-1～200-5中的每个可以将与接收到的用户语音相应的音频信号发送到电子设备100。

此外，多个传感器装置200-1～200-5中的每个可以在基于感测到用户等被唤醒之前在待机模式状态下操作，并且向电子设备100发送与在感测到用户之后输入的用户语音相应的音频信号。

然而，本公开不限于上述实施例，并且可以基于接收到触发字来唤醒多个传感器装置200-1～200-5中的每个，并且向电子设备100发送与被唤醒之后接收到的用户语音相应的音频信号。

通过上述操作，可以最小化多个传感器装置200-1～200-5中的每个的功耗，并避免不必要的音频信号被发送到电子设备100。

基于从电子设备100接收到指示执行操作的结果的第二音频信号，多个传感器装置200-1～200-5中的每个可以输出第二音频信号。

图2a是示出电子设备100的构造的示例的框图。

参考图2a，电子设备100包括通信接口110和处理器120。

通信接口110被配置为执行与各种装置的通信。例如，通信接口110可以支持各种通信接口(诸如蓝牙(bt)、蓝牙低功耗(ble)、无线保真(wi-fi)、zigbee等)。然而，通信接口110不限于此，并且可以是能够执行无线通信的任何通信接口。

此外，通信接口110可以包括能够与各种装置执行有线通信的输入/输出接口。例如，通信接口110可以包括输入/输出接口(诸如hdmi、mhl、usb、rgb、d-sub、dvi等)，并且可以与各种装置执行通信。

然而，通信接口110不限于此，并且输入/输出接口可以是具有能够发送/接收数据的标准的任何接口。

电子设备100可以连接到多个传感器装置200-1～200-5并且发送/接收音频信号。另外，电子设备100可以连接到另一电子设备以发送/接收音频信号。另外，电子设备100可以连接到另一电子设备，并且将与从传感器装置接收的音频信号相应的控制命令发送到另一电子设备。

通信接口110可以包括具有能够与各种装置执行有线/无线通信的通信标准的除了上述接口之外的接口。

处理器120控制电子设备100的整体操作。

处理器120可以由处理数字信号的数字信号处理器(dsp)、微处理器或时间控制器(tcon)来实现。然而，处理器120不限于此，而是可以包括中央处理单元(cpu)、微控制器单元(mcu)、微处理单元(mpu)、控制器、应用处理器(ap)、图形处理单元(gpu)或通信处理器(cp)或arm处理器中的一个或更多个，或者可以由这些术语定义。另外，处理器120可以由嵌入处理算法的片上系统(soc)或大规模集成(lsi)实现，或者可以以现场可编程门阵列(fpga)形式实现。处理器120可以通过执行存储在存储器中的计算机可执行指令来执行各种功能。

当通过通信接口110从多个传感器装置中的第一传感器装置接收到第一音频信号时，处理器120可以执行与第一音频信号相应的操作，并且控制第一传感器装置输出指示执行与第一音频信号相应的操作的结果的第二音频信号。

例如，当通过通信接口110从第一传感器装置接收到“打开空调”的第一音频信号时，处理器120可以将用于打开空调的控制信号发送到空调，并且可以将“空调已经打开”的第二音频信号发送到第一传感器装置。随后，第一传感器装置可以输出“空调已经打开”的第二音频信号。在这种情况下，“空调已经打开”的第二音频信号可以被输入到与第一传感器装置相邻的另一传感器装置。在下文中，为了便于解释，描述了第二传感器装置与第一传感器装置相邻并且接收从第一传感器装置输出的第二音频信号。第二传感器装置基于输入的第二音频信号将第三音频信号发送到电子设备100。

当通过通信接口110在从第一传感器装置的控制时间起的阈值时间内从多个传感器装置中的第二传感器装置接收到第三音频信号时，处理器120可以基于第二音频信号和第三音频信号来确定是否处理第三音频信号。具体地，处理器120可以获得第二音频信号和第三音频信号的相似度，并且如果相似度等于或大于阈值，则可以不处理第三音频信号。

例如，当通过通信接口110在从第一传感器装置的控制时间起0.1秒内从第二传感器装置接收到第三音频信号时，处理器120可以获得第二音频信号和第三音频信号的相似度，基于确定第二音频信号和第三音频信号相似而忽略第三音频信号，并且基于确定第二音频信号和第三音频信号不相似而执行与第三音频信号相应的操作。

在上述示例中，基于通过通信接口110在从第一传感器装置的控制时间起0.1秒内从第二传感器装置接收到“空调已经打开”，处理器120可以忽略接收到的音频信号，因为接收到的信号与发送到第一传感器装置的第二音频信号相同。

这里，第一传感器装置的控制时间可以是处理器120将第二音频信号发送到第一传感器装置的时间。

另外，处理器120可以在不执行语音识别的情况下识别第二音频信号和第三音频信号之间的相似度。例如，处理器120可以获得第二音频信号和第三音频信号之间的时域相似度，获得第二音频信号和第三音频信号之间的频域相似度，并且基于时域或频域相似度中的至少一个来获得相似度。处理器120可以通过将获得的相似度与相似度的阈值进行比较来识别第二音频信号和第三音频信号是否相同。

处理器120可以通过互相关获得第二音频信号和第三音频信号之间的时域相似度，通过频谱相干性获得频域相似度，并且基于时域相似度或频域相似度中的至少一个来获得相似度。互相关和频谱相干性是众所周知的技术，因此将不提供其详细描述。

在上述示例中，给出0.1秒作为阈值时间的示例，但这仅是示例。可以使用任何值作为阈值时间。

另外，电子设备100还可以包括存储器，并且基于相似度小于阈值，处理器120可以处理从第三音频信号中去除了第二音频信号的第四音频信号，或者基于存储在存储器中的第一传感器装置和第二传感器装置的操作历史来处理第三音频信号。

这里，操作历史可以包括关于发送到多个传感器装置中的一个传感器装置的音频信号与从多个传感器装置中的另一个传感器装置接收的音频信号之间的相似度的信息或多个传感器装置中的一个传感器装置的控制时间与从多个传感器装置中的另一个传感器装置接收音频信号的时间之间的时间差中的至少一个。

例如，如果存储器仅存储时间差信息，则处理器120可以控制第一传感器装置输出第二音频信号，并且基于在根据来自第一传感器装置的控制时间的时间差信息的阈值时间内从第二传感器装置接收到第三音频信号，可以基于第二音频信号和第三音频信号之间的相似度来确定是否处理第三音频信号。基于在阈值时间之后接收到第三音频信号，处理器120可以在不识别相似度的情况下处理第三音频信号。

这里，如果没有存储时间差信息，则处理器120可以使用预定阈值时间。例如，时间差信息可以包括第一传感器装置和第二传感器装置之间的第一阈值时间以及关于多个阈值时间的信息(诸如第二传感器装置和第三传感器装置之间的第二阈值时间等)。另一方面，如果没有时间差信息，则处理器120可以使用一个阈值时间。

另外，存储器可以存储关于相似度的信息。例如，存储器可以存储发送到第一传感器装置的音频信号和从第二传感器装置接收的音频信号被识别为相似的历史。在这种情况下，处理器120可以控制第一传感器装置输出第二音频信号，并且基于在根据来自第一传感器装置的控制时间的时间差信息的阈值时间内从第二传感器装置接收到第三音频信号，可以基于第二音频信号和第三音频信号之间的相似度来确定是否处理第三音频信号。当识别出第二音频信号和第三音频信号相似时，处理器120可以不处理第三音频信号。可选地，当识别出第二音频信号和第三音频信号不相似时，处理器120可以获得从第三音频信号去除了第二音频信号的第四音频信号并处理第四音频信号。这可以是第二传感器装置已经接收到从第一传感器装置输出的第二音频信号但是环境噪声或用户的额外的语音与第二音频信号同时输入的情况，因此，由第二传感器装置发送到电子设备100的第三音频信号与第二音频信号之间的相似度变低。

例如，如果从第一传感器装置输出第二音频信号“空调已经打开”，并且同时用户说出“现在是什么时间？”，则第二传感器装置可以将包括第二音频信号和用户语音的第三音频信号发送到电子设备100。处理器120可以识别出尽管在从控制第一传感器装置输出第二音频信号的时间起的阈值时间内接收到第三音频信号，但是第二音频信号与第三音频信号不相似。然而，处理器120可以根据通过第二传感器装置接收的从第一传感器装置输出的音频信号的历史来识别第三音频信号包括第二音频信号。处理器120获得从第三音频信号中去除第二音频信号的第四音频信号，并处理第四音频信号。

另外，处理器120可以控制第一传感器装置输出第二音频信号和水印，并且如果第三音频信号包括水印，则处理器120可以不处理第三音频信号。这里，处理器120可以控制第一传感器装置将水印输出为低频声音、高频声音或听不见的声音中的至少一个。因此，用户可能无法识别水印，或者处理器120可以识别水印以确定是否处理第三音频信号。

另外，处理器120可以基于存储在存储器中的第一传感器装置和第二传感器装置的操作历史来获得阈值时间。

此外，处理器120可以基于第一音频信号的信号强度或第三音频信号的信号强度中的至少一个来更新阈值时间。例如，处理器120可以基于第一音频信号的信号强度来识别电子设备100与第一传感器装置之间的距离，并且基于所识别的距离来更新阈值时间。

另外，处理器120可以基于第二音频信号和第三音频信号来确定是否处理关于第三音频信号的语音识别。例如，如果确定第二音频信号和第三音频信号不相似，则处理器120可以执行关于第三音频信号的语音识别，并且基于语音识别的结果执行操作。

图2b是示出电子设备100的详细构造的示例的框图。电子设备100可以包括通信接口110和处理器120。此外，参考图2b，电子设备100还可以包括存储器130、显示器140、用户接口150、相机160、扬声器170和麦克风180。在图2b所示的组件中，不详细说明与图2a所示的组件重复的组件。

通信接口110被配置为根据各种类型的通信方法执行与各种类型的外部装置的通信。通信接口110包括wifi模块111、蓝牙模块112、红外通信模块113和无线通信模块114等。这里，每个通信模块可以以至少一个硬件芯片的形式被实现。

处理器120可以使用通信接口110与各种外部装置执行通信。这里，外部装置可以包括多个传感器装置、显示装置(诸如tv)、图像处理装置(诸如机顶盒)、外部服务器、控制装置(诸如遥控器)、音频输出装置(诸如蓝牙扬声器)、照明装置、家用电器(诸如智能吸尘器、智能冰箱)、服务器(诸如iot家庭管理器)等。

wifi模块111和蓝牙模块112分别以wifi方法和蓝牙方法执行通信。在使用wifi模块111和蓝牙模块112的情况下，可以首先发送和接收各种连接信息(诸如服务集标识符(ssid)和会话密钥)以建立通信连接，然后可以发送和接收各种信息。

红外通信模块113根据红外数据协会(irda)技术使用可见光和毫米波之间的红外光进行通信，用于短距离无线数据传输。

除了上述通信方法之外，无线通信模块114可以包括根据各种无线通信标准(诸如zigbee、第三代(3g)、第三代合作伙伴计划(3gpp)、长期演进(lte)、高级lte(lte-a)、第四代(4g)和第五代(5g))执行通信的至少一个通信芯片。

此外，通信接口110可以包括通过使用成对电缆、同轴电缆、光纤电缆等执行通信的局域网(lan)模块、以太网模块或有线通信模块中的至少一个。

通信接口110还可以包括输入/输出接口。输入/输出接口可以是高清晰度多媒体接口(hdmi)、移动高清晰度链路(mhl)、通用串行总线(usb)、显示端口(dp)、thunderbolt、视频图形阵列(vga)端口、rgb端口、d-超小型(d-sub)和数字视觉接口(dvi)中的一个。

输入/输出接口可以输入/输出音频信号或视频信号中的至少一个。

根据实施例，输入/输出接口可以分别包括用于仅输入/输出音频信号的端口和用于仅输入/输出视频信号的端口，或者可以被实现为输入/输出音频信号和视频信号两者的一个端口。

存储器130可以被实现为包括在处理器120中的内部存储器(诸如只读存储器(rom)(例如，电可擦除可编程只读存储器(eeprom))、随机存取存储器(ram)等)，或者可以被实现为与处理器120分离的存储器。在这种情况下，取决于数据存储目的，存储器130可以以嵌入在电子设备100中的存储器的形式或可附接到电子设备100和可从电子设备100拆卸的存储器的形式来实现。例如，用于驱动电子设备100的数据可以被存储在嵌入在电子设备100中的存储器中；并且用于电子设备100的扩展功能的数据可以被存储在可附接到电子设备100和可从电子设备100拆卸的存储器中。例如，用于驱动电子设备100的数据可以被存储在嵌入在电子设备100中的存储器中；并且用于电子设备100的扩展功能的数据可以存储在可附接到电子设备100和可从电子设备100拆卸的存储器中。在被实现为嵌入在电子设备100中的存储器的情况下，存储器可以包括以下中的至少一个：易失性存储器(例如，动态随机存取存储器(dram)、静态ram(sram)、同步动态ram(sdram)等)、非易失性存储器(例如，一次性可编程只读存储器(otprom)、可编程rom(prom)、可擦除可编程rom(eprom)和电可擦除可编程rom(eeprom)、掩模rom、闪存rom等、闪存存储器(例如，nand闪存、nor闪存等)、硬盘驱动器或固态硬盘驱动器(ssd))。在被实现为可附接到电子设备100和可从电子设备100拆卸的存储器的情况下，存储器130可以包括存储卡(例如，紧凑型闪存(cf)、安全数字(sd)、微型安全数字(micro-sd)、迷你安全数字(mini-sd)、极端数字(xd)、多媒体卡(mmc)等)或可以连接到usb端口的外部存储器(例如，通用串行总线(usb)存储器)。

存储器130存储各种数据(诸如用于驱动电子设备100的操作系统(o/s)软件模块、历史模块、音频处理模块、语音识别模块等)。

处理器120使用存储在存储器130中的各种程序来控制电子设备100的整体操作。

具体地，处理器120包括ram121、rom122、主cpu123、第一接口124-1至第n接口124-n和总线125。

ram121、rom122、主cpu123以及第一接口124-1至第n接口124-n可以通过总线125彼此连接。

rom122存储用于系统引导的一组指令等。当输入开启指令并且供电时，主cpu123根据存储在rom122中的指令将存储在存储器130中的o/s复制到ram121中，并且通过执行o/s来引导系统。当引导完成时，主cpu123将存储在存储器130中的各种类型的应用程序复制到ram121中，并通过执行复制到ram121中的应用程序来执行各种类型的操作。

主cpu123访问存储器130，并且通过使用存储在存储器130中的o/s来执行引导。然后，主cpu123通过使用存储在存储器130中的各种程序、内容数据等来执行各种操作。

第一接口124-1至第n接口124-n与上述各种组件连接。接口之一可以是通过网络连接到外部设备的网络接口。

另外，处理器120可以执行图形处理功能(视频处理功能)。例如，处理器120可以使用计算器(未示出)和渲染器(未示出)生成包括各种对象(诸如图标、图像、文本等)的屏幕。这里，操作者(未示出)可以基于接收到的控制指令根据屏幕的布局来操作要表示的每个对象的属性值(诸如坐标值、形式、尺寸和颜色)。渲染器(未示出)可以基于由操作者(未示出)操作的属性值来生成包括对象的各种布局的屏幕。此外，处理器120可以针对视频数据执行各种图像处理(诸如解码、缩放、噪声滤波、帧速率转换、分辨率转换等)。

另外，处理器120可以关于音频数据执行各种处理。具体地，处理器120可以针对音频数据执行诸如解码、放大、噪声滤波的各种处理。

显示器140可以被实现为各种类型的显示器(诸如液晶显示器(lcd)、有机发光二极管(oled)显示器、等离子体显示面板(pdp)等)。显示器140还可以包括可以以诸如a-sitft、低温多晶硅(ltps)tft、有机tft(otft)等形式实现的驱动电路、背光单元等。另外，显示器140可以被实现为与触摸传感器、柔性显示器、3d显示器等组合的触摸屏。

用户接口150可以被实现为装置(诸如按钮、触摸板、鼠标或键盘)，或者可以被实现为能够执行上述显示功能和操纵输入功能的触摸屏。这里，按钮可以是形成在电子设备100的主体的外表面的前部、侧部或后部的特定区域上的各种类型的按钮(诸如机械按钮、触摸板、轮等)。

相机160被配置为在用户的控制下拍摄静止图像或运动图像。相机160可以在特定时间点拍摄静止图像，但是也可以连续地拍摄静止图像。

扬声器170可以被配置为不仅输出由输入/输出接口处理的各种音频数据，而且还输出各种通知声音或语音消息。

麦克风180被配置为接收用户语音或其他声音并将其转换为音频数据。

麦克风可以接收处于活动状态的用户语音。例如，麦克风180可以形成为被集成在电子设备100的上面、前面、侧面等的方向上。麦克风180可以包括各种组件(诸如用于以模拟形式收集用户语音的麦克风、用于放大收集的用户语音的放大器电路、用于对放大的用户语音进行采样并将其转换为数字信号的a/d转换电路、用于从转换的数字信号中去除噪声分量的滤波器电路等)。

另外，电子设备100可以从包括麦克风的传感器装置接收包括用户语音的音频信号。在这种情况下，所接收的音频信号可以是数字音频信号，但是取决于实施例，接收的音频信号可以是模拟音频信号。例如，电子设备100可以通过无线通信方法(诸如蓝牙、wifi等)接收音频信号。

电子设备100可以通过将自动语音识别(asr)技术直接应用于从传感器装置接收的数字语音信号来执行语音识别。

可选地，电子设备100可以将相应的语音信号发送到外部服务器以用于对从传感器装置接收的语音信号进行语音识别。

在这种情况下，传感器装置和用于与外部服务器通信的通信模块可以实现为一个整体或被单独实现。例如，可以使用蓝牙模块来执行与传感器装置的通信，并且可以使用以太网调制解调器或wi-fi模块来执行与外部服务器的通信。

外部服务器可以通过将asr技术应用于数字语音信号来执行语音识别，并且将语音识别的结果发送到电子设备100。

如上所述，电子设备100确定在从接收到的音频信号中去除由传感器装置输出的音频信号之后是否执行处理，因此，可以防止发生不必要的音频处理或重复处理。

在下文中，将参考相应的附图更详细地描述电子设备100的操作。

图3和图4是被提供用于解释根据实施例的电子设备100的操作的视图。

如图3所示，电子设备100(边缘)可以执行与第一传感器200-1(点1)、第二传感器装置200-2(点2)和第三传感器装置200-3(点3)的通信。

首先，第一传感器装置200-1可以根据用户语音向电子设备100发送第一音频信号。当从第一传感器装置200-1接收到第一音频信号时，电子设备100的处理器120可以执行与第一音频信号相应的操作，并且控制第一传感器装置200-1输出指示执行与第一音频信号相应的操作的结果的第二音频信号。例如，处理器120可以发送第二音频信号和用于将第二音频信号输出到第一传感器装置200-1的控制命令，并且第一传感器装置200-1可以根据接收到的控制命令输出第二音频信号。

处理器120可以将第二音频信号的传输时间和第二音频信号本身存储在存储器130中。当从第一传感器装置200-1的控制时间起经过阈值时间时，处理器120可以删除第二音频信号的传输时间和存储在存储器130中的第二音频信号本身。

在这种情况下，与第一传感器装置200-1相邻的第二传感器装置200-2可以接收由第一传感器装置200-1输出的第二音频信号，但是与第一传感器装置200-1不相邻的第三传感器装置可以不接收由第一传感器装置200-1输出的第二音频信号。第二传感器装置200-2可以基于接收的第二音频信号向电子设备100发送第三音频信号。

在这种情况下，第三音频信号可以几乎与第二音频信号相似。例如，如果在输出第二音频信号时几乎没有环境噪声，则第三音频信号可以几乎与第二音频信号相似。然而，如果在输出第二音频信号时存在环境噪声或者存在用户的额外的语音，则第三音频信号可能与第二音频信号显著不同。

当接收到第三音频信号时，处理器120可以将接收到第三音频信号的时间与第一传感器装置200-1的控制时间进行比较。如果在从第一传感器装置200-1的控制时间起的阈值时间内接收到第三音频信号，则处理器120可以识别第二音频信号和第三音频信号之间的相似度。如果在从第一传感器装置200-1的控制时间起的阈值时间之后接收到第三音频信号，则处理器120可以处理第三音频信号。

如果识别出第二音频信号和第三音频信号相似，则处理器120可以不处理第三音频信号。可选地，如果确定第二音频信号和第三音频信号相似，则处理器120可以获得从第三音频信号中去除了第二音频信号的第四音频信号并处理第四音频信号。如果识别出第二音频信号和第三音频信号不相似，则处理器120可以处理第三音频信号。

如图4所示，存储器130可以存储历史模型，该历史模型包括接收到返回音频信号的时间或将接收到返回音频信号的概率中的至少一个。可以基于操作历史获得接收到返回音频信号的时间或将接收到返回音频信号的概率。特别地，如上所述的历史模型可以基于规则被获得或通过人工智能算法被学习。在下文中，将描述基于规则获得历史模型的方法，然后将描述使用人工智能算法的方法。

处理器120可以使用存储在存储器130中的接收到返回音频信号的时间作为阈值时间。例如，如果处理器120在控制第一传感器装置200-1输出第二音频信号之后从第三传感器装置200-3接收到第三音频信号，则处理器120可以识别是否在从第一传感器装置200-1的控制时间起的1秒内接收到第三音频信号。可选地，如果处理器120在控制第三传感器装置200-3输出第二音频信号之后从第二传感器装置200-2接收到第三音频信号，则处理器120可以识别是否在从第三传感器装置200-3的控制时间起的0.15秒内接收到第三音频信号。

可以基于传感器装置之间的操作历史来获得接收到返回音频信号的时间。例如，处理器可以控制多个传感器装置中的一个传感器装置输出音频信号，并且基于音频信号与从多个传感器装置中的另一个传感器装置接收的输出音频信号相似，可以将控制时间与接收到音频信号的时间之间的差存储在存储器130中。处理器120可以重复这样的操作并将具有最高可靠性的时间差存储为接收到返回音频信号的时间。例如，处理器120可以将最长时间差存储为接收到返回音频信号的时间。可选地，处理器120可以将满足预定次数或更多次数的多个时间差中的最长时间差存储为接收到返回音频信号的时间。例如，如果存储了包括三次1秒时间差、两次0.2秒时间差和一次1.5秒时间差的历史，则处理器120可以存储1秒时间差作为接收到返回音频信号的时间，该1秒时间差是满足两次预定次数或更多次数的1秒时间差和0.2秒时间差之中的较长时间差。

另外，处理器120可以基于存储在存储器130中的接收到返回音频信号的概率来确定第二音频信号是否包括在第三音频信号中。首先，使用接收到返回音频信号的概率的先决条件是在从控制传感器装置输出第二音频信号的时间起的阈值时间内接收到第三音频信号，并且第二音频信号与第三音频信号不相似。换句话说，当在控制第一传感器装置200-1输出第二音频信号之后的阈值时间内从第二传感器装置200-2接收到第三音频信号时，处理器120可以识别第二音频信号和第三音频信号之间的相似度。随后，如果处理器120确定第三音频信号与第二音频信号不相似，则处理器120可以识别接收到第一传感器装置200-1和第二传感器装置200-2的返回音频信号的概率。如果识别的接收到返回音频信号的概率等于或大于阈值，则处理器120可以识别第三音频信号包括第二音频信号，获得从第三音频信号中去除了第二音频信号的第四音频信号，并处理第四音频信号。

可以基于传感器装置之间的操作历史来获得接收到返回音频信号的概率。例如，处理器120可以控制多个传感器装置中的一个传感器装置输出音频信号，并且当在阈值时间内从多个传感器装置中的另一个传感器装置接收音频信号时，识别输出的音频信号和接收的音频信号之间的相似度，并将识别的相似度存储在存储器130中。存储器130可以累计并存储当音频信号被识别为相似时以及当音频信号被识别为不相似时的次数。处理器120可以基于存储在存储器130中的总数和音频信号被识别为相似的次数来获得接收到返回音频信号的概率。

图5是提供用于解释根据另一实施例的电子设备100的操作的视图。

如图5所示，电子设备100(边缘)可以执行与第一传感器装置200-1(点1)、第二传感器装置200-2(点2)和第三传感器装置200-3(点3)的通信。

首先，第一传感器装置200-1可以根据用户语音向电子设备100发送第一音频信号。当从第一传感器装置200-1接收到第一音频信号时，电子设备100的处理器120可以执行与第一音频信号相应的操作，将水印包括在指示执行与第一音频信号相应的操作的结果的第二音频信号中，并将第二音频信号发送到第一传感器装置200-1。第一传感器装置200-1可以输出包括水印的第二音频信号。

在这种情况下，与第一传感器装置200-1相邻的第二传感器装置200-2可以接收包括由第一传感器装置200-1输出的水印的第二音频信号，但是不与第一传感器装置200-1相邻的第三传感器装置200-3可以不接收包括由第一传感器装置200-1输出的水印的第二音频信号。第二传感器装置200-2可以基于接收的包括水印的第二音频信号将第三音频信号发送到电子设备100。

这里，第三音频信号可以几乎与包括水印的第二音频信号相似。例如，如果在输出包括水印的第二音频信号时几乎没有环境噪声，则第三音频信号可以几乎与包括水印的第二音频信号相似。然而，如果在输出包括水印的第二音频信号时存在环境噪声，或者如果用户发出额外的语音，则第三音频信号可能与包括水印的第二音频信号显著不同。

处理器120可以识别接收的第三音频信号是否包括水印。换句话说，处理器120可以在不考虑如图3所示的阈值时间的情况下仅识别是否包括水印。然而，本公开不限于此，并且当接收到第三音频信号时，处理器120可以将接收到第三音频信号的时间与第一传感器装置200-1的控制时间进行比较，并且当在从第一传感器装置200-1的控制时间起的阈值时间内接收到第三音频信号时，处理器120可以识别第三音频信号是否包括水印。

如果第三音频信号包括水印，则处理器120可以不处理第三音频信号。可选地，如果第三音频信号包括水印，则处理器120可以获得从第三音频信号中去除了第二音频信号的第四音频信号，并处理第四音频信号。如果第三音频信号不包括水印，则处理器120可以处理第三音频信号。

如果第三音频信号包括水印，则处理器120可以识别第二音频信号和第三音频信号之间的相似度。如果识别出第三音频信号与第二音频信号相似，则处理器120可以不处理第三音频信号。可选地，如果识别出第三音频信号与第二音频信号不相似，则处理器120可以获得从第三音频信号中去除第二音频信号的第四音频信号并处理第四音频信号。

换句话说，如果如图5所示使用水印，则不需要使用接收到返回音频信号的概率。

图6是示出根据实施例的另一电子设备600的构造的框图。这里，另一电子设备600可以是通过人工智能算法生成历史模型的设备。

参考图6，另一电子设备600可以包括学习单元610或获取单元620中的至少一个。

学习单元610可以使用发送到多个传感器装置中的一个传感器装置的音频信号和从多个传感器装置中的另一个传感器装置接收的音频信号来生成或训练历史模型。学习单元610可以使用发送的音频信号和接收的音频信号来生成历史模型。

获取单元620可以使用预定数据作为训练的人工智能模型的输入数据来获得接收到返回音频信号的时间和接收到返回音频信号的概率。

例如，获取单元620可以基于发送音频信号的时间、接收到音频信号的时间以及发送的音频信号和接收的音频信号之间的相似度来获得接收到返回音频信号的时间。

根据实施例，学习单元610和获取单元620可以包括在另一电子设备600中，但这仅是示例。学习单元610和获取单元620可以被安装在电子设备100内部。具体地，学习单元610和获取单元620的至少一部分可以被实现为以硬件芯片的形式制造并被安装在电子设备100上的软件模块。例如，学习单元610或获取单元620中的至少一个可以以用于人工智能(ai)的专用硬件芯片的形式被制造，或者可以被制造为现有通用处理器(例如，cpu或应用处理器)或仅图形处理器(例如，gpu)的一部分并被安装在上述各种电子设备上。在这种情况下，用于人工智能的专用硬件芯片是专门用于概率计算的专用处理器，并且可以快速处理人工智能领域中的操作任务(诸如机器学习)，因为它具有比现有通用处理器高的并行处理性能。如果学习单元610和获取单元620被实现为软件模块(或包括指令的程序模块)，则软件模块可以被存储在计算机可读的非暂时性计算机可读介质中。在这种情况下，软件模块可以由操作系统(os)或预定应用提供。可选地，一些软件模块可以由os提供，而另一些可以由预定应用提供。

在这种情况下，学习单元610和获取单元620可以被安装在一个电子设备上，或者可以分别被安装在单独的电子设备中。例如，学习单元610或获取单元620中的一个可以被包括在一个电子设备100中，并且另一个可以被包括在另一电子设备600中。此外，学习单元610和获取单元620可以通过有线或无线地将由学习单元610构建的模型信息提供给获取单元620，或者可以将输入到获取单元620的数据作为额外的学习数据提供给学习单元610。

图7是示出根据实施例的学习单元610的框图。

参考图7，根据实施例的学习单元610可以包括学习数据获取单元610-1、模型学习单元610-4。此外，学习单元610还可以选择性地包括学习数据预处理单元610-2、学习数据选择单元610-3或模型评估单元610-5中的至少一个。

学习数据获取单元610-1可以获得人工智能模型所需的学习数据。根据实施例，学习数据获取单元610-1可以获得由电子设备100发送和接收的音频信号作为学习数据。学习数据可以是由学习单元610或学习单元610的制造商收集或测试的数据。

模型学习单元610-4可以使用学习数据训练关于接收到返回音频信号的时间和接收到返回音频信号的概率的人工智能模型。具体地，模型学习单元610-4可以基于发送的音频信号和接收的音频信号之间的相似度通过历史模型训练人工智能模型。例如，模型学习单元610-4可以通过监督学习来训练人工智能模型，该监督学习使用学习数据的至少一部分作为用于确定的标准。可选地，模型学习单元610-4可以通过在没有任何特定监督的情况下使用学习数据自身学习，通过具有最小噪声的无监督学习来训练人工智能模型。模型学习单元610-4可以例如通过强化学习来训练人工智能模型，该强化学习使用关于根据学习提供响应的结果是否正确的反馈。此外，模型学习单元610-4可以使用包括例如误差反向传播或梯度下降的学习算法来训练人工智能模型。

此外，模型学习单元610-4可以学习使用哪个学习数据的选择标准，以便通过使用输入数据获得具有保证准确性的数据。

如果存在多个预先建立的人工智能模型，则模型学习单元610-4可以将与输入学习数据和基本学习数据具有更大相关性的人工智能确定为要训练的人工智能模型。在这种情况下，可以为每种数据类型预先分类基本学习数据，并且可以为每种数据类型预先建立人工智能模型。

一旦训练了人工智能模型，模型学习单元610-4就可以存储训练的人工智能模型。在这种情况下，模型学习单元610-4可以将训练的人工智能模型存储在另一电子设备600的存储器中。可选地，模型学习单元610-4可以将训练的人工智能模型存储在经由有线或无线连接到另一电子设备600的电子设备的服务器或存储器中。

学习单元610还可以包括学习数据预处理单元610-2和学习数据选择单元610-3，以便改善人工智能模型的响应结果或节省生成人工智能模型所需的资源或时间。

学习数据预处理单元610-2可以预处理获得的数据。换句话说，学习数据预处理单元610-2可以以预定格式处理获得的数据。例如，学习数据预处理单元610-2可以去除相似度低的情况或在阈值时间之后接收到音频信号的情况。

学习数据选择单元610-3可以在由学习数据获取单元610-1获得的数据或由学习数据预处理单元610-2预处理的数据中选择学习所需的数据。可以将选择的学习数据提供给模型学习单元610-4。学习数据选择单元610-3可以根据预定选择标准在获得的或预处理的数据中选择学习所需的学习数据。此外，学习数据选择单元610-3可以根据通过模型学习单元610-4的学习而预定的选择标准来选择学习数据。

学习单元610还可以包括模型评估单元610-5，以便改善人工智能模型的响应结果。

模型评估单元610-5可以将评估数据输入到人工智能模型，并且如果从评估数据输出的响应结果不满足预定标准，则可以再次训练模型学习单元610-4。在这种情况下，评估数据可以是用于评估人工智能模型的预定义数据。

另外，如果存在多个训练的人工智能模型，则模型评估单元610-5可以评估每个训练的人工智能模型是否满足预定标准，并且将满足预定标准的模型确定为最终人工智能模型。在这种情况下，如果存在满足预定标准的多个模型，则模型评估单元610-5可以按最高评估分数的顺序确定预定的一个模型或预定数量的模型作为最终人工智能模型。

图8是示出根据实施例的获取单元620的框图。

参考图8，根据实施例的获取单元620可以包括输入数据获取单元620-1和响应结果提供器620-4。

此外，获取单元620还可以选择性地包括输入数据预处理单元620-2、输入数据选择单元620-3或模型更新单元620-5中的至少一个。

输入数据获取单元620-1可以获得由电子设备100发送和接收的音频信号。响应结果提供器620-4可以通过将由输入数据获取单元620-1获得的输入数据应用于训练的人工智能模型作为输入值来获得接收到返回音频信号的时间和接收到返回音频信号的概率。响应结果提供器620-4可以通过将由稍后将描述的输入数据预处理单元620-2或输入数据选择单元620-3选择的数据应用于人工智能模型作为输入值来获得响应结果。响应结果可以由人工智能模型确定。

获取单元620还可以包括输入数据预处理单元620-2和输入数据选择单元620-3，以便改善人工智能模型的响应结果或节省用于提供响应结果的资源或时间。

输入数据预处理单元620-2可以预处理获得的数据。换句话说，输入数据预处理单元620-2可以以预定格式处理由响应结果提供器620-4获得的数据。

输入数据选择单元620-3可以从由输入数据获取单元620-1获得的数据和由输入数据预处理单元620-2预处理的数据中选择提供响应所需的数据。可以将选择的数据提供给响应结果提供器620-4。输入数据选择单元620-3可以根据用于提供响应的预定标准来选择获得或预处理的数据的部分或全部。此外，输入数据选择单元620-3可以通过模型学习单元610-4的学习根据预定标准选择数据。

模型更新单元620-5可以控制以基于对由响应结果提供器620-4提供的响应结果的评估来更新人工智能模型。例如，模型更新单元620-5可以通过将由响应结果提供器620-4提供的响应结果提供给模型学习单元610-4来请求模型学习单元610-4进一步训练或更新人工智能模型。

图9是示出根据实施例的电子设备100和外部服务器(s)学习和识别彼此相关联的数据的示例的视图。

参考图9，外部服务器(s)可以基于由电子设备100发送和接收的音频信号来学习用于学习历史模型的标准，该历史模型包括接收到返回音频信号的时间或接收到返回音频信号的概率中的至少一个，并且电子设备100可以基于服务器的学习结果来获得历史模型。

在这种情况下，服务器(s)的模型学习单元610-4可以执行图7所示的学习单元610的功能。换句话说，服务器(s)的模型学习单元610-4可以使用上述信息学习关于使用哪个信息的标准以便获得学习数据以及如何确定接收到返回音频信号的时间或接收到返回音频信号的概率。

此外，电子设备100的响应结果提供器620-4可以通过将由输入数据选择单元620-3选择的数据应用于由服务器(s)生成的人工智能模型来识别是否处理接收到的音频信号。可选地，电子设备100的响应结果提供器620-4可以接收由服务器(s)生成的人工智能模型，并使用接收的人工智能模型识别是否处理接收到的音频信号。

图10是提供用于解释根据实施例的电子设备的控制方法的流程图。

首先，当从多个传感器装置中的第一传感器装置接收第一音频信号时，执行与第一音频信号对应的操作(s1010)。控制第一传感器装置以输出指示执行与第一音频信号对应的操作的结果的第二音频信号(s1020)。当在从第一传感器的控制时间起的阈值时间内从多个传感器装置中的第二传感器装置接收第三音频信号时，基于第二音频信号和第三音频信号确定是否处理第三音频信号(s1030)。

这里，确定(s1030)的步骤可以包括获得第二音频信号和第三音频信号之间的相似度，并且当相似度等于或大于阈值时，不处理第三音频信号。

此外，确定(s1030)的步骤还可以包括：处理从第三音频信号中去除第二音频信号的第四音频信号，或者基于存储在电子设备的存储器中的第一传感器装置和第二传感器装置的操作历史来处理第三音频信号。

另外，控制(s1020)的步骤可以包括控制第一传感器装置以输出第二音频信号和水印，并且确定(s1030)的步骤可以包括：当第三音频信号包括水印时，不处理第三音频信号。

这里，控制(s1020)的步骤可以包括控制第一传感器装置将水印输出为低频声音、高频声音或听不见的声音中的至少一种。

另外，还可以包括基于存储在电子设备的存储器中的第一传感器装置和第二传感器装置的操作历史来获得阈值时间的步骤。

这里，可以基于第一音频信号的信号强度或第三音频信号的信号强度中的至少一个来更新阈值时间。

另外，确定(s1030)的步骤可以包括基于第二音频信号和第三音频信号来确定是否执行关于第三音频信号的语音识别。

此外，确定(s1030)的步骤可以包括：当在从第一传感器装置的控制时间起的阈值时间之后接收第三音频信号时，处理第三音频信号。

根据上述各种实施例，电子设备可以在从接收到的音频信号中去除了由传感器装置输出的音频信号之后确定是否进行处理，因此可以防止不必要的音频处理和重复处理的问题。

另外，根据上述各种实施例的方法可以以可安装在现有电子设备中的应用的形式来实现。

此外，根据上述各种实施例的方法可以仅通过关于现有电子设备的软件升级或硬件升级来实现。

此外，上述各种实施例可以通过电子设备的嵌入式服务器或者电子设备或显示设备中的至少一个的外部服务器来执行。

另外，上述各种实施例可以实现为包括存储在存储介质中的指令的软件，该指令可以由机器(例如，计算机)读取。机器可以从存储介质调用指令并根据指令执行操作，并且可以包括电子设备(例如，电子设备(a))。当在处理器的控制下执行指令时，处理器直接地或在处理器的控制下使用其他组件可以执行与指令相应的功能。指令可以包括由编译器或解释器生成或执行的代码。可以以非暂时性存储介质的形式提供可以由机器读取的存储介质。这里，“非暂时性”仅表示存储介质是有形装置并且不包括信号，并且该术语不用于区分数据被半永久地存储在存储介质中的情况和数据被临时存储的情况。

根据实施例，根据各种实施例的方法可以被包括在计算机程序产品中并在其中被提供。计算机程序产品可以作为产品在卖方和买方之间交易。计算机程序产品可以以可由机器读取的存储介质(例如，光盘只读存储器(cd-rom))的形式分发，或者可以通过应用商店(例如，playstoretm)在线分发。在在线分发的情况下，计算机程序产品的至少一部分可以至少临时地被存储在存储介质中(诸如制造商的服务器、应用商店的服务器或中继服务器的存储器)或者可以临时被生成。

根据上述各种实施例的每个组件(例如：模块或程序)可以包括单个对象或多个对象。此外，在上述对应的子组件中，可以省略一些子组件，或者可以在各种实施例中进一步包括其他子组件。可选地或另外地，一些组件(例如：模块或程序)可以被集成为对象，并且相同地或以相似的方式执行在集成之前由每个组件执行的功能。由根据各种实施例的模块、程序或其他组件执行的操作可以顺序地、并行地、重复地或启发式地被执行。或者，至少一些操作可以以不同的顺序被执行，或者被省略，或者可以添加其他操作。

虽然已经示出和描述了本公开的优选实施例，但是本公开不限于上述具体实施例，并且显而易见的是，在不脱离由所附权利要求要求保护的本公开的主旨的情况下，本公开所属领域的普通技术人员可以进行各种修改，并且这些修改不应被解释为独立于本公开的技术构思或预期。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

电子装置及其控制方法与流程

相关文章

最热文献