端点检测方法及相关设备与流程

2023-02-19 06:22:48 来源：中国专利 TAG：

1.本技术涉及计算机通信技术领域，尤其涉及一种端点检测方法及相关设备。

背景技术：

2.近年来，随着人工智能技术的快速发展，人工智能设备在用户生活中的应用越来越普遍，用户可以与人工智能设备进行语音交互，包括天气查询、聊天等。
3.语音端点检测(voice activity detection，vad)是用户与人工智能设备进行语音交互的一个重要技术，语音端点检测用于对语音和非语音的区域进行区分。语音端点检测用于从带有噪声的语音中准确的定位出语音的首端点和尾端点，语音中去掉静音的部分和噪声的部分，确定语音真正有效的内容，其中，首端点为人工智能设备利用语音端点检测技术检测到人声的时刻，人工智能设备在检测到人声之后，持续时间内未检测到人声，当持续时间满足时间阈值，人工智能设备确定该持续时间结束的时间点为尾端点，其中时间阈值为间隔时长，也即人工智能设备判断用户在间隔时长内没有输出声音，确定检测结束，以此判断尾端点。
4.由于不同用户说话的语速是不同的，例如：小孩说话会比较慢，成人说话较快；现有的人工智能设备可依据不同的用户确定对应的间隔时长，然而同一用户说话的语速并不是固定不变的，随着用户年龄、经历及场景的变化，用户的语速也会相应发生变化，但是，现有的人工智能设备中特定用户的间隔时长均为固定不变的。在用户的语速发生变化时，如果人工智能设备利用语音端点检测所采集语音的间隔时长过短，则会造成用户输入的语句被误截断；而如果人工智能设备利用语音端点检测采集语音的间隔时长过长，则会造成识别速度慢且存在额外无效语音的计算，增加系统的功耗。

技术实现要素：

5.本技术实施例公开了一种端点检测方法及相关设备，能够依据用户实际使用过程中的语速调整间隔时长，以便智能设备可依据用户实际的语速采集用户的语音。
6.本技术第一方面公开了一种端点检测方法，应用于智能设备，所述方法包括：
7.采集用户与所述智能设备交互的初始语音；
8.提取所述初始语音的第一声纹信息；
9.获取初始语音的第一间隔时长；
10.建立所述第一声纹信息与所述第一间隔时长之间的第一对应关系；
11.采集用户与所述智能设备交互的检测语音；
12.提取所述检测语音的第二声纹信息；
13.获取所述检测语音的第二间隔时长；
14.建立所述第二声纹信息和所述第二间隔时长之间的第二对应关系；
15.确定与所述第二声纹信息匹配的所述第一对应关系中的第一声纹信息；
16.基于与所述第二声纹信息匹配的所述第一声纹信息，依据所述第一对应关系、所
述第二对应关系确定与所述第二间隔时长相对应的第一间隔时长；
17.依据所述第二间隔时长更新对应的所述第一间隔时长，以得到实际间隔时长。
18.如此，依据用户与智能设备非首次交互的语音的间隔时长更新智能设备中存储的间隔时长，以保证智能设备中存储的间隔时长与用户实际说话的间隔时长相接近，提升端点检测的准确性。
19.在一些实施例中，所述方法还包括：
20.提取所述检测语音的情绪类型；
21.依据所述情绪类型和所述预设调整对应关系确定对应的间隔调整量，其中所述预设调整对应关系包括每种情绪类型与对应的间隔调整量；
22.依据所述间隔调整量调整所述实际间隔时长。
23.如此，依据用户情绪调整用户的实际间隔时长，以使智能设备依据端点检测的间隔时长与用户实际说话的间隔时长相接近，提升端点检测的准确性。
24.在一些实施例中，所述方法还包括：
25.获取用户输入的指示信号；
26.依据所述指示信号调整所述实际间隔时长。
27.如此，依据用户的实际情况调整实际间隔时长，以使智能设备中的间隔时长与实际情况相接近。
28.在一些实施例中，所述确定与所述第二声纹信息匹配的所述第一对应关系中的第一声纹信息包括：
29.确定所述第二声纹信息和所述对应关系中所述第一声纹信息的相似度；
30.确定所述相似度大于声纹阈值的第一声纹信息与第二声纹信息匹配。
31.在一些实施例中，所述依据所述第二间隔时长更新所述第一间隔时长，以得到实际间隔时长包括：
32.确定所述第一间隔时长和所述第二间隔时长之间的差异值；
33.判断所述差异值是否小于差异阈值；
34.若所述差异值大于或等于所述差异阈值，确定所述第一间隔时长为所述实际间隔时长；
35.若所述差异值小于所述差异阈值，获取所述第一间隔时长和所述第二间隔时长的平均值，所述平均值为实际间隔时长。
36.在一些实施例中，所述方法还包括：
37.获取所述检测语音的文字信息；
38.确定所述文字信息中存在关键字；
39.获取所述关键字对应的调整增量；
40.依据所述调整增量调整所述实际间隔时长。
41.在一些实施例中，所述获取初始语音的第一间隔时长包括：
42.识别所述初始语音的文字信息；
43.确定所述文字信息中的文字数量；
44.依据所述文字数量和预设的间隔时长确定语速信息；
45.依据所述语速信息确定所述初始语音的第一间隔时长。
46.所述方法还包括：
47.提取所述初始语音的第一情绪类型，其中所述第一对应关系还包括所述第一情绪类型与所述第一声纹信息、所述第一间隔时长之间的对应关系；
48.提取所述检测语音的第二情绪类型，其中所述第二对应关系还包括第二情绪类型与所述第二声纹信息、所述第二间隔时长之间的对应关系；
49.所述基于与所述第二声纹信息匹配的所述第一声纹信息，依据所述第一对应关系、所述第二对应关系确定与所述第二间隔时长相对应的第一间隔时长包括：
50.基于与所述第二声纹信息匹配的所述第一声纹信息，依据所述第一对应关系、所述第二对应关系确定与所述第二情绪类型相对应的所述第一情绪类型；
51.基于相对应的所述第二情绪类型和所述第一情绪类型确定相对应的所述第二间隔时长和所述第一间隔时长。
52.本技术第二方面公开了一种计算机可读存储介质，包括计算机指令，当所述计算机指令在智能设备上运行时，使得所述智能设备执行如第一方面所述的端点检测方法。
53.本技术第三方面公开了一种智能设备，所述智能设备包括处理器和存储器，所述存储器用于存储指令，所述处理器用于调用所述存储器中的指令，使得所述智能设备执行如第一方面所述的端点检测方法。
54.本技术第四方面公开了一种芯片系统，该芯片系统应用于智能设备；芯片系统包括接口电路和处理器；接口电路和处理器通过线路互联；接口电路用于从智能设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行该计算机指令时，芯片系统执行如第一方面所述的端点检测方法。
55.本技术第五方面公开了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面所述的端点检测方法。
56.本技术第六方面公开了一种装置，该装置具有实现上述第一方面所提供的方法中智能设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。
57.应当理解地，上述提供的第二方面所述的计算机可读存储介质，第三方面所述的智能设备，第四方面所述的芯片系统、第五方面所述的计算机程序产品，及第六方面所述的装置均与上述第一方面的方法对应，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。
附图说明
58.图1是本技术实施例提供的端点检测方法的应用场景示意图。
59.图2是本技术实施例提供的端点检测方法的流程图。
60.图3是本技术实施例提供的端点检测方法的流程示意图。
61.图4是本技术实施例提供的一种智能设备的结构示意图。
具体实施方式
62.为了便于理解，示例性的给出了部分与本技术实施例相关概念的说明以供参考。
63.需要说明的是，本技术中“至少一个”是指一个或者多个，“多个”是指两个或多于
两个。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b可以表示：单独存在a，同时存在a和b，单独存在b的情况，其中a，b可以是单数或者复数。本技术的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不是用于描述特定的顺序或先后次序。
64.为了更好地理解本技术实施例公开的端点检测方法及相关设备，下面首先对本技术端点检测方法的应用场景进行描述。
65.图1是本技术实施例提供的端点检测方法的应用场景示意图。
66.如图1所示，本技术实施例提供的端点检测方法可以应用于终端设备，终端设备中可存储用户对应的间隔时长，当用户与终端设备进行语音交互时，终端设备依据间隔时长确定语音端点检测的尾端点；易于理解的是，不同用户对应不同的间隔时长，终端设备在语音信号处理时，可以基于不同用户的间隔时长确定不同用户输出语音的尾端点。但是每个用户说话的语速不是固定不变的。易于理解的是，用户处于不同的场景或不同的心情，用户的语速会对应变化，终端设备采用固定的间隔时长采集并识别用户输入的语音信息，存在无法完整采集用户语音的情况。
67.请参见图1，用户对智能设备说“我想去a地，先导航去b地”，若智能设备中存储的该用户对应的间隔时长过短，智能设备仅采集“我想去a地，先导航去”，则智能设备理解为导航去a地，误解用户的本意并执行错误的操作，影响用户体验。
68.本实施例中，智能设备为智能音箱。
69.终端设备包括语音采集装置(例如麦克风阵列)，语音采集装置用于采集语音。
70.可以理解，本技术实施例中的终端设备可以指用户设备、接入终端、用户单元、用户站、远程终端、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、会话启动协议(session initiation protocol，sip)电话、个人数字助理(personal digital assistant，pda)、具有无线通信功能的手持设备、计算机或其他处理设备、车载设备、可穿戴设备、虚拟现实(virtual reality，vr)终端设备、增强现实(augmented reality，ar)终端设备、智慧家庭(smart home)中的无线终端、未来5g网络中的终端设备或者未来演进的公用陆地移动通信网络(public land mobile network，plmn)中的终端设备等，本技术实施例对此不做限定。
71.在本技术的其他实施例中，智能设备(例如智能音箱)还可以与服务器通信连接。服务器可以为智能设备提供内容服务，例如为智能设备提供用户点播的歌曲、故事、电影等。智能设备还可以将采集的语音发送给服务器，通过服务器对采集的语音进行处理。例如，智能设备可以将采集的语音发送给服务进行语音识别。
72.图2是本技术实施例提供的端点检测方法的流程图。本技术实施例提供的端点检测方法应用于智能设备，例如图1中的智能设备。本技术实施例提供的端点检测方法包括如下步骤：
73.s201，采集用户的初始语音。
74.本技术一实施例中，初始语音为用户首次与智能设备进行语音交互时，智能设备采集用户的语音。
75.当智能设备中未存储该用户对应的语音特征信息的情况下，用户与智能设备进行语音交互的语音可称为初始语音。其中语音特征信息可包括用户的声纹信息和\或用户对
应的间隔时长。
76.示例性地，用户在使用智能设备过程中，智能设备的声音采集装置采集用户输入的语音信息，例如“小艺小艺，播放音乐”。
77.当本技术提供的方法应用于管理服务器时，在用户使用智能设备过程中，智能设备采集用户输入的语音信息，并将语音信息发送给管理服务器，管理服务器开始采集语音信息。
78.对于具有唤醒功能的智能设备(例如智能音箱)，智能设备采集语音信息的操作可以通过以下方式实现：检测到预设唤醒词后，开始采集语音信息。
79.s202，提取初始语音的第一声纹信息。
80.其中声纹信息包括倒频谱、共振峰、基音等，智能设备可依据声纹信息唯一识别对应的用户。如此，每个用户具有唯一的声纹信息。
81.智能设备中可存储有多个用户的声纹信息，智能设备可依据声纹信息标识用户并基于不同的声纹信息区分不同的用户。
82.s203，获取所述初始语音的第一间隔时长。
83.其中，智能设备依据语音端点检测技术识别用户输入的语音，在预设时间内为检测到用户输入的人声时，智能设备确定尾端点，其中预设时间即为间隔时长。
84.可选地，当智能设备内未存储用户对应的间隔时长时，在用户与智能设备进行语音交互时，智能设备依据存储的预设的间隔时长确定用户输入语音的首端点和尾端点，识别初始语音的文字信息，确定文字信息中的文字数量，依据文字数量和预设间隔时长确定语速信息，依据语速信息确定初始语音的第一间隔时长。
85.在一实施例中，语速信息由以下公式计算获得：语速＝间隔时长/文字数量，其中，间隔时长为智能设备中预设的间隔时长。
86.示例性地，用户在2秒内说了三个字“开学了”，则用户的语速为2/3秒每个字，其中2/3秒为666毫秒，则第一间隔时长可为666毫秒，当然，依据不同的用户习惯，语速与间隔时长之间的对应关系可依据实际场景设置。
87.进一步地，智能终端中存储有校正值，智能终端依据校正值调整语速信息，以得到第一间时长。
88.其中，则第一间隔时长为校正值与语速值的和，示例性地，校正值为100毫秒，语速为300毫秒，即第一间隔时长为400毫秒。
89.在一些实施例中，智能设备可采用自动语音识别技术(automatic speech recognition)将用户的语音转换为文本。
90.s204，建立第一声纹信息与第一间隔时长之间的第一对应关系。
91.可选地，可建立第一声纹信息与第一间隔时长之间的对应关系表，还可用标识位标识第一声纹信息与第一间隔时长，以使第一声纹信息与对应的第一间隔时长建立绑定关系。
92.其中，智能设备中存储有多个用户的第一声纹信息和第一间隔时长，多个用户的第一声纹信息和第一间隔时长之间的关系形成第一对应关系。
93.进一步地，本技术通过声纹信息而不是其他用户标识“例如电话号码、账号等”与用户信息进行绑定，以使智能设备可与多个用户进行语音交互，而不仅限于智能设备的拥
有者。
94.s205，采集用户的检测语音。
95.其中，检测语音为用户非首次与智能设备进行语音交互过程中，智能设备采集的用户输入的语音信息。
96.可选地，为了节省智能设备的电量，智能设备周期性采集检测语音，例如采集周期可为24小时，用户与智能设备在24小时内进行多次语音交互，智能设备可将其中一次语音交互的语音作为检测语音。
97.可选地，智能设备可将用户与智能设备在预设时间段的交互语音作为检测语音，例如，中午12点至13点之间用户与智能设备交互的语音作为交互语音。
98.可选地，检测语音可为用户与智能设备交互的一段语音或多段语音。
99.s206，提取检测语音的第二声纹信息，获取检测语音的第二间隔时长，并建立第二声纹信息和第二间隔时长之间的第二对应关系。
100.第二间隔时长的获取方法与s203中第一间隔时长的获取方法相同，其中智能设备可基于第一间隔时长确定采集语音的尾端点。
101.s207，确定与第二声纹信息匹配的第一对应关系中的第一声纹信息。
102.可选地，由于声纹信息唯一标识一个用户，通过配合第一声纹信息和第二声纹信息，以保证初始语音确定的第一声纹信息和基于检测语音确定的第二声纹信息属于同一用户输出的。
103.进一步地，匹配方法包括：计算第二声纹信息与第一对应关系中的第一声纹信息的相似度，判断相似度是否大于声纹阈值；确定相似度大于声纹阈值的第二声纹信息和第一声纹信息相匹配，即第二声纹信息和第一声纹信息标识同一用户。
104.进一步地，若第二声纹信息和对应关系中的第一声纹信息的相似度均小于或等于声纹阈值，则确定第一对应关系中没有该用户的输入的语音特征，则确定该用户为智能设备的新用户，则依据第二语音特征更新第一对应关系，即将新用户的第二声纹信息和第二间隔时长加入第一对应关系中。
105.其中，相似度的计算方法包括但不限于闵可夫斯基距离、曼哈顿距离、欧氏距离及切比雪夫距离等。
106.s208，基于与所述第二声纹信息匹配的所述第一声纹信息，依据所述第一对应关系、所述第二对应关系确定与所述第二间隔时长相对应的第一间隔时长。
107.若第一对应关系中存在与第二声纹信息相匹配的第一声纹信息，则第一对应关系中第一声纹信息对应的第一间隔时长和第二对应关系中的第二声纹信息对应的第二间隔时长属于同一用户的语音特征。依据相匹配的第一声纹信息和第二声纹信息，确定相匹配的第一间隔时长和第二间隔时长。
108.第一间隔时长和第二间隔时长可为同一用户在不同时刻或场景下输出的语音对应的间隔时长。
109.s209，依据第二间隔时长更新第一间隔时长，以得到实际间隔时长。
110.其中第二间隔时长与第一间隔时长相对应，即为同一用户在不同的场景输入的语音的间隔时长。
111.具体地，通过计算第二间隔时长和第一间隔时长平均值，该平均值即为实际间隔
时长。当然，还可通过其他方式获取实际间隔时长，例如权值函数。
112.例如第一间隔时长为500毫秒，第二间隔时长为600毫秒，则实际间隔时长为550毫秒。
113.在一实施例中，智能设备确定第二间隔时长与第一采集间时长之间的差异值，判断所述差异值是否在差异阈值范围内；若所述差异值不在差异阈值范围内，则可确定智能设备本次所采集语音的语音特征属于特殊场景，则将第一间隔时长替换为实际间隔时长，确定第一间隔时长为实际间隔时长；若所述差异值在差异阈值内，通过计算第二间隔时长和第一间隔时长的平均值，该平均值即为实际间隔时长。
114.其中，差异值可为比值或具体时长，例如第二间隔时长比第一采集间时长大89％或大500ms。
115.示例性地，用户a的第一间隔时长为500毫秒，差异阈值60毫秒；若第二间隔时长为300毫秒，第一间隔时长和第二间隔时长之间的差异值为300毫秒且大于60毫秒，则实际间隔时长为500毫秒；若第二间隔时长为450毫秒，第一间隔时长和第二间隔时长之间的差异值为50毫秒且小于60毫秒，则实际间隔时长为475毫秒。
116.如此，用户首次与智能设备进行语音交互时，智能设备记录用户输入的语音的特征信息，其中特征信息包括声纹信息和间隔时长，当用户非首次与智能设备交互时，智能设备依据存储的特征信息采集并识别对应用户输入的语音，实现不同用户使用不同的间隔时长。进一步地，智能设备依据用户非首次语音交互输入的语音的特征信息更新智能设备中存储的对应用户的特征的信息，以使智能设备中的存储的间隔时长与用户实际输入语音的时长相匹配，提升智能设备的识别的准确性。
117.可选地，用户与智能设备进行首次语音交互之后，智能设备中存储有用户对应的特征信息，用户可通过智能设备的按键、触控屏或语音交互等方式输入指示信号，智能设备依据指示信号调整实际间隔时长。其中调整包括增加实际间隔时长，减少实际间隔时长。
118.示例性地，智能设备中存储有用户对应的实际间隔时长，智能设备的用户由于最近舌头疼，说话语速较慢，则用户可通过触控智能设备的显示屏输入指示信号，以增加实际间隔时长。
119.在用户与智能设备进行语音交互过程中，存在多种因素影响用户的语速，比如用户的情绪。例如，用户在情绪激动时说明的语速相较于用户在情绪低沉时的语速要快很多，例如“我要那个衣服，麻烦递过来”，用户在急切的场景下大概3秒左右就说完了，但是当用户情绪稳定时，可能需要5秒甚至更多。
120.在一些实施例中，智能设备采集用户输入检测语音，并提取检测语音的语音特征，其中，语音特征还包括情绪类型，其中情绪类型可包括正面情绪和负面情绪，当然情绪类型还可包括其他类型，智能设备中存储有预设调整对应关系，预设调整对应关系包括每种情绪类型及对应的间隔调整量。智能设备依据间隔调整量来调整实际间隔时长。
121.例如，实际间隔时长为500毫秒，用户的情绪类型为负面情绪且负面情绪对应的间隔调整量为30毫秒，则智能设备依据间隔调整量来调整实际间隔时长，则本次智能设备采集用户输入的语音的实际间隔时长为530毫秒。
122.在一实施例中，在用户与智能设备进行初始交互时，智能设备还用于提取初始语音中的第一情绪类型，并建立每种第一情绪类型与第一声纹信息、第一间隔时长的对应关
系。
123.如此，声纹信息用于标识用户，用户具有多种情绪类型，则每种情绪类型对应一个间隔时长。
124.可选地，智能设备采集多个用户的语音，并确定每个语音的第一情绪类型和该第一情绪类型对应的第一声纹信息、第一间隔时长，然后请求相同情绪类型的多个语音的第一间隔时长的平均值，该平均值为智能设备中存储的该情绪类型对应的第一间隔时长。
125.可选地，智能设备还用于提取检测语音的第二情绪类型，依据确定与第二声纹信息匹配的第一对应关系中的第一声纹信息，确定第二声纹信息对应的第二情绪类型和第一声纹信息对应的第一情绪类型；确定第一情绪类型对的第一间隔时长和第二情绪类型对应的第二间隔时长，依据第二间隔时长更新第一间隔时长。如此，通过情绪类型进一步地限定用户对应的间隔时长，并可依据检测语音更新特征情绪类型对应的间隔时长。
126.在用户与智能设备进行语音交互过程中，当用户通过语音控制智能设备执行特定操作时，例如“播放甜蜜蜜”，在用户说出“播放”之后，大多用户习惯性停顿预设时长，并思考播放哪一首音乐，然后输出“甜蜜蜜”；当然还有其他的类似场景，例如“导航去二七广场”，在用户说出“导航去”之后，停顿预设时长，思考导航去的地方，然后输出“＝二七广场”。
127.在一实施例中，智能设备还用于识别所述检测语音，以获得文字信息，判断文字中是否存在第一关键字，获取所述第一关键字对应的调整增量，依据所述调整增量调整所述实际间隔时长。
128.示例性地，若识别检测语音中的关键字为“导航”，导航对应的调增增量的60毫秒，则实际间隔时长增加60毫秒。
129.在一实施例中，关键字为动词，智能设备中存储有关键字对应的调整增量，每个关键字对应唯一的调增增量。
130.在一实施例中，智能设备确定关键字的类型，依据该类型确定对应的调整增量。
131.具体地，文字信息中存在关键字，且关键字为动词，即用户通过语音控制智能设备执行的操作，例如导航去南京、播报新闻。若动词后面可具有名词不同，用户输入包含动词的语音时需要停顿思考的时间不同。例如，例如播放音乐、播放新闻、讲故事和播放甜蜜蜜、播放郑州实时新闻、讲白雪公主的故事，用户输入的语音时停顿的时间是不同，因此智能设备还用于确定关键字的类型，依据关键字的类型确定对应的调整增量。
132.进一步地，所有关键字的调整增量均相同。
133.请参见图3，为本技术提供的一种端点检测方法的示意图。
134.s301、采集用户输入的语音。
135.s302、依据预设间隔时长确定用户语音的首端点和尾端点。
136.s303、缓冲预设长度的语音。
137.s304、提取预设长度的语音的声纹信息。
138.s305、获取该声纹信息和智能终端存储的标准声纹信息的相似度，并判断该相似度是否大于声纹阈值。
139.其中标准声纹信息可为智能终端存储的用户对应的声纹信息。每个用户具有唯一的声纹信息，智能终端中存储有多个用户的声纹信息，且智能终端存储有每个声纹信息对
应的间隔时长。
140.若相似度大于声纹阈值，执行步骤s306、获取标准声纹信息对应的实际间隔时长。
141.若相似度小于或等于声纹阈值，执行步骤307，确定该语音的间隔时长为预设间隔时长。
142.s308，依据实际间隔时长确定用户语音的首端点和尾端点。
143.s309，识别语音的文字信息。
144.s310，判断所述文字信息中是否存在关键字。
145.若存在关键字，s311，获取关键字对应的调整增量，依据调整增量调整实际间隔时长。
146.若不存在关键字，流程结束。
147.图4是本技术实施例提供的一种智能设备的结构示意图。如图4所示，智能设备40可以包括：处理器401、存储器402、无线通信模块403、音频模块404、麦克风405、传感器406、摄像头407、显示屏408等。可以理解的是，本实施例示意的结构并不构成对智能设备40的具体限定。在本技术另一些实施例中，智能设备40可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。
148.处理器401可以包括一个或多个处理单元。例如，处理器401可以包括应用处理器(application processor，ap)、调制解调处理器、图形处理器(graphics processing unit，gpu)、图像信号处理器(image signal processor，isp)、控制器、视频编解码器、数字信号处理器(digital signal processor，dsp)、基带处理器、显示处理单元(display process unit，dpu)、和/或神经网络处理器(neural-network processing unit，npu)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。
149.处理器401中可以设置存储器，用于存储指令和数据。在一些实施例中，处理器401中的存储器为高速缓冲存储器。该存储器可以保存处理器401刚用过或循环使用的指令或数据。如果处理器401需要再次使用该指令或数据，可从该存储器中直接调用，避免了重复存取，减少了处理器401的等待时间，提高了智能设备40的效率。
150.在一些实施例中，处理器401可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，i2c)接口、集成电路内置音频(inter-integrated circuit sound，i2s)接口、脉冲编码调制(pulse code modulation，pcm)接口、通用异步收发传输器(universal asynchronous receiver/transmitter，uart)接口、移动产业处理器接口(mobile industry processor interface，mipi)、通用输入输出(general-purpose input/output，gpio)接口、用户标识模块(subscriber identity module，sim)接口和/或通用串行总线(universal serial bus，usb)接口等。可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对智能设备40的结构限定。在本技术另一些实施例中，智能设备40也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。
151.存储器402可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器401可以通过运行存储在存储器402的指令，从而使得智能设备40执行本技术实施例中的相关动作。存储器402可以包括存储程序区和存储数据区。其中，存储程序区可
存储操作系统；该存储程序区还可以存储一个或多个应用程序。存储数据区可存储智能设备40使用过程中所创建的数据(比如照片，联系人)等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、通用闪存存储器(universal flash storage，ufs)等。在一些实施例中，处理器401可以通过运行存储在存储器402的指令，和/或存储在设置于处理器401中的存储器的指令，来使得智能设备40执行各种功能应用及数据处理。
152.智能设备40的无线通信功能可以通过无线通信模块403实现。无线通信模块403可以提供应用在智能设备40上的包括无线局域网(wireless local area networks，wlan)、蓝牙、全球导航卫星系统(global navigation satellite system，gnss)、调频(frequency modulation，fm)、近场通信(near field communication，nfc)、红外技术(infrared，ir)等无线通信的解决方案。无线通信模块403可以是集成至少一个通信处理模块的一个或多个器件。本技术实施例中的无线通信模块403用于实现电子设备的收发功能。
153.智能设备40可以通过音频模块404、麦克风405等实现音频功能，如音乐播放、录音等。其中，音频模块404用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块404还可以用于对音频信号编码和解码。在一些实施例中，音频模块404可以设置于处理器401中，或将音频模块404的部分功能模块设置于处理器401中。智能设备40可以设置至少一个麦克风405。在另一些实施例中，智能设备40可以设置两个麦克风405，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，智能设备40还可以设置三个、四个或更多麦克风405，实现采集声音信号、降噪，还可以识别声音来源，实现定向录音功能等。
154.传感器406可以包括压力传感器406a、距离传感器406b、接近光传感器406c等。其中，压力传感器406a用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器406a可以设置于显示屏408，智能设备40根据压力传感器406a检测触摸操作强度。距离传感器406b用于测量距离。智能设备40可以通过红外或激光测量距离。接近光传感器406c可以包括发光二极管(led)和光检测器。发光二极管可以是红外发光二极管。光检测器可以是光电二极管。智能设备40通过发光二极管向外发射红外光。智能设备40使用光检测器检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定智能设备40附近有物体。当检测到不充分的反射光时，智能设备40可以确定智能设备40附近没有物体。
155.智能设备40可以通过一个或多个摄像头407实现拍摄功能。另外，智能设备40通过显示屏408可以实现显示功能。显示屏408用于显示图像、视频等。显示屏408包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，lcd)、有机发光二极管(organic light-emitting diode，oled)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，amoled)、柔性发光二极管(flex light-emitting diode，fled)、mini led、micro led、micro oled、量子点发光二极管(quantum dot light emitting diodes，qled)等。在一些实施例中，智能设备40可以包括一个或多个显示屏408。
156.本技术实施例中，可以通过距离传感器406b、接近光传感器406c检测智能设备40周围是否存在用户，摄像头407可以采集用户的图像集，处理器401用于执行上述实施例中的动作。基于图4所示的智能设备40可以实现上述实施例中的端点检测方法。应当理解，图4
中的结构说明为智能设备40的一种示例。
157.本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在智能设备上运行时，使得智能设备执行上述相关方法步骤实现上述实施例中的端点检测方法。
158.本实施例还提供了一种计算机程序产品，当该计算机程序产品在智能设备上运行时，使得智能设备执行上述相关步骤，以实现上述实施例中的端点检测方法。
159.另外，本技术的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的端点检测方法。
160.其中，本实施例提供的智能设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。
161.通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
162.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。
163.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例的目的。
164.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
165.该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
166.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何在本技术揭露的技术范围内的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：语音唤醒方法、装置、电子设备及可读存储介质与流程

端点检测方法及相关设备与流程

相关文献

最热文献