机器人、语音数据处理方法、装置以及存储介质与流程

2021-10-12 20:05:00 来源：中国专利 TAG：语音数据处理机器人交互装置

1.本发明涉及语音交互技术领域，尤其涉及一种机器人、语音数据处理方法、装置以及存储介质。

背景技术：

2.语音交互被广泛应用于智能会议、智能客服等场景中，在语音交互的应用过程中，往往需要在嘈杂环境下采集语音信号，此时，环境噪音和室内混响对语音信号的干扰非常大，会导致在对采集得到的语音信号进行分析时，准确率较低。
3.现有技术中，麦克风阵列能够较为准确地采集语音信号，因此通过麦克风阵列采集语音信号的方式被广泛应用。但是现有麦克风阵列采集语音的方式存在以下不足：需要通过唤醒操作来进行声源定位，在语音交互中用户体验差。

技术实现要素：

4.本发明实施例提供一种机器人、语音数据处理方法、装置以及存储介质，以解决现有技术中需要通过唤醒操作来进行声源定位，导致语音交互中用户体验差的问题。
5.一种机器人，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述机器人上设有传感器；所述处理器执行所述计算机可读指令时实现如下步骤：对检测区域进行检测，以确定在所述检测区域中是否存在目标物；在确定所述检测区域中存在目标物时，获取机器人采集的语音数据；对所述语音数据进行语音端点检测，以确定所述目标物是否为目标声音源；所述对检测区域进行检测，以确定在所述检测区域中是否存在目标物，包括：通过所述传感器对所述检测区域进行检测，以获取所述检测区域中的所有特征信息；确定所述特征信息与预设目标特征信息之间的特征相似度，并将所述特征相似度与预设相似度阈值进行比较；在所述特征相似度大于或等于所述预设相似度阈值时，确定所述检测区域中存在所述目标物。
6.一种语音数据处理方法，包括：对检测区域进行检测，以确定在所述检测区域中是否存在目标物；在确定所述检测区域中存在目标物时，获取机器人采集的语音数据；对所述语音数据进行语音端点检测，以确定所述目标物是否为目标声音源；所述对检测区域进行检测，以确定在所述检测区域中是否存在目标物，包括：通过设置在所述机器人上的传感器对所述检测区域进行检测，以获取所述检测区域中的所有特征信息；确定所述特征信息与预设目标特征信息之间的特征相似度，并将所述特征相似度
与预设相似度阈值进行比较；在所述特征相似度大于或等于所述预设相似度阈值时，确定所述检测区域中存在所述目标物。
7.一种语音数据处理装置，包括：目标物检测模块，用于对检测区域进行检测，以确定在所述检测区域中是否存在目标物；语音数据获取模块，用于在确定所述检测区域中存在目标物时，获取机器人采集的语音数据；语音端点检测模块，用于对所述语音数据进行语音端点检测，以确定所述目标物是否为目标声音源；所述对检测区域进行检测，以确定在所述检测区域中是否存在目标物，包括：通过设置在所述机器人上的传感器对所述检测区域进行检测，以获取所述检测区域中的所有特征信息；确定所述特征信息与预设目标特征信息之间的特征相似度，并将所述特征相似度与预设相似度阈值进行比较；在所述特征相似度大于或等于所述预设相似度阈值时，确定所述检测区域中存在所述目标物。
8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音数据处理方法。
9.上述机器人、语音数据处理方法、装置以及存储介质，通过确定检测区域中是否存在目标物，并在检测区域存在目标物的前提下对语音数据进行语音端点检测，进而确定目标物是否为目标声音源；如此通过目标物检测以及语音端点检测的方法，实现对目标声音源进行定位，免去通过特定唤醒音频输入来实现声源定位，提升产品在语音交互中的用户体验。
附图说明
10.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
11.图1是本发明一实施例中机器人的一示意图；图2是本发明一实施例中语音数据处理方法的一流程图。
具体实施方式
12.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
13.在一个实施例中，提供了一种机器人，该机器人的内部结构图可以如图1所示。该
机器人包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该机器人的处理器用于提供计算和控制能力。该机器人的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该机器人的数据库用于存储与其对应的语音数据处理方法所使用到的数据。该机器人的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音数据处理方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。进一步地，机器人还可以包括输入装置以及显示屏，该输入装置用于接收其它设备发送的信号、文本等；该显示屏可以用于显示语音数据等。
14.在一实施例中，提供一种机器人，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序计算机可读指令，如图2所示，所述处理器执行所述计算机可读指令时实现如下步骤：s10：对检测区域进行检测，以确定在所述检测区域中是否存在目标物。
15.可以理解地，检测区域表征了机器人的对目标物进行检测的检测范围，机器人上有安装传感器，传感器可以包括激光雷达、rgbd相机、各种摄像头等其中的一种或两种以上。以激光雷达为例，在一实施例中激光雷达可以设置在机器人的前侧，此时激光雷达的探测范围（也即检测区域）位于机器人前方；在另一实施例中激光雷达还可以设置在机器人的后侧，此时激光雷达的探测范围位于机器人后方，因此在本实施例中不限定于激光雷达在机器人上设置的位置，只需要该激光雷达可以满足对检测区域进行目标物检测的功能即可。在另一实施例中，对检测区域除了可以为激光检测之外，还可以为如图像检测等其它检测方式。目标物优选指的是目标人体，可以理解地，由于检测区域中除了人体之外还包括其它的障碍物（如桌子、垃圾桶等），因此为了避免采集到其它障碍物发出的噪音等声音，需要确定检测区域中是否存在目标物，进而在确定检测区域存在目标物时，才确定该目标物是否为目标声音源，如此可以提高声源收音的准确率。
16.在一实施例中，所述机器人上设有传感器，步骤s10中，也即所述对检测区域进行检测，以确定在所述检测区域中是否存在目标物，包括：通过所述传感器对所述检测区域进行检测，以获取所述检测区域中的所有特征信息；在一具体实施例中，所述传感器包括激光雷达，所述通过所述传感器对所述检测区域进行检测，以获取所述检测区域中的所有特征信息，包括：通过所述激光雷达对所述检测区域进行检测，以获取所述检测区域中的所有特征信息。
17.可以理解地，激光雷达为设置在机器人上用于获取检测区域中的特征信息的设备。特征信息指的是在检测区域中所有障碍物（如行人、桌子等）的形体特征信息。示例性地，在激光雷达设置在机器人较为下方位置（如机器人的底盘位置）时，此时激光雷达采集的特征信息可能为如人体的人腿特征，桌子的桌腿特征等；在激光雷达设置在机器人较为上方位置（如机器人的头部位置）时，此时激光雷达采集的特征信息可能为如人体的上身特征信息，桌子的外形特征信息等。
18.确定所述特征信息与预设目标特征信息之间的特征相似度，并将所述特征相似度
与预设相似度阈值进行比较。
19.可以理解地，预设目标特征信息优选为人体特征信息，如人体的人腿特征信息、身体特征信息、头部特征信息等。在本实施例中，为了提高目标物确定的准确率可以通过激光雷达进行人腿检测。预设相似度阈值可以根据具体需求进行设定，示例性地，预设相似度阈值可以设定为如90%、95%等。
20.具体地，在通过所述激光雷达对所述检测区域进行检测，以获取所述检测区域中的所有特征信息之后，确定各特征信息与预设目标特征信息之间的特征相似度，并将特征相似度与预设相似度阈值进行比较；若任意一个特征信息对应的特征相似度大于或等于预设相似度阈值，则确定检测区域中存在目标物；若所有特征信息对应的特征相似度小于预设相似度阈值，则确定检测区域中不存在目标物。
21.在所述特征相似度大于或等于所述预设相似度阈值时，确定所述检测区域中存在所述目标物。
22.具体地，在将所述特征相似度与预设相似度阈值进行比较之后，在任意一个特征相似度大于或等于预设相似度阈值时，确定检测区域中存在目标物；若所有特征信息对应的特征相似度均小于预设相似度阈值，则确定检测区域中不存在目标物。
23.在一实施例中，所述检测区域包括第一检测区域，所述第一检测区域是指所述激光雷达的探测范围中位于预设扫描半径内的区域；所述处理器执行所述计算机可读指令时还实现如下步骤：在所述将所述特征相似度与预设相似度阈值进行比较之后，在所述特征信息为处于所述第一检测区域的特征信息，且在所述特征相似度大于或等于所述预设相似度阈值时，确定所述第一检测区域中存在所述目标物。
24.可以理解地，第一检测区域是指激光雷达的探测范围中位于预设扫描半径内的区域，且该第一检测区域可以小于激光雷达的探测范围，或者第一检测区域与激光雷达的探测范围相同。其中，预设扫描半径可以根据检测需求进行设定。
25.具体地，在所述特征相似度与预设相似度阈值进行比较之后，若与该特征相似度对应的特征信息为处于第一检测区域的特征信息，且特征相似度大于或等于预设相似度阈值时，即可确定第一检测区域中存在目标物。可以理解地，由于第一检测区域与机器人之间的距离较近，因此通过激光雷达检测第一检测区域中是否存在目标物时，激光雷达检测的准确率较高，因此在确定特征相似度大于或等于预设相似度阈值时，即可确定第一检测区域中存在目标物。
26.在一实施例中，所述检测区域还包括第二检测区域；所述第二检测区域是指所述激光雷达的探测范围中除所述第一检测区域外的区域；所述处理器执行所述计算机可读指令时还实现如下步骤：在所述将所述特征相似度与预设相似度阈值进行比较之后，在所述特征信息为处于所述第二检测区域的特征信息，且所述特征相似度大于或等于所述预设相似度阈值时，对所述特征信息进行特征跟踪，以确定所述特征信息是否满足预设跟踪条件。
27.可以理解地，在上述说明中指出第一检测区域可以小于激光雷达的探测范围，或者等于激光雷达的探测范围；进而在第一检测区域小于激光雷达的探测范围时，检测区域中还存在第二检测区域，该第二检测区域即为激光雷达的探测范围中除第一检测区域外的
区域。
28.可以理解地，在特征信息为处于第二检测区域的特征信息，且特征相似度大于或等于预设相似度阈值时，此时不能直接确定该特征信息为人体的特征信息，由于例如桌子中的两个桌脚也可能与人腿较为相似，因此需要对该特征信息进行人腿跟踪，以确定该特征信息是否满足预设跟踪条件，进而在确定特征信息满足预设跟踪条件时，确定第二检测区域存在目标物。其中，预设跟踪条件包含预设移动速度条件以及预设运动轨迹。预设移动速度条件是指特征信息对应的平均移动速度是否小于预设速度阈值，该预设速度阈值可以通过采集多数行人的移动速度进行确定。预设运动轨迹是指该特征信息是否为交叉运动轨迹，如该特征信息为人腿特征信息时，人腿特征信息中的两个人腿之间应为交叉移动的，如此可以避免将如类似人腿的桌腿的障碍物的特征相似度大于或等于预设相似度时，该桌腿会被视为人腿，进而错误认为第二检测区域中存在目标物（由于桌腿之间是平行移动的），如此通过特征跟踪的方式，可以提高目标物检测的准确率。
29.在确定所述特征信息满足所述预设跟踪条件时，确定所述第二检测区域中存在所述目标物。
30.具体地，在对所述特征信息进行特征跟踪，以确定所述特征信息是否满足预设跟踪条件，若特征信息满足预设跟踪条件，则确定第二检测区域中存在目标物；若特征信息不满足预设跟踪条件，则确定该特征信息不为目标物的特征信息。
31.在确定所述检测区域中存在目标物时，获取所述目标物的位置信息。可以理解地，所述目标物的位置信息即为目标物当前所处位置信息，该位置信息可以根据与目标物对应的特征信息确定。进一步地，在上述特征信息为人体的人腿特征信息时，则可以获取其中一个人腿特征信息的第一位置信息，以及另一个人腿特征信息的第二位置信息，进而将第一位置信息以及第二位置信息的平均位置信息作为该目标物的位置信息。
32.s20：在确定所述检测区域中存在目标物时，获取机器人采集的语音数据。
33.可以理解地，语音数据即为设置在机器人上的语音采集设备采集的数据，该语音数据中可能包含环境噪音、人声（该人声可能为目标物的声音，也可能不为目标物的声音）等。
34.s30：对所述语音数据进行语音端点检测，以确定所述目标物是否为目标声音源。
35.可以理解地，语音端点检测用于检测语音数据中是否存在人声，也即检测语音数据中是否存在人声的起始点和/结束点。
36.在一实施例中，步骤s30中，包括：对所述语音数据进行语音端点检测，以获取所述语音数据的起始点和/或结束点。
37.具体地，在确定所述检测区域中存在目标物时，获取机器人采集的语音数据之后，对语音数据进行语音端点检测，以确定语音数据中是否包含人声的起始点和/或结束点。也即在该语音数据中只需要检测到起始点和/或结束点，即可确定语音数据中包括人声。其中，起始点也即为语音数据中开始采集到人声的起始时间；结束点也即为语音数据中从采集到人声之后未采集到人声的时间。
38.本实施例中通过语音能量值的变化进行语音端点检测。首先将语音数据按照固定时长比如20毫秒进行分割，每个分割单元包含数量相同的语音采样点，然后计算每个分割单元中语音的能量值。如果在语音数据的前端部分连续若干个分割单元的能量值低于预设
能量值阈值（该预设能量值阈值可以根据需求进行设定），接下来的连续若干个分割单元能量值大于或等于预设能量值阈值，则在语音能量值增大的地方就是语音数据的起始点。同样的，如果连续的若干个分割单元中语音的能量值较大，随后若干个分割单元中语音的能量值变小，并且持续一定的时长，可以认为在能量值减小的地方即是语音数据的结束点。
39.若检测到所述语音数据的起始点和/或结束点，则确定所述目标物为目标声音源。
40.具体地，在对所述语音数据进行语音端点检测，以获取所述语音数据的起始点和/或结束点之后，若检测到语音数据的起始点和/或结束点，则确定目标物为目标声音源；若未检测到语音数据的起始点和结束点，则确定目标物不为目标声音源。
41.在本实施例中，通过确定检测区域中是否存在目标物，并在检测区域存在目标物的前提下再对语音数据进行语音端点检测，进而确定目标物是否为目标声音源；如此通过目标物检测以及语音端点检测的方法，实现对目标声音源进行定位，免去通过特定唤醒音频输入来实现声源定位，提升产品在语音交互中的用户体验。
42.在一实施例中，所述处理器执行所述计算机可读指令时还实现如下步骤：在确定所述目标物为所述目标声音源时，对所述目标声音源进行收音处理。
43.具体地，在对所述语音数据进行语音端点检测，以确定所述目标物是否为目标声音源之后，若确定目标物为目标声音源，则对目标声音源进行收音处理，也即将采集到的目标物的语音信息上传至语音数据处理装置进行语音分析等；进一步地，在本实施例中，对目标声音源进行收音处理优选为定向收音处理；若确定目标物不为目标声音源，则不对该目标物进行收音处理。
44.在一实施例中，所述对所述目标声音源进行收音处理，包括：获取所述目标声音源的目标位置信息，并根据所述目标位置信息确定机器人的目标行驶路径。
45.可以理解地，目标位置信息即为目标声音源当前所处位置信息，该目标位置信息可以根据与目标声音源对应的特征信息确定。进一步地，在上述特征信息为人体的人腿特征信息时，则可以获取其中一个人腿特征信息的第一位置信息，以及另一个人腿特征信息的第二位置信息，进而将第一位置信息以及第二位置信息的平均位置信息作为该目标声音源的目标位置信息。目标行驶路径即为机器人从当前所处位置行驶至靠近目标声音源的目标位置信息的路径。
46.按照所述目标行驶路径行驶并靠近所述目标声音源，对所述目标声音源进行收音处理。
47.具体地，在获取所述目标声音源的目标位置信息，并根据所述目标位置信息确定目标行驶路径之后，按照目标行驶路径行驶并靠近目标位置信息之后，通过设置在机器人上的麦阵收音设备实现对目标声音源进行收音处理。若目标物的目标位置信息发生变化，则通过跟踪目标物的方式，确定目标物的移动方向以及移动轨迹，进而可以更改目标行驶路径，以往靠近目标物的方向行驶，实现对目标物的收音处理。
48.在一实施例中，所述处理器执行所述计算机可读指令时还实现如下步骤：在检测到所述语音数据的起始点和/或结束点之后，获取所述目标物的图像采集信息。
49.可以理解地，图像采集信息为设置在机器人上的图像采集设备拍摄得到的；其中，
图像采集设备可以为如相机、摄像机、扫描仪等。进一步地，该图像采集信息可以为目标物的人脸图像、唇部图像等。
50.对所述图像采集信息进行唇动特征识别，得到与所述目标物对应的唇动特征识别结果。
51.具体地，在获取目标物的图像采集信息之后，对图像采集信息进行唇动特征识别，也即检测图像采集信息中目标物的唇部是否存在变化（如从唇部关闭到唇部开启），例如检测图像采集信息中唇部部分的上唇与下唇之间的开合度是否发生变化，进而可以得到与目标物对应的唇动特征识别结果。其中，唇动特征识别结果即为唇动时间点，也即目标物唇部从关闭到打开时的起始时间点，以及唇部从打开到关闭时的结束时间点。若未检测到目标物的唇部特征发生变化，则该唇动时间点即为空。
52.根据唇动特征识别结果对所述起始点和/或结束点进行语音校验，以确定所述目标物是否为目标声音源。
53.可以理解地，本实施例中的语音校验即为确定目标物的唇动时间点与起始点和/或结束点匹配，若匹配，则确定目标物为目标声音源；若不匹配，则确定目标物不为目标声音源。
54.在一实施例中，所述唇动特征识别结果为唇动时间点；所述根据唇动特征识别结果对所述起始点和/或结束点进行语音校验，以确定所述目标物是否为目标声音源，包括：确定所述唇动时间点与所述起始点和/或结束点的时间是否匹配。
55.若匹配，则确定所述目标物为目标声音源。
56.可以理解地，在上述说明中指出所述唇动特征识别结果即为唇动时间点，也即目标物唇部从关闭到打开时的起始时间点，以及唇部从打开到关闭时的结束时间点。若未检测到目标物的唇部特征发生变化，则该唇动时间点即为空。因此，可以通过确定唇动时间点与语音数据的起始点是否匹配，若匹配，则表征语音数据为目标物所属的语音数据；若不匹配（如可能图像采集信息存在误差），还可以确定唇动时间点与语音数据的结束点是否匹配，若匹配，则表征语音数据为目标物所属的语音数据。进一步地，若唇动时间点与起始点以及结束点的时间均不匹配，则表征该语音数据不为目标物的语音数据，亦或者语音数据中的背景声音（如其它目标物的声音）大于目标物的声音，进而无法将唇动时间点与起始点和/或结束点匹配，如此，通过唇动特征识别方法可以提高语音数据检测的准确率，为后续对目标物进行定向收音提供准确的判断依据，进而提高了定向收音的录音质量以及效率。
57.在本实施例中，通过唇动特征识别方法可以较好的对目标物是否发声进行判定，相较于仅从语音数据进行端点检测分析而言，唇动特征识别方法与语音端点检测方法的综合使用，可以提高语音数据检测的准确率（如避免在非目标物发声，而目标物的唇动特征并没有发生变化时，也即表征目标物没有发声时，判定目标物为目标声音源）；进一步地，采用唇动特征进行辅助判定，相较于其它人体特征（如脖子特征，下巴特征等）具有更高的准确性，从而为后续对目标物进行收音处理提供准确的判断依据，进而提高了定向收音的录音质量以及效率。
58.在一实施例中，提供一种语音数据处理方法，包括如下步骤：s10：对检测区域进行检测，以确定在所述检测区域中是否存在目标物；s20：在确定所述检测区域中存在目标物时，获取机器人采集的语音数据；
s30：对所述语音数据进行语音端点检测，以确定所述目标物是否为目标声音源；所述对检测区域进行检测，以确定在所述检测区域中是否存在目标物，包括：通过设置在所述机器人上的传感器对所述检测区域进行检测，以获取所述检测区域中的所有特征信息；确定所述特征信息与预设目标特征信息之间的特征相似度，并将所述特征相似度与预设相似度阈值进行比较；在所述特征相似度大于或等于所述预设相似度阈值时，确定所述检测区域中存在所述目标物。
59.在本实施例中，通过确定检测区域中是否存在目标物，并在检测区域存在目标物的前提下再对语音数据进行语音端点检测，进而确定目标物是否为目标声音源，如此通过目标物检测以及语音端点检测的方法，实现对目标声音源进行定位，免去通过特定唤醒音频输入来实现声源定位，提升产品在语音交互中的用户体验。
60.在一实施例中，所述传感器包括激光雷达；所述通过设置在所述机器人上的传感器对所述检测区域进行检测，以获取所述检测区域中的所有特征信息，包括：通过所述激光雷达对所述检测区域进行检测，以获取所述检测区域中的所有特征信息。
61.在一实施例中，所述检测区域包括第一检测区域，所述第一检测区域是指所述激光雷达的探测范围中位于预设扫描半径内的区域；所述语音数据处理方法还包括：在所述将所述特征相似度与预设相似度阈值进行比较之后，在所述特征信息为处于所述第一检测区域的特征信息，且在所述特征相似度大于或等于所述预设相似度阈值时，确定所述第一检测区域中存在所述目标物。
62.在一实施例中，所述检测区域还包括第二检测区域；所述第二检测区域是指所述激光雷达的探测范围中除所述第一检测区域外的区域；所述语音数据处理方法还包括：在所述将所述特征相似度与预设相似度阈值进行比较之后，在所述特征信息为处于所述第二检测区域的特征信息，且所述特征相似度大于或等于所述预设相似度阈值时，对所述特征信息进行特征跟踪，以确定所述特征信息是否满足预设跟踪条件；在确定所述特征信息满足所述预设跟踪条件时，确定所述第二检测区域中存在所述目标物。
63.在一实施例中，所述对所述语音数据进行语音端点检测，以确定所述目标物是否为目标声音源之后，还包括：在确定所述目标物为所述目标声音源时，对所述目标声音源进行收音处理；所述对所述目标声音源进行收音处理，包括：获取所述目标声音源的目标位置信息，并根据所述目标位置信息确定所述机器人的目标行驶路径；在所述机器人按照所述目标行驶路径行驶并靠近所述目标声音源时，对所述目标物进行收音处理。
64.在一实施例中，所述对所述语音数据进行语音端点检测，以确定所述目标物是否
为声音源，包括：对所述语音数据进行语音端点检测，以获取所述语音数据的起始点和/或结束点；若检测到所述语音数据的起始点和/或结束点，则确定所述目标物为目标声音源。
65.在一实施例中，所述语音数据处理方法还包括：在所述检测到所述语音数据的起始点和/或结束点之后，获取所述目标物的图像采集信息；对所述图像采集信息进行唇动特征识别，得到与所述目标物对应的唇动特征识别结果；根据唇动特征识别结果对所述起始点和/或结束点进行语音校验，以确定所述目标物是否为目标声音源。
66.在一实施例中，所述唇动特征识别结果为唇动时间点；所述根据唇动特征识别结果对所述起始点和/或结束点进行语音校验，以确定所述目标物是否为目标声音源，包括：确定所述唇动时间点与所述起始点和/或结束点的时间是否匹配；若匹配，则确定所述目标物为目标声音源。
67.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
68.在一实施例中，提供一种语音数据处理装置，包括：目标物检测模块，用于对检测区域进行检测，以确定在所述检测区域中是否存在目标物；语音数据获取模块，用于在确定所述检测区域中存在目标物时，获取机器人采集的语音数据；语音端点检测模块，用于对所述语音数据进行语音端点检测，以确定所述目标物是否为目标声音源；所述对检测区域进行检测，以确定在所述检测区域中是否存在目标物，包括：通过设置在所述机器人上的传感器对所述检测区域进行检测，以获取所述检测区域中的所有特征信息；确定所述特征信息与预设目标特征信息之间的特征相似度，并将所述特征相似度与预设相似度阈值进行比较；在所述特征相似度大于或等于所述预设相似度阈值时，确定所述检测区域中存在所述目标物。
69.关于语音数据处理装置的具体限定可以参见上文中对于语音数据处理方法的限定，在此不再赘述。上述语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
70.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的语音数据处理方法。
71.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以
通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（rom）、可编程rom（prom）、电可编程rom（eprom）、电可擦除可编程rom（eeprom）或闪存。易失性存储器可包括随机存取存储器（ram）或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram（sram）、动态ram（dram）、同步dram（sdram）、双数据率sdram（ddrsdram）、增强型sdram（esdram）、同步链路（synchlink） dram（sldram）、存储器总线（rambus）直接ram（rdram）、直接存储器总线动态ram（drdram）、以及存储器总线动态ram（rdram）等。
72.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
73.以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

机器人、语音数据处理方法、装置以及存储介质与流程

相关文章

最热文献