一种具有语音唤醒功能的图像识别方法及系统与流程

2021-09-29 03:12:00 来源：中国专利 TAG：识别图像唤醒语音功能

1.本发明涉及图像识别技术领域，具体而言，涉及一种具有语音唤醒功能的图像识别方法及系统。

背景技术：

2.近年来，随着人工智能的快速发展，图像识别功能已经在多个场景中应用，如二维码、人物识别、物体识别、拍题等。图像识别结合语音功能在智能电器领域的应用也已经非常广泛。目前，当多个用户对着空调发布语音指令时，智能空调对用户语音指令的接收和识别的准确度将降低，很可能会导致不能识别或者识别错误的现象出现，同时由于识别场景内容的多样性，现有技术中进行图像识别的准确性也不高，进而导致电器控制的效果不好。

技术实现要素：

3.为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种具有语音唤醒功能的图像识别方法及系统，可有效提高图像识别的准确性。
4.本发明的实施例是这样实现的：
5.第一方面，本发明实施例提供一种具有语音唤醒功能的图像识别方法，包括以下步骤：
6.采集用户的操作图像信息；
7.将操作图像信息导入到预置的图像识别模型中，生成初始图像识别信息；
8.根据操作图像信息中的嘴型信息生成并发送语音唤醒指令，启动语音采集功能；
9.获取用户语音信息，并采用预置的语音识别模型对用户语音信息进行识别，生成语音识别信息；
10.根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息；
11.将目标图像信息导入至预置的图像识别模型中，生成目标图像识别信息。
12.为了提高图像识别的准确性，进而对智能电器进行精准控制，结合语音识别技术对用户的操作进行精准识别。首先，当用户对智能电器进行操控做成相应的操作动作后，采用摄像头采集用户的操作图像信息，然后将操作图像信息导入到预置的图像识别模型中进行图像识别分析，得到一个初始图像识别信息；上述图像识别模型是指通过历史数据训练得到的可以对图像进行识别的数学模型；上述初始图像识别信息包括用户操作内容、操作电器类型、操作场景等信息。同时，用户操作时会发出语音信息，根据操作图像信息中的嘴型信息生成并发送语音唤醒指令给麦克风或者其他语音采集设备，启动其语音采集功能，对用户语音进行采集；上述嘴型信息包括张嘴和闭嘴动作信息。获取到用户语音信息后，采用预置的语音识别模型对用户语音信息进行识别，识别得到用户的语音内容，生成语音识别信息，该语音识别信息包括控制电器类型、控制内容、音色等信息。根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求，生成目标图像采集指令，控制
摄像头采集目标图像信息，然后将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别，生成目标图像识别信息，该目标图像识别信息包括目标电器、操作场景、操作内容。
13.本方法对操作图像进行精准识别，结合语音和图像识别双重识别技术，提高对目标图像的采集精准性，对目标图像进行精准识别，进而提高对智能电器的控制精确性。
14.基于第一方面，在本发明的一些实施例中，上述将操作图像信息导入到预置的图像识别模型中，生成初始图像识别信息的方法包括以下步骤：
15.将操作图像信息导入到预置的图像识别模型中；
16.通过图像识别模型对操作图像信息进行分割，以得到多个分割图像，并对各个分割图像进行图像识别，生成多个分割识别结果；
17.将各个分割识别结果进行整合，生成初始图像识别信息。
18.基于第一方面，在本发明的一些实施例中，上述采用预置的语音识别模型对用户语音信息进行识别，生成语音识别信息的方法包括以下步骤：
19.采用预置的语音识别模型对用户语音信息中的音色进行识别，生成用户音色识别结果；
20.采用预置的语音识别模型对用户语音信息中的操作内容进行识别，生成内容识别结果；
21.根据用户音色识别结果和内容识别结果生成语音识别信息。
22.基于第一方面，在本发明的一些实施例中，该具有语音唤醒功能的图像识别方法还包括以下步骤：
23.根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户，如果是，则采用预置的语音识别模型对用户语音信息中的操作内容进行识别，生成内容识别结果；如果否，则生成并发送提示信息。
24.第二方面，本发明实施例提供一种具有语音唤醒功能的图像识别系统，包括图像采集模块、初始识别模块、语音启动模块、语音识别模块、目标采集模块以及目标识别模块，其中：
25.图像采集模块，用于采集用户的操作图像信息；
26.初始识别模块，用于将操作图像信息导入到预置的图像识别模型中，生成初始图像识别信息；
27.语音启动模块，用于根据操作图像信息中的嘴型信息生成并发送语音唤醒指令，启动语音采集功能；
28.语音识别模块，用于获取用户语音信息，并采用预置的语音识别模型对用户语音信息进行识别，生成语音识别信息；
29.目标采集模块，用于根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息；
30.目标识别模块，用于将目标图像信息导入至预置的图像识别模型中，生成目标图像识别信息。
31.为了提高图像识别的准确性，进而对智能电器进行精准控制，结合语音识别技术对用户的操作进行精准识别。首先，当用户对智能电器进行操控做成相应的操作动作后，图
像采集模块采用摄像头采集用户的操作图像信息，然后初始识别模块将操作图像信息导入到预置的图像识别模型中进行图像识别分析，得到一个初始图像识别信息；上述图像识别模型是指通过历史数据训练得到的可以对图像进行识别的数学模型；上述初始图像识别信息包括用户操作内容、操作电器类型、操作场景等信息。同时，用户操作时会发出语音信息，语音启动模块根据操作图像信息中的嘴型信息生成并发送语音唤醒指令给麦克风或者其他语音采集设备，启动其语音采集功能，对用户语音进行采集；上述嘴型信息包括张嘴和闭嘴动作信息。语音识别模块获取到用户语音信息后，采用预置的语音识别模型对用户语音信息进行识别，识别得到用户的语音内容，生成语音识别信息，该语音识别信息包括控制电器类型、控制内容、音色等信息。目标采集模块根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求，生成目标图像采集指令，控制摄像头采集目标图像信息，然后目标识别模块将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别，生成目标图像识别信息，该目标图像识别信息包括目标电器、操作场景、操作内容。
32.本系统对操作图像进行精准识别，结合语音和图像识别双重识别技术，提高对目标图像的采集精准性，对目标图像进行精准识别，进而提高对智能电器的控制精确性。
33.基于第二方面，在本发明的一些实施例中，上述初始识别模块包括导入子模块、分割子模块以及整合子模块，其中：
34.导入子模块，用于将操作图像信息导入到预置的图像识别模型中；
35.分割子模块，用于通过图像识别模型对操作图像信息进行分割，以得到多个分割图像，并对各个分割图像进行图像识别，生成多个分割识别结果；
36.整合子模块，用于将各个分割识别结果进行整合，生成初始图像识别信息。
37.基于第二方面，在本发明的一些实施例中，上述语音识别模块包括音色识别子模块、内容识别子模块以及识别信息子模块，其中：
38.音色识别子模块，用于采用预置的语音识别模型对用户语音信息中的音色进行识别，生成用户音色识别结果；
39.内容识别子模块，用于采用预置的语音识别模型对用户语音信息中的操作内容进行识别，生成内容识别结果；
40.识别信息子模块，用于根据用户音色识别结果和内容识别结果生成语音识别信息。
41.基于第二方面，在本发明的一些实施例中，该具有语音唤醒功能的图像识别系统还包括判断模块，用于根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户，如果是，则采用预置的语音识别模型对用户语音信息中的操作内容进行识别，生成内容识别结果；如果否，则生成并发送提示信息。
42.第三方面，本技术实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。
43.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
44.本发明实施例至少具有如下优点或有益效果：
45.本发明实施例提供一种具有语音唤醒功能的图像识别方法及系统，为了提高图像识别的准确性，进而对智能电器进行精准控制，结合语音识别技术对用户的操作进行精准
识别。根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求，生成目标图像采集指令，控制摄像头采集目标图像信息，然后将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别，生成目标图像识别信息，该目标图像识别信息包括目标电器、操作场景、操作内容。本发明对操作图像进行精准识别，结合语音和图像识别双重识别技术，提高对目标图像的采集精准性，对目标图像进行精准识别，进而提高对智能电器的控制精确性。
附图说明
46.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
47.图1为本发明实施例一种具有语音唤醒功能的图像识别方法的流程图；
48.图2为本发明实施例一种具有语音唤醒功能的图像识别系统的原理框图；
49.图3为本发明实施例提供的一种电子设备的结构框图。
50.图标：100、图像采集模块；200、初始识别模块；210、导入子模块；220、分割子模块；230、整合子模块；300、语音启动模块；400、语音识别模块；410、音色识别子模块；420、内容识别子模块；430、识别信息子模块；500、目标采集模块；600、目标识别模块；700、判断模块；101、存储器；102、处理器；103、通信接口。
具体实施方式
51.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
52.因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
53.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
54.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
55.实施例
56.如图1所示，第一方面，本发明实施例提供一种具有语音唤醒功能的图像识别方法，包括以下步骤：
57.s1、采集用户的操作图像信息；
58.s2、将操作图像信息导入到预置的图像识别模型中，生成初始图像识别信息；
59.进一步地，将操作图像信息导入到预置的图像识别模型中；
60.通过图像识别模型对操作图像信息进行分割，以得到多个分割图像，并对各个分割图像进行图像识别，生成多个分割识别结果；
61.将各个分割识别结果进行整合，生成初始图像识别信息。
62.在本发明的一些实施例中，当用户对智能电器进行操控做成相应的操作动作后，采用摄像头采集用户的操作图像信息，该操作图像信息包括用户的肢体动作图像、头部动作图像，脸部动作图像、操作电器图像、操作环境图像等等，然后将操作图像信息导入到预置的图像识别模型中进行图像识别分析，得到一个初始图像识别信息；为了保证图像识别的效率以及精准性，对图像进行分割，得到多个分割图像，然后分别对各个分给图像进行识别，细化成多个图像块进行识别，可以有效提高识别的效果，然后，按照分割时的边界将各个分割图像整合在一起，得到完整的初始图像识别信息。上述图像识别模型是指通过历史数据训练得到的可以对图像进行识别的数学模型；上述初始图像识别信息包括用户操作内容、操作电器类型、操作场景等信息。
63.s3、根据操作图像信息中的嘴型信息生成并发送语音唤醒指令，启动语音采集功能；
64.在本发明的一些实施例中，用户操作时会发出语音信息，根据操作图像信息中的嘴型信息生成并发送语音唤醒指令给麦克风或者其他语音采集设备，启动其语音采集功能，对用户语音进行采集；上述嘴型信息包括张嘴和闭嘴动作信息。
65.s4、获取用户语音信息，并采用预置的语音识别模型对用户语音信息进行识别，生成语音识别信息；
66.进一步地，采用预置的语音识别模型对用户语音信息中的音色进行识别，生成用户音色识别结果；
67.采用预置的语音识别模型对用户语音信息中的操作内容进行识别，生成内容识别结果；
68.根据用户音色识别结果和内容识别结果生成语音识别信息。
69.在本发明的一些实施例中，获取到用户语音信息后，采用预置的语音识别模型对用户语音信息进行识别，识别得到用户的语音内容，生成语音识别信息，通过预置的语音识别模型对音色和内容进行分别识别，生成全面的语音识别信息，该语音识别信息包括控制电器类型、控制内容、音色等信息。
70.进一步地，根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户，如果是，则采用预置的语音识别模型对用户语音信息中的操作内容进行识别，生成内容识别结果；如果否，则生成并发送提示信息。
71.在本发明的一些实施例中，为了提高识别的准确性，当存在多个用户发出语音时，根据用户的音色识别结果确定是否是预先录入的目标用户的音色，对目标用户进行判断，仅仅对目标用户的语音信息的内容进行识别，避免识别错误，提高目标用户语音识别效率。
72.s5、根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息；
73.s6、将目标图像信息导入至预置的图像识别模型中，生成目标图像识别信息。
74.在本发明的一些实施例中，首先，同时，根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求，生成目标图像采集指令，控制摄像头采集目标图像信息，然后将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别，生成目标图像识别信息，该目标图像识别信息包括目标电器、操作场景、操作内容。
75.为了提高图像识别的准确性，进而对智能电器进行精准控制，结合语音识别技术对用户的操作进行精准识别。本方法对操作图像进行精准识别，结合语音和图像识别双重识别技术，提高对目标图像的采集精准性，对目标图像进行精准识别，进而提高对智能电器的控制精确性。
76.如图2所示，第二方面，本发明实施例提供一种具有语音唤醒功能的图像识别系统，包括图像采集模块100、初始识别模块200、语音启动模块300、语音识别模块400、目标采集模块500以及目标识别模块600，其中：
77.图像采集模块100，用于采集用户的操作图像信息；
78.初始识别模块200，用于将操作图像信息导入到预置的图像识别模型中，生成初始图像识别信息；
79.语音启动模块300，用于根据操作图像信息中的嘴型信息生成并发送语音唤醒指令，启动语音采集功能；
80.语音识别模块400，用于获取用户语音信息，并采用预置的语音识别模型对用户语音信息进行识别，生成语音识别信息；
81.目标采集模块500，用于根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息；
82.目标识别模块600，用于将目标图像信息导入至预置的图像识别模型中，生成目标图像识别信息。
83.为了提高图像识别的准确性，进而对智能电器进行精准控制，结合语音识别技术对用户的操作进行精准识别。首先，当用户对智能电器进行操控做成相应的操作动作后，图像采集模块100采用摄像头采集用户的操作图像信息，然后初始识别模块200将操作图像信息导入到预置的图像识别模型中进行图像识别分析，得到一个初始图像识别信息；上述图像识别模型是指通过历史数据训练得到的可以对图像进行识别的数学模型；上述初始图像识别信息包括用户操作内容、操作电器类型、操作场景等信息。同时，用户操作时会发出语音信息，语音启动模块300根据操作图像信息中的嘴型信息生成并发送语音唤醒指令给麦克风或者其他语音采集设备，启动其语音采集功能，对用户语音进行采集；上述嘴型信息包括张嘴和闭嘴动作信息。语音识别模块400获取到用户语音信息后，采用预置的语音识别模型对用户语音信息进行识别，识别得到用户的语音内容，生成语音识别信息，该语音识别信息包括控制电器类型、控制内容、音色等信息。目标采集模块500根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求，生成目标图像采集指令，控制摄像头采集目标图像信息，然后目标识别模块600将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别，生成目标图像识别信息，该目标图像识别信息包括目标电器、操
作场景、操作内容。
84.本系统对操作图像进行精准识别，结合语音和图像识别双重识别技术，提高对目标图像的采集精准性，对目标图像进行精准识别，进而提高对智能电器的控制精确性。
85.如图2所示，基于第二方面，在本发明的一些实施例中，上述初始识别模块200包括导入子模块210、分割子模块220以及整合子模块230，其中：
86.导入子模块210，用于将操作图像信息导入到预置的图像识别模型中；
87.分割子模块220，用于通过图像识别模型对操作图像信息进行分割，以得到多个分割图像，并对各个分割图像进行图像识别，生成多个分割识别结果；
88.整合子模块230，用于将各个分割识别结果进行整合，生成初始图像识别信息。
89.为了保证图像识别的效率以及精准性，分割子模块220对图像进行分割，得到多个分割图像，然后分别对各个分给图像进行识别，细化成多个图像块进行识别，可以有效提高识别的效果，然后，整合子模块230按照分割时的边界将各个分割图像整合在一起，得到完整的初始图像识别信息。
90.如图2所示，基于第二方面，在本发明的一些实施例中，上述语音识别模块400包括音色识别子模块410、内容识别子模块420以及识别信息子模块430，其中：
91.音色识别子模块410，用于采用预置的语音识别模型对用户语音信息中的音色进行识别，生成用户音色识别结果；
92.内容识别子模块420，用于采用预置的语音识别模型对用户语音信息中的操作内容进行识别，生成内容识别结果；
93.识别信息子模块430，用于根据用户音色识别结果和内容识别结果生成语音识别信息。
94.音色识别子模块410和内容识别子模块420分别采用预置的语音识别模型对音色和内容进行分别识别，生成全面的语音识别信息。
95.如图2所示，基于第二方面，在本发明的一些实施例中，该具有语音唤醒功能的图像识别系统还包括判断模块700，用于根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户，如果是，则采用预置的语音识别模型对用户语音信息中的操作内容进行识别，生成内容识别结果；如果否，则生成并发送提示信息。
96.为了提高识别的准确性，当存在多个用户发出语音时，判断模块700根据用户的音色识别结果确定是否是预先录入的目标用户的音色，对目标用户进行判断，仅仅对目标用户的语音信息的内容进行识别，避免识别错误，提高目标用户语音识别效率。
97.如图3所示，第三方面，本技术实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。
98.还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
99.其中，存储器101可以是但不限于，随机存取存储器101(random access memory，
ram)，只读存储器101(read only memory，rom)，可编程只读存储器101(programmable read
‑
only memory，prom)，可擦除只读存储器101(erasable programmable read
‑
only memory，eprom)，电可擦除只读存储器101(electric erasable programmable read
‑
only memory，eeprom)等。
100.处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器102，包括中央处理器102(central processing unit，cpu)、网络处理器102(network processor，np)等；还可以是数字信号处理器102(digital signal processing，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
101.在本技术所提供的实施例中，应该理解到，所揭露的方法及系统和方法，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
102.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
103.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器101(rom，read
‑
only memory)、随机存取存储器101(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
104.以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
105.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于多尺度视频特征融合的语音唇读方法及系统与流程

一种具有语音唤醒功能的图像识别方法及系统与流程

相关文章

最热文献