农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种智能语音、图像识别交互装置的制作方法

2021-07-30 13:28:00 来源：中国专利 TAG：智能交互语音识别装置

本实用新型涉及智能设备领域，具体涉及一种智能语音、图像识别交互装置。

背景技术：

现在人们已经能够通过网络利用一个电子终端对许多设备进行操作，但是由于操作复杂，对于孩童或者长者的使用造成了一定的障碍。但是随着科技的发展，ai技术和语音识别技术相结合的实现，为智能人机交互提供了有力的技术支撑，使得用户仅通过语音就可以实现资讯获取和用电器控制等操作，极大地简化了电子终端的使用。但是仅有语音交互能够满足的应用场景有限，一些场景中还需要电子终端对图像进行识别，是现有只能够进行语音交互的装置所不能够实现的。

技术实现要素：

针对上述提到的现有技术中的智能设备只能够进行语音交互的问题，本实用新型提供一种智能语音、图像识别交互装置，设有包括摄像头和按键在内的输入组件，使得高集成芯片不仅能够通过语音获得用户的指令，还能够通过摄像头收集用户的图像信息，上传到云端服务器并获得相应的反馈，然后根据反馈输相应的信息，实现与用户通过语音和图像识别进行交互。

本实用新型解决其技术问题采用的技术方案是：一种智能语音、图像识别交互装置，包括外壳、设置在外壳内部的主控电路板、输入组件、电源模块2和输出组件；

所述电源模块与主控电路板连接，所述电源模块设有用于与外接电源或设备连接的接口；

所述输入组件用于获取用户包括语音、图像、动作的指令和信息，所述输入组件包括摄像头、麦克风和按键；

所述主控电路板上设有闪存模块、晶体振荡器和高集成芯片；

所述晶体振荡器与所述高集成芯片连接，所述晶体振荡器用于为高集成芯片提供基准信号；

所述闪存模块与所述高集成芯片连接，所述闪存模块用于存取供所述高集成芯片调取的数据；

所述高集成芯片包括模拟数字转换模块、微控制模块和通讯模块，所述模拟数字转换模块用于将输入组件获取的指令和信息转换成高集成芯片能够处理的数据，所述微控制模块用于处理接收到的数据并根据所述数据控制输出组件输出相应的信息，所述微控制模块通过所述通讯模块与云端服务器和用户终端进行数据交换，所述高集成芯片分别与输入组件和输出组件连接；

所述输出组件用于输出所述微控制模块输出的信息。

本实用新型解决其技术问题采用的技术方案进一步还包括：

如上所述的一种智能语音、图像识别交互装置，所述通讯模块包括wifi模块、经典蓝牙模块或低功耗蓝牙模块中至少一种。

如上所述的一种智能语音、图像识别交互装置，所述智能语音、图像识别交互装置还设有辅助电路板，所述电源模块设置在所述辅助电路板上，所述主控电路板上的高集成芯片通过所述辅助电路板与输出装置连接。

如上所述的一种智能语音、图像识别交互装置，所述输出组件包括喇叭和显示屏。

如上所述的一种智能语音、图像识别交互装置，所述辅助电路板上设有音频放大芯片和音量调节旋钮，所述音量调节旋钮用于调节所述喇叭输出的音量。

如上所述的一种智能语音、图像识别交互装置，所述显示屏为led点阵显示屏或液晶显示屏中的一种。

如上所述的一种智能语音、图像识别交互装置，所述摄像头采用能够通过csi接口直接驱动的摄像头模组。

如上所述的一种智能语音、图像识别交互装置，所述麦克风设有两个以上。

如上所述的一种智能语音、图像识别交互装置，所述电源模块2的接口为usb接口、type-c接口或micro-usb接口中的一种。

本实用新型的有益效果是：本实用新型的智能语音、图像识别交互装置的输入组件不仅设有麦克风，能够通过语音与用户进行交互，还设有摄像头，使得高集成芯片能够通过摄像头手机用户的图像信息，识别用户提供的图像甚至手势，上传到云端服务器并获得相应的反馈，然后根据反馈输相应的信息，实现与用户通过语音和图像识别进行交互，能够获取用户无法通过语音提供的信息，在一些方面能够进一步简化用户控制终端的操作，更加方便孩童和长者使用设有本装置的智能设备，为他们提供更全面的帮助。

下面将结合附图和具体实施方式对本实用新型做进一步说明。

附图说明

图1为本实用新型的智能语音、图像识别交互装置较优实施例的硬件框架示意图；

图2为本实用新型的智能语音、图像识别交互装置较优实施例的软件架构图；

图3为本实用新型的智能语音、图像识别交互装置较优实施例的图像识别流程图；

图4为本实用新型的智能语音、图像识别交互装置较优实施例的语音识别流程图；

图中，1、外壳，2、电源模块，3、摄像头，4、麦克风，5、按键，6、闪存模块，7、晶体振荡器，8，高集成芯片，9、喇叭，10、显示屏，11、辅助电路板。

具体实施方式

本实施例为本实用新型优选实施方式，其他凡其原理和基本结构与本实施例相同或近似的，均在本实用新型保护范围之内。

在本实用新型的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本实用新型中的具体含义。

本实用新型的智能语音、图像识别交互装置较优实施例参照图1-4所示，包括外壳1、设置在外壳1内部的主控电路板、输入组件、电源模块2和输出组件。

电源模块2与主控电路板连接，给整个智能语音、图像识别交互装置供电，电源模块2设有用于与外接电源或设备连接的接口。本实施例中，为了电源的安全连接，智能语音、图像识别交互装置还设有辅助电路板11，电源模块2设置在辅助电路板11上，主控电路板上的高集成芯片8通过辅助电路板11与输出装置连接。

输入组件用于获取用户包括语音、图像、动作的指令和信息，本实施例中，输入组件包括摄像头3、麦克风4和按键5，具体还可以根据使用需要增加其他能够获取图像或语音信息的其他输入组件。

主控电路板上设有闪存模块6、晶体振荡器7和高集成芯片8。晶体振荡器7与高集成芯片8连接，晶体振荡器7用于为高集成芯片8提供基准信号，使得高集成芯片8能够正常的与云端服务器和其他设备通信。

闪存模块6与高集成芯片8连接，闪存模块6用于存取供高集成芯片8调取的数据，尚未被高集成芯片处理的输入组件获取的信息、高集成芯片8通过通讯模块从云端或其他设备获取的信息以及供高集成芯片8调取的输出信息都储存在闪存模块6中，供高集成芯片8随时调用。

本实施例中，高集成芯片8包括模拟数字转换模块、微控制模块和通讯模块，模拟数字转换模块用于将输入组件获取的指令和信息转换成高集成芯片8能够处理的数据，微控制模块用于处理接收到的数据并根据数据控制输出组件输出相应的信息，微控制模块通过通讯模块与云端服务器和用户终端进行数据交换，高集成芯片8分别与输入组件和输出组件连接。为了方便本实施例的智能语音、图像识别交互装置与其他设备通讯，通讯模块包括wifi模块、经典蓝牙模块或低功耗蓝牙模块中至少一种，本实施例中，通讯模块包括wifi模块、经典蓝牙模块和低功耗蓝牙模块。

输出组件用于输出微控制模块输出的信息，本实施例中，输出组件包括喇叭9和显示屏10，在具体生产使用中，生产者可以根据用户的需要增加更多其他类型的输出组件。显示屏10为led点阵显示屏或液晶显示屏中的一种，本实施例中，显示屏10采用led点阵显示屏，能够满足与用户交流的基本需要。

为了使声音的输出效果更好，提升用户的使用体验，辅助电路板11上设有音频放大芯片和音量调节旋钮，音量调节旋钮用于调节喇叭9输出的音量。

摄像头3采用能够通过csi接口直接驱动的摄像头3模组，直驱csi摄像头具有良好的抗干扰能力，而且忠实的传输原始数据，全部的后期处理都交给了高集成芯片8，gpu的性能得到更好的释放。

为了能够捕捉到用户从通位置发出的语音指令，并使收音更加清晰，麦克风4应该设有两个以上，本实施例中的麦克风4设有两个，对称的设置在摄像头3的两侧。

为了方便本实施例智能语音、图像识别交互装置的使用，电源模块2的接口为usb接口、type-c接口或micro-usb接口中的一种，本实施例中采用type-c接口。

当本实施例智能语音、图像识别交互装置通过图像识别与用户进行交互时，摄像头8抓取图像，将图像原数据编码jpg格式，640×480或者320×240像素图像。然后高集成芯片8的模拟数字转换模块将图像转化成微控制模块能够分析的图像信息，微控制模块对图像信息进行初步分析，确认是否有效的图像，是则通过通讯模块将图像发送至云端服务器。云端服务器收到图像，会对图像信息进行进一步分析并在云端大数据搜索对应图像的信息，然后根据图像信息向高集成芯片8发出对应的反馈信息，高集成芯片8根据反馈信息控制输出组件输出对应的信息，如通过显示屏10做出图像反馈，通过喇叭9播放对应的音频。

当本实施例智能语音、图像识别交互装置通过语音与用户进行交互时，会通过麦克风8对外部声音的采集，高集成芯片8的模拟数字转换模块通过adc将采集到外部声音信息转换成16000采样率16位深度的pcm数据，然后进行vad监测，判断当前是否有人声。如果无人声则一直监控人声，长时间无人声，高集成芯片8则会自动结束vad检测并通过喇叭9提示当前无人声或者提示未听清楚。微控制模块经过分析认为有人声，则开始激活人声结束检测，当人声结束后则结束vad的检测，并通知云端服务器人声已结束可以进行开始识别。由于pcm是原数据会占用庞大的宽带，为了提高数据传输到云端服务器的效率，本实施例中，高集成芯片8通过opus音频压缩算法将采集的语音数据压缩，opus算法可以实现10：1的压缩比例，而且对音频的还原度非常高，对云端服务器进行语音的识别无任何的影响，这既可以提高数据的传输速度又不影响识别效果。云端服务器收到opus数据后进行解压还原成音频数据，会运行语音识别算法，通过语义理解分析语音的意图，并根据语音的意图做出json格式反馈信息，最后将json格式数据发送到给到高集成芯片8。高集成芯片8收到云端服务器的反馈信息，进行数据解析后，会控制喇叭9播放对应的音频内容，实现语音互动。为了使得语音识别更准确，本实施例的高集成芯片8内置语音降噪算法，使得获取的语音信息内容清晰，方便云端服务器准确的识别人声部分。

本实用新型的智能语音、图像识别交互装置的输入组件不仅设有麦克风，能够通过语音与用户进行交互，还设有摄像头，使得高集成芯片能够通过摄像头手机用户的图像信息，识别用户提供的图像甚至手势，上传到云端服务器并获得相应的反馈，然后根据反馈输相应的信息，实现与用户通过语音和图像识别进行交互，能够获取用户无法通过语音提供的信息，在一些方面能够进一步简化用户控制终端的操作，更加方便孩童和长者使用设有本装置的智能设备，为他们提供更全面的帮助。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种智能语音、图像识别交互装置的制作方法

相关文章

最热文献