基于语音的智能视觉交互方法及系统与流程

2022-09-07 21:52:51 来源：中国专利 TAG：

1.本发明属于智能视觉技术领域，具体为基于语音的智能视觉交互方法及系统。

背景技术：

2.智能视觉分析是指计算机图像视觉分析技术，通过将场景中背景和目标分离进而分析并追踪在摄像机场景内出现的目标。用户可以根据的视频内容分析功能，通过在不同摄像机的场景中预设不同的报警规则，一旦目标在场景中出现了违反预定义规则的行为，系统会自动发出报警，监控工作站自动弹出报警信息并发出警示音,用户可以通过点击报警信息，实现报警的场景重组并采取相关措施。
3.但是常见的交互系统跟随性不高，从而使得使用时较为不便。

技术实现要素：

4.本发明的目的在于：为了解决上述提出的问题，提供基于语音的智能视觉交互方法及系统。
5.本发明采用的技术方案如下：基于语音的智能视觉交互方法及系统，包括启动模块、语音识别模块、人机交互模块、信息处理模块、人机对话模块、音频输出模块、扬声器模块、视觉检测模块、识别接口模块、语音去噪模块、语音合成模块、视觉采集模块、初始化模块、预处理模块，所述启动模块的输出端连接有所述语音识别模块的输入端，所述语音识别模块的输出端连接有所述人机交互模块的输入端，所述人机交互模块的输出端连接有所述信息处理模块的输入端，所述信息处理模块的输出端连接有所述人机对话模块的输入端，所述人机对话模块的输出端连接有所述音频输出模块的输入端，所述音频输出模块的输出端连接有所述扬声器模块的输入端，所述人机交互模块的外部固定连接有视觉检测模块。
6.在一优选的实施方式中，所述语音识别模块的内部固定安装有识别接口模块、语音去噪模块和语音合成模块，所述识别接口模块、语音去噪模块和语音合成模块的输出端连接有所述语音识别模块的输入端。
7.在一优选的实施方式中，所述视觉检测模块的内部固定安装有视觉采集模块、初始化模块和预处理模块，所述视觉采集模块、初始化模块和预处理模块的输出端连接有所述视觉检测模块的输入端。
8.在一优选的实施方式中，所述识别接口模块的内部设置有wavein模块，该模块提供了语音应用程序和语音识别引擎之间的高层接口，完成了对语音引擎的实时操控。使用该接口时一般的函数调用顺序如下：
[0009][0010]
wavein提供了iflyiatsession、start、stop、writeaudio、cancel等语音识别接口；iflyiatsession可以初始化“语音听写会话”对象，用于调用其它听写接口；本接口应当在应用程序中仅调用一次，多次调用本函数时只有第一次调用此函数会进行实际的登录操作；start函数是“开始语音识别”接口，通过传入调用参数，进行麦克风录音，获得对应的识别结果和音量回调；stop函数是“停止录音”接口，可以停止麦克风录音，向服务器发起请求并返回语音识别结果；writeaudio。
[0011]
在一优选的实施方式中，所述语音去噪模块的内部设置有有限脉冲滤波响应器和无线脉冲滤波响应器；所述语音去噪模块在去噪时先用wavread读取语音信号，用plot画出数据文件时域波形图和频谱图，再用正弦波函数、随机函数产生噪声模仿信号被污染，并对其进行频谱分析用fir和iir数字滤波器对语音进行滤波，分析滤波后信号时域和频域特征回放语音信号得出滤波器优劣。
[0012]
在一优选的实施方式中，所述语音合成模块的内部在用户输入文本信息后，文本分析和处理模块开始工作，完成文本规整、文本切分、语法分析、语义分析等工作；接着文本信息发送到韵律处理模块，该模块规划出目标音色及音调等信息，并把得到的信息传到语音合成模块；语音合成模块利用已有信息可以得出语音信号波形图，并将波形图送入语音输出模块，机器就可以发出语音了。
[0013]
在一优选的实施方式中，所述视觉检测模块可以分为以下两个阶段：第一阶段：搜索阶段由于摄像头搭载在机器人平台上，不能随时检测到目标，所以需要机器人能自动旋转来搜索检测目标；一、点击开始目标跟随按钮，机器人开始向右旋转；二、如果机器人向右旋转360度仍为找到检测目标，则停止搜索并通知客户端未找到目标；人机交互模块如果机器人已经找到目标，则进入下一阶段，对机器人姿态进行调整；
[0014]
第二阶段：调整和移动阶段本阶段将检测到的目标图像的质心通过小孔成像原理转化为人机距离和角度，其中若w为负值，则表示目标在机器人左侧，若为正值，则表示目标在机器人右侧；机器人运动控制过程如下：一、若人机距离d《1m,则机器人不执行前进、后退操作，若d》1m,则机器人向前运动，直到d《＝1米时，给机器人发送运动停止命令；二、若偏转角度w《10则机器人不转动，若w》10，向右转动，直到0《w《10为止；若w为负，则向左旋转；三、若目标质心的横坐标为0时，此时表示目标丢失，机器人将回到上一步搜索阶段。
[0015]
在一优选的实施方式中，所述视觉采集模块在采集信息时，先建立视频捕捉程序，必须首先获取并初始化icapturegraphbuilder2接口，然后选择一个适当的视频捕捉设备。
选择好设备后，为该设备创建capture filter，然后调用addfilter把capture filter添加到filter graph。
[0016]
directshow提供了一个捕捉图像的方法∶使用sample grabber filter。依次按照以下三个步骤∶
[0017]
第一步，定义一个类实现sample grabber的回调接口isamplegrabbercb∶
[0018]
class csamplegrabbercb:public isamplegrabbercb
[0019]
{
[0020]
//在后面提供的类中具体完成
[0021]
}
[0022]
csamplegrabbercb mcb；
[0023]
第二步，调用renderstream依次把still pin、sample grabber和系统默认renderer filter连接起来。
[0024]
第三步，配置sample grabber以捕获数据。
[0025]
在一优选的实施方式中，所述初始化模块在初始化时已经记录了背景，作为以后系统图像处理的初始参照图，所以可以通过剔除背景来得到人体。这设计方便简单，可排除很多图像干扰的情况；所述预处理模块采用边缘跟踪以反时针方向跟踪，从图像右上角开始逐像点扫描，当遇到边缘点时则开始反时针顺序跟踪，直到跟踪的后续点回到起始点为止。
[0026]
在一优选的实施方式中，所述人机对话模块的内部设置有图灵机器人语音模块，基于图灵机器人大脑强大的人工智能技术，能够提供流畅自然的中文问答，并且具有精准的中文分析、丰富的上下文场景及强大的自我学习能力；图灵机器人提供多种虚拟对话机器人接入方案，包括可快速接入pc端、移动端及硬件产品，支持api、sdk等多种接入方式，并且提供免费虚拟机api；因为图灵机器人问答机器人接口对中文语境的适应性强并且使用简单且完全开源，所以我们通过编写人机对话代码然后调用图灵机器人api来完成机器人人机对话模块。
[0027]
综上所述，由于采用了上述技术方案，本发明的有益效果是：
[0028]
1、本发明中，系统用到的人机对话模块基于开发接口，设计了语音识别模块、语音合成模块及人机对话模块，最后对目标检测跟踪模块进行了设计，并使用目标跟踪运动策略使机器人能达到实时跟随的目的，从而提高了该智能视觉交互系统在使用时的跟随性，可以跟随着使用者实时进行目标跟踪检测，提高了该系统打准确性与智能型，同时通过训练暗光、遮挡情况下目标数据集及对除行人之外的其它物体检测框的去除，使目标检测模块能更好地服务于使用者。最后基于相关技术，对人机交互系统进行了实现，从而使得该系统具有更强的可靠性和实用性。
[0029]
2、本发明中，以计算机人机交互为基础的视觉交互模式为基础进行互动机制的探讨。以表现仿真探讨作品与用户间交互，其特殊的视觉表现，促使我们开始思考如何因应调整，让创作设计能够更巧妙的运用互动、视觉等方式，让视觉互动使用户产生共鸣并丰富感官体验，同时，使用者在视觉交互中可以得到良好的互动体验，能赋予使用者更有趣、更良好的展现，从而延展出最佳的人机交互效果。
附图说明
[0030]
图1为本发明的系统框图；
[0031]
图2为本发明中语音识别模块系统框图；
[0032]
图3为本发明中视觉检测模块系统框图。
[0033]
图中标记：1-启动模块、2-语音识别模块、3-人机交互模块、4-信息处理模块、5-人机对话模块、6-音频输出模块、7-扬声器模块、8-视觉检测模块、9-识别接口模块、10-语音去噪模块、11-语音合成模块、12-视觉采集模块、13-初始化模块、14-预处理模块。
具体实施方式
[0034]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0035]
参照图1-3，
[0036]
基于语音的智能视觉交互方法及系统，包括启动模块1、语音识别模块2、人机交互模块3、信息处理模块4、人机对话模块5、音频输出模块6、扬声器模块7、视觉检测模块8、识别接口模块9、语音去噪模块10、语音合成模块11、视觉采集模块12、初始化模块13、预处理模块14，启动模块1的输出端连接有语音识别模块2的输入端，语音识别模块2的输出端连接有人机交互模块3的输入端，人机交互模块3的输出端连接有信息处理模块4的输入端，信息处理模块4的输出端连接有人机对话模块5的输入端，人机对话模块5的输出端连接有音频输出模块6的输入端，音频输出模块6的输出端连接有扬声器模块7的输入端，人机交互模块3的外部固定连接有视觉检测模块8。
[0037]
语音识别模块2的内部固定安装有识别接口模块9、语音去噪模块10和语音合成模块11，识别接口模块9、语音去噪模块10和语音合成模块11的输出端连接有语音识别模块2的输入端。
[0038]
视觉检测模块8的内部固定安装有视觉采集模块12、初始化模块13和预处理模块14，视觉采集模块12、初始化模块13和预处理模块14的输出端连接有视觉检测模块8的输入端。
[0039]
识别接口模块9的内部设置有wavein模块，该模块提供了语音应用程序和语音识别引擎之间的高层接口，完成了对语音引擎的实时操控。使用该接口时一般的函数调用顺序如下：
[0040][0041]
wavein提供了iflyiatsession、start、stop、writeaudio、cancel等语音识别接口；iflyiatsession可以初始化“语音听写会话”对象，用于调用其它听写接口；本接口应当在应用程序中仅调用一次，多次调用本函数时只有第一次调用此函数会进行实际的登录操作；start函数是“开始语音识别”接口，通过传入调用参数，进行麦克风录音，获得对应的识别结果和音量回调；stop函数是“停止录音”接口，可以停止麦克风录音，向服务器发起请求并返回语音识别结果；writeaudio。
[0042]
语音去噪模块10的内部设置有有限脉冲滤波响应器和无线脉冲滤波响应器；语音去噪模块10在去噪时先用wavread读取语音信号，用plot画出数据文件时域波形图和频谱图，再用正弦波函数、随机函数产生噪声模仿信号被污染，并对其进行频谱分析用fir和iir数字滤波器对语音进行滤波，分析滤波后信号时域和频域特征回放语音信号得出滤波器优劣。
[0043]
语音合成模块11的内部在用户输入文本信息后，文本分析和处理模块开始工作，完成文本规整、文本切分、语法分析、语义分析等工作；接着文本信息发送到韵律处理模块，该模块规划出目标音色及音调等信息，并把得到的信息传到语音合成模块；语音合成模块利用已有信息可以得出语音信号波形图，并将波形图送入语音输出模块，机器就可以发出语音了。
[0044]
视觉检测模块8可以分为以下两个阶段：第一阶段：搜索阶段由于摄像头搭载在机器人平台上，不能随时检测到目标，所以需要机器人能自动旋转来搜索检测目标；一、点击开始目标跟随按钮，机器人开始向右旋转；二、如果机器人向右旋转360度仍为找到检测目标，则停止搜索并通知客户端未找到目标；人机交互模块3如果机器人已经找到目标，则进入下一阶段，对机器人姿态进行调整；
[0045]
第二阶段：调整和移动阶段本阶段将检测到的目标图像的质心u，v通过小孔成像原理转化为人机距离和角度d，w，其中若w为负值，则表示目标在机器人左侧，若为正值，则表示目标在机器人右侧；机器人运动控制过程如下：一、若人机距离d《1m,则机器人不执行前进、后退操作，若d》1m,则机器人向前运动，直到d《＝1米时，给机器人发送运动停止命令；二、若偏转角度w《10则机器人不转动，若w》10，向右转动，直到0《w《10为止；若w为负，则向左旋转；三、若目标质心的横坐标为0时，此时表示目标丢失，机器人将回到上一步搜索阶段。
[0046]
视觉采集模块12在采集信息时，先建立视频捕捉程序，必须首先获取并初始化icapturegraphbuilder2接口，然后选择一个适当的视频捕捉设备。选择好设备后，为该设
备创建capture filter，然后调用addfilter把capture filter添加到filter graph。
[0047]
directshow提供了一个捕捉图像的方法∶使用sample grabber filter。依次按照以下三个步骤∶
[0048]
第一步，定义一个类实现sample grabber的回调接口isamplegrabbercb∶
[0049]
class csamplegrabbercb:public isamplegrabbercb
[0050]
{
[0051]
//在后面提供的类中具体完成
[0052]
}
[0053]
csamplegrabbercb mcb；
[0054]
第二步，调用renderstream依次把still pin、sample grabber和系统默认renderer filter连接起来。
[0055]
第三步，配置sample grabber以捕获数据。
[0056]
初始化模块13在初始化时已经记录了背景，作为以后系统图像处理的初始参照图，所以可以通过剔除背景来得到人体。这设计方便简单，可排除很多图像干扰的情况；预处理模块14采用边缘跟踪以反时针方向跟踪，从图像右上角开始逐像点扫描，当遇到边缘点时则开始反时针顺序跟踪，直到跟踪的后续点回到起始点为止。
[0057]
人机对话模块5的内部设置有图灵机器人语音模块，基于图灵机器人大脑强大的人工智能技术，能够提供流畅自然的中文问答，并且具有精准的中文分析、丰富的上下文场景及强大的自我学习能力；图灵机器人提供多种虚拟对话机器人接入方案，包括可快速接入pc端、移动端及硬件产品，支持api、sdk等多种接入方式，并且提供免费虚拟机api；因为图灵机器人问答机器人接口对中文语境的适应性强并且使用简单且完全开源，所以我们通过编写人机对话代码然后调用图灵机器人api来完成机器人人机对话模块。
[0058]
系统用到的人机对话模块基于开发接口，设计了语音识别模块、语音合成模块及人机对话模块，最后对目标检测跟踪模块进行了设计，并使用目标跟踪运动策略使机器人能达到实时跟随的目的，从而提高了该智能视觉交互系统在使用时的跟随性，可以跟随着使用者实时进行目标跟踪检测，提高了该系统打准确性与智能型，同时通过训练暗光、遮挡情况下目标数据集及对除行人之外的其它物体检测框的去除，使目标检测模块能更好地服务于使用者。最后基于相关技术，对人机交互系统进行了实现，从而使得该系统具有更强的可靠性和实用性。以计算机人机交互为基础的视觉交互模式为基础进行互动机制的探讨。以表现仿真探讨作品与用户间交互，其特殊的视觉表现，促使我们开始思考如何因应调整，让创作设计能够更巧妙的运用互动、视觉等方式，让视觉互动使用户产生共鸣并丰富感官体验，同时，使用者在视觉交互中可以得到良好的互动体验，能赋予使用者更有趣、更良好的展现，从而延展出最佳的人机交互效果。
[0059]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音端点的检测方法、装置、电子设备、存储介质及产品与流程

基于语音的智能视觉交互方法及系统与流程

相关文献

最热文献