一种多媒体智能语音识别交互调度的方法及系统与流程

2022-09-01 10:38:35 来源：中国专利 TAG：

1.本发明涉及多媒体技术领域，具体为一种多媒体智能语音识别交互调度的方法及系统。

背景技术：

2.随着现代社会信息技术的高速发展，多媒体整合平台应用越来越广泛，尤其是政府、部队等单位，可以把视频监控系统、视频会议系统、语音通话系统、远程控制系统、数据应用系统、地图应用系统等集中到一个大平台中实现融合应用和指挥调度。然而现有的系统纷繁复杂、多种多样、不够统一，且各系统间相互独立、互不连通,使用时要频繁切换，这也限制了行业用户的整体信息化水平的提高。本发明以语音识别技术为核心，部署一套安卓工控机硬件及系统，通过语音识别分析、多系统数据对接来实现多媒体平台的统一调度，大大提高了智能化、信息化的高度统一。市场上现有的多媒体调度系统有两类，一类是独立的如视频监控系统、视频会议系统、语音通话系统、各种数据应用系统等，另一类是少量的将各种系统融合到一起的一体化系统。现有的语音识别控制交互方式大多是通过一个开放式声场的中间设备，为了布线方便大多采用wifi联网，并且需要连接外网。
3.独立系统的缺点是功能单一，要独占服务器和屏幕资源，跟其他系统信息不互通，多套系统同时使用时要频繁切换，浪费时间，容易造成指令滞后，并且各系统同时运行也增加了用户的使用和维护负担。一体化系统做到了各种系统的融合统一，但是多种功能整合在一个系统中时将会使系统变得异常复杂，菜单、按钮纷繁多样，不易查找，交互性不强。
4.现有语音识别控制交互设备需要连接外网，对于政府、部队等保密机关单位不太适合，同时因为是开放式声场对于声音的采集会受到环境因素的较大干扰，且受距离限制，需要离设备很近才能识别到声音，而机关单位大多是面积很大的一个会议室且声音来源众多，因此这种方式很大程度限制了政府、部队等单位的应用且识别效果不佳。

技术实现要素：

5.本发明的目的在于提供一种多媒体智能语音识别交互调度的方法及系统，以解决上述背景技术中提出现有语音识别控制交互设备需要连接外网，对于政府、部队等保密机关单位不太适合，同时因为是开放式声场对于声音的采集会受到环境因素的较大干扰，且受距离限制，需要离设备很近才能识别到声音，而机关单位大多是面积很大的一个会议室且声音来源众多，因此这种方式很大程度限制了政府、部队等单位的应用且识别效果不佳的问题。
6.为实现上述目的，本发明提供如下技术方案：一种多媒体智能语音识别交互调度的方法，包括以下步骤：
7.s1、语音采集端通过会议话筒采集语音指令，采集完毕后发送至内部的调音台；
8.s2、调音台将多路输入信号进行放大、混合、分配、音质修饰和音响效果加工，发送至语音识别交互端，语音识别交互端中智能语音调度系统将用户的语音指令进行识别，解
析为文字指令发送至多媒体调度端中的多媒体调度平台；
9.s3、当多媒体调度平台的调度接口被调用时，通过判断是哪个应用的哪种功能指令，然后触发相应的指令执行相应的调度。
10.所述步骤s1中的调音台通过拾取信号，进行放大，按需要进行高、中、低音的音调均衡，将信号按需要送入左右母线或进行编组控制，送入辅助母线的信号进行艺术处理，按要求进行输出控制。
11.所述智能语音调度系统，包括首页、指令管理、调度日志、系统设置等功能菜单，内置了语音识别技术的语音唤醒和离线命令词识别、文字转语音等封装应用。
12.一种多媒体智能语音识别交互调度的系统，包括语音采集端、语音识别交互端以及多媒体调度端，所述语音采集端包括多个会议话筒和一个调音台，所述语音识别交互端包括智能语音调度系统软件和安卓工控机硬件，所述多媒体调度端包括统一的多媒体调度平台及相应子应用，应用如：视频监控、视频会议、语音通话、数据应用、地图应用等，所述调音台与安卓工控机之间通过一条音频线连接，所述安卓工控机与多媒体调度端之间通过局域网连接。
13.与现有技术相比，本发明的有益效果是：
14.1、本发明可以利用现有的会议话筒、调音台、多媒体调度系统和设备，节省成本；
15.2、本发明可以兼容独立的或者一体化的多媒体调度平台，只需提供相应的调度接口，在现有设备基础上加一台安卓工控机即可，实施简单易操作；
16.3、本发明通过会议话筒、调音台等物理设备的处理使得采集的声音更干净，再经过语音识别技术的优化处理，全程都是局域网离线使用，与机关单位会议室场景更加紧密贴合，大大提高了识别应用的效果；
17.4、本发明实现了语音识别交互调度，解放了双手，提高了易用性、交互性、智能性、高效性，用户只需知道有哪些指令即可，不需要了解纷繁复杂的多媒体平台细节；
18.5、本发明支持指令自定义添加和调度日志的查看，更加灵活可追溯。
附图说明
19.图1为本发明方法的框图。
具体实施方式
20.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
21.请参阅图1，本发明提供一种技术方案：一种多媒体智能语音识别交互调度的方法及系统，本系统包括以下三部分：
22.语音采集端：包括多个会议话筒和一个调音台，用于采集用户的语音指令；
23.语音识别交互端：包括智能语音调度系统软件和安卓工控机硬件，用于将调音台采集的声音通过语音识别转换为文字指令，并将该指令通过相应的接口进行调用；
24.多媒体调度端：包括统一的多媒体调度平台及相应子应用，用于获取智能语音调
度系统的指令并执行相应的调度。
25.语音采集端用于语音采集，通过多个会议话筒连接调音台，任何一个会议话筒都可以采集语音指令。在会议系统的组成部分中，期中音频处理的调音台其必不可少。调音台又称调音控制台，它将多路输入信号进行放大、混合、分配、音质修饰和音响效果加工。会议系统中调音台的功能可以简单的分为：
26.1、拾取信号，进行放大；
27.2、按需要进行高、中、低音的音调均衡；
28.3、将信号按需要送入左右母线或进行编组控制；
29.4、送入辅助母线的信号进行艺术处理；
30.5、按要求进行输出控制。
31.通过调音台和会议话筒可以使采集的声音更加清晰和集中，大大减轻了环境因素的干扰，并且通过放大均衡处理及有线传输使得声音信号到达语音识别交互端时更易识别，大大提高了识别率。
32.语音识别交互端包括一台安卓工控机及其中搭载的智能语音调度系统软件，调音台与安卓工控机之间通过一条音频线连接，智能语音调度系统中使用了先进的语音识别技术，将用户的语音指令进行识别解析为文字指令，然后调用多媒体平台提供的相应接口并得到调用结果，再把结果用语音播放出来，这样就达到了语音交互的目的。
33.多媒体调度端包括统一的多媒体调度平台及其子应用，安卓工控机与多媒体调度服务器之间通过局域网连接，当调度接口被调用时，判断是哪个应用的哪种功能指令，然后触发相应的指令执行相应的调度。
34.安卓工控机结构：安卓工控机内置安卓核心板，外部留有电源口、网口、usb接口、hdmi接口、av接口等，网口可连接局域网，hdmi接口连接显示器，av接口连接调音台过来的音频线。同时也可连接wifi、sim卡。系统使用android系统，搭载了智能语音调度系统软件。
35.智能语音调度系统：语音识别技术是涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。自动语音识别技术(auto speech recognize，简称asr)所要解决的问题是让计算机能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来。语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；识别过程也是离线完成的，对用户实时的语音在有限的命令词中进行自动对比识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等；“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”)，得到其包含的文字信息，此外，后端模块还存在-个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。
36.整个语音识别交互调度的核心就是智能语音调度系统，包括首页、指令管理、调度日志、系统设置等功能菜单，内置了语音识别技术的语音唤醒和离线命令词识别、文字转语音等封装应用，因性能的考量语音识别是默认关闭的。当唤醒词声音如“小智小智”通过会议话筒传输过来时，语音识别功能就自动打开了，然后会有机器人交互画面打开语音询问“您好，请问有什么可以帮您？”，用户再说出调度指令如“打开1号监控”，接着系统查询指令列表，找到对应指令后调用指令对应的多媒体调度平台http接口，多媒体调度平台收到接口调用消息后判断用户是要打开1号监控，则触发视频监控应用中的打开监控功能，此时就可以直接调出相应的监控画面，同时系统播放接口回复的结果消息“打开1号监控指令已执行”。如此，则实现了语音调度的整个过程。
37.综上所述：该多媒体智能语音识别交互调度的方法及系统，可以利用现有的会议话筒、调音台、多媒体调度系统和设备，节省成本，同时本发明可以兼容独立的或者一体化的多媒体调度平台，只需提供相应的调度接口，在现有设备基础上加一台安卓工控机即可，实施简单易操作，然后通过会议话筒、调音台等物理设备的处理使得采集的声音更干净，再经过语音识别技术的优化处理，全程都是局域网离线使用，与机关单位会议室场景更加紧密贴合，大大提高了识别应用的效果，其次，实现了语音识别交互调度，解放了双手，提高了易用性、交互性、智能性、高效性，用户只需知道有哪些指令即可，不需要了解纷繁复杂的多媒体平台细节，最后支持指令自定义添加和调度日志的查看，更加灵活可追溯。
38.尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：财务系统的语音控制方法、装置、存储介质及设备与流程

一种多媒体智能语音识别交互调度的方法及系统与流程

相关文献

最热文献