监控设备的制作方法

2022-02-26 09:14:01 来源：中国专利 TAG：

1.本实用新型涉及视频监控技术领域，尤其涉及一种监控设备。

背景技术：

2.监控设备广泛应用于家庭、学校、公司、银行和交通等监控场景，能够实现对监控场景所发生的行为、活动或其他变动中信息的持续性关注。随着科技的发展，监控设备从传统的固网应用逐渐转向移动终端的应用，用户可以在移动终端上实时获取监控场景的动态信息，但无法与监控场景进行沟通交流。

技术实现要素：

3.本实用新型提供一种监控设备，用以解决现有技术中监控设备交互困难的问题。
4.本实用新型提供一种监控设备，包括：
5.通信模块，所述通信模块用于接收用户输入的目标对话文本；
6.主板，所述主板与所述通信模块电连接，所述主板设有处理器和语音集合模块；
7.所述处理器和所述语音集合模块电连接，所述处理器用于输出所述目标对话文本至所述语音集合模块，所述语音集合模块存储有目标对话语料库，所述语音集合模块用于基于所述目标对话文本和所述目标对话语料库，输出目标对话音频；
8.扬声器，所述扬声器与所述主板电连接，所述扬声器用于播放所述目标对话音频。
9.根据本实用新型提供的一种监控设备，所述监控设备还包括：
10.麦克风，所述麦克风与所述主板电连接，所述麦克风用于拾音后输出第一录音音频；
11.所述主板还设有识别模块，所述识别模块与所述处理器电连接，所述识别模块用于对所述第一录音音频进行语音识别，输出目标录音文本。
12.根据本实用新型提供的一种监控设备，所述主板还设有预处理模块，所述预处理模块与所述识别模块电连接，所述预处理模块用于对所述第一录音音频进行预处理，输出第二录音音频；
13.所述识别模块还用于对所述第二录音音频进行语音识别，输出所述目标录音文本。
14.根据本实用新型提供的一种监控设备，所述监控设备还包括：
15.存储模块，所述存储模块与所述主板电连接，所述存储模块用于存储所述第一录音音频和所述目标录音文本。
16.根据本实用新型提供的一种监控设备，所述处理器还用于将所述目标录音文本与语音电话文本进行比对，在所述目标录音文本与所述语音电话文本相同的情况下，控制所述通信模块拨打语音电话。
17.根据本实用新型提供的一种监控设备，所述处理器还用于将所述目标录音文本与报警提示文本进行比对，在所述目标录音文本与所述报警提示文本相同的情况下，输出报
警提示信息。
18.根据本实用新型提供的一种监控设备，所述识别模块还用于根据所述第一录音音频和音频识别标准，确定所述第一录音音频为有效音频，并对所述第一录音音频进行语音识别，输出目标录音文本。
19.根据本实用新型提供的一种监控设备，所述目标对话语料库存储有用户语料音频和机械语料音频。
20.根据本实用新型提供的一种监控设备，所述处理器还用于在接收到第二控制信号的情况下，控制所述扬声器播放所述目标对话音频。
21.根据本实用新型提供的一种监控设备，所述监控设备还包括：
22.镜头，所述镜头与所述处理器电连接，所述镜头用于进行图像拍摄，输出视频数据。
23.本实用新型提供的监控设备，通过语音集合模块将用户输入的目标对话文本转换为目标对话音频，扬声器播放目标对话音频，解决了终端设备的用户无法输出语音时交互困难的问题，提升用户的使用体验。
附图说明
24.为了更清楚地说明本实用新型或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本实用新型的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
25.图1是本实用新型提供的监控设备的结构示意图。
26.附图标记：
27.11：扬声器；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
12：麦克风；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
13：镜头；
28.20：主板；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
21：处理器；
ꢀꢀꢀꢀꢀꢀꢀꢀ
22：语音集合模块；
29.23：预处理模块；
ꢀꢀꢀꢀꢀ
24：识别模块；
ꢀꢀꢀꢀꢀꢀꢀ
25：存储模块；
30.26：通信模块。
具体实施方式
31.为使本实用新型的目的、技术方案和优点更加清楚，下面将结合本实用新型中的附图，对本实用新型中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本实用新型一部分实施例，而不是全部的实施例。基于本实用新型中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本实用新型保护的范围。
32.在本实用新型实施例的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。
33.在本实用新型实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本实用新型实施例中的具体含
义。
34.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本实用新型实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
35.下面结合图1描述本实用新型的监控设备，该监控设备可以实现终端设备的用户与监控设备的用户的语音互动，解决终端设备的用户无法输出语音时的交互困难的问题。
36.在本实用新型的实施例中，监控设备可以为云台摄像机、网络摄像机或儿童机器人等监控设备。
37.如图1所示，本实用新型的监控设备包括通信模块26、主板20和扬声器11。
38.监控设备可以通过通信模块26与终端设备的用户进行数据通信，接收终端设备的用户输入的目标对话文本。
39.用户使用的终端设备包括但不限于手机、平板、电脑、车载电子设备和可穿戴设备等终端设备，本实用新型实施例不作具体限定。
40.通信模块26可以为无线通信模块，通过无线网络与终端设备的用户进行数据通信。
41.通信模块26也可以为设有网线接口的模块，通过连接网线接入有线网络，接收终端设备的用户输入的目标对话文本。
42.可以理解的是，终端设备的用户处于背景音嘈杂的环境或是该用户本身不适宜说话的情况，该用户可以通过对终端设备的输入与监控设备进行语音对话的文本内容。
43.终端设备的用户输入的与监控设备进行语音对话的文本内容即为目标对话文本。
44.在实际执行中，目标对话文本的输入可以表现为如下至少一种方式：
45.其一，目标对话文本的输入可以表现为触控输入，包括但不限于点击输入、滑动输入和按压输入等。
46.在该实施例中，接收用户对终端设备的显示屏的显示区域的触控操作，输入目标对话文本的文本内容，终端设备将目标对话文本输送给监控设备。
47.为了便于用户操作，可以在终端设置预设的对话语料的目标控件，触控目标控件即可实现对应的目标对话文本的输入。
48.其二，目标对话文本的输入可以表现为实体按键输入。
49.在该实施例中，终端设备的机身上设有与预设的对话语料对应的实体按键，接收用户目标对话文本的输入，可以表现为，接收用户按压对应的实体按键的输入。
50.当然，在其他实施例中，目标对话文本的输入也可以表现为其他形式，包括但不限于字符输入等，具体可根据实际需要决定，本实用新型实施例对此不作限定。
51.主板20上设有处理器21和语音集合模块22，处理器21是监控设备信息处理和程序运行的最终执行单元，处理器21与通信模块26电连接，处理器21用于将通信模块26接收的目标对话文本输出至语音集合模块22。
52.语音集合模块22可以将文本类的信息转换为音频类的信息，语音集合模块22内存储有目标对话语料库，目标对话语料库是集合文本信息和音频信息对应关系的语料特征库。
53.语音集合模块22与处理器21电连接，语音集合模块22可以根据目标对话语料库内文本信息和音频信息的对应关系，将处理器21输出至语音集合模块22中的目标对话文本，转换为目标对话音频。
54.其中，目标对话音频是目标对话文本中对应文字的语音音频。
55.在实际执行中，语音集合模块22输出的目标对话音频可以为默认语音合成声音，或采集的语料声音。
56.例如，语音集合模块22输出的目标对话音频可以为机械女声或机械男声。
57.再例如，语音集合模块22输出的目标对话音频可以为用户录制的用户语料音频，具有用户的声纹特征。
58.语音集合模块22将转换得到的目标对话音频输出至处理器21，处理器21再将目标对话音频输出至监控设备的扬声器11，扬声器11用于播放目标对话音频。
59.可以理解的是，语音集合模块22输出的目标对话音频为电信号，扬声器11将电信号形式的目标对话音频转变为声信号，播放目标对话音频。
60.在实际执行中，扬声器11与主板20的音频输出接口连接，扬声器11可以为降噪扬声器11。
61.主板20连接有usb板，在usb板设置网线接口和电源接口接入电源，网线接口接入有线网络，以供主板20上的处理器21与终端设备进行通信，接收用户输入的目标对话文本。
62.相关技术中，监控设备与终端设备之间的交互至多可实现获取关注画面以及实时语音对讲，在终端设备用户面临背景环境嘈杂或者用户本身不适宜说话的情况，限制终端设备用户与监控设备的语音互动。
63.本实用新型实施例通过处理器21接收目标对话文本的输入，输出至语音集合模块22进行文本信息和音频信息的转换，输出对应目标对话音频，无需终端设备用户说话，即可实现终端设备与监控设备的双向语音通话。
64.根据本实用新型实施例提供的监控设备，通过语音集合模块22将用户输入的目标对话文本转换为目标对话音频，扬声器11播放目标对话音频，实现终端设备与监控设备的双向语音通话，解决终端设备的用户无法输出语音时的交互困难的问题，提升用户的使用体验。
65.在一些实施例中，监控设备还包括麦克风12。
66.在该实施例中，麦克风12与主板20电连接，麦克风12是监控设备的拾音装置，麦克风12可以拾取监控设备所处环境的声音信号，输出第一录音音频至处理器21。
67.麦克风12可采用不少于1个的驻极体麦克风，形成双麦克风12组合，实现更清晰和更远距离的拾音效果。
68.在实际执行中，麦克风12可以与主板20的音频输入接口连接，相应的，扬声器11与主板20的音频输出接口连接。
69.主板20上设置的识别模块24处理器21电连接，处理器21将第一录音音频输出至识别模块24，识别模块24对第一录音音频进行语音识别，将第一录音音频转写为文本信息，得
到目标录音文本。
70.本实用新型实施例的监控设备可以让麦克风12拾音后，进行离线转写，并存储或上传终端设备，以实现长时间转写及存储功能，终端设备的用户无需播放声音，即可通过文字了解监控设备所处环境的对话语音内容。
71.在一些实施例中，监控设备还包括预处理模块23和识别模块24。
72.在该实施例中，预处理模块23与麦克风12电连接，麦克风12拾音后输出第一录音音频至预处理模块23，预处理模块23将第一录音音频进行降噪、回声消除处理，得到第二录音音频。
73.预处理模块23与识别模块24电连接，预处理模块23将第二录音音频输出至识别模块24，识别模块24可以对第二录音音频进行语音识别，得到目标录音文本。
74.其中，第一录音音频是监控设备所处环境的原始声音信号，包含语音声音信息和背景声音信号。
75.第一录音音频经过降噪、回声消除处理得到第二录音音频，第二录音音频输入识别模块24中，识别模块24对第二录音音频进行语音识别和转写，得到目标录音文本。
76.第二录音音频是第一录音音频进行降噪、回声消除处理得到的声音信号，消除了第一录音音频中的噪音和背景音等影响，有助于提高识别模块24的识别转写效率。
77.例如，监控设备所处的房间内有用户对话和音乐播放，第一录音音频包括了用户对话和播放的音乐的声音信号，预处理模块23对第一录音音频进行处理，得到的第二录音音频中仅包括用户对话的声音信号，识别模块24对第二录音音频进行识别转写，得到用户对话的目标录音文本的文本内容更加准确，提高了监控设备的转写效率。
78.在一些实施例中，监控设备还包括存储模块25。
79.存储模块25与主板20电连接，存储模块25用于存储第一录音音频和目标录音文本。
80.在该实施例中，存储模块25也可以存储其他装置输出至处理器21的内容，包括第一录音音频、第二录音音频和目标录音文本。
81.其中，第一录音音频是监控设备所处环境的原始声音信号，第二录音音频是第一录音音频经过降噪、回声消除处理得到的声音信号，目标录音文本是第二录音音频转写的文本内容。
82.在实际执行中，可以在主板20上设备内存卡座，将存储模块25插入该内存卡座内，以存储第一录音音频、第二录音音频和目标录音文本等信息。
83.可以理解的是，处理器21中第一录音音频、第二录音音频和目标录音文本可以存储于监控设备的存储模块25，也可以通过通信模块26传输给终端设备，由终端设备存储或输出。
84.在一些实施例中，目标对话语料库存储有用户语料音频和机械语料音频，用户语料音频是具有用户的声纹特征的音频，机械语料音频是监控设备生成的机械式的音频。
85.在该实施例中，处理器21还用于在接收到第一控制信号的情况下，控制扬声器11播放语料收集提示音频，并控制麦克风12拾音输出第一语料音频。
86.在该实施例中，处理器21作为监控设备程序运行的执行单元，可以接收控制信号，对应控制监控设备中的其他装置完成相应动作。
87.在实际执行中，处理器21接收控制信号可以表现为如下至少一种方式：
88.其一、处理器21接收控制信号可以表现为监控设备上按键的输入，包括但不限于实物按键和触控按键等按键形式。
89.在该实施例中，接收用户对监控设备上按键的点击操作，处理器21接收到相应的控制信号。
90.其二，处理器21接收控制信号可以表现为通信模块26接收到用户输入的控制信号，并将该控制信号输出至处理器21，以供处理器21执行相应控制操作。
91.在该实施例中，无需在监控设备设置按键，用户可以在不同的场景下，通过通信模块26输送控制信号，拓宽了用户使用场景，使得监控设备的使用更加便利。
92.当然，在其他实施例中，处理器21接收控制信号也可以表现为其他形式，具体可根据实际需要决定，本实用新型实施例对此不作限定。
93.在该实施例中，第一控制信号是监控设备用于收集语料音频的控制信号，处理器21在接收到第一控制信号时，控制扬声器11播放语料收集提示音频，并控制麦克风12拾音输出第一语料音频。
94.在实际执行中，扬声器11播放语料收集提示音频，用户读出目标对话语料，麦克风12拾取用户读出的音频，输出第一语料音频。
95.预处理模块23与语音集合模块22电连接，预处理模块23对麦克风12输出的第一语料音频进行降噪、回声消除处理，输出用户语料音频至语音集合模块22。
96.语音集合模块22对用户语料音频进行收集存储，生成目标对话语料库，在终端设备的用户输入目标对话文本时，基于目标对话文本，在目标对话语料库寻找对应的语音音频，输出目标对话音频，以供扬声器11播放。
97.可以理解的是，麦克风12拾音输出的第一语料音频以及预处理模块23输出的用户语料音频都具有用户的声纹特征，以使扬声器11播放的目标对话音频也具有用户的声纹特征，使得监控设备的用户听到真实的用户声音，提升用户的使用体验。
98.在一些实施例中，识别模块24将得到的目标录音文本输出至处理器21，处理器21还用于将目标录音文本与语音电话文本进行比对，在目标录音文本与语音电话文本相同的情况下，控制通信模块26拨打语音电话。
99.监控设备预先存储有特定的语音电话文本，当处理器21检测到识别模块24识别得到的目标录音文本与语音电话文本相同时，监控设备拨打语音电话的功能被唤醒，相应地处理器21控制通信模块26拨打语音电话。
100.可以理解的是，监控设备预先存储有多个语音电话文本，可以对应不同的需要拨打语音电话的场景。
101.在实际执行中，语音电话文本包括但不限于产品型号、代号、人物称呼和动作命令等文本信息。
102.以家庭环境下的监控设备为例。
103.监控设备所处家庭环境的小孩说出“小曼，我想妈妈，打电话给妈妈”，识别模块24识别出目标录音文本为“小曼，我想妈妈，打电话给妈妈”。
104.处理器21根据目标录音文本中的代号“小曼”唤醒拨打语音电话的功能，并根据“我想妈妈，打电话给妈妈”的人物称呼和动作命令，拨打语音电话给对应的用户。
105.在实际执行中，可以在监控设备上设置拨打语音电话对应的按键，用户点击按键后，根据目标录音文本和预存的语音电话文本进行对比，拨打语音电话给对应用户。
106.在一些实施例中，识别模块24将得到的目标录音文本输出至处理器21，处理器21将目标录音文本与报警提示文本进行比对，在目标录音文本与报警提示文本相同的情况下，输出报警提示信息。
107.监控设备预先存储有报警提示文本，当处理器21检测到识别模块24识别得到的目标录音文本与报警提示文本相同时，处理器21输出报警提示信息。
108.可以理解的是，监控设备预先存储有多个报警提示文本，可以对应不同的需要进行报警提示的场景。
109.在该实施例中，处理器21输出的报警提示信息，可以由监控设备中的报警装置进行报警提示，也可以输出给外设的报警装置进行报警提示，也可以输出报警提示信息至终端设备，提示终端设备的用户。
110.在实际执行中，输出报警提示信息，进行报警提示包括但不限于灯光报警、蜂鸣报警、报警弹窗和拨打报警电话等方式。
111.在一些实施例中，识别模块24还用于根据第二录音音频和音频识别标准，确定第二录音音频为有效音频，并对第二录音音频进行语音识别，输出目标录音文本。
112.在该实施例中，识别模块24在有第二录音音频输入时，将第二录音音频和音频识别标准进行比对，判断第二录音音频为有效音频，才会启动语音转写功能，输出第二录音音频对应的目标录音文本。
113.当识别模块24将第二录音音频和音频识别标准进行比对，判断第二录音音频为异常或无效音频，不进行转写。
114.识别模块24在判断第二录音音频为有效音频后，才会启动有效转写，当第二录音音频消失、识别为异常或无效音频，不进行转写，进行有效记录和有效存储，实现监控设备的持续转写记录。
115.例如，预处理模块23输出给识别模块24的第二录音音频为电视对话的声音信号，识别模块24将第二录音音频和音频识别标准进行比对，通过电视对话是由电视扬声器11发出的，不属于用户对话的声音信号，判断该第二录音音频为无效音频，不进行转写。
116.在一些实施例中，处理器21还用于在接收到第二控制信号的情况下，控制扬声器11播放目标对话音频。
117.在该实施例中，第一控制信号是监控设备用于控制语音输出的控制信号，处理器21在接收到第二控制信号时，控制扬声器11播放目标对话音频。
118.在实际执行中，可以接收用户对监控设备上按键的点击操作，处理器21接收到第二控制信号。
119.例如，监控设备的用户点击监控设备上的按钮，说出对话内容，监控设备将该对话内容这一音频进行语音识别后，转换为目标录音文本，并上传至终端设备。
120.终端设备的用户看到目标录音文本后，输入目标对话文本，处理器21将接收到的目标对话文本输出给语音集合模块22，语音集合模块22根据目标对话语料库，输出对应的目标对话音频，以供扬声器11播放，实现终端设备的用户和监控设备的用户的双向语音通话。
121.在实际执行中，第一控制信号和第二控制信号可以由不同的按键实现，也可以由用户通过灯光及按键顺序由单一按键实现对应控制信号的输入。
122.在一些实施例中，监控设备还包括镜头13，镜头13与主板20电连接，镜头13用于进行图像拍摄，输出视频数据。
123.在实际执行中，可以在主板20上设置镜头接口，镜头13与镜头接口连接，便于镜头13的维修和替换。
124.镜头13用于拍摄监控设备所处环境的图像，镜头13拍摄连续的图像序列，得到视频数据，并将视频数据输出至处理器21。
125.在该实施例中，监控设备还包括用于调整镜头13方位的电机组，在主板20上设置电机组接口，电机组与电机组接口连接，电机组可以通过上电转动，调整镜头13拍摄不同方位的图像。
126.最后应说明的是：以上实施例仅用以说明本实用新型的技术方案，而非对其限制；尽管参照前述实施例对本实用新型进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本实用新型各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

监控设备的制作方法

相关文献

最热文献