一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

离线转写装置的制作方法

2022-02-26 02:35:30 来源:中国专利 TAG:


1.本实用新型涉及语音处理技术领域,尤其涉及一种离线转写装置。


背景技术:

2.目前的语音转写装置经常采用拾音麦克获取用户的语音信息,并将语音信息上传至云端进行转写。但是,这种语音转写装置的转写效果受制于网络状况,在网络信号不佳时不能正常工作。


技术实现要素:

3.本实用新型提供一种离线转写装置,用于解决现有技术中,实现转写功能需要依赖云端网络的缺陷。
4.本实用新型提供一种离线转写装置,包括:拾音模块,所述拾音模块用于获取语音输入信息;嵌入式神经网络处理器npu,所述npu与所述拾音模块通信连接,所述npu用于在离线状态下处理所述语音输入信息,以生成语音特征信息;中央处理器cpu,所述cpu与所述npu通信连接,所述cpu用于在离线状态下处理所述语音特征信息,以生成转写文本信息;屏幕,所述屏幕用于显示所述转写文本信息;外壳,所述拾音模块和所述屏幕安装于所述外壳,所述npu和所述cpu安装于所述外壳内。
5.根据本实用新型提供的离线转写装置,所述npu用于处理语言种类为英语、日语、韩语、俄语或汉语的所述语音输入信息,所述cpu用于生成与所述语音输入信息的语言种类相同的所述转写文本信息。
6.根据本实用新型提供的离线转写装置,还包括储存模块,所述储存模块安装于所述外壳内,所述储存模块分别与所述拾音模块和所述cpu通信连接,所述储存模块用于保存所述语音输入信息及所述转写文本信息。
7.根据本实用新型提供的离线转写装置,所述屏幕为触摸屏,所述触摸屏还用于获取用户触入的控制指令;和/或,所述离线转写装置还包括操作键,所述操作键安装于所述外壳,所述操作键用于获取用户键入的所述控制指令。
8.根据本实用新型提供的离线转写装置,所述控制指令包括编辑指令,所述cpu还用于在离线状态下,根据所述编辑指令对所述转写文本信息进行编辑。
9.根据本实用新型提供的离线转写装置,所述控制指令包括解锁密码指令,所述cpu和/或所述npu还用于识别所述解锁密码指令,并在所述解锁密码指令与预设锁屏密码匹配时终止锁屏状态。
10.根据本实用新型提供的离线转写装置,所述所述预设锁屏密码为字符密码,所述cpu用于识别字符密码形式的所述解锁密码指令。
11.根据本实用新型提供的离线转写装置,所述预设锁屏密码为人脸密码或语音密码,所述npu用于识别人脸密码形式或语音密码形式的所述解锁密码指令。
12.根据本实用新型提供的离线转写装置,所述操作键包括录音键,所述录音键安装
于所述外壳,所述录音键用于控制所述拾音模块的开启和关闭。
13.根据本实用新型提供的离线转写装置,还包括通用串行总线usb接口,所述usb接口设于所述外壳。
14.本实用新型提供的离线转写装置,在完全离线的状态下通过本地的cpu和npu配合实现转写功能,不需要联网,转写效果不受网络状况影响,且语音信息和文字信息不会上传至网络,信息保密性好。
附图说明
15.为了更清楚地说明本实用新型或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本实用新型的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1是本实用新型实施例提供的离线转写装置的模块示意图;
17.图2是本实用新型实施例提供的离线转写装置的正视图;
18.图3是本实用新型实施例提供的离线转写装置的下视图。
19.1:外壳;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
2:拾音模块;
ꢀꢀꢀꢀꢀꢀꢀ
3:npu;
20.4:cpu;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
5:屏幕;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
6:储存模块;
21.7:导航键;
ꢀꢀꢀꢀꢀꢀꢀꢀ
8:录音键;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
9:指示灯;
22.10:usb接口;
ꢀꢀꢀꢀꢀꢀ
11:出音口。
具体实施方式
23.为使本实用新型的目的、技术方案和优点更加清楚,下面将结合本实用新型中的附图,对本实用新型中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本实用新型一部分实施例,而不是全部的实施例。基于本实用新型中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本实用新型保护的范围。
24.如图1-3所示,本实用新型提供一种离线转写装置,包括外壳1、拾音模块2、npu3、cpu4和屏幕5。
25.其中,拾音模块2用于获取语音输入信息;npu3与拾音模块2通信连接,用于在离线状态下处理语音输入信息,以生成语音特征信息;cpu4与npu3通信连接,用于在离线状态下处理语音特征信息,以生成转写文本信息;屏幕5用于显示转写文本信息;拾音模块2和屏幕5安装于外壳1,npu3和cpu4安装于外壳1内。
26.可以理解,本技术中的npu3指嵌入式神经网络处理器(neural-network processing units,npu),是一种主要用于处理视频图像类数据的处理器;cpu4指中央处理器(central processing units,cpu)。
27.拾音模块2为拾音麦克风,在离线转写装置的工作状态下,用户以中文、英语、俄语等语言说话,拾音模块2采集用户的对话作为语音输入信息。在一个实施例中,如图2所示,拾音模块2包括多个拾音麦克风,多个拾音麦克风分散的安装于外壳1不同位置,以保证清楚的采集到多方向的语音输入信息。
28.npu3和cpu4安装在外壳1内部。npu3内置端到端语音解码模型,对拾音模块2采集到的语音输入信息进行第一次解码,生成语音特征信息,并将语音特征信息传输至cpu4,cpu4对语音特征信息进行第二次解码,生成转写文本信息。
29.值得说明的是,本实用新型实施例提供的离线转写装置不设置网络接口,始终保持离线状态,用户的语音输入信息不会上传至网络,保障了数据安全。
30.另外,npu3和cpu4根据本地预设程序共同执行转写工作,转写速度不会受到网络状态影响。在拾音模块2持续获取语音输入信息的同时,npu3对已获取的语音输入信息进行第一次解码,cpu4对已生成的语音特征信息进行第二次解码,在用户的语音输入结束后,离线转写装置即可快速生成最终的转写文本信息。转写过程迅速,准确率高。
31.在上述实施例的基础上,进一步的,npu3用于处理语言种类为英语、日语、韩语、俄语或汉语的语音输入信息,cpu4用于生成与语音输入信息的语言种类相同的转写文本信息。
32.具体的,npu3内置多个适用于不同语言的端到端语音解码模型,比如英语解码模型、日语解码模型、韩语解码模型、俄语解码模型、汉语解码模型等,每种解码模型通过针对对应语言特点进行的针对性训练得到。根据语音输入信息的语言种类,npu3调用对应种类的端到端语音解码模型对语音输入信息进行解码,cpu4根据语言种类对语音特征信息进行第二次解码,得到与语音输入信息语言种类相同的转写文本信息。
33.在一个实施例中,npu3内置识别模块,在npu3获取语音输入信息后,识别模块首先辨别语音输入信息的语言种类,然后调用对应的端到端语音解码模型。在另一个实施例中,用户手动设置离线转写装置的转写语种,npu3在获取语音输入信息之后,直接根据用户的设置调用对应的端到端语音解码模型。在又一个实施例中,npu3内置识别模块,npu3获取语音输入信息之后,若用户设置了转写语种,则npu3直接调动对应语种的端到端语音解码模型,若用户没有设置转写语种,npu3的识别模块对语音输入信息的语言种类进行识别,并调动对应的端到端语音解码模型。
34.值得说明的是,本实用新型提供的离线转写装置中,npu3内置的端到端语音解码模型还可以包括其他语种,cpu4还可以对应的生成其他语种的转写文本信息,本实用新型对此不作限定。
35.在上述实施例的基础上,可选的,在本实用新型的一些实施例中,离线转写装置还包括储存模块6。储存模块6安装于外壳1内,储存模块6分别与拾音模块2和cpu4通信连接,储存模块6用于保存语音输入信息及转写文本信息。
36.具体的,在一些实施例中,储存模块6自动储存最新的语音输入信息和与语音输入信息对应的转写文本信息,在存储空间用完后,新的语音输入信息和转写文本信息自动覆盖储存模块6中最早的语音输入信息和转写文本信息。从而,离线转写装置中始终保存着最近一段时间内用户的使用数据。在另一些实施例中,储存模块6根据用户的指令储存特定的语音输入信息和转写文本信息。若用户在进行语音输入之前没有输入储存该段信息的控制指令,该段信息不会保存在储存模块6中。从而,用户可以根据具体需求将重要的信息保存在离线转写装置中。
37.在上述实施例的基础上,可选的,在本实用新型的一些实施例中,屏幕5为触摸屏,触摸屏用于获取用户触入的控制指令。比如,触摸屏上显示有离线转写装置的操作界面,用
户通过触摸屏实现切换工作界面、选择转写语言、控制离线转写装置开始执行转写工作等操作。
38.在本实用新型的另一些实施例中,屏幕5不具有触控功能,外壳1安装有操作键,比如操作键包括微型键盘和导航键7,导航键7用于切换控制指令,微型键盘用于键入字符信息。用户通过操作键键入控制指令。
39.在本实用新型的又一些实施例中,屏幕5为触摸屏,触摸屏用于获取用户触入的控制指令;外壳还1安装有操作键,用于获取用户键入的所述控制指令。比如,如图2所示,触摸屏安装于外壳1正面,触摸屏下方安装有导航键7。通过导航键7和触摸屏配合输入控制指令。
40.在上述实施例的基础上,可选的,用户输入的控制指令包括编辑指令,cpu4还用于在离线状态下,根据编辑指令对转写文本信息进行编辑。比如,屏幕5为触摸屏,用户通过触摸屏选择进入编辑模式,并通过触摸屏上的虚拟键盘对转写文本信息进行修改。
41.在上述实施例的基础上,可选的,用户输入的控制指令包括解锁密码指令,cpu4和/或npu3还用于识别解锁密码指令,并在解锁密码指令与预设锁屏密码匹配时终止锁屏状态。
42.具体的,用户可以对离线转写装置设置预设锁屏密码,预设锁屏密码可以为字符形式的密码,也可以为人脸识别密码、语音识别密码、指纹密码、触屏手势密码等。
43.对应的,用户可以输入对应形式的解锁密码指令,或根据解锁密码指令的具体形式,由npu3或cpu4对解锁密码指令进行识别,比如当解锁密码指令为字符信息时,由cpu4识别;当解锁密码指令为图像信息或声音信息时,由npu3识别。
44.当npu3或cpu4判定解锁密码指令符合预设锁屏密码时,控制解除离线转写装置的锁屏状态,使离线转写装置可以被用户进一步操作。
45.具体的,在一个实施例中,预设锁屏密码为字符密码,cpu4用于识别字符密码形式的解锁密码指令。
46.在另一个实施例中,预设锁屏密码为人脸密码,离线转写装置还包括摄像头,摄像头安装于外壳1正面。用户通过摄像头录入人脸信息作为预设锁屏密码或解锁密码指令。npu3对人脸密码形式的解锁密码指令和预设锁屏密码进行图像识别。
47.在又一个实施例中,预设锁屏密码为语音密码,npu3用于识别语音密码形式的解锁密码指令。比如,npu3对语音密码形式的解锁密码指令进行说话人识别,当npu3解锁密码指令的音色、声纹等信息符合预设锁屏密码,则解锁成功。或者,npu3和cpu4共同对解锁密码指令进行转写,当解锁密码指令的转写内容与预设锁屏密码的转写内容相同,则解锁成功。
48.可选的,预设锁屏密码可以包括多种形式,当cpu4或npu3识别到解锁密码指令符合任一个预设锁屏密码,即解锁成功。
49.在上述实施例的基础上,可选的,离线转写装置的操作键还包括录音键8,录音键8安装在外壳1外,用于控制拾音模块2的开启和关闭。具体的,用户通过按下录音键8唤醒拾音模块2,使拾音模块2进入工作状态,开始采集用户的语音输入信息。或者,用户通过触摸屏发出操作指令,使离线转写装置进入转写模式,同样可以唤醒拾音模块2。
50.可选的,离线转写装置还包括指示灯9,指示灯9安装于外壳1。比如,如图2所示,指
示灯9安装于外壳1正面上部。指示灯9用于提示离线转写装置的工作状态,比如,当离线转写装置正在执行转写工作时,指示灯9会亮起。用户根据指示灯9是否亮起直接判断离线转写装置是否仍处于工作状态,避免转写过程在用户不知情的情况下中断,造成信息丢失。
51.可选的,离线转写装置还包括通用串行总线(universal serial bus,usb)接口10,usb接口10设于外壳1。比如,如图3所示,usb接口10设于外壳1底面,离线转写装置通过usb接口10充电,或者通过usb接口10导出储存模块6中的数据,便于用户进行信息整理。
52.可选的,离线转写装置还包括语音播报模块,语音播报模块安装于外壳1内,外壳1设有出音口11。比如,如图3所示,出音口11为阵列通孔,设于外壳1底面。语音播报模块可以获取储存模块6中的语音输入信息并进行播放。
53.最后应说明的是:以上实施例仅用以说明本实用新型的技术方案,而非对其限制;尽管参照前述实施例对本实用新型进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本实用新型各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献