本说明书一个或多个实施例涉及单片机技术领域,尤其涉及一种基于ld3320的语音识别交互方法及系统。
背景技术:
语言是人们生活中最直接、自然、有效、便捷的沟通交流方式,因此对语音控制装置的研究与设计,会给生产、生活带来巨大的便捷。
现有技术中的语音识别交互,由于在现实生活中,会遇到噪音、自然音、周遭人群发出的杂音等等不可抗力使得识别效率下降,不利于使用过程中识别准确、正确的内容,语音识别准确率较低。
技术实现要素:
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于ld3320的语音识别交互方法及系统,以解决语音识别准确率低的问题。
基于上述目的,本说明书一个或多个实施例提供了一种基于ld3320的语音识别交互方法,包括:
对接收到的语音进行分析,进行语音特征提取;
匹配预先设定的一级指令关键词,若匹配成功,则将与一级指令关联的二级指令关键词作为候选关键词;
对匹配成功后设定时间内接收到的语音进行分析,进行语音特征提取;
匹配候选关键词,若匹配成功,则将匹配成功的关键词输出为语音识别内容;
根据语音识别内容,选择预先设置的与其匹配的反馈内容进行播报。
优选地,本方法还包括:在一级指令关键词匹配成功后,播报语音提示反馈。
优选地,一级指令关键词设置为多个,各一级指令关键词均关联有多个二级指令关键词。
优选地,预选设定一级指令关键词和二级指令关键词时,通过设置拼音表的方式,拼音表满足:每个拼音对应一个唯一的编码字符,且不能出现重复的拼音串的编号。
优选地,与预先设定的一级指令关键词匹配成功时,若在设定时间内匹配到预先设置的控制指令关键词,则根据控制指令关键词,执行与其对应的操作。
优选地,一级指令关键词和二级指令关键词可以由用户进行修改。
一种基于ld3320的语音识别交互系统,包括:
语音采集识别模块,用于对接收到的语音进行分析,进行语音特征提取,匹配预先设定的一级指令关键词,若匹配成功,则将与一级指令关联的二级指令关键词作为候选关键词,对匹配成功后设定时间内接收到的语音进行分析,进行语音特征提取,匹配候选关键词,若匹配成功,则将匹配成功的关键词输出为语音识别内容;
语音合成模块,用于根据语音识别内容,选择预先设置的与其匹配的反馈内容进行播报;
继电器底板,用于将语音采集识别模块与语音合成模块连接,实现语音采集识别模块与语音合成模块的通信。
优选地,语音采集识别模块包括ld3320语音识别芯片。
优选地,语音合成模块包括mr628语音合成芯片,继电器底板上还设置有usb转ttl芯片。
优选地,继电器底板还包括指示灯组,指示灯组用于在语音采集识别模块匹配成功二级指令时进行提示。
从上面所述可以看出,本说明书一个或多个实施例提供的基于ld3320的语音识别交互方法及系统,通过对接收到的语音进行分析,提取语音特征,并与一级指令关键词进行匹配,匹配成功后设置与一级指令关联的二级指令关键词作为候选关键词,并再次对设定时间内接收到的语音进行分析,进行语音特征提取,与候选关键词进行匹配,匹配成功后输出语音识别内容,并根据该语音识别内容进行反馈播报,完成语音识别交互,本方法能够减少匹配关键词时的运算量,降低能耗,可以对非特定人语音进行识别,不需要进行录音训练,泛用性较高,并且能够减少噪音、自然音等杂音干扰,具有高准确度和实用的语音识别效果。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的基于ld3320的语音识别交互方法流程示意图;
图2为本说明书一个或多个实施例的基于ld3320的语音识别交互系统示意图;
图3为本说明书一个或多个实施例的ld3320语音识别芯片示意图;
图4为本说明书一个或多个实施例的继电器底板总体原理示意图;
图5为本说明书一个或多个实施例的继电器底板中ch340c芯片示意图;
图6为本说明书一个或多个实施例的继电器底板中继电器原件示意图;
图7为本说明书一个或多个实施例的ld3320语音识别芯片接口和mr628语音合成芯片接口示意图;
图8为本说明书一个或多个实施例的usb方口示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
本说明书一个或多个实施例提供一种基于ld3320的语音识别交互方法,如图1所示,包括以下步骤:
s101对接收到的语音进行分析,进行语音特征提取;
s102匹配预先设定的一级指令关键词,若匹配成功,则将与该一级指令关联的二级指令关键词作为候选关键词;
s103对匹配成功后设定时间内接收到的语音进行分析,进行语音特征提取;
s104匹配候选关键词,若匹配成功,则将匹配成功的关键词输出为语音识别内容;
s105根据语音识别内容,选择预先设置的与其匹配的反馈内容进行播报。
本说明书提供的基于ld3320的语音识别交互方法,通过对接收到的语音进行分析,提取语音特征,并与一级指令关键词进行匹配,匹配成功后设置与一级指令关联的二级指令关键词作为候选关键词,并再次对设定时间内接收到的语音进行分析,进行语音特征提取,与候选关键词进行匹配,匹配成功后输出语音识别内容,并根据该语音识别内容进行反馈播报,完成语音识别交互,本方法能够减少匹配关键词时的运算量,降低能耗,可以对非特定人语音进行识别,不需要进行录音训练,泛用性较高,并且能够减少噪音、自然音等杂音干扰,具有高准确度和实用的语音识别效果。
作为一种实施方式,本方法还包括:在一级指令关键词匹配成功后,播报语音提示反馈,从而提示用户此时进入二级指令关键词的识别流程,可以说出二级指令关键词。
作为一种实施方式,一级指令关键词设置为多个,各一级指令关键词均关联有多个二级指令关键词,举例来说,设置4个一级指令关键词,各一级指令关键词分别关联有10个二级指令关键词,则在其中一个一级指令关键词匹配成功后,只需要再对提取出的语音特征与相关联的10个二级指令关键词进行匹配即可,提高语音识别的准确度。
作为一种实施方式,预选设定一级指令关键词和二级指令关键词时,通过设置拼音表的方式,所述拼音表满足:每个拼音对应一个唯一的编码字符,对应的拼音串的编号可以不同,但不能出现重复的拼音串的编号,例如,编号1可能有两个对应的字符串,但是如果编号2被占用了,就不能有更多的编号2。
作为一种实施方式,与预先设定的一级指令关键词匹配成功时,若在设定时间内匹配到预先设置的控制指令关键词,则根据所述控制指令关键词,执行与其对应的操作,举例来说,控制指令关键词包括“返回”,若提取的语音特征与返回匹配成功,则执行返回操作,重新进行一级指令关键词的匹配。
作为一种实施方式,上述一级指令关键词、二级指令关键词和控制指令关键词均可以由用户进行修改,举例来说,只需要把识别的关键词以字符串的形式传送进系统,即可以在下次识别中立即生效,比如编程中,简单地通过设置芯片的寄存器,把如“你好”这样的识别关键词的内容动态地传入系统中,系统就可以识别这样设定的关键词语,此外,关键词语列表编辑极为方便。
本说明书还提供一种基于ld3320的语音识别交互系统,如图2所示,包括:
语音采集识别模块,用于对接收到的语音进行分析,进行语音特征提取,匹配预先设定的一级指令关键词,若匹配成功,则将与所述一级指令关联的二级指令关键词作为候选关键词,对匹配成功后设定时间内接收到的语音进行分析,进行语音特征提取,匹配所述候选关键词,若匹配成功,则将匹配成功的关键词输出为语音识别内容;
语音合成模块,用于根据语音识别内容,选择预先设置的与其匹配的反馈内容进行播报;
继电器底板,用于将所述语音采集识别模块与所述语音合成模块连接,实现所述语音采集识别模块与所述语音合成模块的通信。
举例来说,语音采集识别模块包括ld3320语音识别芯片,如图3所示,采用ld3320语音识别芯片的“关键词语列表”的识别技术来实现。ld3320语音识别芯片在集成语音识别处理器和外部电路的同时,还包括麦克风接口、声音输出接口等,该芯片在工作时最多可以每次识别50项候选句,在实际使用中用户只需要把识别的关键词语以字符串的形式存储在芯片中,即可在识别中立即生效。
语音合成模块包括mr628语音合成芯片,语音合成采用mr628的“自动转换文字到语音”的功能实现。mr628使用串口通信方式,发送指令即可实现文本到语音的转换,同时支持中文、英文(按字母朗读)、数字的朗读,每次合成的文本量最多可达250字节,可同时进行文本解析和语音播放,实现连续无间隔的语音合成。内置音频功放,可直接驱动0.5w8r或者3w4r的喇叭,ld3320接口和mr628接口如图7所示。
继电器底板如图4所示,包含一个usb方口,如图8所示,一个语音识别模块接口、一个语音合成模块接口,一个usb转ttl芯片:ch340c,如图5所示,以及四路继电器,如图6所示。
usb方口用于供电以及连接电脑后程序的烧录;语音识别模块接口用于连接ld3320语音识别芯片,实现与主体的通信同时返回识别的语音数据;语音合成模块接口用于连接mr628语音合成芯片,同时传输信息,为实现语音交互提供方便。
由于电脑usb端是usb电平,单片机需要接收的信号是ttl电平,两者的电平不同,无法进行直接通讯,需要通过转换才能实现相互间信号的传输。ch340c模块即是实现usb电平与ttl电平相互转换的有利工具。
继电器具有控制系统和被控制系统的作用,是实现用较小的电流去控制较大电流的一种“自动开关”,在此电路中起到自动调节、安全保护、转换电路的作用。该继电器底板实现了各个模块的整合,方便了各个模块间的通信与连接。
在连接本系统的电路时,继电器底板整合了各个模块的接口,是整个系统最主要的电路模板。继电器底板接有一个电容,增加系统供电的稳定性。继电器底板左侧三个公口(针型)用于接mr628模块,从上往下依次是gnd、txd、vcc,分别连接mr628语音合成芯片黑色线(接地)、黄色线(接单片机)、红色线(接5v电源);继电器底板右侧两排母口(孔型)用于连接ld3320语音识别芯片,只需将ld3320模块底部插入底板母口即可。如上所述,电路连接即可完成。
本系统的软件设计流程如下:
(1)本系统可以设置是否带有一级指令。不带有一级指令的系统,各个模块时刻处于运转状态,等待识别到合适或设定的语音,在现实生活中,会遇到噪音、自然音、周遭人群发出的杂音等等不可抗力使得识别效率下降,不利于使用过程中识别准确、正确的内容,故改进为带有一级指令。带有一级指令的语音识别,需要预先设置一个开启指令。当语音识别模块识别到预设的一级指令时,才可以开启后期的识别程序。以垃圾分类为例,当对着麦克风说出一级指令——“垃圾分类”并识别成功后,给予一个“您好”的语音反馈,然后才能继续询问垃圾的种类并得到答案,同时进入循环等待状态,等待下次识别到一级指令或关闭命令,与“垃圾分类”关联的二级指令关键词包括“剩饭”、“果皮”、“纸巾”等,反馈语音依次为“厨余垃圾”,“厨余垃圾”、“其他垃圾”等。
(2)识别词组写入
在为ld3320语音识别芯片写入识别词组时,需要合理设置拼音表。ld3320语音识别芯片对拼音表的设置需要满足:每个拼音对应一个唯一的编码字符,对应的拼音串的编号可以不同,但不能出现重复的编号。例如,编号1可能有两个对应的字符串,但是如果编号2被占用了,就不能有更多的编号2。ld3320芯片支持的最大拼音字符串为50个字符。
(3)语音反馈程序写入
mr628语音合成芯片只要拥有串口的单片机都可以驱动。同时mr628语音合成芯片以<g>为帧头,后面增加需要进行语音合成的内容,即可实现语音播报。根据语音识别模块识别出的内容,选择合适的反馈内容播报,以达到语音交互的目的。
作为一种实施方式,继电器底板还包括指示灯组,所述指示灯组用于在所述语音采集识别模块匹配成功二级指令时进行提示,则在写入程序时可以通过写入个性化亮灯程序,在保护电路的同时,增加了系统功能性,例如识别到某个指令后,可以个性化定义某些灯亮的操作。
本系统具有以下特点:
(1)非特定人语音识别技术:不需要进行录音训练;
(2)可动态编辑的识别关键词语列表:只需要把识别的关键词语以字符串的形式传送进系统,即可以在下次识别中立即生效。比如编程中,简单地通过设置芯片的寄存器,把如“你好”这样的识别关键词的内容动态地传入系统中,系统就可以识别这样设定的关键词语,此外,关键词语列表编辑极为方便;
(3)真正单芯片解决方案:不需要任何外接的辅助flash和ram;
(4)高准确度和实用的语音识别效果,以及较低的成本。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
本文用于企业家、创业者技术爱好者查询,结果仅供参考。