一种基于语音芯片的人物搜寻语音识别系统及方法与流程

2022-07-30 23:06:25 来源：中国专利 TAG：

1.本发明涉及语音识别技术领域，具体为一种基于语音芯片的人物搜寻语音识别系统及方法。

背景技术：

2.语音识别系统的应用可以分为两个发展方向：一个方向是大词汇量连续语音识别系统，主要应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务系统，这些系统都是在计算机平台上实现的，另外一个重要的发展方向是小型化、便携式语音产品的应用，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用，这些应用系统大都使用专门的第三方软件来实现，特别是近几年来迅速发展的语音信号处理专用芯片和语音识别片上系统的出现。
3.但是，现有的语音识别系统仍存在较大的缺陷，其无法忽略来着周围环境以及用户自身因素的一些特征影响，从而会出现无法识别的情况；因此，不满足现有的需求，对此我们提出了一种基于语音芯片的人物搜寻语音识别系统及方法。

技术实现要素：

4.本发明的目的在于提供一种基于语音芯片的人物搜寻语音识别系统及方法，系统会在合理范围内对动态音频进行调整，并进行二次识别搜寻，如出现匹配音频后，则会进行详细比对后作出判断，可以解决现有技术中的问题。
5.为实现上述目的，本发明提供如下技术方案：一种基于语音芯片的人物搜寻语音识别系统，包括静态特征提取和动态特征提取，所述静态特征提取和动态特征提取的输入端与声音预处理的输出端连接，且声音预处理的输入端与语音信号采集的输出端连接；
6.所述语音信号采集有麦克风结构组成，用于接收语音信号，初始状态下需要先进行语音特征的录入，录入语音信息后才可以进行识别操作，所述声音预处理主要用于针对不同模式下的语音信号进行处理，其中学习模式下语音信号需要以wav格式进行传输，而识别模式下的语音信号则是以flav格式进行传输。
7.优选的，所述静态特征提取的输出端与样本特征库的输入端连接，且样本特征库包括静态数据特征和动态模拟特征；
8.所述静态特征提取是需要用户进行一些常用语言的录入，方便系统获取到初级的用户音频信息，该类用户音频信息也被归纳于静态数据特征中，所述样本特征库用于储存不同用户的音频信息；
9.所述动态模拟特征是针对识别模式下的动态音频特征进行多项数据调整，调整不会改变用户本身的音色。
10.优选的，所述动态模拟特征包括环境因素剪除、音频倍速调整和音频音量调整，且环境因素剪除、音频倍速调整和音频音量调整的输出端与测录音源声谱的输入端连接，所述环境因素剪除的输入端与高精度定位的输出端连接；
11.环境因素剪除：依据定位系统来获取到当前用户所处的区域属于室内还是室外，根据不同的环境来启动对应的模式剪除当前环境中的噪音；
12.音频倍速调整：可以对用户录入的动态语音的语速进行调整；
13.音频音量调整：可以对用户录入的动态语音的音量进行调整。
14.优选的，所述静态特征提取包括采样频率和语音分段截取，所述采样频率用于分析用户事先录入的音频信息，所述语音分段截取用户将同一组音频信息进行截点分段，将其分割成多组音频信息。
15.优选的，所述静态特征提取的输入端与音频转换器的输出端连接，且音频转换器的输入端与试录音源的输出端连接，试录音源以数字信号的形式输入到音频转换器中，之后将其转化为wav格式进行输出。
16.优选的，所述静态特征提取的输出端与资源整合的输入端连接，且资源整合的输入端与个人id信息库的输出端连接，所述资源整合的输出端与数据储存芯片的输入端连接，所述资源整合用于将提取到特征信息进行归类整理，所述个人id信息库内部包含了用户的姓名、性别以及年龄段信息，所述数据储存芯片用于储存所有用户的音频和个人信息数据；
17.所述动态特征提取的输出端与特征匹配的输入端连接，且特征匹配的输出端与搜寻结果的输入端连接，所述特征匹配与样本特征库双向连接；
18.所述特征匹配是在识别模式下用户的动态语音信息录入后会同样本特征库内部的特征数据进行比对搜寻。
19.优选的，所述动态特征提取包括声谱读取模块，且声谱读取模块包括频谱分帧和滤波消噪，所述频谱分帧和滤波消噪的输出端与波峰断点提取的输入端连接，所述声谱读取模块可以将用户录入的动态语音信息转化为声谱进行显示，所述频谱分帧用于对声谱中的波频进行逐帧分析，所述滤波消噪用于消除传输过程中造成的噪点，所述波峰断点提取可以将声谱中的峰值点进行读取；
20.所述动态特征提取的输入端与解压转换器的输出端连接，且解压转换器的输入端与音频压缩器的输出端连接，所述音频压缩器的输入端与测录音源的输出端连接，所述测录音源经音频压缩器压缩成flac格式进行传输，随后由解压转换器重新解压恢复成wav格式输入到声谱读取模块中。
21.优选的，还包括：
22.定位模块，用于对所述动态音频信号的信号源进行定位，确定所述用户当前所处位置；
23.视频采集模块，用于对所述动态音频信号进行二次动态搜寻之前，获取所述当前所处位置的周围视频；
24.属性确定模块，用于对所述周围视频进行环境特征分析，确定所述当前所处位置的周围环境的环境布局，并确定所述环境布局中每个环境部件的部件属性；
25.集合确定模块，用于基于所述部件属性，确定对应环境部件在不同噪声条件下的噪声辅助集合；
26.音频采集模块，用于与所述视频采集模块对所述当前所处位置的环境声音信号进行同步采集，并基于同步采集结果，分析不同目标方位在不同时间点下的噪声信号；
表示模糊关键词w0对应的音频值；yi表示第i个音频标签对应的音频条的音频值；g表示模糊关键词w0对应的词相似因子；
43.当所述模糊程度y1大于预设模糊程度时，对对应模糊关键词的位置进行第一标定，并将第一标定结果对应的标定点视为添加截点；
44.基于所有添加截点和初截点，对音频信息进行拆分。
45.一种基于语音芯片的人物搜寻语音识别系统的识别方法，包括如下步骤：
46.步骤一：初始状态下需要先进行语音特征的录入，用户先开启学习模式，然后按照系统的指示录入相应的音频信息，录入过程中尽量选择室内或者室外安静的区域进行录入，学习模式下语音录入完成后，需要填写用户的个人信息，填写完成后电机上传即可；
47.步骤二：在进行人物语音的识别时，会先采集到当前模式下的人物语音信息，此音频属于动态音频信号，随后系统会将该动态音频信号与特征库内的静态数据信号进行搜寻比对，如未有匹配的数据，系统会启动二次动态搜寻；
48.步骤三：动态搜寻时，系统会分析当前的用户所处的区域环境情况，之后根据当前的环境来进行噪音补偿，从而给消除掉来自外界环境因素影响，完成环境噪音剪除后，系统会对用户的动态音频进行音量和语速的协调；
49.步骤四：同比例放大分频音量以及调整语速后再次对库内的静态数据进行搜寻比对，如出现匹配率在90-95％的数据信号后，系统会进行分段和分帧比对，在同音量和同音调的情况下进行对音色分析，确认复合后进行反馈。
50.与现有技术相比，本发明的有益效果是：
51.1、本发明，静态特征提取是指用户在学习模式的系统的提示下进行一系列音频的录入，方便系统获取到用户的语音特征，此过程中音频信息会以wav格式进行传输，避免音频信息出现损坏缺失的情况，而动态特征提取是指用户在使用时进行声音的识别搜寻操作，在这个语音录入过程中用户的音频信息会存在一定的变数，所以其语音信号属于动态信息，最后系统会针对该动态音频进行一次识别搜寻，如搜寻未果，则系统会在合理范围内对动态音频进行调整，并进行二次识别搜寻，如出现匹配音频后，则会进行详细比对后作出判断，这样可以提升语音的识别能力；
52.2、本发明，动态模拟特征包括环境因素剪除、音频倍速调整和音频音量调整，环境因素剪除是依据定位系统来获取到当前用户所处的区域属于室内还是室外，根据不同的环境来启动对应的模式剪除当前环境中的噪音，音频倍速调整可以对用户录入的动态语音的语速进行调整，音频音量调整可以对用户录入的动态语音的音量进行调整；
53.3、本发明，静态特征提取的输出端与资源整合的输入端连接，且资源整合的输入端与个人id信息库的输出端连接，资源整合的输出端与数据储存芯片的输入端连接，资源整合用于将提取到特征信息进行归类整理，个人id信息库内部包含了用户的姓名、性别以及年龄段信息，个人id信息库是为了同语音信息进绑定，且方便系统获知该段录音用户的性别以及身体发育情况，这样在处理的过程中系统可以根据用户这些情况来进行一些动态数据的模拟。
54.4、本发明，通过视频采集以及音频采集，来从两方面确定对噪声信号的辅助集合，保证对噪声消除的合理性，且通过对动态音频信号的方位拆分，以及与标准信号的比较，可以有效的，确定是否可以消除，以此，来调取对应的调整方式进行调整，保证对动态音频信
号的调整有效性，便于提高后续语音的识别能力。
55.5、本发明，通过进行文本转换，确定目标关键词，确定初截点，对音频拆分，且通过对第一音频切除，可以节省对音频的分析效率，且通过对模糊关键词进行模糊程度的计算，可以有效确定是否补充新的截点，保证对音频信息拆分的最佳合理性，间接提高识别效率。
附图说明
56.图1为本发明的整体识别流程图；
57.图2为本发明的动态模拟特征组成结构示意图；
58.图3为本发明的静态特征提取流程示意图；
59.图4为本发明的动态特征提取流程示意图；
60.图5为本发明的识别算法流程示意图；
61.图6为本发明的波频结构示意图；
62.图7为本发明的波频端点结构示意图。
具体实施方式
63.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
64.请参阅图1-2，本发明提供的一种实施例：一种基于语音芯片的人物搜寻语音识别系统，包括静态特征提取和动态特征提取，静态特征提取和动态特征提取的输入端与声音预处理的输出端连接，且声音预处理的输入端与语音信号采集的输出端连接，语音信号采集有麦克风结构组成，用于接收语音信号，初始状态下需要先进行语音特征的录入，录入语音信息后才可以进行识别操作，声音预处理主要用于针对不同模式下的语音信号进行处理，其中学习模式下语音信号需要以wav格式进行传输，而识别模式下的语音信号则是以flav格式进行传输，静态特征提取是指用户在学习模式的系统的提示下进行一系列音频的录入，方便系统获取到用户的语音特征，此过程中音频信息会以wav格式进行传输，避免音频信息出现损坏缺失的情况，而动态特征提取是指用户在使用时进行声音的识别搜寻操作，在这个语音录入过程中用户的音频信息会存在一定的变数，所以其语音信号属于动态信息，最后系统会针对该动态音频进行一次识别搜寻，如搜寻未果，则系统会在合理范围内对动态音频进行调整，并进行二次识别搜寻，如出现匹配音频后，则会进行详细比对后作出判断；
65.静态特征提取的输出端与样本特征库的输入端连接，且样本特征库包括静态数据特征和动态模拟特征；
66.静态特征提取是需要用户进行一些常用语言的录入，方便系统获取到初级的用户音频信息，该类用户音频信息也被归纳于静态数据特征中，样本特征库用于储存不同用户的音频信息；
67.动态模拟特征是针对识别模式下的动态音频特征进行多项数据调整，调整不会改变用户本身的音色；
68.动态模拟特征包括环境因素剪除、音频倍速调整和音频音量调整，且环境因素剪除、音频倍速调整和音频音量调整的输出端与测录音源声谱的输入端连接，环境因素剪除的输入端与高精度定位的输出端连接；
69.环境因素剪除：依据定位系统来获取到当前用户所处的区域属于室内还是室外，根据不同的环境来启动对应的模式剪除当前环境中的噪音；
70.音频倍速调整：可以对用户录入的动态语音的语速进行调整；
71.音频音量调整：可以对用户录入的动态语音的音量进行调整。
72.请参阅图3-4，静态特征提取包括采样频率和语音分段截取，采样频率用于分析用户事先录入的音频信息，语音分段截取用户将同一组音频信息进行截点分段，将其分割成多组音频信息；
73.静态特征提取的输入端与音频转换器的输出端连接，且音频转换器的输入端与试录音源的输出端连接，试录音源以数字信号的形式输入到音频转换器中，之后将其转化为wav格式进行输出；
74.静态特征提取的输出端与资源整合的输入端连接，且资源整合的输入端与个人id信息库的输出端连接，资源整合的输出端与数据储存芯片的输入端连接，资源整合用于将提取到特征信息进行归类整理，个人id信息库内部包含了用户的姓名、性别以及年龄段信息，数据储存芯片用于储存所有用户的音频和个人信息数据，个人id信息库是为了同语音信息进绑定，且方便系统获知该段录音用户的性别以及身体发育情况，这样在处理的过程中系统可以根据用户这些情况来进行一些动态数据的模拟；
75.动态特征提取的输出端与特征匹配的输入端连接，且特征匹配的输出端与搜寻结果的输入端连接，特征匹配与样本特征库双向连接；
76.特征匹配是在识别模式下用户的动态语音信息录入后会同样本特征库内部的特征数据进行比对搜寻；
77.动态特征提取包括声谱读取模块，且声谱读取模块包括频谱分帧和滤波消噪，频谱分帧和滤波消噪的输出端与波峰断点提取的输入端连接，声谱读取模块可以将用户录入的动态语音信息转化为声谱进行显示，频谱分帧用于对声谱中的波频进行逐帧分析，滤波消噪用于消除传输过程中造成的噪点，波峰断点提取可以将声谱中的峰值点进行读取；
78.动态特征提取的输入端与解压转换器的输出端连接，且解压转换器的输入端与音频压缩器的输出端连接，音频压缩器的输入端与测录音源的输出端连接，测录音源经音频压缩器压缩成flac格式进行传输，随后由解压转换器重新解压恢复成wav格式输入到声谱读取模块中。
79.在一个实施例中，还包括：
80.定位模块，用于对所述动态音频信号的信号源进行定位，确定所述用户当前所处位置；
81.视频采集模块，用于对所述动态音频信号进行二次动态搜寻之前，获取所述当前所处位置的周围视频；
82.属性确定模块，用于对所述周围视频进行环境特征分析，确定所述当前所处位置的周围环境的环境布局，并确定所述环境布局中每个环境部件的部件属性；
83.集合确定模块，用于基于所述部件属性，确定对应环境部件在不同噪声条件下的
噪声辅助集合；
84.音频采集模块，用于与所述视频采集模块对所述当前所处位置的环境声音信号进行同步采集，并基于同步采集结果，分析不同目标方位在不同时间点下的噪声信号；
85.调取模块，用于确定所述噪声信号在不同时间点下的噪声属性，基于所述噪声属性匹配对应的允许噪声条件，并基于所述允许噪声条件与环境部件在不同噪声条件下的一致性，从所述噪声辅助集合中，调取基于同个方位的噪声信号的辅助子集合；
86.信号构建模块，用于基于所述辅助子集合，确定对应同目标方位下的辅助连续特征，对所述辅助连续特征进行预分析，确定所述辅助连续特征存在的辅助规律，并按照所述辅助规律，构建辅助信号；
87.按照所述语音信号采集的采集构造对所述动态音频信号进行方位信号拆分，并按照拆分结果，获取不同目标方位的方位子信号，并将所述方位子信号与对应标准子信号进行比较，确定差异子信号；
88.将所述差异子信号与对应同目标方位的辅助信号进行消除分析，确定是否满足预设条件；
89.若满足，获取常规语速调整方式和常规音量调整方式，并基于辅助信号对对应方位子信号进行消除之后，基于所述常规语速调整方式和常规音量调整方式进行消除后的信号进行再次调整；
90.若不满足，获取所述差异子信号与对应同目标方位的辅助信号的差别因子，并基于所述差别因子，从所述分析数据库中，调取特殊语速调整方式和特殊音量调整方式，并基于辅助信号对对应方位子信号进行消除之后，基于所述特殊语速调整方式和特殊音量调整方式进行消除后的信号进行再次调整。
91.该实施例中，信号源也就是用户发出声音的位置，且获取的周围视频，是指的所处位置的环境视频，一般情况下，不同的建筑构造，建筑材料，建筑设备都会影响声音本身情况，因此，对视频进行环境特征分析，来初步确定布局，也就是建筑构造，进而可以确定该构造中不同环境部件的部件属性，比如，海绵相关的材料，对噪声存在一定的吸收情况，大理石相关的材料，可能会使得声音产生比较空旷的回声等情况。
92.该实施例中，比如，海绵，噪声越高对应的吸收情况越好，也就是不同噪声等级，可以对应吸收等级，由噪声大小与吸收等级构成噪声辅助集合。
93.该实施例中，通过对音频的同步采集，是为了对音频进行单独分析，也就是单独的从视频和音频两个方面，来综合分析对应的辅助条件。
94.该实施例中，噪声属性，比如是碰撞声等，允许噪声条件可以是噪声大小，以及噪声类型，且通过视频与音频的噪声条件的一致性，可以确定同个目标方位下的辅助子集合。
95.该实施例中，辅助连续特征指的是按照时间顺序，对辅助子集合中的每个辅助相关条件进行分析，来得到连续特征，进而分析存在的规律，比如：敲击声、咳嗽声，以此规律循环，最后对应的可以是对敲击声、咳嗽声构成信号的一个消除，也就是辅助信号。
96.该实施例中，由于是采用麦克风进行的语音采集，但是麦克风一般是包括阵列式结构在内的，因此，来对不同方位的信号进行采集，来与标准信号进行比较，确定差异子信号。
97.该实施例中，通过将差异子信号与辅助信号进行消除，也就是累加消除，来确定消
除后信号是否会成为0，若是，判定满足预设条件。
98.该实施例中，常规语速调整方式以及常规音量调整方式，都可以是预先设置好的，进行消除。
99.该实施例中，差别因子，比如存在一段信号的是波动的，剩余都为0，此时，获取该波动信号的产生原因，作为差别因子，来获取对应的调整方式进行调整。
100.上述技术方案的有益效果是：通过视频采集以及音频采集，来从两方面确定对噪声信号的辅助集合，保证对噪声消除的合理性，且通过对动态音频信号的方位拆分，以及与标准信号的比较，可以有效的，确定是否可以消除，以此，来调取对应的调整方式进行调整，保证对动态音频信号的调整有效性，便于提高后续语音的识别能力。
101.在一个实施例中，还包括：
102.截点确定模块，用于对所述音频信息进行文本转换，获取文本信息，对所述文本信息进行初步语义分析，得到目标关键词和模糊关键词，并将所述目标关键词所在位置作为初截点；
103.拆分模块，用于基于所述初截点，对所述音频信息进行拆分，获取若干第一音频；
104.切除模块，用于对每个第一音频的中有效信息的初始点以及末尾点进行确定，基于所述初始点，确定对应第一音频的初始区域，同时，基于所述末尾点，确定对应第一音频的末尾区域；
105.通过初始区域以及末尾区域，对对应第一音频进行切除，获取第二音频；
106.标签赋予模块，用于对所述第二音频进行音频提取，确定可提取音频种类条数，并向每种音频条赋予对应的音频标签；
107.模糊确定模块，用于确定每个模糊关键词对应的模糊程度y1；
[0108][0109][0110]
其中，s1表示对应模糊关键词的模糊字符个数；s表示对应模糊关键词的总字数个数；sim(w0,w1)表示模糊关键词w0与左侧相邻关键词w1的相似度；sim(w0,w2)表示模糊关键词w0与右侧相邻关键词w2的相似度；
[0111]
sim(w0,w
1,
w2)表示模糊关键词w0、右侧相邻关键词w2、左侧相邻关键词w1三者的相似度；n1表示模糊关键词w0所处音频位置对应的音频标签个数；y0表示模糊关键词w0对应的音频值；yi表示第i个音频标签对应的音频条的音频值；g表示模糊关键词w0对应的词相似因子；
[0112]
当所述模糊程度y1大于预设模糊程度时，对对应模糊关键词的位置进行第一标定，并将第一标定结果对应的标定点视为添加截点；
[0113]
基于所有添加截点和初截点，对音频信息进行拆分。
[0114]
该实施例中，比如，第二音频中包括用户语音、敲击声语音、电磁干扰语音，因此，可以将第二音频提取为三种类型的音频条数。
[0115]
该实施例中，对模糊程度y1大于预设模糊程度的模糊关键词的位置标定，可以有
效的对该模糊信息进行多次识别，且识别次数可以优于对目标关键词的识别次数，保证识别的能力。
[0116]
上述技术方案的有益效果是：通过进行文本转换，确定目标关键词，确定初截点，对音频拆分，且通过对第一音频切除，可以节省对音频的分析效率，且通过对模糊关键词进行模糊程度的计算，可以有效确定是否补充新的截点，保证对音频信息拆分的最佳合理性，间接提高识别效率。
[0117]
请参阅图5-7，一种基于语音芯片的人物搜寻语音识别系统的识别方法，包括如下步骤：
[0118]
步骤一：初始状态下需要先进行语音特征的录入，用户先开启学习模式，然后按照系统的指示录入相应的音频信息，录入过程中尽量选择室内或者室外安静的区域进行录入，学习模式下语音录入完成后，需要填写用户的个人信息，填写完成后电机上传即可；
[0119]
步骤二：在进行人物语音的识别时，会先采集到当前模式下的人物语音信息，此音频属于动态音频信号，随后系统会将该动态音频信号与特征库内的静态数据信号进行搜寻比对，如未有匹配的数据，系统会启动二次动态搜寻；
[0120]
步骤三：动态搜寻时，系统会分析当前的用户所处的区域环境情况，之后根据当前的环境来进行噪音补偿，从而给消除掉来自外界环境因素影响，完成环境噪音剪除后，系统会对用户的动态音频进行音量和语速的协调；
[0121]
步骤四：同比例放大分频音量以及调整语速后再次对库内的静态数据进行搜寻比对，如出现匹配率在90-95％的数据信号后，系统会进行分段和分帧比对，在同音量和同音调的情况下进行对音色分析，确认复合后进行反馈。
[0122]
综上，初始状态下需要先进行语音特征的录入，用户先开启学习模式，然后按照系统的指示录入相应的音频信息，录入过程中尽量选择室内或者室外安静的区域进行录入，学习模式下语音录入完成后，需要填写用户的个人信息，填写完成后电机上传即可，在进行人物语音的识别时，会先采集到当前模式下的人物语音信息，此音频属于动态音频信号，随后系统会将该动态音频信号与特征库内的静态数据信号进行搜寻比对，如未有匹配的数据，系统会启动二次动态搜寻，动态搜寻时，系统会分析当前的用户所处的区域环境情况，之后根据当前的环境来进行噪音补偿，从而给消除掉来自外界环境因素影响，完成环境噪音剪除后，系统会对用户的动态音频进行音量和语速的协调，同比例放大分频音量以及调整语速后再次对库内的静态数据进行搜寻比对，如出现匹配率在90-95％的数据信号后，系统会进行分段和分帧比对，在同音量和同音调的情况下进行对音色分析，确认复合后进行反馈。
[0123]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0124]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换
和变型，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音翻译模型的训练方法、语音翻译方法、装置及设备与流程

一种基于语音芯片的人物搜寻语音识别系统及方法与流程

相关文献

最热文献