农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种基于语音识别的人工智能系统的制作方法

2021-08-24 16:08:00 来源：中国专利 TAG：人工智能语音识别系统

本发明涉及人工智能技术领域，尤其涉及一种基于语音识别的人工智能系统。

背景技术：

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术；语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面；根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别，关键词识别和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。

公开号cn108831483a公开了一种人工智能语音识别系统，终端唤醒模块获取采集的语音信息并进行标记；声源定位模块根据麦克风的位置坐标和声音强度计算声源位置；语音采集定位模块根据声源位置坐标生成声源相对于机器人终端的相对位置坐标并得到声源方向；第二语音采集装置存储获取的命令语音；命令识别模块输出检测信号。该发明通过识别第一关键字启动系统，并通过识别第二关键字对扫地机器人下达命令，使得扫地机器人可以通过语音指令到达指定地点，系统智能方便，为居家生活提供更多便利。

现有的基于语音识别的人工智能系统存在的缺陷是：不能根据语音的发送位置和语音数据进行分析和筛选导致回复的准确性差的问题。

技术实现要素：

本发明的目的在于提供一种基于语音识别的人工智能系统，本发明所要解决的技术问题为：

如何解决现有方案中不能根据语音的发送位置和语音数据进行分析和筛选导致回复的准确性差的问题。

本发明的目的可以通过以下技术方案实现：一种基于语音识别的人工智能系统，包括数据采集模块、数据传输模块、数据定位模块、数据分析模块、数据处理模块、识别模块和提示对话模块；

所述数据采集模块用于采集语音信息，该语音信息包含语音强度数据、语音振幅数据、语音内容数据和语音持续时间，通过数据传输模块将语音信息发送至数据分析模块；

所述数据定位模块用于获取语音的发音源坐标与麦克风的接收端坐标并进行处理，得到位置信息，通过数据传输模块将位置信息发送至数据识别模块；

所述数据分析模块用于接收语音信息进行分析，得到语音分析信息，并将语音分析信息发送至数据识别模块；

所述数据处理模块用于接收位置信息和语音分析信息并进行处理，得到识别信息，具体的步骤包括：

步骤一：接收位置信息和语音分析信息，获取位置信息中的正偏排序集和语音分析信息中的发接排序集；

步骤二：利用公式获取语音的关联值，该公式为：

其中，qgl表示为语音的关联值，η表示为预设的关联修正因子，b1、b2表示为不同的比例系数，zpk表示为正偏排序集，fjk表示为发接排序集，zpk0表示为正偏排序集的均值，fjk0表示为发接排序集的均值，k＝1,2,3；

步骤三：将关联值与预设的标准关联范围进行匹配，若关联值属于标准关联范围，则判定该关联值为有效关联，并将该关联值对应的语音标记为有效语音；若关联值不属于标准关联范围，则判定该关联值为无效关联，并将该关联值对应的语音标记为无效语音；

步骤四：获取有效语音对应的语音强度数据、语音振幅数据、语音内容数据以及语音坐标并进行组合，得到识别信息；

所述识别模块用于接收识别信息并进行分析，得到识别结果，将识别结果发送至提示对话模块；

所述提示对话模块用于根据识别结果进行语音提示和对话；

所述数据传输模块用于对各个模块之间的数据进行传输。

优选的，所述数据定位模块用于获取语音的发音源坐标与麦克风的接收端坐标并进行处理，得到位置信息，具体的步骤包括：

s21：获取语音的发音源坐标与麦克风的接收端坐标，将接收端坐标标记为第一坐标，并以第一坐标为原点建立坐标系，将第一坐标的正前方设定为横坐标轴，将第一坐标的正右方设定为纵坐标轴，将发音源坐标标记为第二坐标；

s22：计算第二坐标与第一坐标之间的距离并标记为传输距离cj，设定不同的距离均对应一个不同的距离预设值，将传输距离与所有的距离进行匹配获取对应的距离预设值并标记为jlyi，i＝1，2...n；

s23：计算第二坐标与第一坐标之间的夹角并标记为传输夹角，设定不同的夹角均对应一个不同的夹角预设值，将传输夹角与所有的夹角进行匹配获取对应的夹角预设值并标记为jjyi，i＝1，2...n；

s24：利用公式获取语音的正偏值，该公式为：

其中，qzp表示为语音的正偏值，μ表示为预设的传输修正因子，a1、a2表示为不同的比例系数；

s25：将正偏值进行升序排列，并将排序前三的正偏值标记为待选正偏值并组合，得到正偏排序集；

s26：将第一坐标、第二坐标、正偏排序集、夹角预设值和坐标系组合，得到位置信息。

优选的，所述数据分析模块用于接收语音信息进行分析，得到语音分析信息，具体的步骤包括：

s31：获取语音信息中的语音强度数据、语音振幅数据、语音内容数据和语音持续时间，设定不同的语音强度均对应一个不同的强度预设值，将语音强度数据与所有的语音强度进行匹配获取对应的强度预设值并标记为qyi，i＝1，2...n；

s32：设定不同的语音振幅均对应一个不同的振幅预设值，将语音振幅数据与所有的语音振幅进行匹配获取对应的振幅预设值并标记为zyi，i＝1，2...n；

s33：获取语音持续时间并进行归一化处理并取其值并标记为csi，i＝1，2...n；

s34：利用公式获取语音的发接值，该公式为：

其中，qfj表示为语音的发接值，β表示为预设的发接修正因子，g1、g2、g3表示为不同的比例系数；

s35：将发接值进行降序排列，并将排序前三的发接值标记为待选发接值并组合，得到发接排序集；

s36：将强度预设值、振幅预设值、归一化的语音持续时间和发接排序集组合，得到语音分析信息。

优选的，所述识别模块用于接收识别信息并进行分析，得到识别结果，具体的步骤包括：

s41：接收识别信息获取有效语音对应的语音强度数据、语音振幅数据、语音内容数据以及语音坐标；

s42：将有效语音对应的语音强度数据标记为有效强度，将有效语音对应的语音振幅数据标记为有效振幅，将有效语音对应的语音内容数据标记为有效内容，将有效语音对应的语音坐标标记为有效坐标；

s43：利用文本转换算法将有效内容进行转换，得到有效文本；

s44：利用公式x＝wi/w0获取有效文本的匹配度x；其中，wi表示为有效文本与预设的标准文本相同的字数，i＝1，2...n；w0表示为标准文本的总字数；

s45：将匹配度进行降序排列并将值最大的匹配度标记为有效匹配度，并将有效匹配度对应的标准文本标记为匹配文本，匹配文本和有效匹配度构成识别结果。

优选的，所述提示对话模块用于根据识别结果进行语音提示和对话，包括：

获取识别结果中的匹配文本以及匹配文本对应的文本回复，通过麦克风对有效坐标进行语音播放文本回复，并根据有效振幅和有效强度获取有效坐标发出的语音信息并进行识别和回复，直至与有效坐标之间的交流结束。

本发明的有益效果：

本发明公开的各个方面，利用数据采集模块采集语音信息，该语音信息包含语音强度数据、语音振幅数据、语音内容数据和语音持续时间，通过数据传输模块将语音信息发送至数据分析模块；通过对语音强度、语音振幅、语音内容和语音持续时间进行综合分析，对语音的筛选和分析提供数据支撑，可以有效提高待识别语音筛选的准确性；

利用数据定位模块获取语音的发音源坐标与麦克风的接收端坐标并进行处理，得到位置信息，通过数据传输模块将位置信息发送至数据识别模块；通过获取语音的发音源坐标与识别坐标进行匹配分析，可以获取待识别语音的位置信息，为待识别语音的筛选提供数据支撑；

利用数据分析模块接收语音信息进行分析，得到语音分析信息，并将语音分析信息发送至数据识别模块；通过对语音信息进行分析，将语音强度、语音振幅、语音内容和语音持续时间之间建立联系提高对语音的分析准确性，克服现有方案中只通过语音中单一的元素进行筛选判别导致识别的准确性差；

利用数据处理模块接收位置信息和语音分析信息并进行处理，得到识别信息；通过对位置信息和语音分析信息进行处理建立联系，对语音的发声位置并结合语音的分析进一步进行判断和筛选；

利用识别模块接收识别信息并进行分析，得到识别结果，将识别结果发送至提示对话模块；利用提示对话模块根据识别结果进行语音提示和对话；利用数据传输模块对各个模块之间的数据进行传输；通过对位置信息和语音分析信息进行分析得到最终的筛选结果，并根据筛选结果中已确定的发音坐标和语音特征进行持续对话直至识别结束，提高语音识别的整体效率和准确性；达到根据语音的发送位置和语音数据进行分析和筛选提高回复的准确性的目的。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明一种基于语音识别的人工智能系统的模块框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于语音识别的人工智能系统，包括数据采集模块、数据传输模块、数据定位模块、数据分析模块、数据处理模块、识别模块和提示对话模块；

所述数据采集模块用于采集语音信息，该语音信息包含语音强度数据、语音振幅数据、语音内容数据和语音持续时间，通过数据传输模块将语音信息发送至数据分析模块；

本发明实施例中，通过对语音强度、语音振幅、语音内容和语音持续时间进行综合分析，对语音的筛选和分析提供数据支撑，可以有效提高待识别语音筛选的准确性；

所述数据定位模块用于获取语音的发音源坐标与麦克风的接收端坐标并进行处理，得到位置信息，通过数据传输模块将位置信息发送至数据识别模块；

所述数据分析模块用于接收语音信息进行分析，得到语音分析信息，并将语音分析信息发送至数据识别模块；

所述数据处理模块用于接收位置信息和语音分析信息并进行处理，得到识别信息，具体的步骤包括：

步骤一：接收位置信息和语音分析信息，获取位置信息中的正偏排序集和语音分析信息中的发接排序集；

步骤二：利用公式获取语音的关联值，该公式为：

其中，qgl表示为语音的关联值，η表示为预设的关联修正因子，b1、b2表示为不同的比例系数，zpk表示为正偏排序集，fjk表示为发接排序集，zpk0表示为正偏排序集的均值，fjk0表示为发接排序集的均值，k＝1,2,3；

步骤三：将关联值与预设的标准关联范围进行匹配，若关联值属于标准关联范围，则判定该关联值为有效关联，并将该关联值对应的语音标记为有效语音；若关联值不属于标准关联范围，则判定该关联值为无效关联，并将该关联值对应的语音标记为无效语音；

步骤四：获取有效语音对应的语音强度数据、语音振幅数据、语音内容数据以及语音坐标并进行组合，得到识别信息；

本发明实施例中，通过对位置信息和语音分析信息进行处理建立联系，对语音的发声位置并结合语音的分析进一步进行判断和筛选；

所述数据定位模块用于获取语音的发音源坐标与麦克风的接收端坐标并进行处理，得到位置信息，具体的步骤包括：

获取语音的发音源坐标与麦克风的接收端坐标，将接收端坐标标记为第一坐标，并以第一坐标为原点建立坐标系，将第一坐标的正前方设定为横坐标轴，将第一坐标的正右方设定为纵坐标轴，将发音源坐标标记为第二坐标；

计算第二坐标与第一坐标之间的距离并标记为传输距离cj，设定不同的距离均对应一个不同的距离预设值，将传输距离与所有的距离进行匹配获取对应的距离预设值并标记为jlyi，i＝1，2...n；

计算第二坐标与第一坐标之间的夹角并标记为传输夹角，设定不同的夹角均对应一个不同的夹角预设值，将传输夹角与所有的夹角进行匹配获取对应的夹角预设值并标记为jjyi，i＝1，2...n；

利用公式获取语音的正偏值，该公式为：

其中，qzp表示为语音的正偏值，μ表示为预设的传输修正因子，a1、a2表示为不同的比例系数；

将正偏值进行升序排列，并将排序前三的正偏值标记为待选正偏值并组合，得到正偏排序集；

将第一坐标、第二坐标、正偏排序集、夹角预设值和坐标系组合，得到位置信息；

本发明实施例中，通过获取语音的发音源坐标与识别坐标进行匹配分析，可以获取待识别语音的位置信息，为待识别语音的筛选提供数据支撑；

所述数据分析模块用于接收语音信息进行分析，得到语音分析信息，具体的步骤包括：

获取语音信息中的语音强度数据、语音振幅数据、语音内容数据和语音持续时间，设定不同的语音强度均对应一个不同的强度预设值，将语音强度数据与所有的语音强度进行匹配获取对应的强度预设值并标记为qyi，i＝1，2...n；

设定不同的语音振幅均对应一个不同的振幅预设值，将语音振幅数据与所有的语音振幅进行匹配获取对应的振幅预设值并标记为zyi，i＝1，2...n；

获取语音持续时间并进行归一化处理并取其值并标记为csi，i＝1，2...n；

利用公式获取语音的发接值，该公式为：

其中，qfj表示为语音的发接值，β表示为预设的发接修正因子，g1、g2、g3表示为不同的比例系数；

将发接值进行降序排列，并将排序前三的发接值标记为待选发接值并组合，得到发接排序集；

将强度预设值、振幅预设值、归一化的语音持续时间和发接排序集组合，得到语音分析信息；

本发明实施例中，通过对语音信息进行分析，将语音强度、语音振幅、语音内容和语音持续时间之间建立联系提高对语音的分析准确性，克服现有方案中只通过语音中单一的元素进行筛选判别导致识别的准确性差；

所述识别模块用于接收识别信息并进行分析，得到识别结果，具体的步骤包括：

接收识别信息获取有效语音对应的语音强度数据、语音振幅数据、语音内容数据以及语音坐标；

将有效语音对应的语音强度数据标记为有效强度，将有效语音对应的语音振幅数据标记为有效振幅，将有效语音对应的语音内容数据标记为有效内容，将有效语音对应的语音坐标标记为有效坐标；

利用文本转换算法将有效内容进行转换，得到有效文本；

利用公式x＝wi/w0获取有效文本的匹配度x；其中，wi表示为有效文本与预设的标准文本相同的字数，i＝1，2...n；w0表示为标准文本的总字数；

将匹配度进行降序排列并将值最大的匹配度标记为有效匹配度，并将有效匹配度对应的标准文本标记为匹配文本，匹配文本和有效匹配度构成识别结果。

所述提示对话模块用于根据识别结果进行语音提示和对话，包括：

获取识别结果中的匹配文本以及匹配文本对应的文本回复，通过麦克风对有效坐标进行语音播放文本回复，并根据有效振幅和有效强度获取有效坐标发出的语音信息并进行识别和回复，直至与有效坐标之间的交流结束；

所述数据传输模块用于对各个模块之间的数据进行传输；

本发明实施例中，通过对位置信息和语音分析信息进行分析得到最终的筛选结果，并根据筛选结果中已确定的发音坐标和语音特征进行持续对话直至识别结束，提高语音识别的整体效率和准确性；达到根据语音的发送位置和语音数据进行分析和筛选提高回复的准确性的目的；

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式，公式中的系数是由本领域技术人员根据实际情况进行设置。

本发明的工作原理：本发明实施例中，利用数据采集模块采集语音信息，该语音信息包含语音强度数据、语音振幅数据、语音内容数据和语音持续时间，通过数据传输模块将语音信息发送至数据分析模块；通过对语音强度、语音振幅、语音内容和语音持续时间进行综合分析，对语音的筛选和分析提供数据支撑，可以有效提高待识别语音筛选的准确性；

利用数据定位模块获取语音的发音源坐标与麦克风的接收端坐标并进行处理，利用公式获取语音的正偏值，将正偏值进行升序排列，并将排序前三的正偏值标记为待选正偏值并组合，得到正偏排序集；将第一坐标、第二坐标、正偏排序集、夹角预设值和坐标系组合，得到位置信息，通过数据传输模块将位置信息发送至数据识别模块；通过获取语音的发音源坐标与识别坐标进行匹配分析，可以获取待识别语音的位置信息，为待识别语音的筛选提供数据支撑；

利用数据分析模块接收语音信息进行分析，利用公式获取语音的发接值，将发接值进行降序排列，并将排序前三的发接值标记为待选发接值并组合，得到发接排序集；将强度预设值、振幅预设值、归一化的语音持续时间和发接排序集组合，得到语音分析信息，并将语音分析信息发送至数据识别模块；通过对语音信息进行分析，将语音强度、语音振幅、语音内容和语音持续时间之间建立联系提高对语音的分析准确性，克服现有方案中只通过语音中单一的元素进行筛选判别导致识别的准确性差；

利用数据处理模块接收位置信息和语音分析信息并进行处理，利用公式获取语音的关联值，将关联值与预设的标准关联范围进行匹配，若关联值属于标准关联范围，则判定该关联值为有效关联，并将该关联值对应的语音标记为有效语音；若关联值不属于标准关联范围，则判定该关联值为无效关联，并将该关联值对应的语音标记为无效语音；获取有效语音对应的语音强度数据、语音振幅数据、语音内容数据以及语音坐标并进行组合，得到识别信息；通过对位置信息和语音分析信息进行处理建立联系，对语音的发声位置并结合语音的分析进一步进行判断和筛选；

利用识别模块接收识别信息并进行分析，利用公式x＝wi/w0获取有效文本的匹配度x；将匹配度进行降序排列并将值最大的匹配度标记为有效匹配度，并将有效匹配度对应的标准文本标记为匹配文本，匹配文本和有效匹配度构成识别结果，将识别结果发送至提示对话模块；利用提示对话模块根据识别结果进行语音提示和对话；利用数据传输模块对各个模块之间的数据进行传输；通过对位置信息和语音分析信息进行分析得到最终的筛选结果，并根据筛选结果中已确定的发音坐标和语音特征进行持续对话直至识别结束，提高语音识别的整体效率和准确性；达到根据语音的发送位置和语音数据进行分析和筛选提高回复的准确性的目的。

在本发明所提供的实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：主动降噪方法、装置、耳机、可读存储介质及电子设备与流程

一种基于语音识别的人工智能系统的制作方法

相关文章

最热文献