一种语音反馈和交互系统及方法

2022-06-11 17:33:12 来源：中国专利 TAG：

1.本发明涉及语音反馈和交互领域，具体涉及一种语音反馈和交互系统及方法。

背景技术：

2.着计算机技术的普及，当今人们的生活已经逐渐走入智能时代。不仅仅是电脑，手机，pad，人们的衣食住行的方方面面都开始应用出现不久的智能技术，智能电视，智能导航，智能家居等等，智能技术将在人们生活的各个方面提供方便快捷的服务。
3.智能语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。典型的应用场景—语音助手。自从iphone 4s推出 siri后，智能语音交互应用得到飞速发展。中文典型的智能语音交互应用如：虫洞语音助手、讯飞语点已得到越来越多的用户认可。
4.现有的语音反馈和交互系统及方法存在效率低，精度低的问题。本发明提供一种语音反馈和交互系统及方法，能够解决问题。

技术实现要素：

5.本发明所要解决的技术问题是现有技术中存在的效率低，精度低的技术问题。提供一种新的语音反馈和交互系统，该语音反馈和交互系统具有效率高、精度高的特点。
6.为解决上述技术问题，采用的技术方案如下：
7.一种语音反馈和交互系统，所述语音反馈和交互系统包括：语音采集装置，与语音采集装置连接的语音识别装置，与语音识别装置连接的语音反馈和交互结果输出装置；
8.所述语音识别装置包括语音特征库存储单元和处理单元，处理单元执行如下步骤：
9.步骤一，建立历史语句语音特征图库，历史语音特征图是将预先输入或历史记录的语句语音进行特征提取，绘制的语句语音特征图，语句语音特征图包含字、词、句特征图；
10.步骤二，将语音采集装置实时采集的语句语音进行特征提取，绘制目标语句语音特征图；任选历史语句语音特征图库中的语句语音特征图定义为参考图像，将目标语句语音特征图为目标图像，
11.步骤三，将目标图像ic进行二值化处理，值为1则定义为有语音特征，0则定义为无语音特征；将二值化处理后的特征图采用单元网格划分为网格图，定义网格图首点(x1,y1)为原点，定义检索匹配步长为l，自原点开始，沿着x的方向进行检索，如果检索出值为1 的出的，则记录该点的位置和值，并依序标号，否则继续检索匹配；
12.步骤四，将点(x1，y1 n*l)更新为原点，返还执行步骤步骤三，直至x方向和y方向都检索匹配完毕，完成初步定位检索匹配，其中n为整数，l为常数；
13.步骤五，依次将值为1的点取出，将当次取出的1值点更新为原点，更新检索匹配步长为l/2，沿着x方向依次进行检索匹配，之前已经检索匹配的点不再检索匹配，检索匹配到超出范围则自动将检索匹配步长减半，继续检索匹配，直至步长减为最小，检索匹配过程中
出现新的1值点则定义为需要进行y向检索匹配的新点，执行步骤六，否则执行步骤七；
14.步骤六，检索匹配步长为l/2不变，沿着y方向依次进行检索匹配，之前已经检索匹配的点不再检索匹配，检索匹配到超出范围则自动将检索匹配步长减半，继续检索匹配，直至步长减为最小，检索匹配过程中出现新的1值点则定义为需要进行x向检索匹配的新点，执行步骤五，否则执行步骤七；
15.步骤七，直至没有新点需要检索匹配，结束检索匹配，将检索匹配出的1值点的区域集合为有效目标图像；
16.步骤八，将有效目标图像在历史语句语音特征图库进行一致性匹配识别；
17.步骤九，将识别结果通过语音反馈和交互结果输出装置输出，完成交互。
18.本发明的工作原理：本中的语音的特征识别是特诊图的整体识别，能够有更高的识别效率。同时，在时序采集的语音特征图中，提出交互者未说话的部分，更为提高效率。
19.为增加准确率，进一步地，所述步骤八还包括图像校对处理，包括：
20.步骤1，将有效目标图像定义为任选历史语句语音特征图库中一参考图像定义为ic；
21.步骤2，定义参考图像ic和通过极坐标变换后的目标图像有关联关系如下：
22.其中，αz为尺度偏移参数,为旋转偏移参数；
23.步骤3，计算出参考图像ic在极坐标系中径向上的投影在极坐标系中径向上的投影目标图像在径向上的投影将kc(i)和取对数得到lkc(i)和将lkc(i)和的平移差值作为尺度偏移参数αz；
[0024][0025][0026][0027]
为ki＝k
max
处角度方向的采样数，ce()表示大于或等于括号内值的最小整数，fl() 表示小于或大于括号内值的最大整数；目标图像的大小为2k
max
×ꢀ
2k
max
，nr＝k
max
为径向方向采样数，n
φ
＝8ki为角度方向采样数；
[0028]
步骤4，根据步骤3中的尺度偏移参数，计算出参考图像ic和目标图像在径向和角度上的投影：
[0029]
[0030][0031]
对和进行归一化计算，计算出最高点的平移量根据计算出旋转偏移参数
[0032]
步骤5，将旋转偏移参数φz和尺度偏移参数αz带入步骤a对目标图像进行矫正，同时根据计算出∈z最小值对应的位置点为目标图像的中心点，完成图像校对处理。
[0033]
进一步地，所述步骤八一致性匹配识别还包括：
[0034]
步骤a，将目标图像以中心点为中心作同心圆，分割指纹图像成b个环形区域，最后将每个环形区域分割成k个扇形区域，k和b 均为预定义的常数；
[0035]
步骤b，计算出每一扇区s
sq
的扇区指纹特征值v
sqθ
作为code1；
[0036][0037]
其中，f
sqθ
(x,y)为扇形区域s
sq
的各像素的灰度值，p
sqθ
表示扇形区域s
sq
内像素灰度值的平均值，n
sq
为环形区域s
sq
内的数目， 0＜sq≤b
×
k-1，θ＝{0
°
，(360
°
/k)，2*(360
°
/k)，3* (360
°
/k),...≤180
°
}；
[0038]
步骤c，将指纹图像旋转(180
°
/k)后，重复步骤b，提取每个扇区s
sq
的扇区指纹特征值v
sqθ
作为code2；
[0039]
步骤e，将code1和code2分别旋转r
×ꢀ
(360
°
/k)(r＝0,1,2...k-1)得到code1’和code2’；
[0040]
步骤f，将步骤e的code1和code2，code1’和code2’输入历史语句语音特征图库进行匹配。
[0041]
本发明还提供一种语音反馈和交互方法，所述语音反馈和交互方法基于前述的语音反馈和交互系统，语音反馈和交互方法包括：
[0042]
步骤一，语音交互者输出实时语句语音，语音采集装置采集交互者的实时语句语音；绘制目标语句语音特征图；任选历史语句语音特征图库中的语句语音特征图定义为参考图像，将目标语句语音特征图为目标图像，
[0043]
步骤二，处理单元调用存储在存储单元中的预置历史语句语音特征图库，历史语音特征图是将预先输入或历史记录的语句语音进行特征提取，绘制的语句语音特征图，语句语音特征图包含字、词、句特征图；
[0044]
步骤三，将目标图像ic进行二值化处理，值为1则定义为有语音特征，0则定义为无语音特征；将二值化处理后的特征图采用单元网格划分为网格图，定义网格图首点(x1,y1)为原点，定义检索匹配步长为l，自原点开始，沿着x的方向进行检索，如果检索出值为1 的出的，则记录该点的位置和值，并依序标号，否则继续检索匹配；
[0045]
步骤四，将点(x1，y1 n*l)更新为原点，返还执行步骤步骤三，直至x方向和y方向
都检索匹配完毕，完成初步定位检索匹配，其中n为整数，l为常数；
[0046]
步骤五，依次将值为1的点取出，将当次取出的1值点更新为原点，更新检索匹配步长为l/2，沿着x方向依次进行检索匹配，之前已经检索匹配的点不再检索匹配，检索匹配到超出范围则自动将检索匹配步长减半，继续检索匹配，直至步长减为最小，检索匹配过程中出现新的1值点则定义为需要进行y向检索匹配的新点，执行步骤六，否则执行步骤七；
[0047]
步骤六，检索匹配步长为l/2不变，沿着y方向依次进行检索匹配，之前已经检索匹配的点不再检索匹配，检索匹配到超出范围则自动将检索匹配步长减半，继续检索匹配，直至步长减为最小，检索匹配过程中出现新的1值点则定义为需要进行x向检索匹配的新点，执行步骤五，否则执行步骤七；
[0048]
步骤七，直至没有新点需要检索匹配，结束检索匹配，将检索匹配出的1值点的区域集合为有效目标图像；
[0049]
步骤八，将有效目标图像在历史语句语音特征图库进行一致性匹配识别；
[0050]
步骤九，将识别结果通过语音反馈和交互结果输出装置输出，完成语音交互和反馈。
[0051]
进一步地，所述步骤八还包括图像校对处理，包括：
[0052]
步骤1，将有效目标图像定义为任选历史语句语音特征图库中一参考图像定义为ic；
[0053]
步骤2，定义参考图像ic和通过极坐标变换后的目标图像有关联关系如下：
[0054]
其中，αz为尺度偏移参数,为旋转偏移参数；
[0055]
步骤3，计算出参考图像ic在极坐标系中径向上的投影向上的投影目标图像在径向上的投影将kc(i)和取对数得到lkc(i)和将lkc(i)和的平移差值作为尺度偏移参数αz；
[0056][0057][0058][0059]
为ki＝k
max
处角度方向的采样数，ce()表示大于或等于括号内值的最小整数，fl() 表示小于或大于括号内值的最大整数；目标图像的大小为2k
max
×ꢀ
2k
max
，nr＝k
max
为径向方向采样数，n
φ
＝8ki为角度方向采样数；
[0060]
步骤4，根据步骤3中的尺度偏移参数，计算出参考图像ic和目标图像在径向和角度上的投影：
[0061][0062][0063]
对和进行归一化计算，计算出最高点的平移量根据计算出旋转偏移参数
[0064]
步骤5，将旋转偏移参数φz和尺度偏移参数αz带入步骤a对目标图像进行矫正，同时根据计算出∈z最小值对应的位置点为目标图像的中心点，完成图像校对处理。
[0065]
进一步地，所述步骤八一致性匹配识别还包括：
[0066]
步骤a，将目标图像以中心点为中心作同心圆，分割指纹图像成b个环形区域，最后将每个环形区域分割成k个扇形区域，k和b 均为预定义的常数；
[0067]
步骤b，计算出每一扇区s
sq
的扇区指纹特征值v
sqθ
作为code1；
[0068][0069]
其中，f
sqθ
(x,y)为扇形区域s
sq
的各像素的灰度值，p
sqθ
表示扇形区域s
sq
内像素灰度值的平均值，n
sq
为环形区域s
sq
内的数目， 0＜sq≤b
×
k-1，θ＝{0
°
，(360
°
/k)，2*(360
°
/k)，3* (360
°
/k),...≤180
°
}；
[0070]
步骤c，将指纹图像旋转(180
°
/k)后，重复步骤b，提取每个扇区s
sq
的扇区指纹特征值v
sqθ
作为code2；
[0071]
步骤e，将code1和code2分别旋转r
×ꢀ
(360
°
/k)(r＝0,1,2...k-1)得到code1’和code2’；
[0072]
步骤f，将步骤e的code1和code2，code1’和code2’输入历史语句语音特征图库进行匹配。
[0073]
本发明的有益效果：本发明中将语音的特征识别转换为特征图谱的整体识别，能够有更高的识别效率。同时，在时序采集的语音特征图中，提出交互者未说话的部分，更为提高效率。此外，通过对于特征图像的预交校对和定位处理，提高了反馈和交互的精度。
附图说明
[0074]
下面结合附图和实施例对本发明进一步说明。
[0075]
图1，语音反馈和交互系统示意图。
具体实施方式
[0076]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明
进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0077]
实施例1
[0078]
本实施例提供一种语音反馈和交互系统，如图1，所述语音反馈和交互系统包括：语音采集装置，与语音采集装置连接的语音识别装置，与语音识别装置连接的语音反馈和交互结果输出装置；
[0079]
所述语音识别装置包括语音特征库存储单元和处理单元，处理单元执行如下步骤：
[0080]
步骤一，建立历史语句语音特征图库，历史语音特征图是将预先输入或历史记录的语句语音进行特征提取，绘制的语句语音特征图，语句语音特征图包含字、词、句特征图；
[0081]
步骤二，将语音采集装置实时采集的语句语音进行特征提取，绘制目标语句语音特征图；任选历史语句语音特征图库中的语句语音特征图定义为参考图像，将目标语句语音特征图为目标图像，
[0082]
步骤三，将目标图像ic进行二值化处理，值为1则定义为有语音特征，0则定义为无语音特征；将二值化处理后的特征图采用单元网格划分为网格图，定义网格图首点(x1,y1)为原点，定义检索匹配步长为l，自原点开始，沿着x的方向进行检索，如果检索出值为1 的出的，则记录该点的位置和值，并依序标号，否则继续检索匹配；
[0083]
步骤四，将点(x1，y1 n*l)更新为原点，返还执行步骤步骤三，直至x方向和y方向都检索匹配完毕，完成初步定位检索匹配，其中n为整数，l为常数；
[0084]
步骤五，依次将值为1的点取出，将当次取出的1值点更新为原点，更新检索匹配步长为l/2，沿着x方向依次进行检索匹配，之前已经检索匹配的点不再检索匹配，检索匹配到超出范围则自动将检索匹配步长减半，继续检索匹配，直至步长减为最小，检索匹配过程中出现新的1值点则定义为需要进行y向检索匹配的新点，执行步骤六，否则执行步骤七；
[0085]
步骤六，检索匹配步长为l/2不变，沿着y方向依次进行检索匹配，之前已经检索匹配的点不再检索匹配，检索匹配到超出范围则自动将检索匹配步长减半，继续检索匹配，直至步长减为最小，检索匹配过程中出现新的1值点则定义为需要进行x向检索匹配的新点，执行步骤五，否则执行步骤七；
[0086]
步骤七，直至没有新点需要检索匹配，结束检索匹配，将检索匹配出的1值点的区域集合为有效目标图像；
[0087]
步骤八，将有效目标图像在历史语句语音特征图库进行一致性匹配识别；
[0088]
步骤九，将识别结果通过语音反馈和交互结果输出装置输出，完成交互。
[0089]
本发明的工作原理：本中的语音的特征识别是特诊图的整体识别，能够有更高的识别效率。同时，在时序采集的语音特征图中，提出交互者未说话的部分，更为提高效率。
[0090]
为增加准确率，优选地，所述步骤八还包括图像校对处理，包括：
[0091]
步骤1，将有效目标图像定义为任选历史语句语音特征图库中一参考图像定义为ic；
[0092]
步骤2，定义参考图像ic和通过极坐标变换后的目标图像有关联关系如下：
[0093]
其中，αz为尺度偏移参数,为旋转偏移参数；
[0094]
步骤3，计算出参考图像ic在极坐标系中径向上的投影在极坐标系中径向上的投影目标图像在径向上的投影将kc(i)和取对数得到lkc(i)和将lkc(i)和的平移差值作为尺度偏移参数αz；
[0095][0096][0097][0098]
为ki＝k
max
处角度方向的采样数，ce()表示大于或等于括号内值的最小整数，fl() 表示小于或大于括号内值的最大整数；目标图像的大小为2k
max
×ꢀ
2k
max
，nr＝k
max
为径向方向采样数，n
φ
＝8ki为角度方向采样数；
[0099]
步骤4，根据步骤3中的尺度偏移参数，计算出参考图像ic和目标图像在径向和角度上的投影：
[0100][0101][0102]
对和进行归一化计算，计算出最高点的平移量根据计算出旋转偏移参数
[0103]
步骤5，将旋转偏移参数φz和尺度偏移参数αz带入步骤a对目标图像进行矫正，同时根据计算出∈z最小值对应的位置点为目标图像的中心点，完成图像校对处理。
[0104]
优选地，所述步骤八一致性匹配识别还包括：
[0105]
步骤a，将目标图像以中心点为中心作同心圆，分割指纹图像成b个环形区域，最后将每个环形区域分割成k个扇形区域，k和b 均为预定义的常数；
[0106]
步骤b，计算出每一扇区s
sq
的扇区指纹特征值v
sqθ
作为code1；
[0107][0108]
其中，f
sqθ
(x,y)为扇形区域s
sq
的各像素的灰度值，p
sqθ
表示扇形区域s
sq
内像素灰度值的平均值，n
sq
为环形区域s
sq
内的数目， 0＜sq≤b
×
k-1，θ＝{0
°
，(360
°
/k)，2*(360
°
/k)，3* (360
°
/k),...≤180
°
}；
[0109]
步骤c，将指纹图像旋转(180
°
/k)后，重复步骤b，提取每个扇区s
sq
的扇区指纹特征值v
sqθ
作为code2；
[0110]
步骤e，将code1和code2分别旋转r
×ꢀ
(360
°
/k)(r＝0,1,2...k-1)得到code1’和code2’；
[0111]
步骤f，将步骤e的code1和code2，code1’和code2’输入历史语句语音特征图库进行匹配。
[0112]
本实施例还提供一种语音反馈和交互方法，所述语音反馈和交互方法基于前述的语音反馈和交互系统，语音反馈和交互方法包括：
[0113]
步骤一，语音交互者输出实时语句语音，语音采集装置采集交互者的实时语句语音；绘制目标语句语音特征图；任选历史语句语音特征图库中的语句语音特征图定义为参考图像，将目标语句语音特征图为目标图像，
[0114]
步骤二，处理单元调用存储在存储单元中的预置历史语句语音特征图库，历史语音特征图是将预先输入或历史记录的语句语音进行特征提取，绘制的语句语音特征图，语句语音特征图包含字、词、句特征图；
[0115]
步骤三，将目标图像ic进行二值化处理，值为1则定义为有语音特征，0则定义为无语音特征；将二值化处理后的特征图采用单元网格划分为网格图，定义网格图首点(x1,y1)为原点，定义检索匹配步长为l，自原点开始，沿着x的方向进行检索，如果检索出值为1 的出的，则记录该点的位置和值，并依序标号，否则继续检索匹配；
[0116]
步骤四，将点(x1，y1 n*l)更新为原点，返还执行步骤步骤三，直至x方向和y方向都检索匹配完毕，完成初步定位检索匹配，其中n为整数，l为常数；
[0117]
步骤五，依次将值为1的点取出，将当次取出的1值点更新为原点，更新检索匹配步长为l/2，沿着x方向依次进行检索匹配，之前已经检索匹配的点不再检索匹配，检索匹配到超出范围则自动将检索匹配步长减半，继续检索匹配，直至步长减为最小，检索匹配过程中出现新的1值点则定义为需要进行y向检索匹配的新点，执行步骤六，否则执行步骤七；
[0118]
步骤六，检索匹配步长为l/2不变，沿着y方向依次进行检索匹配，之前已经检索匹配的点不再检索匹配，检索匹配到超出范围则自动将检索匹配步长减半，继续检索匹配，直至步长减为最小，检索匹配过程中出现新的1值点则定义为需要进行x向检索匹配的新点，执行步骤五，否则执行步骤七；
[0119]
步骤七，直至没有新点需要检索匹配，结束检索匹配，将检索匹配出的1值点的区域集合为有效目标图像；
[0120]
步骤八，将有效目标图像在历史语句语音特征图库进行一致性匹配识别；
[0121]
步骤九，将识别结果通过语音反馈和交互结果输出装置输出，完成语音交互和反馈。
[0122]
优选地，所述步骤八还包括图像校对处理，包括：
[0123]
步骤1，将有效目标图像定义为任选历史语句语音特征图库中一参考图像定义为ic；
[0124]
步骤2，定义参考图像ic和通过极坐标变换后的目标图像有关联关系如下：
[0125]
其中，αz为尺度偏移参数,为旋转偏移参数；
[0126]
步骤3，计算出参考图像ic在极坐标系中径向上的投影在极坐标系中径向上的投影目标图像在径向上的投影将kc(i)和取对数得到lkc(i)和将lkc(i)和的平移差值作为尺度偏移参数αz；
[0127][0128][0129][0130]
为ki＝k
max
处角度方向的采样数，ce()表示大于或等于括号内值的最小整数，fl() 表示小于或大于括号内值的最大整数；目标图像的大小为2k
max
×ꢀ
2k
max
，nr＝k
max
为径向方向采样数，n
φ
＝8ki为角度方向采样数；
[0131]
步骤4，根据步骤3中的尺度偏移参数，计算出参考图像ic和目标图像在径向和角度上的投影：
[0132][0133][0134]
对和进行归一化计算，计算出最高点的平移量根据计算出旋转偏移参数
[0135]
步骤5，将旋转偏移参数φz和尺度偏移参数αz带入步骤a对目标图像进行矫正，同时根据计算出∈z最小值对应的位置点为目标图像的中心点，完成图像校对处理。
[0136]
优选地，所述步骤八一致性匹配识别还包括：
[0137]
步骤a，将目标图像以中心点为中心作同心圆，分割指纹图像成b个环形区域，最后将每个环形区域分割成k个扇形区域，k和b 均为预定义的常数；
[0138]
步骤b，计算出每一扇区s
sq
的扇区指纹特征值v
sqθ
作为code1；
[0139][0140]
其中，f
sqθ
(x,y)为扇形区域s
sq
的各像素的灰度值，p
sqθ
表示扇形区域s
sq
内像素灰度值的平均值，n
sq
为环形区域s
sq
内的数目， 0＜sq≤b
×
k-1，θ＝{0
°
，(360
°
/k)，2*(360
°
/
k)，3* (360
°
/k),...≤180
°
}；
[0141]
步骤c，将指纹图像旋转(180
°
/k)后，重复步骤b，提取每个扇区s
sq
的扇区指纹特征值v
sqθ
作为code2；
[0142]
步骤e，将code1和code2分别旋转r
×ꢀ
(360
°
/k)(r＝0,1,2...k-1)得到code1’和code2’；
[0143]
步骤f，将步骤e的code1和code2，code1’和code2’输入历史语句语音特征图库进行匹配。
[0144]
本实施例中的语音的特征识别是特诊图的整体识别，能够有更高的识别效率。同时，在时序采集的语音特征图中，提出交互者未说话的部分，更为提高效率。同时，通过对于特征图像的预交校对和定位处理，提高了反馈和交互的精度。
[0145]
尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员能够理解本发明，但是本发明不仅限于具体实施方式的范围，对本技术领域的普通技术人员而言，只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内，一切利用本发明构思的发明创造均在保护之列。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音处理方法、系统、电子设备和存储介质与流程

一种语音反馈和交互系统及方法

相关文献

最热文献