一种在线学习语音识别应答装置及方法

2022-09-07 22:51:35 来源：中国专利 TAG：

技术特征：
1.一种在线学习语音识别应答装置，其特征在于，包括：语音转文字模块、应答生成单元和语音合成单元；所述语音转文字模块将提问人的语音数字信号识别为相应的文字，输出到应答生成单元，所述提问人指提出问题的人；所述语音转文字模块还将回答人的语音数字信号识别为相应的文字，输出到应答生成单元，所述回答人指回答问题的人，所述语音转文字模块能够通过分时工作的方式分别实现上述两个不同语音源的转化；所述应答生成单元根据提问人语音转化的文字进行查询，生成相应的回答文字；所述应答生成单元能够利用回答人语音生成的文字以生成新答案，供以后查询；所述语音合成单元根据应答生成单元输出的文字合成语音信号，输出到发声装置，实现机器语音回答。2.根据权利要求1所述的一种在线学习语音识别应答装置，其特征在于，还包括：电话监听器、声卡；所述语音转文字模块包含两个能独立同时工作的子单元：第一语音转文字单元和第二语音转文字单元；所述第一语音转文字单元将回答人的语音数字信号识别为相应的文字，输出到应答生成单元；所述第二语音转文字单元将提问人的语音数字信号识别为相应的文字，输出到应答生成单元；所述电话监听器和调度员的电话机并联在同一根电话线，获取回答人和提问人通话的2路模拟语音信号，分别对应输出到声卡的第一line in接口、第二line in接口；所述声卡包含第一line in接口、第二line in接口，回答人和提问人的2路模拟语音信号通过声卡的模/数电路转换为2路数字信号，再分别对应输出到第一语音转文字单元和第二语音转文字单元。3.根据权利要求1所述的一种在线学习语音识别应答装置，其特征在于，还包括：差频专用词库单元，用于存储分级的专用词汇及其拼音，以供语音转文字单元查询，从而提高专用词汇匹配的准确率，词汇的级别由其两个频率的差异决定，即在专用资料中出现的频率越高该词汇级别越高，而在通用资料中出现的频率越高该词汇级别越低，所述词汇指中文词汇，包括该词汇的所有简称、别称都和该词汇一起存贮，算同一个词汇，所述专用词汇包括本地专用词汇和专业术语；所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇，同级别的专用词汇存储在同一个子库内，最高级子库为一级子库，以下依次为二级到最低级子库，存储在差频专用词汇库单元中的词汇称之为差频专用词汇或差频词汇；主题词共享单元，用于提取提问人与回答人已有对话文本中的主题词，提供给第一语音转文字单元和第二语音转文字单元查询，以提高后续对话识别率，包括以下模块：主题词确定模块：统计前文重复的词汇及其重复次数；如果该重复词汇是差频专用词汇，则将该词汇加入主题词队列，否则舍去，所述前文为第一语音转文字单元和第二语音转文字单元转化已有对话语音得到的文字；主题词队列排序模块：设从开始本次语音识别启动至当前待识别语音句子为止，已有n个对话语音句子被识别为n个文字句子，当前待识别语音句子编号为第n 1句，则一个重复词汇的主题值为：
其中，i、j为该词汇在第i、j句时重复，省略号表示其它重复文字句子，i，j＜n，g为该词汇所属的差频专用词库的子库的级别，其取值为整数，计算前n个文字句子中所有主题词的主题值，再按主题值从大至小排队，得到主题词队列。4.根据权利要求3所述的一种在线学习语音识别应答装置，其特征在于，所述差频专用词库单元包括：一、二、三、四级子库模块，用于存储一、二、三、四级差频词汇及其差频值，同一级子库中差频值越高的词汇在子库排队越前面；所述一、二、三、四级子库模块中的词汇和差频值由构建单元得到并更新，所述构建单元包括：文字资料采集模块，用于采集包括本地专业文件和通话文本、聊天文本、键盘输入历史记录的文字资料，并搜索网络上的专业文章，所述通话文本由第一语音转文字单元和第二语音转文字单元得到并持续地提供给文字资料采集模块；专用词频词典模块，用于对采集的文字资料进行清理、分词操作，获得词汇列表，接着对词汇列表进行专用词频统计并保存；其中，专用词频＝该词重复的次数
×
该词长度/全部资料总字数；通用词频词典模块，用于对包括人民日报语料库、新浪、搜狐、网易三大网站的新闻资料进行分词操作，获得词汇列表，接着对词汇列表进行通用词频统计并保存，其中，通用词频＝该词重复的次数
×
该词长度/全部资料总字数；差频操作模块，用于对专用词频词典的每个词汇做差频操作，所述差频操作即：差频值＝一个词汇的专用词频－k
×
其通用词频，此处k为固定的系数；差频分配模块，用于将差频值排名前25％的词汇存入一级子库模块，26％至50％的词汇存入二级子库模块，51％至75％的词汇存入三级子库模块，其它大于0的词汇存入四级，差频值小于或等于0的舍去。5.根据权利要求2所述的一种在线学习语音识别应答装置，其特征在于，所述第一语音转文字单元与第二语音转文字单元相同，都包括以下模块：级别优先匹配模块：语音转拼音后得到字母和音调组成的一个拼音串，设其名为a，a变成文字的过程中，优先与差频专用词库单元的一级子库模块存储词汇的拼音匹配，匹配成功则a的部分拼音变成文字，匹配不成功再考虑下一级，直到最后一级子库模块；频率优先匹配模块：在级别优先匹配模块完成匹配之后，对a余下的拼音与通用词汇的拼音进行匹配，通用资料中出现的频率高的非专用词汇优先匹配，最后余下的拼音与单个中文字的拼音匹配；主题词匹配模块，用于在级别优先匹配模块之前先进行主题词匹配，将a与主题词队列进行匹配，从队列第一个主题词汇开始，匹配成功则a的部分拼音变成文字，匹配不成功再考虑下一主题词，直到队列最后一个主题词；其中，所述匹配由以下两个模块实现，包括：计算音素编辑距离模块：音素编辑距离指两个拼音串之间，由一个转换成另一个所需的最少音素编辑操作次数，所述音素指拼音的声母或韵母，许可的编辑操作包括：插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个，一次模糊音之间的替换只算0.5次，以上操作不包含音调；
判断输出模块：如果匹配的是专用词汇，则当音素编辑距离小于给定阈值时，输出音素编辑距离和匹配成功信号，否则给出匹配失败信号；如果匹配的是通用词汇，则输出音素编辑距离；其中，所述级别优先匹配模块，包括：逆向取词模块：在一级子库模块内未匹配过的词汇中取差频值最高词汇的拼音，设其名称为b，如果一级子库模块中的词汇都已经进行过匹配操作则顺延到下一级子库模块；任意位置转换拼音模块：在a中搜索类似于b的子串c，如b与c匹配成功，则将c转换为相应的中文词汇。如a中有多个类似于b的子串，则都要重复上面操作；所述子串c可位于a的任意位置。6.根据权利要求1所述的一种在线学习语音识别应答装置，其特征在于，所述应答生成单元包括：查询模块：其输入为第二语音转文字单元的输出，即提问人询问问题的文字句子，设其为a2，将a2中的全部词汇作为一个词汇集合a2s输出到问答汇总库模块进行查询，所述词汇包含主题词、差频词汇、通用词汇，a2s由语音转文字模块得到；重合度计算模块：设问答汇总库内已存的某个问题的文字句子b2及其词汇集合b2s，如果b2s与a2s的重合度大于设定的阀值，则将问答汇总库内与b2相应的答案文字句子存入一个答案序列，如此得到多个答案都存入答案序列，直到问答汇总库搜索完毕；排序模块：答案序列按照重合度从大到小排列，输出序列的第一个答案到语音合成单元以合成发声；如果答案序列为空，则输出请求回答人介入的信号；问答汇总库：用于存储提问人询问的问题、问题的答案及两者的词汇集合，供查询模块查询；在线学习模块：其输入为回答人回答的文字句子，将该回答及其词汇集合作为答案存入问答汇总库，并同时存入与该答案对应的问题文字及其词汇集合，只有当人工问答问题时才启动此在线学习模块；7.根据权利要求6所述的一种在线学习语音识别应答装置，其特征在于，所述重合度按如下计算：设两个文字句子的词汇集合内有p个主题词相同，按照其主题值从高至低排序：主题词1、主题词2
…
主题词p；再设这两个词汇集合内还有r个差频词汇相同，按照其差频值从高至低排序：差频词汇1、差频词汇2
…
差频词汇r；又设这两个词汇集合内还有j个通用词汇相同，则：两个词汇集合的重合度＝t1 t2
…
tp q1 q2
…
qr u1 u2
…
uj；此处t1，t2
…
tp，q1，q2
…
qr，u1，u2
…
uj为预设的权值系数；所述预设的权值系数t1，t2
…
tp，q1，q2
…
qr，u1，u2
…
uj满足下列条件：t1≧t2≧
…
≧tp≧q1≧q2≧
…
≧qr≧u；此处u表示u1，u2
…
uj中的任何一个。8.权利要求1-7任意一项所述的一种在线学习语音识别应答装置的语音转文字方法，其特征在于，包含以下步骤：s1、语音转拼音：对语音的数字化信号进行分析、识别，并获得语音对应的整句拼音a；s2、对a进行主题词匹配；s3、对a余下的拼音进行级别优先匹配；
s4、对a余下的拼音进行频率优先匹配；s5、对a余下的拼音匹配单个汉字，得到整句文本；s6、输出整句文字；并将由s2、s3、s4和s5匹配得到的词汇分类输出到主题词共享单元、差频专用词库、通用词频词典，以刷新主题词队列、差频值及排序、词汇频率，同时所述词汇分类作为一个集合还输出到应答生成单元。9.权利要求1-7任意一项所述的一种在线学习语音识别应答装置的在线学习的自动文字应答方法，其特征在于，用于自动回答网络上提问人的文字提问，并能自动学习回答人的答案，包括：提取词汇：设输入的句子为一段文字句子a2，利用主题词共享单元、差频词汇库、通用词汇库对a2分词得到词汇集合a2s；所述词汇集合包含主题词、差频词汇、通用词汇，所述提问人指提出问题的人，包括客户；查询：a2s输出到问答汇总库进行查询；重合度计算：设问答汇总库内已存的某个问题的文字句子b2及其词汇集合b2s，如果b2s与a2s的重合度大于设定的阀值，则将问答汇总库内与b2相应的答案文字存入一个答案序列，由查询步骤得到多个答案，都存入答案序列，直到问答汇总库搜索完毕；排序：答案序列按照重合度从大到小排列，输出序列的第一个答案给提问人；如果答案序列为空，则输出请求回答人介入的信号，所述回答人指回答问题的人，包括人工客服；问答汇总库：用于存储提问人询问的问题、问题的答案及两者的词汇集合，供查询步骤使用；在线学习：其输入为回答人的答案文字句子，将该答案及其词汇集合作为答案存入问答汇总库，并同时存入与该答案对应的问题文字及其词汇集合，只有当人工问答问题时才启动此在线学习步骤。10.权利要求1-7任意一项所述的一种在线学习语音识别应答装置的从句子中提取词汇进行搜索并对结果排序的方法，其特征在于，包括：提取词汇：设输入的句子为一段文字句子a2，利用主题词共享单元、差频词汇库、通用词汇库对a2分词得到词汇集合a2s，词汇集合内包含差频词汇和通用词汇；搜索：以a2s搜索网络或本地数据库得到多个结果c1，c2，
…
ci，
…
cm，ci代表i个结果；重合度计算：设ci中含有a2s中的r个差频词汇，按照其差频值从高至低排序：差频词汇1、差频词汇2
…
差频词汇r；又设ci中还含有a2s中的j个通用词汇，则：ci的重合度＝q1 q2
…
qr u1 u2
…
uj；此处q1，q2
…
qr，u1，u2
…
uj为预设的系数；结果排序：对c1，c2，
…
ci，
…
cm计算重合度后，按照重合度从高到低重新排序并输出；所述预设的系数q1，q2
…
qr，u1，u2
…
uj满足下列条件：q1≧q2≧
…
≧qr≧u，此处u表示u1，u2
…
uj中的任何一个；所述分词，包括：级别优先比对：设一段文字句子a2，优先与差频专用词库单元的一级子库模块存储词汇的文字比对，比对成功则a2的部分文字划分出来为一个词汇，存入一个命名为a2s的词汇集，比对不成功再考虑下一级，直到最后一级子库模块，a2s中的词汇按照划分的时间先后排序；所述比对即求a2中一部分文字和词汇库中某个中文词汇之间的文字相似度；频率优先比对：在级别优先比对完成之后，对a余下的文字与通用词汇的文字进行比
对，通用资料中出现的频率高的非专用词汇优先比对，最后余下的文字存入a2s；所述比对，包括：逆向取词：在一级子库模块内未比对过的词汇中取差频值最高词汇，设其名称为d，如果一级子库模块中的词汇都已经进行过比对操作则顺延到下一级子库模块；任意位置划分：在a2中搜索类似于d的文字串e，如e与d比对成功，则将e划分出来为相应的中文词汇，如a2中有多个类似于d的子串，则都要重复上面操作；所述e能够位于a2的任意位置。

技术总结
本发明公开了一种在线学习语音识别应答装置及方法，用于将电话通话的语音识别为文字，并根据这些文字给出相关的机器语音回答，尤其是这种电话自动应答装置有在线学习的功能，可以用于替代电话人工客服，电话咨询系统、电话指挥决策系统等。本发明利用一台普通电脑的声卡实现2路模拟语音识别，结合差频原理识别和提取对话语音中的专用词汇，提高了语音识别率和回答的准确率。别率和回答的准确率。别率和回答的准确率。

技术研发人员：胡劲松冯思铭贺映玲
受保护的技术使用者：华南理工大学
技术研发日：2022.06.20
技术公布日：2022/9/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音数据的处理方法、装置、存储介质以及电子设备与流程

一种在线学习语音识别应答装置及方法

相关文献

最热文献