一种在线学习语音识别应答装置及方法

2022-09-07 22:51:35 来源：中国专利 TAG：

1.本发明涉及语音识别的技术领域，尤其是指一种在线学习语音识别应答装置及方法。

背景技术：

2.为解决客户提出的问题，很多公司采用了电话人工客服系统，需要聘用大量的客服人员，费时费力费钱，且难以全天24小时都提供咨询服务，随着人工智能的发展，目前已经有一些自动应答系统或装置，但多数只能机械地回答一些简单问题，很多时候要人工客服介入。这里存在几个技术问题：
3.1、对电话语音识别不准，无法得到客户问题的准确文字，因而也就无法找到准确的答案，一个重要的原因是：客服应答系统通常面向特定的专门用户，应答过程中通常涉及大量的专业术语以及各个地方部门或商店特有的地名、店名、特定编号的设备名。由于语言中大量同音词的存在，目前的语音识别技术往往把这些平时比较生僻的专用词汇识别成其它常见的普通词汇，因而错误率比较高，难以满足专业应答的需要。因此，造成以上问题的主要原因在于：目前的语音识别技术是基于频率优先匹配，当语音变为拼音之后，会优先匹配那些平时出现频率较高的通用词汇、热门词汇；
4.2、直接通过客户的问题句子检索答案难度很大，因为目前的语义理解技术尚在研究中，达不到商用的要求，其次人类语言的文字表达方式千变万化，同一个意思可以有很多表达方式，难以用一个固定的句型来匹配，其结果导致机器的回答经常答非所问，需要人工时时介入；
5.3、客户的问题千奇百怪，难以预料，一个固定的答案库难以应对；
6.进一步，专家电话咨询系统、决策指挥智能应答系统、电力调度智能应答系统都是应答装置或系统，原理上和客户应答系统相同，也面临同样的问题，智能音箱不用电话，但同样是语音应答，其回答也是不尽如人意。此外，通过文字进行应答的客服系统，如电商的客服，则同样面临第2、3个问题。

技术实现要素：

7.本发明的第一目的在于克服现有技术的缺点与不足，提供了一种在线学习语音识别应答装置，可以准确识别语音为文字，能自动应答，并能在线学习人工客服以不断补充现有答案库。
8.本发明的第二目的在于提供一种在线学习语音识别应答装置的语音转文字方法。
9.本发明的第三目的在于提供一种在线学习语音识别应答装置的在线学习的自动文字应答方法。
10.本发明的第四目的在于提供一种在线学习语音识别应答装置的从句子中提取词汇进行搜索并对结果排序的方法。
11.为规范化，本发明的有关名词定义如下：所述词汇指中文词汇，包括该词汇的所有
简称、别称都和该词汇一起存贮，视为同一个词汇，本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇，本地专用词汇和专业术语统称专用词汇，其它称为通用词汇；所述词频指一个词汇出现的频率；所述差频指词汇的频率差异；所述匹配即求拼音串a的一部分拼音和某个中文词汇或字的正确拼音之间的相似度，在本发明中也简称为拼音与文字或词汇的匹配。
12.本发明的第一目的通过下述技术方案实现：一种在线学习语音识别应答装置，包括：语音转文字模块、应答生成单元和语音合成单元；
13.所述语音转文字模块将提问人的语音数字信号识别为相应的文字，输出到应答生成单元，所述提问人指提出问题的人；所述语音转文字模块还将回答人的语音数字信号识别为相应的文字，输出到应答生成单元，所述回答人指回答问题的人，所述语音转文字模块能够通过分时工作的方式分别实现上述两个不同语音源的转化；
14.所述应答生成单元根据提问人语音转化的文字进行查询，生成相应的回答文字；所述应答生成单元能够利用回答人语音生成的文字以生成新答案，供以后查询；
15.所述语音合成单元根据应答生成单元输出的文字合成语音信号，输出到发声装置，实现机器语音回答。
16.优选的，所述的在线学习语音识别应答装置，还包括：电话监听器、声卡；所述语音转文字模块包含两个能独立同时工作的子单元：第一语音转文字单元和第二语音转文字单元；
17.所述第一语音转文字单元将回答人的语音数字信号识别为相应的文字，输出到应答生成单元；
18.所述第二语音转文字单元将提问人的语音数字信号识别为相应的文字，输出到应答生成单元；
19.所述电话监听器和调度员的电话机并联在同一根电话线，获取回答人和提问人通话的2路模拟语音信号，分别对应输出到声卡的第一line in接口、第二line in接口；
20.所述声卡包含第一line in接口、第二line in接口，回答人和提问人的2路模拟语音信号通过声卡的模/数电路转换为2路数字信号，再分别对应输出到第一语音转文字单元和第二语音转文字单元。
21.优选的，所述声卡、第一语音转文字单元、第二语音转文字单元、应答生成单元、语音合成单元都内置在同一台电脑内，所述第一语音转文字单元、第二语音转文字单元分别由所述电脑的一个cpu的两个核心并行实现。
22.优选的，所述的在线学习语音识别应答装置，还包括：
23.差频专用词库单元，用于存储分级的专用词汇及其拼音，以供语音转文字单元查询，从而提高专用词汇匹配的准确率，词汇的级别由其两个频率的差异决定，即在专用资料中出现的频率越高该词汇级别越高，而在通用资料中出现的频率越高该词汇级别越低，所述词汇指中文词汇，包括该词汇的所有简称、别称都和该词汇一起存贮，算同一个词汇，所述专用词汇包括本地专用词汇和专业术语；所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇，同级别的专用词汇存储在同一个子库内，最高级子库为一级子库，以下依次为二级到最低级子库，存储在差频专用词汇库单元中的词汇称之为差频专用词汇或差频词汇；
24.主题词共享单元，用于提取提问人与回答人已有对话文本中的主题词，提供给第一语音转文字单元和第二语音转文字单元查询，以提高后续对话识别率，包括以下模块：
25.主题词确定模块：统计前文重复的词汇及其重复次数；如果该重复词汇是差频专用词汇，则将该词汇加入主题词队列，否则舍去，所述前文为第一语音转文字单元和第二语音转文字单元转化已有对话语音得到的文字；
26.主题词队列排序模块：设从开始本次语音识别启动至当前待识别语音句子为止，已有n个对话语音句子被识别为n个文字句子，当前待识别语音句子编号为第n 1句，则一个重复词汇的主题值为：
[0027][0028]
其中，i、j为该词汇在第i、j句时重复，省略号表示其它重复文字句子，i，j＜n，g为该词汇所属的差频专用词库的子库的级别，其取值为整数，计算前n个文字句子中所有主题词的主题值，再按主题值从大至小排队，得到主题词队列。
[0029]
优选的，所述差频专用词库单元包括：一、二、三、四级子库模块，用于存储一、二、三、四级差频词汇及其差频值，同一级子库中差频值越高的词汇在子库排队越前面；
[0030]
所述一、二、三、四级子库模块中的词汇和差频值由构建单元得到并更新，所述构建单元包括：
[0031]
文字资料采集模块，用于采集包括本地专业文件和通话文本、聊天文本、键盘输入历史记录的文字资料，并搜索网络上的专业文章，所述通话文本由第一语音转文字单元和第二语音转文字单元得到并持续地提供给文字资料采集模块；
[0032]
专用词频词典模块，用于对采集的文字资料进行清理、分词操作，获得词汇列表，接着对词汇列表进行专用词频统计并保存；其中，专用词频＝该词重复的次数
×
该词长度/全部资料总字数；
[0033]
通用词频词典模块，用于对包括人民日报语料库、新浪、搜狐、网易三大网站的新闻资料进行分词操作，获得词汇列表，接着对词汇列表进行通用词频统计并保存，其中，通用词频＝该词重复的次数
×
该词长度/全部资料总字数；
[0034]
差频操作模块，用于对专用词频词典的每个词汇做差频操作，所述差频操作即：
[0035]
差频值＝一个词汇的专用词频－k
×
其通用词频，此处k为固定的系数；
[0036]
差频分配模块，用于将差频值排名前25％的词汇存入一级子库模块，26％至50％的词汇存入二级子库模块，51％至75％的词汇存入三级子库模块，其它大于0的词汇存入四级，差频值小于或等于0的舍去。优选的，所述第一语音转文字单元与第二语音转文字单元相同，都包括以下模块：
[0037]
级别优先匹配模块：语音转拼音后得到字母和音调组成的一个拼音串，设其名为a，a变成文字的过程中，优先与差频专用词库单元的一级子库模块存储词汇的拼音匹配，匹配成功则a的部分拼音变成文字，匹配不成功再考虑下一级，直到最后一级子库模块；
[0038]
频率优先匹配模块：在级别优先匹配模块完成匹配之后，对a余下的拼音与通用词汇的拼音进行匹配，通用资料中出现的频率高的非专用词汇优先匹配，最后余下的拼音与单个中文字的拼音匹配；
[0039]
主题词匹配模块，用于在级别优先匹配模块之前先进行主题词匹配，将a与主题词
队列进行匹配，从队列第一个主题词汇开始，匹配成功则a的部分拼音变成文字，匹配不成功再考虑下一主题词，直到队列最后一个主题词；
[0040]
其中，所述匹配由以下两个模块实现，包括：
[0041]
计算音素编辑距离模块：音素编辑距离指两个拼音串之间，由一个转换成另一个所需的最少音素编辑操作次数，所述音素指拼音的声母或韵母，许可的编辑操作包括：插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个，一次模糊音之间的替换只算0.5次，以上操作不包含音调；
[0042]
判断输出模块：如果匹配的是专用词汇，则当音素编辑距离小于给定阈值时，输出音素编辑距离和匹配成功信号，否则给出匹配失败信号；如果匹配的是通用词汇，则输出音素编辑距离；
[0043]
其中，所述级别优先匹配模块，包括：
[0044]
逆向取词模块：在一级子库模块内未匹配过的词汇中取差频值最高词汇的拼音，设其名称为b，如果一级子库模块中的词汇都已经进行过匹配操作则顺延到下一级子库模块；
[0045]
任意位置转换拼音模块：在a中搜索类似于b的子串c，如b与c匹配成功，则将c转换为相应的中文词汇。如a中有多个类似于b的子串，则都要重复上面操作；所述子串c可位于a的任意位置。
[0046]
优选的，所述应答生成单元包括：
[0047]
查询模块：其输入为第二语音转文字单元的输出，即提问人询问问题的文字句子，设其为a2，将a2中的全部词汇作为一个词汇集合a2s输出到问答汇总库模块进行查询，所述词汇包含主题词、差频词汇、通用词汇，a2s由语音转文字模块得到；
[0048]
重合度计算模块：设问答汇总库内已存的某个问题的文字句子b2及其词汇集合b2s，如果b2s与a2s的重合度大于设定的阀值，则将问答汇总库内与b2相应的答案文字句子存入一个答案序列，如此得到多个答案都存入答案序列，直到问答汇总库搜索完毕；
[0049]
排序模块：答案序列按照重合度从大到小排列，输出序列的第一个答案到语音合成单元以合成发声；如果答案序列为空，则输出请求回答人介入的信号；
[0050]
问答汇总库：用于存储提问人询问的问题、问题的答案及两者的词汇集合，供查询模块查询；
[0051]
在线学习模块：其输入为回答人回答的文字句子，将该回答及其词汇集合作为答案存入问答汇总库，并同时存入与该答案对应的问题文字及其词汇集合，只有当人工问答问题时才启动此在线学习模块；
[0052]
优选的，所述重合度按如下计算：
[0053]
设两个文字句子的词汇集合内有p个主题词相同，按照其主题值从高至低排序：主题词1、主题词2
…
主题词p；再设这两个词汇集合内还有r个差频词汇相同，按照其差频值从高至低排序：差频词汇1、差频词汇2
…
差频词汇r；又设这两个词汇集合内还有j个通用词汇相同，则：
[0054]
两个词汇集合的重合度＝t1 t2
…
tp q1 q2
…
qr u1 u2
…
uj；
[0055]
此处t1，t2
…
tp，q1，q2
…
qr，u1，u2
…
uj为预设的权值系数；
[0056]
所述预设的权值系数t1，t2
…
tp，q1，q2
…
qr，u1，u2
…
uj满足下列条件：
[0057]
t1≧t2≧
…
≧tp≧q1≧q2≧
…
≧qr≧u；此处u表示u1，u2
…
uj中的任何一个。
[0058]
本发明的第二目的通过下述技术方案实现：一种在线学习语音识别应答装置的语音转文字方法，包含以下步骤：
[0059]
s1、语音转拼音：对语音的数字化信号进行分析、识别，并获得语音对应的整句拼音a；
[0060]
s2、对a进行主题词匹配；
[0061]
s3、对a余下的拼音进行级别优先匹配；
[0062]
s4、对a余下的拼音进行频率优先匹配；
[0063]
s5、对a余下的拼音匹配单个汉字，得到整句文本；
[0064]
s6、输出整句文字；并将由s2、s3、s4和s5匹配得到的词汇分类输出到主题词共享单元、差频专用词库、通用词频词典，以刷新主题词队列、差频值及排序、词汇频率，同时所述词汇分类作为一个集合还输出到应答生成单元。
[0065]
本发明的第三目的通过下述技术方案实现：一种在线学习语音识别应答装置的在线学习的自动文字应答方法，用于自动回答网络上提问人的文字提问，并能自动学习回答人的答案，包括：
[0066]
提取词汇：设输入的句子为一段文字句子a2，利用主题词共享单元、差频词汇库、通用词汇库对a2分词得到词汇集合a2s；所述词汇集合包含主题词、差频词汇、通用词汇，所述提问人指提出问题的人，包括客户；
[0067]
查询：a2s输出到问答汇总库进行查询；
[0068]
重合度计算：设问答汇总库内已存的某个问题的文字句子b2及其词汇集合b2s，如果b2s与a2s的重合度大于设定的阀值，则将问答汇总库内与b2相应的答案文字存入一个答案序列，由查询步骤得到多个答案，都存入答案序列，直到问答汇总库搜索完毕；
[0069]
排序：答案序列按照重合度从大到小排列，输出序列的第一个答案给提问人；如果答案序列为空，则输出请求回答人介入的信号，所述回答人指回答问题的人，包括人工客服；
[0070]
问答汇总库：用于存储提问人询问的问题、问题的答案及两者的词汇集合，供查询步骤使用；
[0071]
在线学习：其输入为回答人的答案文字句子，将该答案及其词汇集合作为答案存入问答汇总库，并同时存入与该答案对应的问题文字及其词汇集合，只有当人工问答问题时才启动此在线学习步骤；
[0072]
所述答案序列的长度为1，也就是只保留重合度最大的那个答案，当新答案的重合度大于序列中保留的那个答案，就用新答案替换旧答案，否则不变。
[0073]
本发明的第四目的通过下述技术方案实现：一种在线学习语音识别应答装置的从句子中提取词汇进行搜索并对结果排序的方法，包括：
[0074]
提取词汇：设输入的句子为一段文字句子a2，利用主题词共享单元、差频词汇库、通用词汇库对a2分词得到词汇集合a2s，词汇集合内包含差频词汇和通用词汇；
[0075]
搜索：以a2s搜索网络或本地数据库得到多个结果c1，c2，
…
ci，
…
cm，ci代表i个结果；
[0076]
重合度计算：设ci中含有a2s中的r个差频词汇，按照其差频值从高至低排序：差频
词汇1、差频词汇2
…
差频词汇r；又设ci中还含有a2s中的j个通用词汇，则：
[0077]
ci的重合度＝q1 q2
…
qr u1 u2
…
uj；此处q1，q2
…
qr，u1，u2
…
uj为预设的系数；
[0078]
结果排序：对c1，c2，
…
ci，
…
cm计算重合度后，按照重合度从高到低重新排序并输出；
[0079]
所述预设的系数q1，q2
…
qr，u1，u2
…
uj满足下列条件：q1≧q2≧
…
≧qr≧u，此处u表示u1，u2
…
uj中的任何一个；
[0080]
所述分词，包括：
[0081]
级别优先比对：设一段文字句子a2，优先与差频专用词库单元的一级子库模块存储词汇的文字比对，比对成功则a2的部分文字划分出来为一个词汇，存入一个命名为a2s的词汇集，比对不成功再考虑下一级，直到最后一级子库模块，a2s中的词汇按照划分的时间先后排序；所述比对即求a2中一部分文字和词汇库中某个中文词汇之间的文字相似度；
[0082]
频率优先比对：在级别优先比对完成之后，对a余下的文字与通用词汇的文字进行比对，通用资料中出现的频率高的非专用词汇优先比对，最后余下的文字存入a2s；
[0083]
所述比对，包括：
[0084]
逆向取词：在一级子库模块内未比对过的词汇中取差频值最高词汇，设其名称为d，如果一级子库模块中的词汇都已经进行过比对操作则顺延到下一级子库模块；
[0085]
任意位置划分：在a2中搜索类似于d的文字串e，如e与d比对成功，则将e划分出来为相应的中文词汇，如a2中有多个类似于d的子串，则都要重复上面操作；所述e能够位于a2的任意位置。
[0086]
本发明与现有技术相比，具有如下优点与有益效果：
[0087]
1、可在一台普通的台式电脑上实现电话客服自动应答系统需要的2个语音识别功能：客户通话语音识别、人工客服人员通话语音识别，不需要多个语音识别装置，节约了成本。
[0088]
2、本发明可自动地区分通用词汇和专用词汇，尤其是那些本地专用词汇，从而不需要各个地区部门手工建库，将把这些专用词汇存入一个分级的差频专用词库中并不断刷新、更新和替换，从而节约了客服人员大量的时间和精力。
[0089]
3、本发明的级别优先匹配以专用词汇为重点优先匹配，减少了现有语音识别方法因为优先热门通用词汇造成的错误，从而提高了语音识别准确率。
[0090]
4、本发明能在线学习人工客服的回答，边用边学，不断补充现有答案库，可以更好地应对客户的多种多样问题。
[0091]
5、本发明的重合度方法能区分句子中各词汇的重要性，更准确地匹配答案。
附图说明
[0092]
图1是在线学习语音识别应答装置的结构框图。
[0093]
图2是在线学习的自动文字应答方法的流程图。
[0094]
图3是语音转文字过程流程图。
具体实施方式
[0095]
除了自动应答客服系统，本发明装置还可以应用于专家咨询系统、电力智能调度系统、电话决策支持系统、远程疾病诊断系统，这些系统或装置中，一方人员主要是提出问题或汇报现场的具体情况以寻求相应的对策，另一方人员主要是回答问题或给出决策，如电力调度员和现场检修操作人员的通话，决策中心的指挥人员和现场操作人员的通话，医生和病人的远程通话诊断等，因此为统一起见，下文中统一称为提问人和回答人，回答人的回答不一定是最终答案，也可能是提供给提问人某种进一步的选择或问题，以引导提问人更加清晰地阐述自己的问题；文字句子指一段长度不限的文字。
[0096]
下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。
[0097]
参见图1所示，本实施例公开了一种在线学习语音识别应答装置，包括：
[0098]
电话监听器、第一阻抗匹配装置k1、第二阻抗匹配装置k2、声卡、第一语音转文字单元m1、第二语音转文字单元m2、差频专用词库单元、构建单元、主题词共享单元、应答生成单元、语音合成单元。
[0099]
电话监听器和电话机并联在同一根电话线，获取回答人(如人工客服人员)和提问人(如客户)通话的2路模拟语音信号，分别对应输出到第一阻抗匹配装置k1、第二阻抗匹配装置k2。电话监听器不影响人工接打电话，方便人工客服随时介入。
[0100]
第一阻抗匹配装置k1和第二阻抗匹配装置k2，其阻抗可以调节，使得输入的模拟语音信号的强度发生变化，以适应声卡line in接口的信号强度要求，第一阻抗匹配装置k1和第二阻抗匹配装置k2分别对应输出到声卡的第一line in接口1、第二line in接口2。当然，如果模拟语音信号的强度刚好在声卡的适应范围之内，可以不用阻抗匹配装置。
[0101]
图1中，声卡包含第一line in接口1、第二line in接口2，此2个输入接口分别接收回答人通话语音、提问人通话语音2个模拟信号，通过声卡的2个模/数电路转换为2个数字语音信号，其中提问人语音的数字信号输出到第二语音转文字单元m2，回答人的输出到第一语音转文字单元m1。
[0102]
图1中，第一语音转文字单元m1接收回答人通话的数字语音信号，将其识别为相应的文字并输出，这些文字同时会作为构建单元的输入，用于更新差频词汇及差频值；这些文字同时还会作为构主题词共享单元的输入，用于提取回答人与提问人的电话通话的主题词。
[0103]
图1中，第二语音转文字单元m2接收提问人通话语音的数字化信号，将其识别为相应的文字并输出；这些文字同时会作为构建单元的输入，用于更新差频词汇及差频值；这些文字同时还会作为主题词共享单元的输入，用于提取回答人与提问人电话通话文本中的主题词，同时因为m1和m2共享了差频专用词库单元、主题词共享单元，所以m1和m2两个进程既可以独立工作，更可以相互作用且互补，共同促进，从而可以提高识别的准确率。在后文中会进一步详述m1和m2的细节。
[0104]
上述声卡、第一语音转文字单元m1、第二语音转文字单元m2、应答生成单元、语音合成单元都内置在同一台电脑内，所述第一语音转文字单元m1、第二语音转文字单元m2分别由所述电脑的一个cpu的两个核心并行实现。
[0105]
电话应答装置中的专用词汇的重要性高于普通词汇，因此要优先保证其识别率，
因而要建立专用词汇库，进一步，有噪声的环境影响匹配的相似度，因此匹配相似度相差不大的情况下，要优先匹配高级别的专用词汇。
[0106]
差频专用词库单元，用于存储分级的专用词汇及其拼音，以供两个语音转文字单元查询，从而提高专用词汇匹配的准确率，词汇的级别由其差频值决定，所述词汇指中文词汇，包括该词汇的所有简称、别称都和该词汇一起存贮，视为同一个词汇，所述专用词汇包括本地专用词汇和专业术语，所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇，同级别的专用词汇存储在同一个子库内，最高级子库为一级子库，以下依次为二级到四级子库，用于存储一、二、三、四级差频词汇及其差频值，同一级子库中差频值越高的词汇在子库排队越前面。
[0107]
此外，装置可通过程序自动建差频专用词库。要自动地将专用词汇与普通词汇区别出来，必须利用其差异。专用词汇，特别是本地专用词汇，例如客户问题为“绿光旗舰版激光测距仪有什么功能？”，此处“绿光旗舰版”为专用词汇，一般不会出现在普通的新闻或文章中，而可能会出现在本地文件、本机浏览器记录、本机聊天记录、本机键盘输入记录、本网店设备记录及本地通话文本记录等，相反，通用词汇如“功能”在普通的文章或网文中会频繁出现，此外专业词汇“激光测距仪”则在本地文本、学术文章和新闻报道中都可能出现，因此本专利提出：词汇的级别由其两个频率的差异决定，即在专用资料中出现的频率越高该词汇级别越高，而在通用资料中出现的频率越高该词汇级别越低。
[0108]
构建单元，用于自动建差频专用词库并更新差频专用词库单元中的词汇和差频值，包括：
[0109]
1)文字资料采集模块，用于采集包括本地文件、本机浏览器记录、本机聊天记录、本机键盘输入记录、本网店设备记录及本地通话文本记录等的文字资料，并搜索网络上的专业学术文章，所述通话文本由第一语音转文字单元m1和第二语音转文字单元m2得到并持续地提供给文字资料采集模块；
[0110]
2)专用词频词典模块，用于对采集的文字资料进行清理、分词操作，获得词汇列表，接着对词汇列表进行专用词频统计并保存；其中，专用词频＝该词重复的次数
×
该词长度/全部资料总字数；
[0111]
3)通用词频词典模块，用于对人民日报语料库及新浪、搜狐、网易三大网站的新闻进行分词操作，获得词汇列表，接着对词汇列表进行通用词频统计并保存，其中，通用词频＝该词重复的次数
×
该词长度/全部资料总字数；；
[0112]
4)差频操作模块，用于对专用词频词典的每个词汇做差频操作，所述差频操作即：
[0113]
差频值＝一个词汇的专用词频－k
×
其通用词频，此处k为固定的系数；
[0114]
5)差频分配模块，用于将差频值排名前25％的词汇存入一级子库模块，26％至50％的词汇存入二级子库模块，51％至75％的词汇存入三级子库模块，其它其它大于0的词汇存入四级，差频值小于或等于0的舍去。
[0115]
客户与客服人员进行语音对话交流时，往往有较大的背景噪声，使得语音识别的准确率下降严重。在有噪声的环境中，有些词句可能听不太清楚，人们往往可以由对话的上下文猜测出某些没有听清楚的词句，但目前的语音识别算法仅仅考虑对单句语音进行识别，不能利用对话上下文中连贯的主题语义，这也是目前语音识别算法的弱点。一种优选的方案是在级别优先匹配之前加入主题词匹配，明确了对话的主题，可以提高整段对话的识
别率。
[0116]
图1中的主题词共享单元，用于提取提问人(客户)与回答人(客服人员)已有对话文本中的主题词，提供给第一语音转文字单元m1和第二语音转文字单元m2查询，以提高后续对话识别率，包括以下模块：
[0117]
1)主题词确定模块：统计前文重复的词汇及其重复次数；如果该重复词汇是差频专用词汇，则将该词汇加入主题词队列，否则舍去，所述前文为第一语音转文字单元m1和第二语音转文字单元m2转化已有对话语音得到的文字；
[0118]
2)主题词队列排序模块：设从开始本次语音识别启动至当前待识句子为止，已有n个对话句子被识别，当前待识别句子编号为第n 1句，则一个重复词汇的主题值为：
[0119][0120]
其中i、j为该词汇在第i、j句时重复，省略号表示其它重复句子，i，j＜n，g为该词汇所属的差频专用词库的子库的级别，其取值为1至4整数。计算前n个句子中所有主题词的主题值，再按主题值从大至小排队，得到主题词队列；
[0121]
图1中的第一语音转文字单元m1与第二语音转文字单元m2相同，都包括以下模块：
[0122]
1)主题词匹配模块：语音转拼音后得到字母和音调组成的一个拼音串，设其名为a，a变成文字的过程中，先进行主题词匹配，将a与主题词队列进行匹配，从队列第一个主题词汇开始，匹配成功则a的部分拼音变成文字，匹配不成功再考虑下一主题词，直到队列最后一个主题词；本模块只有在提问人与回答人的电话对话时才启用，否则直接进入级别优先匹配模块。
[0123]
2)级别优先匹配模块：主题词匹配之后，a余下的拼音优先与差频专用词库单元的一级子库模块存储词汇的拼音匹配，匹配成功则a的部分拼音变成文字，匹配不成功再考虑下一级，直到最后四级子库模块；级别优先匹配模块包括两个子模块：逆向取词模块，在一级子库模块内未匹配过的词汇中取差频值最高词汇的拼音，设其名称为b，如果一级子库模块中的词汇都已经进行过匹配操作则顺延到下一级子库模块；任意位置转换拼音模块，在a中搜索类似于b的子串c，如b与c匹配成功，则将c转换为相应的中文词汇。如果a中有多个类似于b的子串，则都要重复上面操作；所述子串c可位于a的任意位置。
[0124]
3)频率优先匹配模块：在级别优先匹配模块完成匹配之后，对a余下的拼音与通用词汇的拼音进行匹配，通用资料中出现的频率高的非专用词汇优先匹配，最后余下的拼音与单个中文字的拼音匹配。
[0125]
语音转文字单元中所用的匹配由匹配模块实现，拼音和词汇及文字的匹配可以按照公知的方法，本发明提供一种优选的匹配方案包括：
[0126]
1)计算音素编辑距离模块：指两个拼音串之间，由一个转换成另一个所需的最少音素编辑操作次数，所述音素指拼音的声母或韵母，许可的编辑操作包括：插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个，一次模糊音之间的替换只算0.5次；例：假定由于说话人的普通话不标准，岳塘站“yue4 tang2 zhan4”说成了“yue4 tan2 zhan4”，则通过替换一个韵母ang就可以得到正确的拼音，此处an和ang是互为模糊音，因此音素编辑距离为0.5。
[0127]
2)判断输出模块：如果匹配的是专用词汇，则当音素编辑距离小于给定阈值时，输
出音素编辑距离和匹配成功信号，否则给出匹配失败信号；如果匹配的是通用词汇，则输出音素编辑距离。
[0128]
此处不考虑拼音的音调，因为中国方言众多，各地发音相差较大，很多人难以区分音调，加上语调和语气的变化也影响音调。
[0129]
图1中的应答生成单元是装置的核心，用于生成答案，包括：
[0130]
查询模块：其输入为提问人询问的问题文字，如上例，客户提的问题“绿光旗舰版激光测距仪有什么功能？”，设其为a2，因为在语音转文字的匹配过程中先就得到了a2中的主题词、差频词汇和通用词汇，将这些词汇按照得到时间先后顺序排列就是a2的词汇集合a2s＝{绿光旗舰版(差频词汇)，激光测距仪(专业词汇)，功能(通用词汇)，什么(通用词汇)，有(通用词汇)}，输出到问答汇总库模块进行查询，设问答汇总库内已存的某个问题的文字句子b2及其词汇集合b2s＝{绿光旗舰版(差频词汇)，激光测距仪(专业词汇)，功能(通用词汇)}，b2s与a2s的重合度大于设定的阀值，则将问答汇总库内与b2相应的答案文字句子{绿光旗舰版激光测距仪有三大功能：倒计时测量、万向水平泡、二次勾股测量}存入一个答案序列，继续以a2s搜索问答汇总库，如此得到多个答案都存入答案序列，直到问答汇总库搜索完毕；答案序列按照重合度从大到小排列，输出序列的第一个答案到语音合成单元以合成发声；如果答案序列为空，则输出请求回答人介入的信号，由人工客服回答问题，同时启动学习模块；
[0131]
问答汇总库：用于存储提问人询问的问题、问题的答案及两者的词汇集合，供查询模块查询；
[0132]
学习模块：其输入为回答人的回答文字，将该回答及其词汇集合作为答案存入问答汇总库，并同时存入与该答案对应的问题文字及其词汇集合，只有当人工问答问题时才启动此学习模块；上例中，假定答案库中没有任何一个能匹配a2s，则答案序列为空，人工客服看到请求介入信号，她拿起电话回答“绿光旗舰版激光测距仪有三大功能：倒计时测量、万向水平泡、二次勾股测量”，该语音将被第二语音转文字单元m2转为文字句子，并作为答案存入问答汇总库，同时将a2s也相应存入问答汇总库，并将两者绑定为一对问题及答案。
[0133]
上述查询模块中重合度按如下计算：
[0134]
设两个文字句子的词汇集合内有p个主题词相同，按照其主题值从高至低排序：主题词1、主题词2
…
主题词p；再设这两个词汇集合内还有r个差频词汇相同，按照其差频值从高至低排序：差频词汇1、差频词汇2
…
差频词汇r；又设这两个词汇集合内还有j个通用词汇相同，则：
[0135]
两个词汇集合的重合度＝t1 t2
…
tp q1 q2
…
qr u1 u2
…
uj。此处t1，t2
…
tp，q1，q2
…
qr，u1，u2
…
uj为预设的权值系数。越重要的词汇其权值越高，因此：t1≧t2≧
…
≧tp≧q1≧q2≧
…
≧qr≧u，此处u表示u1，u2
…
uj中的任何一个。
[0136]
例：a2s＝{绿光旗舰版(差频词汇)，激光测距仪(专业词汇)，功能(通用词汇)，什么(通用词汇)，有(通用词汇)}，b2s＝{绿光旗舰版(差频词汇)，激光测距仪(专业词汇)，功能(通用词汇)}，重合的词汇：绿光旗舰版(差频词汇)，激光测距仪(专业词汇)，功能(通用词汇)，重合度＝0.6 0.3 0.1＝1。此例中，“绿光旗舰版”是最重要的词汇，其次是“激光测距仪”，而“功能”这种通用的普通词汇不重要，对查询的贡献最小，通过重合度的计算，使得我们可以把一个句子按照词汇的重要性进行分解，从而可以像使用关键词一样进行搜索，
目前使用的各种网络搜索引擎需要人工输入关键词，不能用句子搜索，需要一定的技巧，对初学者不太友好。
[0137]
更进一步，本发明的应答生成单元可以单独作为文字自动应答功能使用，当输入本身为文字的时候，就不需要语音识别的相关装置，因此其还有多种新应用场景。
[0138]
第一种新应用是网络聊天问答，如淘宝的阿里旺旺聊天工具，客户和客服都是手工输入文字，此时，应答生成方法与图1中的应答生成单元略有不同，方法的流程如图2所示，此应用中，因为没有语音转化文字步骤，主题词、差频词汇和通用词汇需要从客户输入的文字句子中分词提取，其方法和拼音匹配类似，只是用文字比对代替拼音匹配，例如，客户输入的文字句子a2“绿光旗舰版激光测距仪有什么功能？”，句子中的差频词汇按差频值排序为：绿光旗舰版＞激光测距仪，其它为通用词汇。1)逆向取词：从一级子库按差频值从大至小逐一取词，每取一个词就到a2中查找是否有比对成功的子串；2)任意位置划分：目前的方法都是从第一个文字开始分词，本方法则不同，子串可以在串a2的任意位置划分，如匹配差距大于给定阈值就放弃，再取后一个词，直到“绿光旗舰版”，可以比对a2中的相应部分，从而a2变为[绿光旗舰版激光测距仪有什么功能]。此处逆向取词和任意位置划分是专门针对差频专用词汇设计的，与目前公知的方法不同。同理，之后会将串a2余下的专用词汇划分，最后划分普通词汇：[绿光旗舰版激光测距仪有什么功能]。之后的步骤与图1中的应答生成单元相同。
[0139]
如图2所示，本发明提供的在线学习的自动文字应答方法，用于自动回答网络上提问人的文字提问，并能自动学习回答人的答案，包括：
[0140]
提取词汇：设输入的句子为一段文字句子a2，利用主题词共享单元、差频词汇库、通用词汇库对a2分词得到词汇集合a2s；所述词汇集合包含主题词、差频词汇、通用词汇，所述提问人指提出问题的人，包括客户；
[0141]
查询：a2s输出到问答汇总库进行查询；
[0142]
重合度计算：设问答汇总库内已存的某个问题的文字句子b2及其词汇集合b2s，如果b2s与a2s的重合度大于设定的阀值，则将问答汇总库内与b2相应的答案文字存入一个答案序列，由查询步骤得到多个答案，都存入答案序列，直到问答汇总库搜索完毕；
[0143]
排序：答案序列按照重合度从大到小排列，输出序列的第一个答案给提问人；如果答案序列为空，则输出请求回答人介入的信号，所述回答人指回答问题的人，包括人工客服；
[0144]
问答汇总库：用于存储提问人询问的问题、问题的答案及两者的词汇集合，供查询步骤使用；
[0145]
在线学习：其输入为回答人的答案文字句子，将该答案及其词汇集合作为答案存入问答汇总库，并同时存入与该答案对应的问题文字及其词汇集合，只有当人工问答问题时才启动此在线学习步骤；
[0146]
所述答案序列的长度为1，也就是只保留重合度最大的那个答案，当新答案的重合度大于序列中保留的那个答案，就用新答案替换旧答案，否则不变。
[0147]
此外，本发明的自动文字应答方法还可用于智能音箱等利用语音句子搜索的设备。
[0148]
第二种新应用是从句子中提取词汇进行搜索并对结果排序的方法，包括：
[0149]
提取词汇：设输入的句子为一段文字句子a2，利用主题词共享单元、差频词汇库、通用词汇库对a2分词得到词汇集合a2s，词汇集合内包含差频词汇和通用词汇，分词方法如上文第一种新应用。
[0150]
搜索：以a2s搜索网络或本地数据库得到多个结果c1，c2，
…
ci，
…
cm；
[0151]
重合度计算：设ci中含有a2s中的r个差频词汇，按照其差频值从高至低排序：差频词汇1、差频词汇2
…
差频词汇r；又设ci中还含有a2s中的j个通用词汇，则：
[0152]
ci的重合度＝q1 q2
…
qr u1 u2
…
uj；此处q1，q2
…
qr，u1，u2
…
uj，为预设的系数。
[0153]
结果排序：对c1，c2，
…
ci，
…
cm计算重合度后，按照重合度从高到低重新排序并输出。
[0154]
图3是语音转文字的具体方法和流程，包括以下步骤：
[0155]
s1、语音转拼音。采用公知的深度学习语音识别算法对语音的数字化信号进行分析、识别，并获得语音对应的整句拼音。例如：在电力电话调度应答系统中，调度员回答现场操作人员的语音为：“投入岳塘站岳钢湘石线35接地刀闸和36接地刀闸”时，通过s3步骤的转化，会得到[tou2 ru4 yue4 tang2 zhan4 yue4 gang1 xiang1 shi2 xian4 san1 wu3 jie1 di4 dao1 zha2 he2 san1 liu4 jie1 di4 dao1 zha2]，称之为拼音串a；
[0156]
s2、主题词匹配模块：查询主题词共享单元，将a与主题词共享单元中的主题词队列进行匹配，从队列第一个主题词汇开始，匹配成功则a的部分拼音变成文字，匹配不成功再考虑下一主题词，直到队列最后一个主题词；
[0157]
s3、利用级别优先匹配模块对a中余下的拼音进行中文文本匹配，需要查询差频专用词库。例如，岳塘站、岳钢湘石线、接地刀闸这些都是专用词汇，差频值排序：岳塘站(1级)》岳钢湘石线(2级)》接地刀闸(3级)。1)逆向取词：从一级子库按差频值从大至小逐一取词，每取一个词就到拼音串a中查找是否有匹配的子串。目前的匹配方法是从串a取拼音，到词汇库查找，本专利的方法与其相反，所以称之为逆向取词；2)任意位置转换：目前的方法都是从第一个字母开始转换文字，本方法则不同，子串可以在串a的任意位置转换，如匹配差距大于给定阈值就放弃，再取后一个词，直到岳塘站拼音“yue4 tang2 zhan4”，可以匹配拼音串a中的相应部分，从而拼音串a变为[tou2 ru4岳塘站yue4 gang1 xiang1 shi2 xian4 san1 wu3 jie1 di4 dao1 zha2 he2 san1 liu4 jie1 di4 dao1 zha2]。此处逆向取词和任意位置转换是专门针对差频专用词汇设计的，与目前公知的方法不同。同理，之后会将串a余下的专用词汇转化：[tou2 ru4岳塘站岳钢湘石线san1 wu3接地刀闸he2 san1 liu4接地刀闸]；
[0158]
s5、频率优先匹配模块匹配a余下的拼音与通用词汇。当串a中的全部专用词汇都转换完，就按照公知的频率优先方法匹配通用词汇：按照从前至后的顺序，取tou2 ru4，查通用字典，得到“投入”，串a变为：[投入岳塘站岳钢湘石线san1 wu3接地刀闸he2 san1 liu4接地刀闸]；
[0159]
s6、余下的拼音匹配单个汉字，得到整句文本[投入岳塘站岳钢湘石线35接地刀闸和36接地刀闸]；
[0160]
s7、输出整句文字；输出整句文字；并将由s2、s3、s4和s5匹配得到的词汇分类输出到主题词共享模块、差频专用词库、通用词频词典，以刷新主题词队列、差频值及排序、词汇
频率。例：刷新差频词汇岳塘站、岳钢湘石线的差频值并更新其在差频词汇库中的排序，未出现的差频词汇无需频繁刷新；如果这些词汇还在以前的句子中出现，还要刷新主题词队列，如果以前的句子没有，则新加入队列，放在最后。
[0161]
s8、如继续输入语音，则转s1，否则下一步；
[0162]
s9、结束。
[0163]
上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音数据的处理方法、装置、存储介质以及电子设备与流程

一种在线学习语音识别应答装置及方法

相关文献

最热文献