集外词处理方法、电子设备和存储介质与流程

2022-11-30 13:48:45 来源：中国专利 TAG：

1.本发明属于语音识别领域，尤其涉及集外词处理方法的电子设备和存储介质。

背景技术：

2.随着人工智能技术的发展，语音识别技术取得了巨大的进步，并开始进入家电、通信、汽车、医疗等各个领域。目前在语音识别领域里，工业界里还是使用声学模型加语言模型的架构较多，虽然模型都是基于大规模语料训练的，并且大多数语料也已经收录进了语言模型中，但是语言模型不可能穷尽任何语料，因此难免还是会存在没见过实际场景中的语料，存在声学中没有遇见到的建模单元序列，这类不存在于声学建模单元序列的词语称为集外词。对于人名，地名或者公司组织等集外词名词，语言模型很难迅速得到识别，因此模型的鲁棒性很差。由于这一类的词汇在声学语料中是很难完全概括，所以识别率会比较差。
3.在交叉语种的场合下，例如在国内英文场景中，语音中会经常涉及到国内的很多地名，人名，公司组织名，但是语料里根本没有这类的发音，因此导致这一类的词汇很难识别出来。因此需要一种专门识别地名、人名，公司组织名的特定方法或者装置，来迅速将这类特定集外词转换为集内词，从而达到相关场景中的集外词的识别率。

技术实现要素：

4.本技术实施例的目的在于提供一种集外词处理方法、装置及设备，以提高相关场景中的集外词的识别率，具体技术方案如下：
5.第一方面，本发明提供集外词转换成集内词的方法，包括，响应于获取的集外词，建立所述集外词为第一单元序列，其中集内词也会有相应的建模单元序列，建立集内词为第二单元序列，查找与所述第一建模单元序列语音相似度最高的第二建模单元序列，建立所述第一建模单元序列与第二建模单元序列的跳转关系。跳转关系的完成是通过计算所述第一建模单元的音素序列与所述集内词第二建模单元的音素序列之间的编辑距离，将编辑距离最短的第二音素序列确定为相似度最高的音素序列，从而将集外词映射至集内词上。
6.第二方面，本发明提供一种集外词处理装置，包括：
7.查找程序模块，配置为响应于获取的集外词，响应于获取的集外词，建立集外词为第一单元序列，建立集内词为第二建模单元序列，查找与所述第一建模单元序列语音相似度最高的第二建模单元序列，建立所述第一建模单元序列与第二建模单元序列的跳转关系。计算所述第一音素序列与所述集内词音素序列之间的编辑距离，将编辑距离最短的第二音素序列确定为相似度最高的音素序列，从而将集外词映射至集内词上。
8.第三方面，本发明提供一种电子设备，其包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器有可被所述处理器至少一个处理器执行的指令，所述指令被至少一个处理器执行，以使所述处理器至少一个处理器能够执行本发明任一施例中的集外词到集内词的映射。
9.第四方面，一种存储介质，其上存储有计算机程序，其特征在于所述程序被处理器执行本发明的任一施例中的集外词到集内词的映射。
10.本技术实施例通过将获取的集外词建立为第一建模单元序列，将集内词建立为第二建模单元序列，使用查找与所述第一建模单元序列语音相似度最高的第二建模单元序列，建立所述第一建模单元序列与第二建模单元序列的跳转关系。计算所述第一音素序列与所述集内词音素序列之间的编辑距离，将编辑距离最短的第二音素序列确定为相似度最高的音素序列，从而将集外词映射至集内词上。本技术实施例能够减少重新收集集外词相关的训练语料以及重新训练声学模型耗费的巨大时间成本，提高了集外词在相关场景中的转换率。
附图说明
11.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
12.图1为本发明实施例提供的一种集外词处理方法的流程图；
13.图2为本发明实施例提供的另一种集外词处理方法的流程图；
14.图3为本发明实施例提供又一种集外词处理方法的流程图；
15.图4为本发明实施例提供的一种集外词处理方法的一个具体示例的流程图；
16.图5为本发明一实施例提供的集外词处理方法的设备的结构示意图；
17.图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
18.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.请参考图1，其出示了本技术一实施例提供的一种集外词处理方法的流程图，本实施例的集外词处理方法可以适用于交叉语种场合中的人名、地名或公司组织名的识别中。
20.如图1所示，在步骤101中，响应于获取的集外词，查找与所述集外词语音相似度最高的集内词；
21.在步骤102中，将所述集外词映射至所述集内词上。
22.在本实施例中，对于步骤101，集外词处理装置获取集外词，开始对获取的集外词进行相关的处理，集外词处理装置对于所获取的集外词，通过语音相似度查找，查找出与所述集外词语音相似度最高的集内词。之后，对于步骤102，集外词处理装置将从外界获取的集外词映射至语音相似度最高的集内词上。其中，集外词，又称未登录词，英文表示是oov(out of vocabulary)，未登录词又称为生词(unknown word)，可以有两种解释：一是指已有的词表中没有收录的词；二是指已有的训练语料中未曾出现过的词。在本技术实施例中，集外词可以指在训练集中未曾出现的词集合，可以理解为：一套语音识别系统只能识别出来训练集中的高频词汇，识别不出来的被称为集外词，举例来说一个0-9数字鼓励词识别系
统无法识别数字10，此时10即为集外词。
23.本实施例的方法可以对集外词进行处理，例如可以对首次检测出的集外词进行处理，后续在遇到该集外词找到映射关系就可以当成集内词处理，不用每次都需要对集外词进行处理，从而大大提高了语音识别的效率。
24.在本实施例中，对于步骤101，集外词处理装置会将获取的集外词建立为第一单元建模单位。
25.对于步骤102，集内词也会有相应的建模单元序列，将集内词的建模单元序列定义为第二单元建模单元序列，查找与所述集外词语音相似度最高的集内词。集外词处理装置会通过字素到音素映射(grapheme-to-phoneme,g2p)模型，建立所述第一建模单元序列与所述第二建模单元序列的跳转关系。
26.在步骤103中，集外词处理装置会计算第一音素序列与所述任一集内词音素序列的编辑距离，(编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串)。将编辑距离最短的第二音素序列确定为与所述第一音素序列语音相似度最高的音素序列，从而达到集外词到的集内词的转换，提高了在交叉语境中集外词的转换效率。
27.进一步参考图2，其示出了本技术一实施例提供的另一种集外词处理方法的流程图，该流程图主要是对上述图1中的步骤101“响应于获取的集外词，查找与所述集外词语音相似度最高的集内词”进行进一步限定。
28.如图2所示，在步骤201中，响应于获取的集外词，将所述集外词转换成第一建模单元序列，其中，每一个集内词均具有对应的建模单元序列；
29.在步骤202中，查找与所述第一建模单元序列语音相似度最高的第二建模单元序列。
30.在本实施例中，对于步骤201，集外词处理装置会为集外词建立第一建模单位序列，其中原来的发音词典或者训练语料中的集内词也会有相应的建模单元序列，之后查找到与集内词对应的建模单元序列相似度最高的建模单元序列，将该相似度最高的建模单元序列称之为第二建模单元序列。
31.之后，对于步骤202，集外词处理装置会查找与所述第一建模单元序列语音相似度最高的第二建模单元序列，从而将集外词映射为集内词。
32.在本实施例中，集外词处理装置会将所获取的集外词建立为第一建模单元序列，其中集内词有相应的第二建模单元序列，集外词处理装置可以将集外词和集内词通过字素到音素映射模型各自映射成音素序列。对于相似度最高的建模单元的查找，集外词处理装置可以在音素层面上通过编辑距离，查找在发音上与该建模单元序列最为接近的集内词的建模单元序列。从而可以通过上述方式先将集内词和集外词都转换成建模单元序列，再在建模单元序列上对其进行相似度的比较。
33.在一些可选的实施例中，将所述集外词映射至所述集内词上包括：建立所述第一建模单元序列与所述第二建模单元序列的跳转关系。从而可以通过建模单元序列之间的跳转关系实现集外词到集内词的映射。
34.在一个具体的示例中，集外词处理装置获取外部的与人名、地名或组织名相关的集外词，进一步对集外词进行处理，建立第一建模单元序列，集内词也会有相应的第二建模
单元序列。发音词典的主要功能是帮助用户使用语言，包括会话、造句、作文和翻译中目的语言的生成等编码活动。集外词处理装置会在发音词典里将该集外词映射到集内词最相近的建模单元序列中。
35.在本实施例中，集外词处理装置减少了重新去收集集外词相关的训练语料和重新训练声学模型耗费的巨大时间成本，提高了特定集外词在相关场景中的转换率。
36.进一步参考图3，其示出了本技术一实施例提供的又一种集外词处理方法的流程图，该流程图主要是对上述图2中的步骤202“查找与所述第一建模单元序列语音相似度最高的第二建模单元序列”的流程进行进一步限定。
37.如图3所示，在步骤301中，将所述第一建模单元序列和发音词典中集内词的建模单元序列均输入至字素到音素映射模型以得到与所述第一建模单元序列对应的第一音素序列和与所述集内词的建模单元序列对应的集内词音素序列；
38.在步骤302中，计算所述第一音素序列与任一集内词音素序列的相似度以查找与所述第一音素序列语音相似度最高的第二音素序列，其中，所述第二音素序列对应第二建模单元。
39.在本实施例中，对于步骤301，集外词处理装置将第一建模单元序列和发音词典中集内词的建模单元序列均输入至字素到音素映射模型，这类模型一般是将对接收到的单词中的字母转换成对应音素。集外词处理装置通过上述步骤到与第一建模单元序列对应的第一音素序列和与集内词的建模单元序列对应的集内词音素序列。之后，集外词处理装置会计算第一音素序列与任一集内词音素序列的相似度。然后，集外词处理装置查找出与第一音素序列语音相似度最高的第二音素序列。
40.在本实施例中，集外词处理装置将集外词通过发音词典找出与第一建模单元序列语音相似度最高的第二音素序列，可以得到与集外词的第一建模单元序列相似度最高的第二建模单元序列。
41.在一些可选的实施例中，所述计算所述第一音素序列与任一集内词音素序列的相似度以查找与所述第一音素序列相似度最高的第二音素序列包括：计算所述第一音素序列与所述任一集内词音素序列的编辑距离，将编辑距离最短的第二音素序列确定为与所述第一音素序列语音相似度最高的音素序列。从而可以通过计算编辑距离的方式计算音素序列的相似度，从而找到相似度最高的音素序列。
42.在一个具体的示例中，集外词处理装置会在音素层面上去计算所述集外词与发音词典中任一集内词的编辑距离。然后，集外词处理装置将编辑距离最短的第二音素序列确定为与所述第一音素序列语音相似度最高的音素序列。
43.在本实施例中，集外词处理装置通过计算集外词与发音词典中任一集内词的编辑距离从而确定所述集外词与集内词相似度最高的音素序列，从而解决了从集外词到集内词的映射，提高了集外词在相关场景的识别率。
44.在一些可选的实施例中，所述方法用于交叉语种场景中。交叉语种场景例如中英文交叉语种场景，本身请在此没有限制。
45.在另一些可选的实施例中，所述集外词为地名、人名或组织名。从而，本技术的实施例可以将上述名词识别为集外词并进行后续处理。需要说明的是，语音识别系统不支持直接识别的词即为集外词，除了上述类别还可以是很多类，这里只是举了常见的类别，比如
英文语音识别系统中无法识别出拼音，此时由拼音构成的站名、地名就是英文语音识别中常见的集外词。
46.进一步参考图4，其示出了本发明一实施例提供的一种集外词处理方法的一个具体实施的流程图。
47.例如，在英文语音识别系统中输入华西村、舟山时的具体处理过程。
48.华西村是位于江苏省无锡市江阴市华士镇西部的一个村落，当英文语音识别系统并没有收录这个村落的名字在语音词典中，华西村无法直接采用集内单元进行表示，所以集外词处理装置就会将集外词根据发音采用音素上相似的集内序列进行跳转。具体实施是集外词处理装置接收到华西村这一地名时，装置接收到集外词后会自动将华西村建立子词模型输出为_hua xi cun，此时发音词典会构建与华西村子词模型语音相似度最高的集内词子词模型输出为_wa xen，最后通过字素到音素映射模型将集外词映射至集内词中，最终完成中文地名huaxicun和英文中子词序列“_wa xen”的映射关系。
49.舟山是浙江省辖地级市，当英文语音识别系统并没有收录这个地名在语音词典中，因此舟山就不在集内建模单元中，无法直接采用集内单元进行表示，所以集外词处理装置就会将集外词根据发音采用音素上相似的集内序列进行跳转。具体实施情况是当集外词处理装置接收到舟山这一地名时，装置会自动将舟山建立子词模型输出为_zhoushan,此时发音词典会构建与舟山子词模型语音相似度最高的集内词子词模型输出为_ar son,最后通过字素到音素映射模型将集外词映射至集内词中，最终完成中文地名zhoushan和英文中子词序列“_ar son”的映射关系。
50.上述技术方案通过在映射关系上将集外词转换成在发音上最相近的集内词，映射成集内词后，就按照集内词的解码过程来做。在语义层面，需要修改语言模型(语言模型的修改成本低)，让识别结果能输出huaxicun这样的输出结果。
51.请参考图5，其示出了本发明一实施例提供的一种集外词处理装置的结构示意图。
52.如图5所示，一种集外词处理装置500，包括查找程序模块510和映射程序模块520。
53.其中，查找程序模块510，配置为响应于获取的集外词，查找与所述集外词语音相似度最高的集内词；映射程序模块520，配置为将所述集外词映射至所述集内词上。
54.应当理解，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。
55.值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如查找程序模块可以描述为响应于获取的集外词，查找与所述集外词语音相似度最高的集内词的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如查找程序模块也可以用处理器实现，在此不再赘述。
56.本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的集外词处理方法；
57.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
58.响应于获取的集外词，查找与所述集外词语音相似度最高的集内词；
59.将所述集外词映射至所述集内词上。
60.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程
序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据集外词处理装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
61.上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。
62.本技术实施例还提供了一种电子设备，如图6所示，该设备包括：一个或多个处理器601以及存储器602，图6中以一个处理器601为例。集外词处理方法的设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器602为上述的非易失性计算机可读存储介质。处理器601通过运行存储在存储器602中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例集外词处理方法。输入装置603可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置604可包括显示屏等显示设备。
63.作为一种实施方式，上述电子设备应用于集外词语音识别中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：
64.响应于获取的集外词，查找与所述集外词语音相似度最高的集内词；
65.将所述集外词映射至所述集内词上。
66.本技术实施例的电子设备以多种形式存在，包括但不限于：
67.(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。
68.(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。
69.(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
70.(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
71.(5)其他具有数据交互功能的电子装置。
72.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
73.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
74.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：指挥调度系统的语音识别方法、装置、设备及介质与流程

集外词处理方法、电子设备和存储介质与流程

相关文献

最热文献