一种基于语音模型的方言转述方法及相关装置与流程

2022-02-19 11:43:25 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别涉及一种基于语音模型的方言转述方法及相关装置。

背景技术：

2.目前现有的语音助手对于一般常见问题的回应都较为人性化，但表达能力很大程度上受限于训练语料的内容和模型泛化能力的限制，针对不常见或不具有标准答案的问题通常有不太智能的表现。例如，当问到一句话如何用方言转述时，经常会出现答非所问或转述错误的现象。这样一方面限制了语音助手的使用，另一方面也会给用户的使用带来不便。
3.因而现有技术还有待改进和提高。

技术实现要素：

4.本技术要解决的技术问题在于，针对现有技术的不足，提供一种基于语音模型的方言转述方法及相关装置。
5.为了解决上述技术问题，本技术实施例第一方面提供了一种基于语音模型的方言转述方法，所述方法包括：
6.获取语音文本，并通过预训练的意图识别模型确定所述语音文本对应的转述意图；
7.当所述转述意图为转述方言时，通过预训练的实体识别模型确定所述语音文本对应的方言区域以及转述文本；
8.基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言语音，以将所述语音文本转换为方言语音。
9.所述的基于语音模型的方言转述方法，其中，所述获取语音文本，并通过预训练的意图识别模型确定所述语音文本对应的转述意图之前，所述方法还包括：
10.构建预设数据库，其中，所述预设数据库包括若干数据组，若干数据组中的每个数据组均包括方言区域、属于所述方言区域的方言文本、所述方言文本对应的方言语音以及方言文本对应的普通话文本。
11.所述的基于语音模型的方言转述方法，其中，所述意图识别模型和所述实体识别模型均预先训练的bert模型。
12.所述的基于语音模型的方言转述方法，其中，所述基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言文本具体包括：
13.在所述预设数据库中查找所述方言区域对应的所有参考数据组；
14.在查找到的所有参考数据组中查找与所述转述文本相匹配的普通话文本，并将所述普通话文本对应的方言文本作为所述转述文本对应的方言文本。
15.所述的基于语音模型的方言转述方法，其中，所述在查找到的所有参考数据组中查找与所述转述文本相匹配的普通话文本具体包括：
16.在所有参考数据组中查找与所述转述文本的文本内容相同的目标普通话文本；
17.若查找到目标普通话文本，则将所述目标普通话文本作为与所述转述文本相匹配的普通话文本；
18.若未查找到目标普通话文本，则通过预训练的bert模型确定各参考数据组中的普通话文本与所述转述文本的相似度，并基于所述相似度确定所述转述文本相匹配的普通话文本。
19.所述的基于语音模型的方言转述方法，其中，所述基于所述相似度确定所述转述文本相匹配的普通话文本具体包括：
20.在所有参考数据组中选取相似度大于预设相似度阈值的候选数据组；
21.当选取到候选数据组时，将候选数据组中相似度最大的候选数据组中的普通话文本作为所述转述文本相匹配的普通话文本；
22.若未选取到候选数据组，则将默认文本作为所述转述文本相匹配的普通话文本。
23.所述的基于语音模型的方言转述方法，其中，所述基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言语音，以将所述语音文本转换为方言语音之后，所述方法还包括：
24.通过语音播放装置播放所述方言语音。
25.本技术实施例第二方面提供了一种基于语音模型的方言转述装置，所述的装置包括：
26.获取模块，用于获取语音文本，并通过预训练的意图识别模型确定所述语音文本对应的转述意图；
27.确定模块，用于当所述转述意图为转述方言时，通过预训练的实体识别模型确定所述语音文本对应的方言区域以及转述文本；
28.转换模块，用于基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言语音，以将所述语音文本转换为方言语音。
29.本技术实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的基于语音模型的方言转述方法中的步骤。
30.本技术实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；
31.所述通信总线实现处理器和存储器之间的连接通信；
32.所述处理器执行所述计算机可读程序时实现如上任一所述的基于语音模型的方言转述方法中的步骤。
33.有益效果：与现有技术相比，本技术提供了一种基于语音模型的方言转述方法及相关装置，所述方法包括：获取语音文本，并通过预训练的意图识别模型确定所述语音文本对应的转述意图；当所述转述意图为转述方言时，通过预训练的实体识别模型确定所述语音文本对应的方言区域以及转述文本；基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言语音，以将所述语音文本转换为方言语音。本技术通过预设数据库对各方言区域的常用方言进行整合和，然后使用意图识别模型和实体识别模型来确定需要转换为方言转述的转述语句以及转述语句所对应的方言区域，最后在预设数据库
中选取转述语句对应的方言语音，这样可以提高方言转述的准确性，给用户的使用带来方便。
附图说明
34.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。
35.图1为本技术提供的基于语音模型的方言转述方法的流程图。
36.图2为本技术提供的基于语音模型的方言转述方法的流程示例图。
37.图3为本技术提供的基于语音模型的方言转述方法中的实体识别模型的模型结构示意图。
38.图4为本技术提供的基于语音模型的方言转述装置的结构原理图。
39.图5为本技术提供的终端设备的结构原理图。
具体实施方式
40.本技术提供一种基于语音模型的方言转述方法及相关装置，为使本技术的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本技术进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
41.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
42.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
43.应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
44.发明人经过研究发现，目前现有的语音助手对于一般常见问题的回应都较为人性化，但表达能力很大程度上受限于训练语料的内容和模型泛化能力的限制，针对不常见或不具有标准答案的问题通常有不太智能的表现。例如，当问到一句话如何用方言转述时，经常会出现答非所问或转述错误的现象。这样一方面限制了语音助手的使用，另一方面也会给用户的使用带来不便。
45.为了解决上述问题，在本技术实施例中，获取语音文本，并通过预训练的意图识别
模型确定所述语音文本对应的转述意图；当所述转述意图为转述方言时，通过预训练的实体识别模型确定所述语音文本对应的方言区域以及转述文本；基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言语音，以将所述语音文本转换为方言语音。本技术通过预设数据库对各方言区域的常用方言进行整合和，然后使用意图识别模型和实体识别模型来确定需要转换为方言转述的转述语句以及转述语句所对应的方言区域，最后在预设数据库中选取转述语句对应的方言语音，这样可以提高方言转述的准确性，给用户的使用带来方便。。
46.下面结合附图，通过对实施例的描述，对申请内容作进一步说明。
47.本实施例提供了一种基于语音模型的方言转述方法，如图1和图2所示，所述方法包括：
48.s10、获取语音文本，并通过预训练的意图识别模型确定所述语音文本对应的转述意图。
49.具体地，所述意图识别模型为经过训练的神经网络模型，用于识别语音文本中的转述意图，其中，转述意图包括转述方言和不转述方言。可以理解的是，意图识别模型的输入项为语音文本，输出项为转述意图，也就是说，输出项为转述方言或者不转述方言。语音文本为普通话语音文本，也就是说，语音文本为采用普通话讲述的语音信息，其中，语音文本可以通过运行有本实施例提供的基于语音模型的方言转述方法的电子设备拾取到的，也可以是外部设备发送给该电子设备的，还可以是通过云端获取到的等。在本实施例的一个典型实现方式中，语音文本为运行有本实施例提供的基于语音模型的方言转述方法的电子设备拾取到的，电子设备配置有语音拾取装置以及语音播报装置，语音拾取装置用于拾取待转述的语音文本，语音播报装置用于播放语音信息。
50.在本实施例的一个实现方式中，所述意图识别模型可以基于bert模型构建，意图识别模型包括bert模型以及二分类输出层，二分类输出层与bert模型连接，通过二分类输出层输出转述意图，其中，bert模型为预训练的bert模型，这样在构建形成意图识别模型后，可以对bert模型进行微调就可以得到意图识别模型，这样可以提高意图识别模型的训练速度。此外，意图识别模型微调训练所采用的训练样本可以包括普通话语料以及普通话语料对应的转述意图，例如，普通话语料为“我好喜欢你用粤语怎么说”，普通话语料对应的转述意图为转述方言，或者，普通话语料为“我好喜欢你”，普通话语料对应的转述意图为不转述方言。
51.s20、当所述转述意图为转述方言时，通过预训练的实体识别模型确定所述语音文本对应的方言区域以及转述文本。
52.具体地，实体识别模型为经过训练的神经网络模型，用于识别语音文本中的方言区域以及转述文本，也就是说，实体识别模型的输入项为语音文本，输出项为语音文本中写的反应区域以及转述文本。例如，语音文本对应的语料为“我好喜欢你用粤语怎么说”，将语音文本输入实体识别模型后，实体识别模型的输出项为方言区域为粤语对应的区域，转述文本为我好喜欢你。
53.在本实施例的一个实现方式中，如图3所示，所述实体识别模型包括预训练的bert模块，bilstm模块以及crf模块，其中，bert模块为经过预先训练的bert模型，通过bert模型对语音文本进行语出。所述实体识别模型所采用的训练样本可以包括训练语料及训练语料
对应的标注方言区域和标注转述文本。例如，训练语料为“我好喜欢你用粤语怎么说”，标注方言区域为粤语对应的方言区域，标注转述文本为我好喜欢你。
54.s30、基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言语音，以将所述语音文本转换为方言语音。
55.具体地，所述预设数据库为预先建立，用于存储若干数据组，若干数据组中的每个数据组均包括方言区域、属于所述方言区域的方言语音以及方言语音对应的普通话文本，以便于基于该预设数据库来确定转述文本对应的方言文本，以便于将语音本文转换为方言语音。此外，为了便于用户理解方言语音，数据组中还可以包括方言文本，在播放方言语音是可以同步显示方言文本。
56.基于此，在本实施例的一个实现方式中，所述获取语音文本，并通过预训练的意图识别模型确定所述语音文本对应的转述意图之前，所述方法还包括：
57.s0、构建预设数据库。
58.具体地，所述预设数据库中至少存在两个数据组，两个数据组各自对应的方言区域不相同。也就是说，在将预设数据库内的数据组按照所处方言区域进行划分时，可以划分得到至少两个数据集，并每个数据集中至少包括一个数据组。在一个典型实现方式中，预设数据库包括若干数据集，若干数据集中的每个数据集均包括多个数据组，并每个数据集中的各数据组中的方言区域相同，同时，不同数据集中的数据组中的方言区域不同。例如，预设数据库内包括数据集a、数据集b以及数据集c，数据集a包括数据组a1、数据组a2以及数据组a3；数据集b包括数据组b1、数据组b2以及数据组b3；数据集c包括数据组c1、数据组c2以及数据组c3，那么数据组a1中的方言区域与数据组b1中的方言区域不相同，数据组b1中的方言区域与数据组c1中的方言区域不相同。
59.在本实施例的一个实现方式中，方言区域可以省份或者城市来划分的，例如，以省份划分为广东方言以及四川方言等，以城市划分为深圳方言和成都方言等等。所述预设数据库中的各方言区域可以常用方言区域，例如，包括四川方言区域、广东方言区域以及湖南方言区域等，并且各方言区域对应的数据集中包括该方言区域的常用方言，例如，吃饭了吗，我好喜欢你等。
60.在本实施例的一个实现方式中，所述基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言文本具体包括：
61.在所述预设数据库中查找所述方言区域对应的所有参考数据组；
62.在查找到的所有参考数据组中查找与所述转述文本相匹配的普通话文本，并将所述普通话文本对应的方言文本作为所述转述文本对应的方言文本。
63.具体地，所有参考数据组中的每个参数数据组均包括与数据库内，并且参考数据组中的方言区域与语音文本对应的方言区域相同，并预设数据库中除查找到的参考数据组外的任一数据组的方言区域与语音文本对应的方言区域均不相同。此外，与所述转述文本相匹配的普通话文本为所有参考数据组中的一个数据组所包括的普通话文本，该数据组中的普通话文本与所述转述文本相匹配，其中，相匹配指的是数据组中的普通话文本的文本内容与转述文本的文本内容相匹配，例如，数据组中的普通话文本的文本内容与转述文本的文本内容相同，或者是，数据组中的普通话文本的文本内容与转述文本的文本内容相似度大于预设相似度阈值等。
64.在本实施例的一个实现方式中，所述在查找到的所有参考数据组中查找与所述转述文本相匹配的普通话文本具体包括：
65.在所有参考数据组中查找与所述转述文本的文本内容相同的目标普通话文本；
66.若查找到目标普通话文本，则将所述目标普通话文本作为与所述转述文本相匹配的普通话文本；
67.若未查找到目标普通话文本，则通过预训练的bert模型确定各参考数据组中的普通话文本与所述转述文本的相似度，并基于所述相似度确定所述转述文本相匹配的普通话文本。
68.具体地，与所述转述文本的文本内容相同的目标普通话文本指的是目标普通话文本中的文本内容与转述文本中的文本内如完全相同，例如，转述文本的文本内容为我好喜欢你，那么目标普通话文本的文本内容也为我好喜欢你，那么转述文本与目标普通话文本的内容相同。相似度用于反映转述文本的文本内容与参考数据组中的普通话文本的文本内容的匹配程度，其中，相似度越高，说明转述文本的文本内容与参考数据组中的普通话文本的文本内容的匹配程度越高，反之，相似度越低，说明转述文本的文本内容与参考数据组中的普通话文本的文本内容的匹配程度越低。由此，可以基于相似度来确定转述文本对应的普通话文本。相应的，在本实施例的一个实现方式中，所述基于所述相似度确定所述转述文本相匹配的普通话文本具体包括：
69.在所有参考数据组中选取相似度大于预设相似度阈值的候选数据组；
70.当选取到候选数据组时，将候选数据组中相似度最大的候选数据组中的普通话文本作为所述转述文本相匹配的普通话文本；
71.若未选取到候选数据组，则将默认文本作为所述转述文本相匹配的普通话文本。
72.具体地，预设相似度阈值为预先设置的，为衡量是否转述文本相匹配的普通话文本的依据，当一参考数据组中的普通话文本的文本内容与转述文本的文本内容的相似度大于预设相似度阈值时，说明该参考数据组中的普通话文本可以作为转述文本相匹配的普通话文本。此外，在实际应用中，所有参考数据组中可以存在多个候选数据组中的普通话文本的文本内容与转述文本的文本内容的相似度大于预设相似度阈值的情况，此时将候选数据组中相似度最大的候选数据组中的普通话文本作为所述转述文本相匹配的普通话文本，这样可以提高转换得到的方言语音的准确性。当然，在其他实现方式中，也可以在多个候选数据组中随机选取一个候选数据组，将该候选数据组中的普通话文本作为所述转述文本相匹配的普通话文本。
73.所述默认文本为预先设置的，用于在未选取到候选数据组是作为所述转述文本相匹配的普通话文本，其中，所述默认文本的文本内容可以为我不知道或者我无法翻译等兜底文本，这样可以通过默认文本告知用户该语音文本无法转换为方言语音，而避免出现转述错误的问题。
74.在本实施例的一个实现方式中，在获取到方言语音之后，可以通过语音播放装置播放所述方言语音，以使得用户获知到语音文本对应的方言语音，其中，所述方言语音存储于转述文本对应的普通话文本所处的数据组内，该数据组内还包括方言文本，从而可以同步显示方言文本。
75.综上所述，本实施例提供了一种基于语音模型的方言转述方法，所述方法包括：获
取语音文本，并通过预训练的意图识别模型确定所述语音文本对应的转述意图；当所述转述意图为转述方言时，通过预训练的实体识别模型确定所述语音文本对应的方言区域以及转述文本；基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言语音，以将所述语音文本转换为方言语音。本技术通过预设数据库对各方言区域的常用方言进行整合和，然后使用意图识别模型和实体识别模型来确定需要转换为方言转述的转述语句以及转述语句所对应的方言区域，最后在预设数据库中选取转述语句对应的方言语音，这样可以提高方言转述的准确性，给用户的使用带来方便。
76.基于上述基于语音模型的方言转述方法，本技术还提供了一种基于语音模型的方言转述装置，如图4所示，所述的装置包括：
77.获取模块100，用于获取语音文本，并通过预训练的意图识别模型确定所述语音文本对应的转述意图；
78.确定模块200，用于当所述转述意图为转述方言时，通过预训练的实体识别模型确定所述语音文本对应的方言区域以及转述文本；
79.转换模块300，用于基于所述方言区域以及所述转述文本在预设数据库内查找所述转述文本对应的方言语音，以将所述语音文本转换为方言语音。
80.基于上述基于语音模型的方言转述方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的基于语音模型的方言转述方法中的步骤。
81.基于上述基于语音模型的方言转述方法，本技术还提供了一种终端设备，如图5所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(communications interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。
82.此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
83.存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。
84.存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，u盘、移动硬盘、只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。
85.此外，上述训练样本集的获取装置的具体工作过程，存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。
86.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：声纹识别模型训练方法、声纹识别方法及相关设备与流程

一种基于语音模型的方言转述方法及相关装置与流程

相关文献

最热文献