多音字语料的标注方法及装置与流程

2023-02-02 01:55:35 来源：中国专利 TAG：

1.本发明涉及软件设计技术领域，尤其涉及多音字语料的标注方法及装置。

背景技术：

2.本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.语音合成在日常生活中已经得到了各种各样的应用，例如电商、物流的智能客服，地图导航语音播报等等。但是对于中文合成系统来说，待合成文本中存在大量的多音字，这些多音字的读音是通过多音字消歧模型预测得到。当测试文本与训练文本领域差异较大的时候，多音字预测的准确性会有比较大的影响。因此需要收集相关场景的语音数据，并通过人工标注多音字发音的方法增加多音字训练数据从而提升多音字预测的效果。然而人工标注具有较高的成本，而且需要较长的时间周期。因此如何自动对各场景语音数据的多音字进行标注是一个亟需解决的技术问题。

技术实现要素：

4.本发明实施例提供一种多音字语料的标注方法，用以实现多音字语料的自动标注，效率高，该方法包括：
5.从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据；
6.基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本；
7.基于多音字扩展文本，构建多音字解码图，所述多音字解码图包括多条路径；
8.基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径；
9.对最优路径中的文字进行语音标注。
10.本发明实施例还提供一种多音字语料的标注装置，用以实现多音字语料的自动标注，效率高，该装置包括：
11.多音字文本识别模块，用于从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据；
12.多音字文本扩展模块，用于基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本；
13.多音字解码图构建模块，用于基于多音字扩展文本，构建多音字解码图，所述多音字解码图包括多条路径；
14.最优路径确定模块，用于基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径；
15.语音标注模块，用于对最优路径中的文字进行语音标注。
16.本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并
可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多音字语料的标注方法。
17.本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多音字语料的标注方法。
18.本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述多音字语料的标注方法。
19.本发明实施例中，从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据；基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本；基于多音字扩展文本，构建多音字解码图，所述多音字解码图包括多条路径；基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径；对最优路径中的文字进行语音标注。与现有技术中通过人工标注的技术方案相比，基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本，并构建多音字解码图，所述多音字解码图包括多条路径，这样，可以直接基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，不需要人工参与，不仅仅利用了多音字文本，还充分利用了语音数据；另外，基于解码图的最优路径确定，可以提高多音字标注的准确性。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
21.图1为本发明实施例中多音字语料的标注方法的流程图；
22.图2为本发明实施例中多音字解码图的中间过程；
23.图3为本发明实施例中多音字解码图的示意图；
24.图4为本发明实施例中多音字语料的标注装置的示意图；
25.图5为本发明实施例中计算机设备的示意图。
具体实施方式
26.为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。
27.首先对本发明涉及的术语进行解释。
28.语音合成：是一个将文本转化为语音输出的过程,这个过程的工作主要是将输入的文本按照发音分解成音素，并对特殊符号进行处理，通过声学模型和声码器将音素序列转换成数字音频。
29.多音字语料：多音字这里指一个汉字有两个或两个以上的读音，不同的读音表义不同，用法不同。读音有区别词性和词义的作用。多音字语料则是包含多音字的语料。
30.自动标注：借助计算机代替人进行标注，这里主要指通过机器学习算法结合文本
与语音，给出文本中的多音字发音。
31.图1为本发明实施例中多音字语料的标注方法的流程图，包括：
32.步骤101，从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据；
33.步骤102，基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本；
34.步骤103，基于多音字扩展文本，构建多音字解码图，所述多音字解码图包括多条路径；
35.步骤104，基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径；
36.步骤105，对最优路径中的文字进行语音标注。
37.在本发明实施例中，与现有技术中通过人工标注的技术方案相比，基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本，并构建多音字解码图，所述多音字解码图包括多条路径，这样，可以直接基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，不需要人工参与，不仅仅利用了多音字文本，还充分利用了语音数据；另外，基于解码图的最优路径确定，可以提高多音字标注的准确性。
38.在步骤101，从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据；这一步也称为数据清洗步骤，目标业务场景可以是人工客服，在一实施例中，从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据，包括：
39.将目标业务场景的语料数据输入至语音识别模型，获得语料数据对应的文本；
40.对照多音字表，从语料数据对应的文本中，获取多音字文本以及对应的语音数据。
41.具体地，语音识别模型是通过海量音库训练获得的，识别准确率高。获得语料数据对应的文本之后，要进行筛选，即，对照多音字表，从语料数据对应的文本中，获取多音字文本以及对应的语音数据。
42.例如：“请到支行柜台办理。”这个文本包含了多音字“行”，需要将该文本筛选出来，获得多音字文本，同时，获取对应的语音数据。
43.在一实施例中，在获取多音字文本以及对应的语音数据之后，还包括：
44.基于句库，计算所述多音字文本中相邻字组合的频率；
45.在所述频率小于预设值时，从多音字文本对应的语音数据中重新识别多音字文本及对应的语音数据。
46.这一步骤是为了提高多音字文本本身的正确率，例如，一语料数据对应的文本应该为“该项任务耗时间”，但是，实际获得的语料数据对应的文本为“该项任务好时间”，而恰巧“该项任务好时间”中有多音字“好”，如果不进行校验，那么需要对“该项任务好时间”这个多音字文本进行后续处理，而实际上这样做是错误的，因此，为了提高多音字标注的准确率与效率，需要对文本进行校验，例如，“该项任务好时间”中，基于现有的句库，查询“好时间”这个相邻字组合出现的频率是否过小，比如100个句子中出现预设值2次以下，那么确定需要重新识别，可重新调用语音识别模型进行识别。
47.在步骤102，基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本；多音字扩展文本是为了构建多音字解码图，由于在端到端语音识别模型中，直接基于单个汉字进行建模，没有汉语拼音中间表示。在多音字解码图中还需要将对应的多音字发音替换成只有一个发音的中文，例如hang2替换成“航”，xing2替换成“型”。这样才能在多音字解
码图上对不同的发音加以区分。根据多音字的同音非多音字，建立唯一发音的多音字映射列表，见表1。比如“请到支行柜台办理”，根据多音字映射列表，扩展多音字文本为两条多音字扩展文本：“请到支航柜台办理”和“请到支型柜台办理”。
48.表1
49.多音字拼音同音字非多音字行hang2航行xing2型
50.在步骤103，基于多音字扩展文本，构建多音字解码图，所述多音字解码图包括多条路径；在一实施例中，基于多音字扩展文本，构建多音字解码图，包括：
51.采用一元语言模型，对多音字扩展文本构建多音字解码图，所述一元语言模型采用有限加权状态转换机的形式表示路径。
52.具体地，多音字解码图的构建用字级别的词典，例如：“请到支行柜台办理。”这条语音对应的多音字解码图如图2和图3所示，其中，图2为本发明实施例中多音字解码图的中间过程；图3为本发明实施例中多音字解码图的示意图，该多音字解码图采用有限加权状态转换机的形式表示路径，图2和图3中均有两条路径。另外，该多音字解码图可以用多个多音字的多音字文本获得的多音字扩展文本进行构建，比如对“行”和“率”，那么多音字扩展文本就应该包括“请到支航柜台办理”，“请到支型柜台办理”，“请到柜台看汇律”，“请到柜台看汇帅”等多音字扩展文本，从而构建多音字解码图。
53.在步骤104，基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径；
54.在一实施例中，基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，包括：
55.将多音字文本对应的语音数据输入到端到端语音识别模型，得到最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径。
56.端到端语音识别模型直接采用目标单元作为建模对象，比如中文使用汉字，英文使用bpe或者word piece作为建模单元。通过特殊的模型(联合使用ctc目标函数以及基于注意力机制的编码器-解码器结构)，处理输入输出的对齐问题。识别效果相对于hybrid模型有较大的提升，是目前语音识别的主流声学模型。
57.在一实施例中，所述端到端端语音识别模型采用维特比搜索算法，在多音字解码图中进行搜索获得最优路径。一般是，计算每个路径的得分，得分最高的为最优路径，例如，“请到支航柜台办理”的得分高于“请到支型柜台办理”路径的得分，识别结果是“请到支航柜台办理”。由此可以判定“请到支行柜台办理。”中多音字“行”的发音等同于“xing2”。“行“的发音可以直接用“航”字的字转发音转换得到。
58.在步骤105，对最优路径中的文字进行语音标注。
59.综上所述，本发明实施例提出的方法中，从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据；基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本；基于多音字扩展文本，构建多音字解码图，所述多音字解码图包括多条路径；基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径；对最优路径中的文字进行语
音标注。与现有技术中通过人工标注的技术方案相比，基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本，并构建多音字解码图，所述多音字解码图包括多条路径，这样，可以直接基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，不需要人工参与，不仅仅利用了多音字文本，还充分利用了语音数据；另外，基于解码图的最优路径确定，可以提高多音字标注的准确性。
60.本发明实施例还提出一种多音字语料的标注装置，其原理与多音字语料的标注方法类似，这里不再赘述。
61.图4为本发明实施例中多音字语料的标注装置的示意图，包括：
62.多音字文本识别模块401，用于从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据；
63.多音字文本扩展模块402，用于基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本；
64.多音字解码图构建模块403，用于基于多音字扩展文本，构建多音字解码图，所述多音字解码图包括多条路径；
65.最优路径确定模块404，用于基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径；
66.语音标注模块405，用于对最优路径中的文字进行语音标注。
67.在一实施例中，多音字文本识别模块具体用于：
68.将目标业务场景的语料数据输入至语音识别模型，获得语料数据对应的文本；
69.对照多音字表，从语料数据对应的文本中，获取多音字文本以及对应的语音数据。
70.在一实施例中，所述装置还包括校验模块406，用于：
71.在获取多音字文本以及对应的语音数据之后，基于句库，计算所述多音字文本中相邻字组合的频率；
72.在所述频率小于预设值时，从多音字文本对应的语音数据中重新识别多音字文本及对应的语音数据。
73.在一实施例中，多音字解码图构建模块具体用于：
74.采用一元语言模型，对多音字扩展文本构建多音字解码图，所述一元语言模型采用有限加权状态转换机的形式表示路径。
75.在一实施例中，最优路径确定模块具体用于：
76.将多音字文本对应的语音数据输入到端到端语音识别模型，得到最优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径。
77.在一实施例中，所述端到端端语音识别模型采用维特比搜索算法，在多音字解码图中进行搜索获得最优路径。
78.综上所述，本发明实施例提出的装置中，多音字文本识别模块，用于从目标业务场景的语料数据中，获取多音字文本以及对应的语音数据；多音字文本扩展模块，用于基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本；多音字解码图构建模块，用于基于多音字扩展文本，构建多音字解码图，所述多音字解码图包括多条路径；最优路径确定模块，用于基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最
优路径，所述端到端端语音识别模型在多音字解码图中进行搜索获得最优路径；语音标注模块，用于对最优路径中的文字进行语音标注。与现有技术中通过人工标注的技术方案相比，基于多音字映射列表，对多音字文本进行扩展，获得多音字扩展文本，并构建多音字解码图，所述多音字解码图包括多条路径，这样，可以直接基于多音字解码图和多音字文本对应的语音数据，获得多音字解码图中的最优路径，不需要人工参与，不仅仅利用了多音字文本，还充分利用了语音数据；另外，基于解码图的最优路径确定，可以提高多音字标注的准确性。
79.本发明实施例还提供一种计算机设备，图5为本发明实施例中计算机设备的示意图，所述计算机设备500包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530，所述处理器520执行所述计算机程序530时实现上述水平越权检测方法。
80.本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多音字语料的标注方法。
81.本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多音字语料的标注方法。
82.本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述多音字语料的标注方法。
83.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
84.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
85.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
86.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
87.以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保
护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：语音降噪方法、电子设备和存储介质与流程

多音字语料的标注方法及装置与流程

相关文献

最热文献