训练数据生成及模型训练方法、装置及计算机存储介质与流程

2022-12-13 23:29:26 来源：中国专利 TAG：

1.本技术实施例涉及模型训练技术领域，特别涉及一种训练数据生成及模型训练方法、装置及计算机存储介质。

背景技术：

2.自动语音识别(asr)是利用计算机将连续语音转写为文字的技术。随着深度学习技术的不断发展，目前asr识别准确率有了很大提升，在商业领域取得了很大的成功。但是在实际使用场景中，受限于说话人的表述质量，即使asr系统的识别量较高，识别结果的文本也往往存在不平滑的现象，对于后续的用户阅读感受仍然不够友好。此外，不平滑的语音识别结果也会影响后续的自然语言处理流程的分析效果。
3.目前文本平滑处理的常见算法主要包括两种，其一是规则匹配的方式，其二是使用大量的标注数据进行深度神经网络的训练。然而，上述两种算法在实际应用中都存在很大的限制。
4.对于规则匹配的方式，需要大量的专家知识来总结规则或者模式，然而，由于实际应用场景中，文本不平滑的现象非常灵活多变，导致规则匹配为主的算法，难以很好地适应灵活多变的实际应用场景。
5.对于使用大量标注数据训练深度神经网络的方式，在算法效果上虽然更胜一筹，但是可以支持实际使用的大量标注数据难以获取。首先，中文的不平滑通用开源数据几乎没有。其次，对于不同领域需要的领域语料，更是只能全部依赖于人工标注。最后，不平滑语料的标注难度也比较大，再加上很多系统方案需要同时使用句法等其他标注信息，因此大规模的人工标注难以实现。
6.有鉴于此，需要一种训练数据生成方案，以解决现有文本平滑处理模型的训练数据难以获得的技术问题。

技术实现要素：

7.鉴于上述问题，本技术提供一种训练数据生成及模型训练方案，可批量且灵活地生成不同类型的非平滑文本训练数据，以降低模型训练成本并提高模型训练效果。
8.根据本技术实施例的第一方面，提供一种训练数据生成方法，包括：根据随机确定的粒度级别，确定目标文本的构造位置；根据随机确定的片段长度、所述目标文本的构造位置、确定所述目标文本的构造片段；根据随机确定的构造规则、所述目标文本的构造位置和构造片段，重构所述目标文本，生成所述目标文本的构造文本；根据所述目标文本和所述构造文本，获得所述目标文本的训练数据。
9.根据本技术实施例的第二方面，提供一种模型训练方法，包括：利用文本处理模型，对训练数据中的构造文本执行文本平滑处理，获得所述构造文本的预测文本；根据所述训练数据中的目标文本、所述预测文本，获取所述文本处理模型的损失函数；根据所述损失函数更新所述文本处理模型，直至所述损失函数满足训练结束条件，以获得训练好的文本
处理模型；其中，所述训练数据是由上述第一方面所述的训练数据生成方法所生成的。
10.根据本技术实施例的第三方面，提供一种训练数据生成装置，包括：构造位置确定模块，用于根据随机确定的粒度级别，确定目标文本的构造位置；构造片段确定模块，用于根据随机确定的片段长度、所述目标文本的构造位置、确定所述目标文本的构造片段；文本重构模块，根据随机确定的构造规则、所述目标文本的构造位置和构造片段，重构所述目标文本，生成所述目标文本的构造文本；数据生成模块，用于根据所述目标文本和所述构造文本，获得所述目标文本的训练数据。
11.根据本技术实施例的第四方面，提供一种模型训练装置，包括：获取模块，用于获取训练数据，其中，所述训练数据是由如上述第三方面所述的训练数据生成装置所生成的；训练模块，用于利用文本处理模型，对训练数据中的构造文本执行文本平滑处理，获得所述构造文本的预测文本，根据所述训练数据中的目标文本、所述预测文本，获取所述文本处理模型的损失函数，并根据所述损失函数更新所述文本处理模型，直至所述损失函数满足训练结束条件，以获得训练好的文本处理模型。
12.根据本技术实施例的第五方面，提供一种计算机存储介质所述计算机存储介质中存储有用于执行上述第一方面所述的训练数据生成方法中各步骤的各指令，或执行上述第二方面所述的模型训练方法中各步骤的各指令。。
13.综上所述，本技术各实施例提供的训练数据生成方案，首先基于随机确定的粒度级别和片段长度，确定目标文本的构造位置和构造片段，并基于随机确定的构造规则，利用构造片段对目标文本的构造位置执行文本重构，以生成目标文本的构造文本。
14.借此，本技术可在无需人工干预的情况下，基于平滑的目标文本，自动生成不同类型的不平滑文本训练数据，借以降低训练数据制作成本，且可提供灵活多变的训练数据以供执行模型训练，从而有效提高模型预测性能。
附图说明
15.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
16.图1为本技术示例性实施例的训练数据生成方法的处理流程图。
17.图2为本技术示例性实施例的模型训练方法的处理流程图。
18.图3为本技术另一示例性实施例的模型训练方法的处理流程图。
19.图4为本技术示例性实施例的训练数据生成装置的结构框图。
20.图5为本技术示例性实施例的模型训练装置的结构框图。
具体实施方式
21.为了使本领域的人员更好地理解本技术实施例中的技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术实施例一部分实施例，而不是全部的实施例。基于本技术实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本技术实施例保护的范围。
22.在实际使用场景中，受限于说话人的表述质量，即使识别质量较高的asr系统，其语音文本识别结果也往往存在不平滑的现象，影响了读者的阅读感受。此外，不平滑的文本识别结果也会影响后续的自然语言处理流程的分析效果。
23.一般而言，文本不平滑的情况可以分为下表中的四种，其中{}标志标识了不平滑的表述：不平滑类型举例插入停顿我觉得{嗯}不太好。重复{这个之前}这个之前已经处理好了。修改我{昨}今天要去公司。重开始{我准备先}你是怎么考虑的。
24.通过对不平滑文本执行文本平滑处理，以将{}中的不平滑表述删除，可在不改变文本原意的前提下，更好地理解文本的表述含义。
25.然而，在现有技术中，不平滑语料的标注数据难以获取。首先，中文的不平滑通用开源数据几乎没有。其次，对于不同领域需要的领域语料，目前只能依赖于人工标注。再者，不平滑语料的标注难度也比较大，再加上很多系统方案需要同时使用句法等其他标注信息，因此大规模的人工标注难以实现。
26.有鉴于此，本技术提供一种训练数据生成方案，可基于平滑文本自动生成不同类型的不平滑文本，以克服现有不平滑文本的标注数据难以获取的技术问题。
27.以下将结合各附图详细描述本技术的各实施例。
28.图1为本技术示例性实施例的训练数据生成方法的处理流程图。如图所示，本实施例主要包括以下步骤：
29.步骤s102，根据随机确定的粒度级别，确定目标文本的构造位置。
30.于本实施例中，目标文本为平滑文本。
31.示例性地，可从新闻文稿、各类出版物中获取平滑的目标文本。
32.可选地，粒度级别可包括字粒度级别、词粒度级别中的一个。
33.于本实施例中，可基于随机确定的粒度级别识别目标文本，确定目标文本中的多个粒度特征，并基于目标文本中的各粒度特征，随机确定的位置数量，确定目标文本中的至少一个构造位置。
34.例如：
35.目标文本为：今天下雨了
36.目标文本的字粒度特征包括：“今”、“天”、“下”、“雨”、“了”37.其中，在随机确定的构造位置为3个的情况下，目标文本的构造位置包括：“今”、“下”、“雨”。
38.又如：
39.目标文本为：今天下雨了
40.目标文本的词粒度特征包括：“今天”、“下雨”、“了”41.其中，在随机确定的构造位置为2个的情况下，目标文本的构造位置包括：“今天”、“下雨”。
42.步骤s104，根据随机确定的片段长度、目标文本的构造位置、确定目标文本的构造
片段。
43.可选地，针对目标文本的各构造位置中的任意一个当前构造位置，可将当前构造位置对应的粒度特征中的第一个字符确定为片段起点，并基于随机确定的片段长度、当前构造位置的片段起点，确定当前构造位置的片段终点，且基于片段起点和片段终点，确定当前构造位置的当前构造片段。
44.例如：
45.目标文本为：今天下雨了
46.当前构造位置的粒度特征为：“今天”47.当前构造位置的片段起点为：“今”48.其中，若随机片段长度为3，则构造片段为“今天下”，若随机片段长度为1，构造片段为“今”，以此类推。
49.步骤s106，根据随机确定的构造规则、目标文本的构造位置和构造片段，重构目标文本，生成目标文本的构造文本。
50.于本实施例中，构造文本为不平滑文本。
51.于一实施例中，构造规则可至少包括：完全重复构造规则、部分重复构造规则、替换构造规则、交换构造规则中的一个。
52.可选地，根据随机确定的当前构造规则、当前构造片段，确定满足当前构造规则的待编辑文本，并根据当前构造位置、待编辑文本，对目标文本执行重构处理，生成目标文本的构造文本。
53.于本实施例中，可将待编辑文本插入目标文本的当前构造位置的前端，以生成目标文本的构造文本。
54.具体地，在当前构造规则为完全重复构造规则的情况下，待编辑文本即为当前构造片段本身；在当前构造规则为部分重复构造规则的情况下，可随机提取当前构造片段中的部分字符，以构成待编辑文本；在当前构造规则为替换构造规则的情况下，可从各预建文本中查询与当前构造片段具有相同的首字符的一个预建文本，以作为待编辑文本；在当前构造规则为交换构造规则的情况下，可将当前构造片段中各字符的字符位置进行随机交换，以构成待编辑文本。
55.例如，
56.目标文本为：今天下雨了
57.基于完全重复构造规则所生成的构造文本为：(今天)今天下雨了
58.基于部分重复构造规则所生成的构造文本为：(今)今天下雨了
59.基于替换构造规则所生成的构造文本为：(今早)今天下雨了
60.基于交换构造规则所生成的构造文本为：(天今)今天下雨了
61.于另一实施例中，构造规则可至少包括插入构造规则。
62.可选地，可根据插入构造规则、当前构造片段，从各预设插入文本中随机确定一个待插入文本，并根据当前构造位置、待插入文本，对目标文本执行重构处理，生成目标文本的构造文本。
63.于本实施例中，可将待插入文本插入目标文本的当前构造位置的前端，以生成目标文本的构造文本。
64.于本实施例中，插入构造规则包括停顿插入构造规则和非停顿插入构造规则中的一个。
65.其中，停顿插入构造规则对应的待插入文本包括各类语助词，例如：“嗯
…”
，“哦
…”
等；停顿插入构造规则对应的待插入文本例如:“那个”等。
66.例如：
67.目标文本为：今天下雨了
68.基于停顿插入构造规则所生成的构造文本为：(恩
…
)今天下雨了
69.基于停顿插入构造规则所生成的构造文本为：(那个)今天下雨了
70.步骤s108,根据目标文本和构造文本，获得目标文本的训练数据。
71.于本实施例中，可将平滑的目标文本作为标签数据，并将目标文本的不平滑的构造文本作为训练样本，以供执行模型训练使用。
72.综上所述，本实施例的训练数据生成方法，可在无需人工标注的情况下，通过随机确定的粒度级别和片段长度，确定目标文本的构造位置和构造片段，并根据随机确定的构造规则，利用构造片段对目标文本的构造位置执行文本重构，以自动生成目标文本的不平滑构造文本，借此，本技术可降低不平滑文本训练数据的制作成本，并可基于相同的平滑文本，灵活生成不同类型的不平滑文本，以满足不同应用场景的模型训练需求。
73.图2为本技术示例性实施例的模型训练方法的处理流程图。如图所示，本实施例主要包括以下步骤：
74.步骤s202，利用文本处理模型，对训练数据中的构造文本执行文本平滑处理，获得构造文本的预测文本。
75.具体地，可利用文本处理模型，对不平滑的构造文本执行文本平滑处理，获得平滑的预测文本。
76.于本实施例中，用于执行模型训练的训练数据是利用上述实施例所述的训练数据生成方法所生成的。
77.步骤s204，根据训练数据中的目标文本、预测文本，获取文本处理模型的损失函数。
78.具体地，可将目标文本作为训练标签，将目标文本与文本处理模型输出的预测文本进行比对，以获取文本处理模型的损失函数。
79.步骤s206，判断损失函数是否满足训练结束条件，若否，进行步骤s208，若是，进行步骤s210。
80.可选地，可当损失函数满足预设收敛值时，获得损失函数满足训练结束条件的判断结果。
81.可选地，可当损失函数的迭代更新趋于稳定时，获得损失函数满足训练结束条件的判断结果。
82.步骤s208，根据损失函数更新文本处理模型，并返回步骤s202。
83.于本实施例中，若损失函数不满足训练结束条件，则基于损失函数，对文本处理模型的权重参数进行优化更新，并返回执行步骤s202。
84.步骤s210，获得训练好的文本处理模型。
85.于本实施例中，若损失函数满足训练结束条件，则代表文本处理模型的训练符合
预期，以获得训练好的文本处理模型。
86.综上所述，本实施例的模型训练方案，是基于上述实施例的训练数据生成方法所生成的训练数据来执行的，无需人工标注训练数据，以有效降低模型训练成本。
87.此外，基于上述实施例的训练数据生成方法，可灵活生成不同类型的不平滑训练数据，使得训练获得的文本处理模型可满足不同场景的使用需求。
88.图3为本技术另一示例性实施例的模型训练方法的处理流程图。如图所示，本实施例主要包括以下步骤：
89.步骤s302，获取不平滑的仿真文本；
90.示例性地，可对不平滑的语音文本进行文本转换处理，以获取不平滑的仿真文本。
91.步骤s304，利用文本处理模型，对仿真文本执行文本平滑处理，并根据文本平滑处理结果，确定仿真文本中各字符特征单元对应的各预测标签。
92.于本实施例中，字符特征单元包含至少一个字符。
93.例如，可基于字粒度级别对仿真文本进行识别，获取仿真文本的各个字符特征单元，其中，每个字符特征单元包含一个字符。
94.又如，可基于词粒度级别对仿真文本进行识别，获取仿真文本的各个字符特征单元，其中，每个字符特征单元包含至少一个字符。
95.具体地，可利用文本处理模型对仿真文本执行文本平滑处理，并基于文本平滑处理结果以及给定的标签类别，生成仿真文本中各字符特征单元对应的各预测标签。
96.步骤s306，比对仿真文本中同一字符特征单元的预测标签和真实标签，并根据比对结果优化文本处理模型。
97.于本实施例中，预测标签或真实标签包括平滑标签、不平滑标签中的一个。
98.具体地，可比对仿真文本中同一字符特征单元的预测标签和真实标签，并基于比对结果，对文本处理模型的权重参数进行优化调整。
99.综上所述，本实施例的模型训练方案，可在无需使用标注语料的情况下执行模型优化，从而以较低的成本，获得更优的文本平滑处理效果。尤其适用于针对不同的业务场景，针对模型参数进行微调，以灵活满足不同场景的应用需求。
100.图4为本技术示例性实施例的训练数据生成装置的结构框图。如图所示，本实施例的训练数据生成装置400主要包括构造位置确定模块402、构造片段确定模块404、文本重构模块406、数据生成模块408。
101.构造位置确定模块402，用于根据随机确定的粒度级别，确定目标文本的构造位置。
102.构造片段确定模块404，用于根据随机确定的片段长度、所述目标文本的构造位置、确定所述目标文本的构造片段。
103.文本重构模块406，根据随机确定的构造规则、所述目标文本的构造位置和构造片段，重构所述目标文本，生成所述目标文本的构造文本。
104.数据生成模块408，用于根据所述目标文本和所述构造文本，获得所述目标文本的训练数据。
105.可选地，所述目标文本为平滑文本，所述构造文本为不平滑文本。
106.可选地，所述粒度级别包括字粒度级别、词粒度级别中的一个。
107.可选地，构造位置确定模块402还用于：基于随机确定的粒度级别识别所述目标文本，确定所述目标文本中的多个粒度特征；基于所述目标文本中的各粒度特征、随机确定的构造数量，确定所述目标文本中的至少一个构造位置。
108.可选地，构造片段确定模块404还用于：针对所述目标文本的各构造位置中的任意一个当前构造位置，将所述当前构造位置对应的粒度特征中的第一个字符确定为片段起点；基于随机确定的片段长度、所述当前构造位置的片段起点，确定所述当前构造位置的片段终点；基于所述片段起点和所述片段终点，确定所述当前构造位置的当前构造片段。
109.可选地，所述构造规则至少包括：完全重复构造规则、部分重复构造规则、替换构造规则、交换构造规则中的一个。
110.可选地，文本重构模块406还用于：根据随机确定的当前构造规则、所述当前构造片段，确定满足所述当前构造规则的待编辑文本；根据所述当前构造位置、所述待编辑文本，对所述目标文本执行重构处理，生成所述目标文本的构造文本。
111.可选地，所述构造规则至少包括插入构造规则。
112.可选地，文本重构模块406还用于：根据所述插入构造规则、所述当前构造片段，从各预设插入文本中随机确定一个待插入文本；根据所述当前构造位置、所述待插入文本，对所述目标文本执行重构处理，生成所述目标文本的构造文本。
113.图5示出了本技术示例性实施例的模型训练装置的结构框图。如图所示，本实施例的模型训练装置500包括获取模块502、训练模块504。
114.获取模块502，用于获取训练数据。
115.于本实施例中，所述训练数据是由上述训练数据生成装置400所生成的。
116.训练模块504，用于利用文本处理模型，对训练数据中的构造文本执行文本平滑处理，获得所述构造文本的预测文本，根据所述训练数据中的目标文本、所述预测文本，获取所述文本处理模型的损失函数，并根据所述损失函数更新所述文本处理模型，直至所述损失函数满足训练结束条件，以获得训练好的文本处理模型。
117.可选地，训练模块504还用于：获取不平滑的仿真文本；利用所述文本处理模型，对所述仿真文本执行文本平滑处理，并根据文本平滑处理结果，确定所述仿真文本中各字符特征单元对应的各预测标签；比对所述仿真文本中同一字符特征单元的预测标签和真实标签，并根据比对结果优化所述文本处理模型；其中，所述预测标签或所述真实标签包括平滑标签、不平滑标签中的一个；所述字符特征单元包含至少一个字符。
118.本技术另一实施例还提供一种计算机存储介质，所述计算机存储介质中存储有用于执行上述各实施例所述的训练数据生成方法中各步骤的各指令，或执行上述各实施例所述的模型训练方法中各步骤的各指令。
119.综上所述，本技术各实施例提供的训练数据生成及模型训练方法、装置及存储介质，可在无需人工标注的情况下，基于平滑的目标文本，随机批量生成不同类型的不平滑构造文本，以降低训练数据的制作成本。
120.本技术各实施例提供的训练数据生成及模型训练方法、装置及存储介质，可基于随机批量生成不同类型的不平滑构造文本，执行模型训练，借以提高模型预测结果的鲁棒性，提高模型训练效果。
121.最后应说明的是：以上实施例仅用以说明本技术实施例的技术方案，而非对其限
制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种植物种植自动化施肥、自动化防虫或杀虫的系统及方法与流程

训练数据生成及模型训练方法、装置及计算机存储介质与流程

相关文献

最热文献