语言模型训练方法、装置、设备及存储介质与流程

2022-07-16 11:11:41 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其涉及一种语言模型训练方法、装置、计算机设备及存储介质。

背景技术：

2.对比学习在无监督学习中的效果十分的出众，在目前比较多的关于对比学习的优化中，包括有更换损失函数、更换数据增强方法等多方面，但是针对负例对构建的的研究相对而言更少一些，一般在做词嵌入向量构造正负样例对时，大部分模型都简单的把一个词嵌入向量及其增强副本作为正对，其余样本均视为负对。
3.与计算机视觉领域不同的是，文本的数据是离散的，利用很少的单词替换会引起显著的语义变化。一些最新的研究中表明，对抗性训练对模型检测这些语义变化是无用的，甚至是有害的。但目前的大多数对比学习模型中，在数据增强这一过程中，都把重点集中在了正例对的构建上，如simclr模型中，将进行一次数据增强以外的数据作为负例样本。这种构建负例对的方式，可能会把相距很远的样本分得很开，而距离较近的负样本对之间可能比较难被区分，从而导致现有文本数据增强所形成的文本特征不够显著，进而降低基于增强后的文本特征训练的目标语言模型的准确度。

技术实现要素：

4.本技术提供一种语言模型训练方法、装置、计算机设备及存储介质，解决了现有文本数据增强过程中，文本特征不够显著的问题。
5.本技术实施例提供了一种语言模型训练方法，包括：
6.获取训练文本数据；
7.对所述训练文本数据进行数据增强处理，获取所述训练文本数据对应的近义文本数据和反义文本数据；
8.对所述训练文本数据、所述近义文本数据和所述反义文本数据进行特征提取，获取原始文本特征、近义文本特征和反义文本特征；
9.根据所述原始文本特征、所述近义文本特征和所述反义文本特征进行语言模型训练，获取目标语言模型。
10.本技术实施例还提供了一种语言模型训练装置，包括：
11.训练文本数据获取模块，获取训练文本数据；
12.增强处理模块，对所述训练文本数据进行数据增强处理，获取所述训练文本数据对应的近义文本数据和反义文本数据；
13.特征提取模块，对所述训练文本数据、所述近义文本数据和所述反义文本数据进行特征提取，获取原始文本特征、近义文本特征和反义文本特征；
14.目标语言模型获取模块，根据所述原始文本特征、所述近义文本特征和所述反义文本特征进行语言模型训练，获取目标语言模型。
15.本技术实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实现语言模型训练方法的步骤。
16.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实现语言模型训练方法的步骤。
17.上述的语言模型训练方法、装置、计算机设备及存储介质，对训练文本数据进行数据增强处理，确定对应的训练文本数据对应的近义文本数据和反义文本数据，以提高所训练语言模型的准确性和稳定性；对训练文本数据、近义文本数据和反义文本数据进行特征提取，确定原始文本特征、近义文本特征和反义文本特征，并根据原始文本特征、近义文本特征和反义文本特征进行语言模型训练，从而获取准确度更高的目标语言模型，以保证后续下游语言处理的准确性和稳定性。
附图说明
18.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
19.图1是本发明一实施例中语言模型训练方法的一应用环境示意图；
20.图2是本发明一实施例中语言模型训练方法的一流程图；
21.图3是本发明一实施例中语言模型训练方法的另一流程图；
22.图4是本发明一实施例中语言模型训练方法的另一流程图；
23.图5是本发明一实施例中语言模型训练装置的一示意图；
24.图6是本发明一实施例中计算机设备的一示意图。
[0025][0026][0027]
具体实施方式
[0028]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0029]
本技术实施例提供的语言模型训练方法，可应用在如图1示出的应用环境中。如图1所示，客户端通过网络与服务器进行通信。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序，客户端包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智
能平台等基础云计算服务的云服务器。
[0030]
本发明实施例提供的语言模型训练方法，该语言模型训练方法可应用如图1所示的应用环境中。具体地，该语言模型训练方法应用在语言模型训练系统中，该语言模型训练系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于实现对语言模型进行训练，以对训练文本数据进行数据增强处理后，训练语言模型训练，有助于提高语言模型训练的适用性。
[0031]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0032]
在一实施例中，如图2所示，提供一种语言模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：
[0033]
s201：获取训练文本数据；
[0034]
s202：对训练文本数据进行数据增强处理，获取训练文本数据对应的近义文本数据和反义文本数据；
[0035]
s203：对训练文本数据、近义文本数据和反义文本数据进行特征提取，获取原始文本特征、近义文本特征和反义文本特征；
[0036]
s204：根据原始文本特征、近义文本特征和反义文本特征进行语言模型训练，获取目标语言模型。
[0037]
作为一示例，步骤s201中，服务器获取用于训练目标语言模型所对应的训练文本数据。本示例中，由于语言模型只有通过训练后，才能保证在应用场景下的自然语言处理准确率，需服务器根据业务的实际需求，获取对应的应用场景的训练文本数据。
[0038]
作为一示例，步骤s202中，服务器将所获取的训练文本数据进行数据增强处理，从而提高训练文本数据的数量，用于训练目标语言模型，保障后续目标语言模型训练的准确性，避免数量较少时，模型训练存在过拟合或者其他问题。本示例中，服务器获取与训练文本数据语义相近的近义文本数据，并获取与训练文本数据语义相反的反义文本数据，通过两种语义相反的文本数据，结合训练文本数据，用于训练目标语言模型。
[0039]
本示例中，服务器对训练文本数据进行数据增强处理过程中可采用 simcse模型进行处理，即simcse模型通过dropout层对训练文本数据进行处理，获取与训练文本数据语义相似的近义文本数据，还获取和与训练文本数据语义相反的反义文本数据。simcse模型(simple contrastive learning ofsentence embeddings)是一种无监督数据的情况下进行对比学习的模型。 simcse模型通过随机采样dropout mask的操作来构造相似样本。具体操作是为在全连接层和注意力求和操作上进行dropout mask操作，模型训练的时候会将一条样本复制两份，由于bert内部每次dropout时都会随机生成一个不同的dropout mask，所以不需要改变原始的bert模型，只需要把样本喂给模型两次，就可以得到两个不同dropout mask的结果，这样就得到了相似样本对，将相似样本对放到同一个编码器中就可以得到两个不同的表示向量，即与训练文本数据语义相似的近义文本数据和与训练文本数据语义相反的反义文本数据。
[0040]
作为一示例，步骤s203中，服务器对训练文本数据、近义文本数据和反义文本数
据分别进行特征提取，获得对应的原始文本特征、近义文本特征和反义文本特征。本示例中，服务器可通过bert模型进行特征提取，将所提取出的文本特征用于后续的目标语言模型训练。
[0041]
作为一示例，步骤s204中，服务器根据原始文本特征、近义文本特征和反义文本特征进行语言模型训练，通过捕捉原始文本特征和近义文本特征的距离，并捕捉合原始文本特征和反义文本特征的距离，根据两个距离进行相似度计算，进而训练目标语言模型。本示例中，采用原始文本特征、语义相似的近义文本特征和语义相反的反义文本特征进行建模训练，使得目标语言模型能够对语义变化更加敏感，该目标语言模型能够有效地感知由小扰动引起的语义变化，以保障语言处理的准确性和稳定性。
[0042]
在本示例中，通过对训练文本数据进行数据增强处理，以获取近义文本数据和反义文本数据，增强模型训练的数量；再对训练文本数据、近义文本数据和反义文本数据进行特征提取，并根据特征提取所得到的原始文本特征、近义文本特征和反义文本特征进行语言模型训练，获取目标语言模型，从而获取准确度更高的目标语言模型，由于目标语言模型不仅学习训练文本数据，还学习其近义文本数据和反义文本数据，通过对语义相似和语义相反的文本数据进行建模训练，使得目标语言模型能够对语义变化更加敏感，该目标语言模型能够有效地感知由小扰动引起的语义变化，以保障语言处理的准确性和稳定性。
[0043]
在一实施例中，如图3所示，步骤s202：对训练文本数据进行数据增强处理，获取训练文本数据对应的近义文本数据和反义文本数据，包括：
[0044]
s301：对训练文本数据进行分词处理，获取至少两个原始词汇；
[0045]
s302：将每一原始词汇与预设词典进行词性匹配处理，获取原始词汇对应的可替换词汇；
[0046]
s303：对可替换词汇进行词汇替换处理，获取训练文本数据对应的近义文本数据和反义文本数据。
[0047]
作为一示例，步骤s301中，服务器可采用采用分词工具，对所获取到的训练文本数据进行分词处理，获得至少两个训练文本数据对应的原始词汇，以用于后续对原始词汇进行处理，达到对训练文本数据进行数据增强的目的。原始词汇是采用训练文本数据进行分词后的词汇。
[0048]
作为一示例，步骤s302中，服务器将每一原始词汇与预设词典进行词性匹配处理，获取原始词汇对应的可替换词汇，当某一原始词汇无法获取到对应的可代替词汇，则说明该原始词汇无法利用语义相近或者语义相反的词汇进行词汇替代。其中，可替换词汇包括反义词和近义词。本示例中，预设词典是系统预先设置的词典，可以但不限于为wordnet词典，是一个覆盖范围宽广的词汇语义网，其中，名词、动词、形容词和副词各自被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连接。
[0049]
作为一示例，步骤s303中，服务器对原始词汇对应的可替换词汇进行词汇替代，获取所述训练文本数据对应的近义文本数据和反义文本数据。例如，服务器可通过近义词汇替换可替换词汇，保留无法进行词汇替代的原始词汇，做为对应的近义文本数据，并通过反义词汇替换可替换词汇，保留无法进行词汇替代的原始词汇，做为对应的反义文本数
据。
[0050]
在本示例中，通过预设词典将训练文本数据分词后的原始词汇，进行可替换词汇匹配，从而确定原始词汇中可替换词汇，并根据所匹配的可替换词汇，从而得到数据增强后对应的近义文本数据和反义文本数据，以用于后续的目标语言模型的训练，提高目标语言模型精确度。
[0051]
在一实施例中，步骤s302，将每一原始词汇与预设词典进行词性匹配处理，获取原始词汇对应的可替换词汇，包括：
[0052]
s3021：将每一原始词汇与预设词典进行词性匹配处理，确定每一原始词汇的词汇属性；
[0053]
s3022：若词汇属性为可替换属性，则获取原始词汇对应的可替换词汇。
[0054]
作为一示例，步骤s3021中，服务器根据预设词典将每一原始词汇进行词性匹配处理，确定每一原始词汇的词汇属性，以确定是否需要替换该原始词汇。常见的词汇属性包括，动词、名次、形容词、副词和代词，其中可以作为可替换词汇的词性包括但不限于动词、名词、形容词、副词和代词。
[0055]
作为一示例，步骤s3022中，服务器根据所获取的词汇属性，将具有可替换属性的原始词汇进行替换处理，以保证原始词汇所替换后的训练文本数据具有一定的相似度。
[0056]
在本示例中，利用目前预设词典中较为全面的词汇，对原始词汇进行词性匹配，可以减少开发的成本，提高词性匹配的准确度。
[0057]
在一实施例中，步骤s303，对可替换词汇进行词汇替换处理，获取训练文本数据对应的近义文本数据和反义文本数据，包括：
[0058]
s3031：对可替换词汇与原始词汇进行相似度计算，获取可替换词汇所对应的词汇相似度；
[0059]
s3032：根据词汇相似度进行筛选处理，获取原始词汇对应的近义词汇和反义词汇；
[0060]
s3033：采用近义词汇，对原始词汇进行替换处理，获取训练文本数据对应的近义文本数据；
[0061]
s3034：采用反义词汇，对原始词汇进行替换处理，获取训练文本数据对应的反义文本数据。
[0062]
作为一示例，步骤s3021中，服务器可采用相似度算法，对可替换词汇与原始词汇进行相似度计算，获取两者对应的词汇相似度。其中，所计算的相似度包括但不限于利用余弦相似度、欧氏距离和马氏距离等。
[0063]
作为一示例，步骤s3022中，服务器通过词汇相似度进行筛选，将相似度大于相似度阈值所对应的原始词汇作为原始词汇对应的反义词汇，将相似度不大于相似度阈值所对应的原始词汇作为原始词汇对应的近义词汇。其中，可通过采样多个词汇，根据词汇进行相似度计算，统计得出相似度阈值进行比较，从而得出本示例中的相似度阈值，，
[0064]
作为一示例，步骤s3023中，服务器采用近义词汇，对原始词汇进行替换处理，同时保留不可替换原始词汇，获取训练文本数据对应的近义文本数据。其中，原始词汇包括一些特定的名词等，无法完全匹配到对应的近义词汇，若通过随机生成，会导致最终结果的不确定性增加。
[0065]
作为一示例，步骤s3024中，服务器采用反义词汇，对原始词汇进行替换处理，同时保留不可替换原始词汇，获取训练文本数据对应的反义文本数据。其中，原始词汇包括一些特定的名词等，无法完全匹配到对应的反义词汇，若通过随机生成，会导致最终结果的不确定性增加。
[0066]
在本示例中，通过预设词典替换训练文本数据中的可替换词汇，保证训练文本数据与数据增强后的近义文本数据和反义文本数据，仍具有一定的关联性，有利于数据增强后的数据对目标语言模型进行训练。
[0067]
在一实施例中，如图4所示，步骤s204：根据原始文本特征、近义文本特征和反义文本特征进行语言模型训练，获取目标语言模型，包括：
[0068]
s401：根据原始文本特征和近义文本特征，获取第一映射特征；
[0069]
s402：根据原始文本特征和反义文本特征，获取第二映射特征；
[0070]
s403：采用第一映射特征和第二映射特征对通用语言模型训练，获取目标语言模型。
[0071]
作为一示例，步骤s401中，服务器采用第一映射函数，对原始文本特征和近义文本特征进行映射，获取对应的第一映射特征，以使第一映射特征反映原始文本特征和近义文本特征之间的映射关系。其中，第一映射函数是预先设置的用于对原始文本特征和近义文本特征进行映射处理的函数。
[0072]
本示例中，所述第一映射函数可以为其中，f(x
ori
,x
syn
)为第一映射函数，x
ori
为训练文本数据，x
syn
为近义文本数据， exp为指数运算，为原始文本特征，h
syn
为近义文本特征。
[0073]
作为一示例，步骤s402中，服务器采用第二映射函数，对原始文本特征和反义文本特征进行映射，获取对应的第二映射特征，以使第二映射特征反映原始文本特征和反义文本特征之间的映射关系。其中，第二映射函数是预先设置的用于对原始文本特征和以义文本特征进行映射处理的函数。
[0074]
本示例中，所述第二映射函数可以为其中，f(x
ori
,x
syn
)为第二映射函数，x
ori
为训练文本数据，x
ant
为反义文本数据， exp为指数运算，为原始文本特征，h
ant
为反义文本特征。
[0075]
作为一示例，步骤s403中，服务器采用采用第一映射特征和第二映射特征对通用语言模型训练，利用第一映射特征和第二映射特征，更新通用语言模型的模型参数，以获取目标语言模型。由于目标语言模型是基于第一映射特征和第二映射特征对通用语言模型训练的模型，可反映原始文本特征和近义文本特征的距离度量，也反映原始文本特征和反义文本特征之间的距离度量，使得目标语言模型能够对语义变化更加敏感，该目标语言模型能够有效地感知由小扰动引起的语义变化，以保障目标语言模型的稳定性和语言处理的准确性，并提高目标语言模型在不同应用场景的兼容性。
[0076]
在一实施例中，步骤s403，采用第一映射特征和第二映射特征对通用语言模型训练，获取目标语言模型，包括：
[0077]
s4031a：根据第一映射特征和第二映射特征，获取映射特征比值；
[0078]
s4032a：若映射特征比值大于预设比值阈值，则更新通用语言模型的模型参数；
[0079]
s4033a：若映射特征比值不大于预设比值阈值，则不更新通用语言模型的模型参数。
[0080]
作为一示例，步骤s4031a中，服务器将第一映射特征和第二映射特征进行计算，得到对应的映射特征比值，为了保证近义文本特征和反义文本特征之间能够保持一定的距离，计算第一映射特征和第二映射特征之间的比值，从而使得目标语言模型能够对语义变化更加敏感，增强模型的语义感知能力。
[0081]
作为一示例，步骤s4032a中，若映射特征比值大于预设比值阈值，则说明近义文本特征和反义文本特征之间的距离达到了模型所需要的标准，通过保留第一映射特征和第二映射特征，更新通用语言模型的模型参数通用语言模型的模型参数可以。
[0082]
在本示例中，通过损失函数计算第一映射特征和第二映射特征的相似度前，计算第一映射特征和第二映射特征之间的映射特征比值，通过统计的出得预设比值阈值。例如，当预设比值阈值为0.8时，若第一映射特征和第二映射特征之间的映射特征比值大于预设比值阈值，则两者原始文本特征和近义文本特征之间的距离不够近，同时原始文本特征和反义文本特征之间的距离不够远，因此，需要更新通用语言模型的模型参数，以保障更新后的目标语言模型的准确性。
[0083]
作为一示例，步骤s4033a中，若映射特征比值小于预设比值阈值，则说明近义文本特征和反义文本特征之间的距离未达到了模型所需要的标准，通过舍去第一映射特征和第二映射特征，不更新通用语言模型的模型参数通用语言模型的模型参数可以。
[0084]
在本示例中，通过近义文本特征和反义文本特征之间对应第一映射特征和第二映射特征之间的映射特征比值，确定本次增强数据的是否达标，从而保留较为准确的增强数据，更新通用语言模型的模型参数，提高模型精准度。
[0085]
在另一实施例中，步骤s403，采用第一映射特征和第二映射特征对通用语言模型训练，获取目标语言模型，包括：
[0086]
s4031b：根据第一映射特征和第二映射特征，获取原始损失函数；
[0087]
s4032b：根据第一映射特征和第二映射特征，获取目标截断函数；
[0088]
s4033b：根据原始损失函数和目标截断函数，确定目标损失函数；
[0089]
s4034b：采用目标损失函数进行通用语言模型训练，获取目标语言模型。
[0090]
作为一示例，步骤s4031b中，服务器根据第一映射特征和第二映射特征进行原始损失函数计算，该原始损失函数为常见损失函数。其中损失函数用来计算模型训练中，所训练数据是否处于一定的收敛状态，从而保证所训练出模型的质量。
[0091]
本示例中，原始损失函数可以为其中，为原始损失函数，f(x
ori
,x
syn
)为第一映射函数，f(x
ori
,x
ant
)为第二映射函数。
[0092]
作为一示例，步骤s4032b中，服务器根据第一映射特征和第二映射特征进行目标截断函数的计算，该目标截断函数则是将第一映射特征和第二映射特征所对应映射特征比值的判断函数，通过判断本次数据增强的近义文本特征和反义文本特征是否符合模型训练的标准。
[0093]
在本示例中，目标截断函数可以为其中，m为预设比值阈值，x为第一映射函数，y为第二映射函数，为 [0094]
作为一示例，步骤s4033b中，服务器根据原始损失函数和目标截断函数，确认可一直用于本应用场景的目标损失函数，该函数可进行判断和相似度计算，从而减少计算流程。
[0095]
作为一示例，步骤s4034b中，服务器通过目标损失函数进行通用语言模型训练，在保证本次数据增强对应的近义文本特征和反义文本特征的距离处于合理的范围内，保证了所要训练模型的稳定性，从而获取到更为精准的目标语言模型。
[0096]
在本示例中，目标损失函数可以为其中，为目标损失函数，为原始损失函数， g[f(x
ori
,x
ant
),f(x
ori
,x
syn
)]为目标截断函数。
[0097]
在本示例中，通过设置只用目标损失函数，进而在保证本次数据增强对应的近义文本特征和反义文本特征的距离处于合理的范围内，保证了所要训练模型的稳定性，从而获取到更为精准的目标语言模型。而且，由于目标语言模型是基于第一映射特征和第二映射特征对通用语言模型训练的模型，可反映原始文本特征和近义文本特征的距离度量，也反映原始文本特征和反义文本特征之间的距离度量，使得目标语言模型能够对语义变化更加敏感，该目标语言模型能够有效地感知由小扰动引起的语义变化，以保障目标语言模型的稳定性和语言处理的准确性，并提高目标语言模型在不同应用场景的兼容性。
[0098]
应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0099]
在一实施例中，提供一种用户数据分析装置，该用户数据分析装置与上述实施例中用户数据分析方法一一对应。如图5所示，该用户数据分析装置包括训练文本数据获取模块801、数据增强处理模块802、数据特征提取模块 803和目标语言模型获取模块804，各功能模块详细说明如下：
[0100]
训练文本数据获取模块801，获取训练文本数据；
[0101]
数据增强处理模块802，对训练文本数据进行数据增强处理，获取训练文本数据对应的近义文本数据和反义文本数据；
[0102]
数据特征提取模块803，对训练文本数据、近义文本数据和反义文本数据进行特征提取，获取原始文本特征、近义文本特征和反义文本特征；
[0103]
目标语言模型获取模块804，根据原始文本特征、近义文本特征和反义文本特征进行语言模型训练，获取目标语言模型。
[0104]
在一实施例中，数据增强处理模块802，包括：
[0105]
原始词汇获取单元，对训练文本数据进行分词处理，获取至少两个原始词汇；
[0106]
可替换词汇获取单元，将每一原始词汇与预设词典进行词性匹配处理，获取原始词汇对应的可替换词汇；
[0107]
词汇替换处理单元，对可替换词汇进行词汇替换处理，获取训练文本数据对应的近义文本数据和反义文本数据。
[0108]
在一实施例中，可替换词汇获取单元，包括：
[0109]
词汇属性获取子单元，将每一原始词汇与预设词典进行词性匹配处理，确定每一原始词汇的词汇属性；
[0110]
可替换词汇获取子单元，若词汇属性为可替换属性，则获取原始词汇对应的可替换词汇。
[0111]
在一实施例中，词汇替换处理单元，包括：
[0112]
词汇相似度获取子单元，对可替换词汇与原始词汇进行相似度计算，获取可替换词汇所对应的词汇相似度；
[0113]
筛选处理子单元，根据词汇相似度进行筛选处理，获取原始词汇对应的近义词汇和反义词汇；
[0114]
近义文本数据获取子单元，采用近义词汇，对原始词汇进行替换处理，获取训练文本数据对应的近义文本数据；
[0115]
反义文本数据获取子单元，采用反义词汇，对原始词汇进行替换处理，获取训练文本数据对应的反义文本数据。
[0116]
在一实施例中，目标语言模型获取模块804，包括：
[0117]
第一映射特征获取单元，根据原始文本特征和近义文本特征，获取第一映射特征；
[0118]
第二映射特征获取单元，根据原始文本特征和反义文本特征，获取第二映射特征；
[0119]
目标语言模型获取单元，采用第一映射特征和第二映射特征对通用语言模型训练，获取目标语言模型。
[0120]
在一实施例中，目标语言模型获取单元，包括：
[0121]
映射特征比值获取子单元，根据第一映射特征和第二映射特征，获取映射特征比值；
[0122]
模型参数更新检测子单元，若映射特征比值大于预设比值阈值，则更新通用语言模型的模型参数；若映射特征比值大于预设比值阈值，则不更新通用语言模型的模型参数。
[0123]
在另一实施例中，目标语言模型获取单元，包括：
[0124]
原始损失函数获取子单元，根据第一映射特征和第二映射特征，获取原始损失函数；
[0125]
目标截断函数获取子单元，根据第一映射特征和第二映射特征，获取目标截断函数；
[0126]
目标损失函数获取子单元，根据原始损失函数和目标截断函数，确定目标损失函数；
[0127]
目标语言模型获取子单元，采用目标损失函数进行通用语言模型训练，获取目标
语言模型。
[0128]
关于语言模型训练装置的具体限定可以参见上文中对于语言模型训练方法的限定，在此不再赘述。上述语言模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0129]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于执行语言模型训练方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语言模型训练方法。
[0130]
在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语言模型训练方法，例如图2所示s201-s205，或者图3至图4中所示，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现语言模型训练装置这一实施例中的各模块/单元的功能，例如图5所示的训练文本数据获取模块801、数据增强处理模块802、数据特征提取模块803和目标语言模型获取模块804的功能，为避免重复，这里不再赘述。
[0131]
在一实施例中，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中语言模型训练方法，例如图2所示s201-s205，或者图3至图4中所示，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述语言模型训练装置这一实施例中的各模块/单元的功能，例如图5所示的训练文本数据获取模块801、数据增强处理模块802、数据特征提取模块803和目标语言模型获取模块804的功能，为避免重复，这里不再赘述。
[0132]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram (rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram (rdram)等。
[0133]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同
的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
[0134]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于神经网络及改进K-SVD算法的动物种类识别方法

语言模型训练方法、装置、设备及存储介质与流程

相关文献

最热文献