自然语言处理方法、语言模型训练方法及其相关设备与流程

2022-07-23 10:23:48 来源：中国专利 TAG：

1.本技术涉及人工智能领域，尤其涉及一种自然语言处理方法、语言模型训练方法及其相关设备。

背景技术：

2.目前，基于深度神经网络的语言模型在语义理解、文本生成等诸多领域都取得了突出效果，但当前绝大多数语言模型都依赖海量数据支撑的有监督学习模式，随之而来的是模型的容量越来越大，从而带来了训练和部署模型的巨大挑战。其中一个方面体现在：训练样本数据量往往达到tb级别；且现有技术中，常对现有的训练语料直接进行使用，导致训练时间大幅增加，资源消耗较大。因此，如何提高模型训练效率，缩短训练时间，减少资源消耗成为了亟待解决的问题。

技术实现要素：

3.本技术提供了一种自然语言处理方法、语言模型训练方法及其相关设备，以解决现有技术中对模型训练效率较低且消耗较大的问题。
4.第一方面，本技术提供了一种语言模型训练方法，包括：
5.获取语料集；
6.利用多种特征提取模型对所述语料集进行特征提取，得到所述语料集中各文档对应的多个特征向量；
7.基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量；
8.将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇；
9.根据各语义簇分别对语言模型采用强化学习进行训练，最终得到各语义簇对应的训练后的语言模型的参数；
10.根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。
11.进一步的，所述多种特征提取模型包括隐含特征提取模型、主题特征提取模型和实体特征提取模型，所述利用多种特征提取模型对所述语料集进行特征提取，得到所述语料集中各文档对应的多个特征向量包括：
12.通过所述隐含特征提取模型对所述语料集中的各所述文档进行隐含特征提取，得到各所述文档对应的第一特征向量；
13.利用所述主题特征提取模型对所述语料集中的各文档进行主题特征提取，得到各所述文档对应的第二特征向量；
14.利用所述实体特征提取模型对所述语料集中的各文档进行实体特征提取，得到各所述文档对应的第三特征向量。
15.进一步的，所述利用所述主题特征提取模型对所述语料集中的各文档进行主题特征提取，得到各所述文档对应的第二特征向量包括：
16.通过所述主题特征提取模型对所述语料集中的各所述文档进行主题词提取，得到多个主题词并进行排列；
17.将排列后的多个所述主题词，通过主题特征提取模型下的bert模型进行向量化处理，得到各所述文档对应的第二特征向量。
18.进一步的，所述利用所述实体特征提取模型对所述语料集中的各文档进行实体特征提取，得到各所述文档对应的第三特征向量包括：
19.通过实体特征提取模型中的命名实体识别技术和关系抽取技术识别各所述文档中的实体以及实体间的关系；
20.基于所述实体以及实体间的关系，构建知识图谱；
21.通过实体特征提取模型中的图卷积神经网络对所述知识图谱进行特征提取，得到第三特征向量。
22.进一步的，所述基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量包括：
23.基于层次分析法获得所述第一特征向量、第二特征向量、第三特征向量的权重；
24.根据所述第一特征向量、第二特征向量、第三特征向量的权重，对所述第一特征向量、第二特征向量、第三特征向量进行加权求和，得到所述文档对应的语义向量。
25.进一步的，所述根据各语义簇分别对语言模型采用强化学习进行训练包括：
26.在每一训练周期中，当一语义簇对应的语言模型的性能指标达到预设阈值时，获取所述语言模型此时的状态信息，将所述语言模型的状态信息，向各语义簇对应的语言模型进行广播；
27.各所述语义簇对应的语言模型在接收到所述状态信息后，更新自身的参数，并且根据选取概率选择处理路径；其中，所述选取概率为根据该训练周期所使用的多个语义向量经深度学习神经网络进行处理得到；
28.根据各所述语义簇对应的语言模型选择的处理路径，给予不同的收益；
29.根据各所述语言模型的收益，得到本训练周期的总收益；
30.所述深度学习神经网络根据所述总收益进行调参，经过多个训练周期的训练，直至所述总收益收敛。
31.进一步的，所述根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型包括：
32.当全部训练周期结束后，将各语义簇对应的语言模型最终的梯度数据汇总至同一语言模型对应的训练器；
33.所述训练器根据所有语言模型对应的最终的梯度数据进行平均处理，得到平均梯度；
34.将所述平均梯度发送至各所述语义簇对应的语言模型，以更新自身的参数，得到所述最终语言模型。
35.第二方面，本技术还提供一种自然语言处理方法，所述方法包括：
36.获取待处理文本数据；
37.根据如上所述的最终语言模型，对所述待处理文本数据进行处理，得到所述待处理文本数据对应的处理结果。
38.第三方面，本技术还提供一种语言模型训练装置，所述装置包括：
39.获取模块，用于获取语料集；
40.特征提取模块，用于利用多种特征提取模型对所述语料集进行特征提取，得到所述语料集中各文档对应的多个特征向量；
41.合并模块，用于基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量；
42.聚类模块，用于将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇；
43.训练模块，用于根据各语义簇分别对语言模型采用强化学习进行训练，最终得到各语义簇对应的训练后的语言模型的参数；
44.确定模块，用于根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。
45.第四方面，本技术还提供一种计算机设备，包括：
46.至少一个处理器；以及，
47.与所述至少一个处理器通信连接的存储器；其中，
48.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的语言模型训练方法。
49.第五方面，本技术还提供一种非易失性的计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的语言模型训练方法。
50.根据本技术实施例提供的一种自然语言处理方法、语言模型训练方法及其相关设备，与现有技术相比至少具有以下有益效果：
51.通过获取语料集，利用多种特征提取模型对语料集进行特征提取，得到语料集中各文档对应的多个特征向量，得到语料集中各文档对应的多个特征向量，实现多维度提取语料集中的文本特征；基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量，通过将多个特征向量进行组合，得到对应的语义向量，实现对文本特征的整合，将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇，根据各语义簇分别对语言模型采用强化学习进行训练，得到各语义簇对应的训练后的语言模型的参数，根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。通过利用语料集中语义关联的强弱程度，划分不同的语义簇并行训练，并采用强化学习思路，使得语言模型尽早学习到更多更深层次的语言规律，缩短了训练时间，从而加快模型收敛，减少语言模型的训练开销。
附图说明
52.为了更清楚地说明本技术中的方案，下面将对本技术实施例描述中所需要使用的附图做一个简单介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
53.图1为本技术一实施例提供的语言模型训练方法的流程示意图；
54.图2为本技术另一实施例提供的语言模型训练方法的流程示意图；
55.图3为图2中的步骤s220的一种具体实施方式的流程图；
56.图4为图2中的步骤s230的一种具体实施方式的流程图；
57.图5为图1中的步骤s5的另一种具体实施方式的流程图；
58.图6为本技术一实施例提供的语言模型训练装置的模块示意图；
59.图7为本技术一实施例的计算机设备的结构示意图。
具体实施方式
60.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术；本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象，而不是用于描述特定顺序。
61.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例，也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
62.本技术提供一种语言模型训练方法。参照图1所示，图1为本技术一实施例提供的语言模型训练方法的流程示意图。
63.在本实施例中，语言模型训练方法包括：
64.s1、获取语料集；
65.具体的，本技术可直接从数据库中获取到语料集，或与其他系统连接，从其他系统中直接获取语料集，所述语料集即用于语言模型训练所用的文档语料的集合当文档带有标签。
66.s2、利用多种特征提取模型对所述语料集进行特征提取，得到所述语料集中各文档对应的多个特征向量；
67.具体的，通过采用隐含特征提取模型、主题特征提取模型和实体特征提取模型都对所述语料集进行特征提取，分别得到所述语料集中各文档对应的第一特征向量、第二特征向量和第三特征向量。
68.进一步的，如图2所示，所述多种特征提取模型包括隐含特征提取模型、主题特征提取模型和实体特征提取模型，所述利用多种特征提取模型对所述语料集进行特征提取，得到所述语料集中各文档对应的多个特征向量包括：
69.s210、通过所述隐含特征提取模型对所述语料集中的各所述文档进行隐含特征提取，得到各所述文档对应的第一特征向量；
70.s220、利用所述主题特征提取模型对所述语料集中的各文档进行主题特征提取，得到各所述文档对应的第二特征向量；
71.s230、利用所述实体特征提取模型对所述语料集中的各文档进行实体特征提取，得到各所述文档对应的第三特征向量。
72.具体的，所述隐含特征提取模型为直接提取文档的隐含特征，得到第一特征向量，
所述第一特征向量为文档级的特征向量，所述隐含特征提取模型可基于textcnn模型来训练得到；
73.所述主题特征提取模型为提取文档中的关键词，并将关键词排序后，进行向量化，得到第二特征向量，所述第二特征向量文档主题词整体向量；
74.所述实体特征提取模型为提取各文档中的实体，来构建知识图谱，再通过利用图卷积神经网络提取知识图谱中的特征向量，得到所述第三特征向量。
75.通过利用多种特征提取模型来对文档进行处理，可以得到多个维度的特征向量，能更好的体现文本特征。
76.再进一步的，如图3所示，所述利用所述主题特征提取模型对所述语料集中的各文档进行主题特征提取，得到各所述文档对应的第二特征向量包括：
77.s221、通过所述主题特征提取模型对所述语料集中的各所述文档进行主题词提取，得到多个主题词并进行排列；
78.s222、将排列后的多个所述主题词，通过主题特征提取模型下的bert模型进行向量化处理，得到各所述文档对应的第二特征向量。
79.具体的，通过主题特征提取模型对所述语料集中的各文档仅主题词提取，主题词的个数各根据需要自行设定，通过将多个主题词进行拼接排序形成序列，输入到已训练的bert模型中，经bert模型的转换，输出所述第二特征向量。
80.通过利用主题特征提取模型进行主题词抽取，并在排序后，输入bert模型进行向量化处理，从而得到文档的主题特征，便于后续训练时模型能更早学习到更多的内在语言规律。
81.再进一步的，如图4所示，所述利用所述实体特征提取模型对所述语料集中的各文档进行实体特征提取，得到各所述文档对应的第三特征向量包括：
82.s231、通过实体特征提取模型中的命名实体识别技术和关系抽取技术识别各所述文档中的实体以及实体间的关系；
83.s232、基于所述实体以及实体间的关系，构建知识图谱；
84.s233、通过实体特征提取模型中的图卷积神经网络对所述知识图谱进行特征提取，得到第三特征向量。
85.具体的，通过命名实体识别技术，在本技术中采用的是bert-bi_lstm-crf来对各文档中的实体进行识别，并且在关系抽取技术来对实体间的关系进行抽取，在得到实体与实体间的关系后，可采用transe及其后续改进方计算得到实体与实体间关系的嵌入向量。
86.通过以实体与实体间的关系，这样的三元组，来构建知识图谱。
87.通过实体特征提取模型中的图卷积神经网络对所述知识图谱进行特征提取，得到第三特征向量，其中，图卷积神经网络的层数可根据需要自行设定；例如当所述知识图谱中有n个顶点时，即n个实体时，每个顶点的嵌入向量维度为m，定义矩阵x∈rn×m，定义向量其中，a为知识图谱中节点的邻接矩阵，m为出入度矩阵，通过l0＝x来计算，j表示图卷积网络的层数，d
gg
表示出入度矩阵的第g行第g列的数据，即对角线上的数据；a
ge
表示邻接矩阵的第g行第e列的数据，w0为权重矩阵，σ为激活函数(可采用relu、sigmoid等)最后一层的向量即为第三特征向量，
88.通过对文档进行实体与实体间关系的抽取，来得到知识图谱，并利用图卷积神经网络来对知识图谱进行特征提取，便于后续训练时模型能更早学习到更多的内在语言规律。
89.s3、基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量；
90.具体的，根据各文档对应的第一特征向量、第二特征向量和第三特征向量,进行加权求和，得到各所述文档对应的语义向量。
91.进一步的，所述基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量包括：
92.基于层次分析法获得所述第一特征向量、第二特征向量、第三特征向量的权重；
93.根据所述第一特征向量、第二特征向量、第三特征向量的权重，对所述第一特征向量、第二特征向量、第三特征向量进行加权求和，得到所述文档对应的语义向量。
94.具体的，通过层次分析法获得所述第一特征向量、第二特征向量、第三特征向量的权重；所述层次分析法(ahp，analytic hierarchy process)，是指将与决策总是有关的元素分解成目标、准则、方案等层次，在此基础之上进行定性和定量分析的决策方法。根据所述第一特征向量、第二特征向量、第三特征向量的权重，对所述第一特征向量、第二特征向量、第三特征向量进行加权求和，得到所述文档对应的语义向量。
95.基于层次分析法来得到的权重，并基于该权重，对特征向量进行加权求和，得到文档对应的语义向量，从而实现对文档特征的完整提取，，便于后续训练时模型能更早学习到更多的内在语言规律。
96.s4、将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇；
97.具体的，将各文档对应的语义向量利用聚类模型进行聚类，在本技术中由于后续可能会有训练器数量的限制，所以本技术采用的聚类模型为k-means聚类模型，其中k即为训练器的数量。而在没有训练器数量的限制时，可采用均值漂移聚类模型等来进行处理，以各文档对应的语义向量的真实情况来进行聚类。
98.所述k-means聚类模型为一种迭代求解的聚类分析算法，其步骤是，预将数据分为k组，则随机选取k个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。
99.所述均值漂移聚类模型为基于滑动窗口的算法，来找到数据点的密集区域。这是一个基于质心的算法，通过将中心点的候选点更新为滑动窗口内点的均值来完成，来定位每个组/类的中心点。然后对这些候选窗口进行相似窗口进行去除，最终形成中心点集及相应的分组。
100.s5、根据各语义簇分别对语言模型采用强化学习进行训练，最终得到各语义簇对应的训练后的语言模型的参数；
101.具体的，各语义簇中的语义向量来分别对语言模型进行训练，即有多个语义簇时，同时对应有多个语言模型进行训练，并且训练的方式为采用强化学习的方式来进行，最终使得总收益收敛且最大，从而最终得到各语义簇对应的训练后的语言模型的参数。
102.进一步的，如图5所示，所述根据各语义簇分别对语言模型采用强化学习进行训练
包括：
103.s501、在每一训练周期中，当一语义簇对应的语言模型的性能指标达到预设阈值时，获取所述语言模型此时的状态信息，将所述语言模型的状态信息，向各语义簇对应的语言模型进行广播；
104.s502、各所述语义簇对应的语言模型在接收到所述状态信息后，更新自身的参数，并且根据选取概率选择处理路径；其中，所述选取概率为根据该训练周期所使用的多个语义向量经深度学习神经网络进行处理得到；
105.s503、根据各所述语义簇对应的语言模型选择的处理路径，给予不同的收益；
106.s504、根据各所述语言模型的收益，得到本训练周期的总收益；
107.s505、所述深度学习神经网络根据所述总收益进行调参，经过多个训练周期的训练，直至所述总收益收敛。
108.具体的，通过给每一语义簇对应训练一个语言模型，即各语言模型利用不同的语义簇中的语义向量来训练。在每个训练周期中，在各所述语言模型在训练过程中将时刻检测模型的性能指标，当性能指标达到预设阈值时，则获取所述语言模型此时的状态信息，所述状态信息包括本语言簇结束训练时使用的样本数ns以及此时的梯度信息；将各语义簇对应的语言模型广播所述状态信息；
109.其他语言模型在收到状态信息后有由三种处理路径选择：
110.1)立即结束本周期训练，记录此刻己方性能指标值(定义为f1o)和已使用样本数量nt；求对方发送的梯度和此刻己方梯度的平均值，更新己方损失函数，得到新性能指标值(定义为f1n)；若f1o小于f1n，则给予收益否则给予收益
111.2)记录此刻己方性能指标值(定义为f2o)，求对方发送的梯度和此刻己方梯度的平均值，更新己方损失函数，继续训练直到该训练周期结束，得到新性能指标值(f2n)；设一个训练周期使用样本数量为nb，若f2o小于f2n，则给予收益否则给予收益
112.3)记录此刻己方性能指标值(f3o)，求对方发送的梯度和此刻己方梯度的平均值，更新己方损失函数；在己方当前训练已使用样本数nt基础上，再训练随机选择数量为δn的样本后结束该训练周期，得到新性能指标值(f3n)；若f3o小于f3n，则给予收益否则给予收益
113.根据选取概率选择处理路径；其中，所述选取概率为根据该训练周期所使用的多个语义向量经深度学习神经网络进行处理得到；具体包括：
114.采用强化学习领域中的策略梯度方法进行优化，使得训练总收益最大化，具体过程如下。训练一个对应类别为上述3种行动的多层神经网络。以一个二层神经网络为例，输入向量v(即本训练周期所使用的语义向量)，设隐藏层权重矩阵为w1，采用relu激活函数，偏置量为b1，输出o1＝relu(w1*v b1)；设第二隐藏层权重矩阵为w2，偏置量为b2，输出o2＝relu(w2*o1 b2)，再通过softmax层得到o3，o3即每次采取一种处理路径的概率。在实际使用中还可以采用更多隐藏层来获得更好效果。通过选择概率最大的处理路径进行处理，来
得到具体的收益；
115.在一训练周期结束后，汇总各语言模型对应的收益，得到训练总收益；具体根据如下公式来得到训练总收益：
[0116][0117]
其中，其中，γ为收益衰减系数，n为训练周期数目，i＝1至(n-1)，s
t
为第t个训练周期得到的训练总收益。
[0118]
所述深度学习神经网络根据各训练周期的所述总收益进行调参，经过多个训练周期的训练，直至所述总收益收敛。对所述升级网络的优化可采用sgd、adam等方法进行优化。
[0119]
利用训练语料之间语义关联的强弱程度，将训练样本划分到不同的语义簇进行并行训练，且采用强化学习的方式，使得模型尽早学习到更多内在语言规律，从而加快模型收敛，减少语言模型的训练开销。
[0120]
在本技术的其他实施例中，可对每一语义簇对应的语言模型设置以训练代理，该代理负责整个训练过程中的训练算法程序执行、资源申请和与其它代理通信。
[0121]
s6、根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。
[0122]
通过将各语义簇对应的训练后的语言模型的参数，主要为梯度数据，发送至同一语言模型进行汇总，求平均，得到平均梯度，并再发送给各语义簇对应的语言模型进行参数更新，将更新后的各语言模型汇总，得到最终语言模型。
[0123]
所述最终语言模型可完成机器翻译、词性标注、句法分析以及分类等任务。
[0124]
进一步的，所述根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型包括：
[0125]
当全部训练周期结束后，将各语义簇对应的语言模型最终的梯度数据汇总至同一语言模型对应的训练器；
[0126]
所述训练器根据所有语言模型对应的最终的梯度数据进行平均处理，得到平均梯度；
[0127]
将所述平均梯度发送至各所述语义簇对应的语言模型，以更新自身的参数，得到所述最终语言模型。
[0128]
具体的，当全部训练周期结束后，将各语义簇对应的语言模型最终的梯度数据汇总至同一语言模型对应的训练器；具体可以汇总至此刻工作负载最低的语言模型对应的训练器上，对所有梯度进行求平均梯度，将所述平均梯度发送至各所述语义簇对应的语言模型，以更新自身的参数，将更新后的语言模型进行汇总，得到所述最终语言模型。
[0129]
通过最后再来进行求平均梯度，各语言模型还利用平均梯度来更新自身的参数，使得语言模型更进一步优化。
[0130]
本技术通过获取语料集，利用多种特征提取模型对语料集进行特征提取，得到语料集中各文档对应的多个特征向量，得到语料集中各文档对应的多个特征向量，实现多维度提取语料集中的文本特征；基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量，通过将多个特征向量进行组合，得到对应的语义向量，实现对文本特征的整合，将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇，根
据各语义簇分别对语言模型采用强化学习进行训练，得到各语义簇对应的训练后的语言模型的参数，根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。通过利用语料集中语义关联的强弱程度，划分不同的语义簇并行训练，并采用强化学习思路，使得语言模型尽早学习到更多更深层次的语言规律，缩短了训练时间，从而加快模型收敛，减少语言模型的训练开销。
[0131]
本技术实施例还提供一种自然语言处理方法，所述方法包括：
[0132]
获取待处理文本数据；
[0133]
根据如上所述的最终语言模型，对所述待处理文本数据进行处理，得到所述待处理文本数据对应的处理结果。
[0134]
具体的，获取待处理文本数据，根据上述训练好的最终语言模型，对所述待处理文本数据进行处理，具体可利用最终语言模型下的所有模型都对所述待处理文本数据进行处理，或者对待处理文本数据先进行分类，判断所述待处理文本数据属于哪一语义簇，基于所述待处理文本数据对应的语义簇，利用最终语言模型下对应的语言模型进行处理，得到对应的处理结果。
[0135]
更进一步的，所述语言模型训练方法根据所述语料集中各文本所带标签，进行对应训练能较快学习到更多内在语言规律，从而加快模型收敛，减少语言模型的训练开销，根据标签的不同，所述最终的语言模型可进行机器翻译、词性标注、句法分析以及分类等任务，进而得到对应的处理结果。
[0136]
通过采用最终语言模型来进行使用，使得输出的处理结果更优，且速度更快。
[0137]
本实施例还提供一种语言模型训练装置，如图6所示，是本技术语言模型训练装置的功能模块图。
[0138]
本技术所述语言模型训练装置100可以安装于电子设备中。根据实现的功能，所述语言模型训练装置100可以包括获取模块101、特征提取模块102、合并模块103、聚类模块104、训练模块105和确定模块106。本技术所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
[0139]
在本实施例中，关于各模块/单元的功能如下：
[0140]
获取模块101，用于获取语料集；
[0141]
特征提取模块102，用于利用多种特征提取模型对所述语料集进行特征提取，得到所述语料集中各文档对应的多个特征向量；
[0142]
进一步的，所述多种特征提取模型包括隐含特征提取模型、主题特征提取模型和实体特征提取模型，所述特征提取模块102包括第一提取子模块、第二提取子模块和第三提取子模块；
[0143]
所述第一提取子模块，用于通过所述隐含特征提取模型对所述语料集中的各所述文档进行隐含特征提取，得到各所述文档对应的第一特征向量；
[0144]
所述第二提取子模块，用于利用所述主题特征提取模型对所述语料集中的各文档进行主题特征提取，得到各所述文档对应的第二特征向量；
[0145]
所述第三提取子模块，用于利用所述实体特征提取模型对所述语料集中的各文档进行实体特征提取，得到各所述文档对应的第三特征向量。
[0146]
通过第一提取子模块、第二提取子模块和第三提取子模块的配合，利用多种特征提取模型来对文档进行处理，可以得到多个维度的特征向量，能更好的体现文本特征。
[0147]
再进一步的，所述第二提取子模块还包括主题提取单元和向量化单元；
[0148]
所述主题提取单元，用于通过所述主题特征提取模型对所述语料集中的各所述文档进行主题词提取，得到多个主题词并进行排列；
[0149]
所述向量化单元，用于将排列后的多个所述主题词，通过主题特征提取模型下的bert模型进行向量化处理，得到各所述文档对应的第二特征向量。
[0150]
通过主题提取单元和向量化单元的配合，利用主题特征提取模型进行主题词抽取，并在排序后，输入bert模型进行向量化处理，从而得到文档的主题特征，便于后续训练时模型能更早学习到更多的内在语言规律。
[0151]
再进一步的，所述第三提取子模块还包括实体抽取单元、构建单元、图卷积提取单元；
[0152]
所述实体抽取单元，用于通过实体特征提取模型中的命名实体识别技术和关系抽取技术识别各所述文档中的实体以及实体间的关系；
[0153]
所述构建单元，用于基于所述实体以及实体间的关系，构建知识图谱；
[0154]
所述图卷积提取单元，用于通过实体特征提取模型中的图卷积神经网络对所述知识图谱进行特征提取，得到第三特征向量。
[0155]
通过实体抽取单元、构建单元、图卷积提取单元的配合，对文档进行实体与实体间关系的抽取，来得到知识图谱，并利用图卷积神经网络来对知识图谱进行特征提取，便于后续训练时模型能更早学习到更多的内在语言规律。
[0156]
合并模块103，用于基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量；
[0157]
进一步的，所述合并模块103包括权重获取子模块以及加权求和子模块；
[0158]
所述权重获取子模块，用于基于层次分析法获得所述第一特征向量、第二特征向量、第三特征向量的权重；
[0159]
所述加权求和子模块，用于根据所述第一特征向量、第二特征向量、第三特征向量的权重，对所述第一特征向量、第二特征向量、第三特征向量进行加权求和，得到所述文档对应的语义向量。
[0160]
通过权重获取子模块以及加权求和子模块的配合，基于层次分析法来得到的权重，并基于该权重，对特征向量进行加权求和，得到文档对应的语义向量，从而实现对文档特征的完整提取，，便于后续训练时模型能更早学习到更多的内在语言规律。
[0161]
聚类模块104，用于将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇；
[0162]
训练模块105，用于根据各语义簇分别对语言模型采用强化学习进行训练，最终得到各语义簇对应的训练后的语言模型的参数；
[0163]
进一步的，所述训练模块105包括广播子模块、路径选择子模块，对应处理子模块、收益计算子模块以及调参子模块；
[0164]
所述广播子模块，用于在每一训练周期中，当一语义簇对应的语言模型的性能指标达到预设阈值时，获取所述语言模型此时的状态信息，将所述语言模型的状态信息，向各
语义簇对应的语言模型进行广播；
[0165]
所述路径选择子模块，用于各所述语义簇对应的语言模型在接收到所述状态信息后，更新自身的参数，并且根据选取概率选择处理路径；其中，所述选取概率为根据该训练周期所使用的多个语义向量经深度学习神经网络进行处理得到；
[0166]
所述对应处理子模块，用于根据各所述语义簇对应的语言模型选择的处理路径，给予不同的收益；
[0167]
所述收益计算子模块，用于根据各所述语言模型的收益，得到本训练周期的总收益；
[0168]
所述调参子模块，用于所述深度学习神经网络根据所述总收益进行调参，经过多个训练周期的训练，直至所述总收益收敛。
[0169]
通过广播子模块、路径选择子模块，对应处理子模块、收益计算子模块以及调参子模块的配合，利用训练语料之间语义关联的强弱程度，将训练样本划分到不同的语义簇进行并行训练，且采用强化学习的方式，使得模型尽早学习到更多内在语言规律，从而加快模型收敛，减少语言模型的训练开销。
[0170]
确定模块106，用于根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。
[0171]
进一步的，所述确定模块106包括汇总子模块、平均子模块以及发送子模块；
[0172]
所述汇总子模块，用于当全部训练周期结束后，将各语义簇对应的语言模型最终的梯度数据汇总至同一语言模型对应的训练器；
[0173]
所述平均子模块，用于所述训练器根据所有语言模型对应的最终的梯度数据进行平均处理，得到平均梯度；
[0174]
所述发送子模块，用于将所述平均梯度发送至各所述语义簇对应的语言模型，以更新自身的参数，得到所述最终语言模型。
[0175]
通过汇总子模块、平均子模块以及发送子模块的配合，最后再来进行求平均梯度，各语言模型还利用平均梯度来更新自身的参数，使得语言模型更进一步优化。
[0176]
通过采用上述装置，所述语言模型训练装置100通过获取模块101、特征提取模块102、合并模块103、聚类模块104、训练模块105和确定模块106的配合使用，通过获取语料集，利用多种特征提取模型对语料集进行特征提取，得到语料集中各文档对应的多个特征向量，得到语料集中各文档对应的多个特征向量，实现多维度提取语料集中的文本特征；基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量，通过将多个特征向量进行组合，得到对应的语义向量，实现对文本特征的整合，将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇，根据各语义簇分别对语言模型采用强化学习进行训练，得到各语义簇对应的训练后的语言模型的参数，根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。通过利用语料集中语义关联的强弱程度，划分不同的语义簇并行训练，并采用强化学习思路，使得语言模型尽早学习到更多更深层次的语言规律，缩短了训练时间，从而加快模型收敛，减少语言模型的训练开销。
[0177]
本实施例还提供一种自然语言处理装置，本技术所述自然语言处理装置可以安装于电子设备中。根据实现的功能，所述自然语言处理装置可以包括数据获取模块和处理模块。本技术所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够
完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
[0178]
在本实施例中，关于各模块/单元的功能如下：
[0179]
所述数据获取模块，用于获取待处理文本数据；
[0180]
所述处理模块，用于根据如上所述的最终语言模型，对所述待处理文本数据进行处理，得到所述待处理文本数据对应的处理结果。
[0181]
通过数据获取模块和处理模块的配合，采用最终语言模型来进行使用，使得输出的处理结果更优，且速度更快。
[0182]
本技术实施例还提供一种计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。
[0183]
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程门阵列(field－programmable gate array，fpga)、数字处理器(digital signal processor，dsp)、嵌入式设备等。
[0184]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0185]
所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如语言模型训练方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0186]
所述处理器42在一些实施例中可以是中央处理器(central processing unit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述语言模型训练方法的计算机可读指令。
[0187]
所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
[0188]
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例语言模型训练方法的步骤，通过获取语料集，利用多种特征提取模型对语料集进行特征提取，得到语料集中各文档对应的多个特征向量，得到语料集中各文档对应的多个特征向量，
实现多维度提取语料集中的文本特征；基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量，通过将多个特征向量进行组合，得到对应的语义向量，实现对文本特征的整合，将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇，根据各语义簇分别对语言模型采用强化学习进行训练，得到各语义簇对应的训练后的语言模型的参数，根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。通过利用语料集中语义关联的强弱程度，划分不同的语义簇并行训练，并采用强化学习思路，使得语言模型尽早学习到更多更深层次的语言规律，缩短了训练时间，从而加快模型收敛，减少语言模型的训练开销。
[0189]
本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的语言模型训练方法的步骤，通过获取语料集，利用多种特征提取模型对语料集进行特征提取，得到语料集中各文档对应的多个特征向量，得到语料集中各文档对应的多个特征向量，实现多维度提取语料集中的文本特征；基于各所述文档对应的多个所述特征向量，得到各所述文档对应的语义向量，通过将多个特征向量进行组合，得到对应的语义向量，实现对文本特征的整合，将所述语料集中各文档对应的语义向量利用聚类模型进行聚类，得到多个语义簇，根据各语义簇分别对语言模型采用强化学习进行训练，得到各语义簇对应的训练后的语言模型的参数，根据各语义簇对应的训练后的语言模型的参数，以确定最终语言模型。通过利用语料集中语义关联的强弱程度，划分不同的语义簇并行训练，并采用强化学习思路，使得语言模型尽早学习到更多更深层次的语言规律，缩短了训练时间，从而加快模型收敛，减少语言模型的训练开销。
[0190]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例所述的方法。
[0191]
本技术上述实施例的语言模型训练装置、计算机设备、计算机可读存储介质具有与上述实施例的语言模型训练方法相同的技术效果，在此不作展开。
[0192]
显然，以上所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例，附图中给出了本技术的较佳实施例，但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本技术专利保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数字对象操作存证及溯源管理方法、装置、设备及介质与流程

自然语言处理方法、语言模型训练方法及其相关设备与流程

相关文献

最热文献