数据处理方法以及装置、文本处理方法以及装置与流程

2022-05-31 17:40:36 来源：中国专利 TAG：

1.本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法。

背景技术：

2.传统神经翻译模型的模型架构主要是由线性变换和非线性激活两大部分构成。随着自然语言处理技术的的不断发展，模型训练和推理过程中带来的能耗预算不可估量，在模型中各个网络层的处理能力很大程度上决定着模型的处理效率；目前在文本处理模型的应用中，注意力层可以对两个文本词组之间计算的相似度，来确定注意力机制权重，并对所有位置表示进行加权求和获得当前位置输出，以实现对文本进行处理；但在文本处理的过程中，由于计算过程中包含高耗能的算子操作，进而，导致注意力层的能耗较高，使得在文本处理的场景下模型的处理性能也较低。

技术实现要素：

3.有鉴于此，本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种文本处理方法，一种数据处理装置，一种文本处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。
4.根据本说明书实施例的第一方面，提供了一种数据处理方法，应用于文本处理模型的注意力层，包括：接收第一文本矩阵和第二文本矩阵；对所述第一文本矩阵和所述第二文本矩阵进行离散化处理，获得第一离散文本矩阵和第二离散文本矩阵；提取所述第一离散文本矩阵和所述第二离散文本矩阵的特征信息，生成目标查询矩阵和目标键值矩阵；基于所述目标查询矩阵和所述目标键值矩阵计算矩阵距离，基于所述矩阵距离确定所述第一文本矩阵和所述第二文本矩阵之间的注意力值。
5.根据本说明书实施例的第二方面，提供了一种文本处理方法，包括：确定第一待处理文本的第一文本矩阵和第二待处理文本的第二文本矩阵；将所述第一文本矩阵和所述第二文本矩阵输入文本处理模型的注意力层；基于所述注意力层中确定的注意力值对所述第一文本矩阵和所述第二文本矩阵进行处理，输出文本处理结果；其中，所述注意力层中的注意力值是由上述数据处理方法确定。
6.根据本说明书实施例的第三方面，提供了一种数据处理装置，应用于文本处理模型的注意力层，包括：矩阵接收模块，被配置为接收第一文本矩阵和第二文本矩阵；离散处理模块，被配置为对所述第一文本矩阵和所述第二文本矩阵进行离散化处理，获得第一离散文本矩阵和第二离散文本矩阵；
提取特征模块，被配置为提取所述第一离散文本矩阵和所述第二离散文本矩阵的特征信息，生成目标查询矩阵和目标键值矩阵；注意力值计算模块，被配置为基于所述目标查询矩阵和所述目标键值矩阵计算矩阵距离，基于所述矩阵距离确定所述第一文本矩阵和所述第二文本矩阵之间的注意力值。
7.根据本说明书实施例的第四方面，提供了一种文本处理方法，包括：矩阵确定模块，被配置为确定第一待处理文本的第一文本矩阵和第二待处理文本的第二文本矩阵；矩阵输入模块，被配置为将所述第一文本矩阵和所述第二文本矩阵输入文本处理模型的注意力层；文本处理模块，被配置为基于所述注意力层中确定的注意力值对所述第一文本矩阵和所述第二文本矩阵进行处理，输出文本处理结果；其中，所述注意力层中的注意力值是由上述数据处理方法确定。
8.根据本说明书实施例的第五方面，提供了一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。
9.根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述数据处理方法的步骤。
10.根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法的步骤。
11.本说明书一个实施例提供了数据处理方法，应用于文本处理模型的注意力层，包括：接收第一文本矩阵和第二文本矩阵；对所述第一文本矩阵和所述第二文本矩阵进行离散化处理，获得第一离散文本矩阵和第二离散文本矩阵；提取所述第一离散文本矩阵和所述第二离散文本矩阵的特征信息，生成目标查询矩阵和目标键值矩阵；基于所述目标查询矩阵和所述目标键值矩阵计算矩阵距离，基于所述矩阵距离确定所述第一文本矩阵和所述第二文本矩阵之间的注意力值。
12.具体的，通过文本矩阵进行离散化处理，并对离散化文本矩阵进行特征提取，获得对应的目标查询矩阵和目标键值矩阵，进而，再确定矩阵距离以计算注意力值，通过减少乘法操作，降低了耗能较高的运算方式，也提高了文本处理的场景下模型的处理性能。
附图说明
13.图1是本说明书一个实施例提供的一种数据处理方法的流程图；图2是本说明书一个实施例提供的低能耗注意力网络与知识蒸馏方法对比图；图3是本说明书一个实施例提供的一种文本处理方法的流程图；图4是本说明书一个实施例提供的一种数据处理装置的结构示意图；图5是本说明书一个实施例提供的一种文本处理装置的结构示意图；图6是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
14.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。
15.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
16.应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
17.首先，对本说明书一个或多个实施例涉及的名词术语进行解释。
18.ml（machine learning，机器学习）：是研究如何从数据中提取知识的学科。
19.dl（deep learning，深度学习）：是机器学习的一个分支，相比于传统机器学习方法，深度学习试图使用多个具有对非线性变换映射建模能力的处理层，来从大量数据中获取、加工并运用知识。
20.nmt（neural machine translation，神经网络机器翻译）：简称神经机器翻译，是最新一代机器翻译技术，以人工神经网络作为模型的主要架构，神经机器翻译方法可以实现将源端信息翻译到目标端，实现跨语言的翻译任务。
21.bleu：一种最常用的机器翻译质量评测方法，分数为百分制，越高表示效果越好。
22.an（attention network，注意力网络）：使用注意力机制（attention mechanism），在通过线性变换将输入转为query和key两组输入向量后，再在两者之间进行注意力权重计算，决定每个位置上的词语表示可以从句子内部的所有位置上提取句子表示的权重，继而进行加权求和。
23.san（self-attention network，自注意力网络）：an的一种特例，在同一组输入向量内部进行两两运算，提取注意力权重进而获得输出。
24.transformer：一种模型框架，transformer模型是一个多层模型，广义上transformer网络层（transformer layer）含有两个子层，分别由自注意力网络（san）和前馈网络（feedforward network, ffn）作为主要框架，并结合了残差链接（residual connection）和层归一化（layer normalization）。
25.lp-distance（lp距离）：用于定量刻画两个向量之间的距离的度量方法。
26.曼哈顿距离：是种使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和。也称为l1距离，即当p=1时的lp距离特例。
27.kd（knowledge distillation，知识蒸馏）：是指使用一个规模小的模型来拟合大模型的输出，达到将大模型所蕴含的知识提炼到一个小模型的目的，知识蒸馏所得到的模型注重于使用上的速度，但效果一般会比原始模型有所损失。
28.在自然语言处理技术中，基于原始注意力机制，通过在两组词语之间计算两两之间的相似度来确定注意力机制权重，并对所有位置标示进行加权求和获得当前位置输出，其计算过程同时也包含了大量乘法操作，导致注意力模块能耗较高；而进一步地，目前也有对原始注意力机制进行修改，以实现简化计算的目的，主要通过预定义注意力权重并跟随模型学习和更新，预定义前馈神经网络，通过输入句子表示来获得注意力权重，其计算过程虽可达到降低能耗的目的，但是效果却明显下降，且在翻译场景中，相比于原始注意力机制，针对跨语言映射的注意力网络（cross-attention network，can）效果下降明显。此外，还有方法通过设计一个小规模模型，使其直接拟合大规模模型的输出结果，从而达到知识蒸馏的目的，传统知识蒸馏方法可以降低模型训练和推理速度，且相比于原始模型带来的性能损失很小。
29.基于此，在目前对模型压缩的角度上看，通过减少模型参数规模来达到降低浮点数计算、缩小能耗的目的，本说明书实施例在算子能耗的角度上，通过降低高能耗算子的调用次数来达到降低模型整体能耗的目的，因此，提出了一种低能耗注意力机制网络（e-att），通过降低能耗高的算子调用次数，增加能耗低的算子调用次数，来达到模型性能和降低能耗的进一步平衡，需要说明的是，本说明书实施例提供的数据处理方法中关注神经网络架构中大量使用的两种算子为乘法（multiplication）和加法（addition），并将降低能耗的思想运用了原始注意力网络中的计算过程。
30.在本说明书中，提供了一种数据处理方法，本说明书同时涉及一种文本处理方法，一种数据处理装置，一种文本处理装置，一种计算设备，以及一种计算机可读存储介质，一种计算机程序，在下面的实施例中逐一进行详细说明。
31.参见图1，图1示出了根据本说明书一个实施例提供的一种数据处理方法的流程图，具体包括以下步骤。
32.需要说明的是，本说明书实施例提供的数据处理方法应用于文本处理模型的注意力层中，具体可应用于模型中的任意注意力层，在此则不作任何限定。
33.步骤102：接收第一文本矩阵和第二文本矩阵。
34.其中，第一文本矩阵可以理解为对第一初始文本进行向量化处理后的文本矩阵，其中，第一初始文本可以为固定文本长度的词语，比如第一初始文本为“床前明月光”，其固定文本长度为5，则第一文本矩阵则为“床前明月光”的向量化处理后的文本矩阵。
35.第二文本矩阵可以理解为对第二初始文本进行向量化处理后的文本矩阵，其中第二文本矩阵也有固定文本长度，比如第二初始文本为“疑是地上霜”，其固定文本长度为5，则第二文本矩阵则为“疑是地上霜”的向量化处理后的文本矩阵。
36.实际应用中，注意力层可接收到针对第一初始文本和第二初始文本处理后的第一文本矩阵和第二文本矩阵，目的是计算第一文本矩阵和第二文本矩阵之间的注意力权重，以提高文本处理模型的文本处理效果。
37.步骤104：对所述第一文本矩阵和所述第二文本矩阵进行离散化处理，获得第一离散文本矩阵和第二离散文本矩阵。
38.其中，第一离散文本矩阵、第二离散文本矩阵均可以理解为对文本矩阵进行离散化处理后，由0和1表示的文本矩阵。
39.实际应用中，注意力层为了准确地确定第一文本矩阵和第二文本矩阵之间的权重
关系，可对第一文本矩阵先进行离散化处理，获得第一离散文本矩阵；再对第二文本矩阵进行离散化处理，获得第二离散文本矩阵。需要说明的是，在原始注意力网络中，对于接收的第一文本矩阵和第二文本就直接通过线性变换获得第一文本矩阵的查询矩阵和第二文本矩阵的键值矩阵，具体可参见下述公式1和公式2：公式1其中，为第一文本矩阵，为模型参数，且d为模型维度，表示对应的文本长度。
40.公式2其中，为第二文本矩阵，为模型参数，且d为模型维度，表示对应的文本长度。
41.基于此，本说明书实施例提供的数据处理方法，通过确定预设离散化阈值，对第一文本矩阵进行离散化处理，进而确定第一离散文本矩阵；具体的，所述对所述第一文本矩阵进行离散化处理，获得第一离散文本矩阵，包括：确定预设离散化阈值，比对所述第一文本矩阵中的各个元素值与所述预设离散化阈值；将所述第一文本矩阵中的元素值大于所述预设离散化阈值的元素值替换为第一离散值；将所述第一文本矩阵中的元素值小于等于所述预设离散化阈值的元素值替换为第二离散值；基于所述第一离散值和所述第二离散值确定所述第一离散文本矩阵。
42.其中，预设离散化阈值可以理解为为了实现对第一文本矩阵进行离散化处理过程中的比较阈值，可以为0.0、0.1等等，根据不同的离散化处理场景做不同的变换，本说明书实施例对此不作任何限定。
43.实际应用中，注意力层将第一文本矩阵中的各个元素值与预设离散化阈值进行一一比对，并确定将元素值大于预设离散化阈值的元素替换为第一离散值，将元素值小于等于预设离散化阈值替换为第二离散值，进一步地，根据第一离散值和第二离散值的组合，就构建了第一离散文本矩阵。
44.相应地，计算第一离散文本矩阵的参考公式3如下：公式3其中，表示第一离散文本矩阵，为第一文本矩阵，d为模型维度，表示对应的文本长度；需要说明的是，表示根据预设离散化阈值τ对表示进行离散化处理，可参见下述公式4：公式4
进一步地，所述对所述第二文本矩阵进行离散化处理，获得第二离散文本矩阵，包括：确定预设离散化阈值，比对所述第二文本矩阵中的各个元素值与所述预设离散化阈值；将所述第二文本矩阵中的元素值大于所述预设离散化阈值的元素值替换为第一离散值；将所述第二文本矩阵中的元素值小于等于所述预设离散化阈值的元素值替换为第二离散值；基于所述第一离散值和所述第二离散值确定所述第二离散文本矩阵。
45.实际应用中，针对第二文本矩阵的离散化处理也可参考上述对第一文本矩阵进行离散化处理的过程，相应地，计算第二离散化文本矩阵的参考公式5如下：公式5其中，表示第二离散文本矩阵，为第二文本矩阵，d为模型维度，表示对应的文本长度；需要说明的是，表示根据预设离散化阈值τ对表示进行离散化处理，可参见上述公式4。
46.本说明书实施例提供的数据处理方法，通过对文本矩阵进行离散化处理以代替传统的线性变换，使用浮点数加法操作代替浮点数乘法操作，来达到降低模型能耗的目的。
47.步骤106：提取所述第一离散文本矩阵和所述第二离散文本矩阵的特征信息，生成目标查询矩阵和目标键值矩阵。
48.实际应用中，注意力层在确定第一文本矩阵对应的第一离散文本矩阵，以及第二文本矩阵对应的第二离散文本矩阵之后，还可对第一离散文本矩阵以及第二离散文本矩阵分别进行特征提取，以获得目标查询矩阵和目标键值矩阵。
49.进一步地，所述提取所述第一离散文本矩阵的特征信息，生成目标查询矩阵，包括：基于所述第一文本矩阵的第一文本长度对所述文本处理模型的第一初始参数矩阵的模型维度进行扩展，获得第一目标参数矩阵；提取所述第一目标参数矩阵以及所述第一离散文本矩阵的特征信息，确定所述第一文本矩阵的目标查询矩阵。
50.其中，第一文本长度可以理解为第一文本矩阵中文本的长度，沿用上述例子，第一文本长度为“床前明月光”的固定文本长度。第一初始参数矩阵可以理解为注意力层中的初始化权重，即query对应的。
51.实际应用中，注意力层可利用第一文本矩阵对应的第一离散文本矩阵确定第一文本矩阵的目标查询矩阵（query）。注意力层可先根据第一文本长度，对在模型维度中进行扩展复制操作，获得第一目标参数矩阵，即；进一步地，再基于第一目标参数矩阵以及第一离散文本矩阵提取第一离散文本矩阵的特征信息，确定第一文本矩阵的目标查询矩阵。
52.更进一步地，在提取了第一离散文本矩阵的特征信息之后，还可在目标模型维度
上进行向量求和，以获得目标查询矩阵；具体的，所述提取所述第一目标参数矩阵以及所述第一离散文本矩阵的特征信息，确定所述第一文本矩阵的目标查询矩阵，包括：提取所述第一目标参数矩阵以及所述第一离散文本矩阵的特征信息，确定所述第一文本矩阵的初始查询矩阵；对所述初始查询矩阵中的目标模型维度进行求和处理，获得所述第一文本矩阵的目标查询矩阵。
53.实际应用中，注意力层基于第一目标参数矩阵以及第一离散文本矩阵提取到第一离散文本矩阵对应的特征信息，可参考下述特征提取公式6：公式6其中，表示初始查询矩阵，表示第一离散文本矩阵，表示第一目标参数矩阵，函数为特征提取函数，参见公式7：公式7进一步地，再对初始查询矩阵中的目标模型维度进行求和处理，获得第一文本矩阵的目标查询矩阵，可参见下述公式8：下述公式8：公式8相应地，注意力层还可对第二离散文本矩阵进行特征信息提取，生成目标键值矩阵；具体的，所述提取所述第二离散文本矩阵的特征信息，生成目标键值矩阵，包括：基于所述第二文本矩阵的第二文本长度对所述文本处理模型的第二初始参数矩阵的模型维度进行扩展，获得第二目标参数矩阵；提取所述第二目标参数矩阵以及所述第二离散文本矩阵的特征信息，确定所述第二文本矩阵的目标键值矩阵。
54.其中，第二文本长度可以理解为第二文本矩阵中的文本长度，沿用上述例子，第二文本长度为“疑是地上霜”的固定文本长度。第二初始参数矩阵可以理解为注意力层中的初始化权重，即key对应的。
55.实际应用中，注意力层可利用第二文本矩阵对应的第二离散文本矩阵确定第二文本矩阵的目标键值矩阵（key）。注意力可先根据第一文本长度，对在模型维度中进行扩展复制操作，获得第二目标参数矩阵，即扩展复制操作，获得第二目标参数矩阵，即；进一步地，再基于第二目标参数矩阵以及第二离散文本矩阵提取第二离散文本矩阵的特征信息，确定第二文本矩阵的目标键值矩阵。
56.更进一步地，在提取到第二离散文本矩阵的特征信息之后，还可在目标模型维度上进行向量求和，以获得目标键值矩阵；具体的，所述提取所述第二目标参数矩阵以及所述第二离散文本矩阵的特征信息，确定所述第二文本矩阵的目标键值矩阵，包括：提取所述第二目标参数矩阵以及所述第二离散文本矩阵的特征信息，确定所述第二文本矩阵的初始键值矩阵；
对所述初始键值矩阵中的目标模型维度进行求和处理，获得所述第二文本矩阵的目标键值矩阵。
57.实际应用中，注意力层基于第二目标参数矩阵以及第二离散文本矩阵提取到第二离散文本矩阵对应的特征信息，可参考下述特征提取公式9：公式9其中，表示初始键值矩阵，表示第二离散文本矩阵，表示第二目标参数矩阵，函数为特征提取函数，参见公式7。
58.进一步地，再对初始键值矩阵中的目标模型维度进行求和处理，获得第二文本矩阵的目标键值矩阵，可参见下述公式10：下述公式10：公式10本说明书实施例提供的数据处理方法，通过对初始参数矩阵进行扩展复制操作，并对扩展复制操作后的目标参数矩阵提取对应向量表示并求和，以获得目标查询矩阵和目标键值矩阵。
59.步骤108：基于所述目标查询矩阵和所述目标键值矩阵计算矩阵距离，基于所述矩阵距离确定所述第一文本矩阵和所述第二文本矩阵之间的注意力值。
60.其中，矩阵距离可以理解为l1（lp距离定义范式中p=1的场景，可用于定量刻画两个向量之间的距离），即曼哈顿距离。
61.实际应用中，注意力层根据目标查询矩阵和目标键值矩阵计算矩阵距离，即为，其中，表示l1距离运算；再根据矩阵距离确定第一文本矩阵和第二文本矩阵之间的注意力值，具体可参见下述公式11：公式11其中，可以理解为第i个文本及第j个维度上的注意力值。
62.需要说明的是，传统的注意力网络计算注意力权重时使用矩阵乘法获得注意力表示，可参考下述公式12：公式12由上述公式11和公式12，可以看出，公式12中为矩阵乘法运算,t表示对进行转置操作。此过程蕴含大量的矩阵乘法，相应地，计算过程需要大量的能量消耗。而本说明书实施例提供的数据处理方法，通过计算查询矩阵和键值矩阵之间的曼哈顿距离即l1距离，且计算矩阵距离的方式是采用了加减法的计算模式，并未采用乘法的计算过程，由于乘法的计算相比较于加减法的计算，会耗费大量的计算耗能，因此，本说明书实施例提供的通过计算l1距离来代替矩阵乘法，以减少计算能耗。
63.此外，由于注意力层是基于离散化矩阵进行处理后，获得注意力值，整个过程是一
个离散过程，是无法进行梯度计算的，也无法实现反向传播；那么注意力层还可再基于对第一文本矩阵的梯度估计，以实现对文本处理模型中注意力层进行调参；具体的，所述基于所述矩阵距离确定所述第一文本矩阵和所述第二文本矩阵之间的注意力值之后，还包括:确定所述第一文本矩阵的第一矩阵梯度，以及确定所述第二文本矩阵的第二矩阵梯度；基于所述第一矩阵梯度以及所述第二矩阵梯度调整所述注意力层中的模型参数。
64.实际应用中，可通过预先设定反向传播梯度的模式，去模拟反向传播回来的梯度，进而在对模型参数进行调整；注意力层在反向传播时使用一种类似高斯分布的模拟信息，根据上一层获取的梯度来估计输入的梯度，以第一离散文本矩阵为例，在获取其（上一层获取的梯度）之后，还可通过以下公式13来估计其输入的梯度（即可以理解为将离散化的梯度转换为线性梯度）：化的梯度转换为线性梯度）：公式13其中，为的梯度，π为元周率，e为自然数底数，τ为预设离散化阈值。
65.需要说明的是，由于计算过程已经进行了离散化处理，可能导致矩阵中某一个元素无法计算出梯度，那么，对于该元素的前后都无法再进行提速计算和网络更新，因此，需要估计该元素自己的梯度，能够使得该元素进行自我更新，同时也会使得该元素的前后梯度都能够进行更新。
66.本说明书实施例提供的数据处理方法，通过将离散数据对应的梯度，转换成线性的梯度值，以便于对注意力层相应参数进行训练和更新，缩小本实例方法所得模型与基线系统模型之间的效果差距。
67.基于此，模型在运算过程中大大降低了乘法操作，使用加法操作来进行计算。本说明书实施例提供的数据处理方法相比于传统注意力网络可以实现大约34%的能耗降低，同时与基线系统的效果差距不超过1bleu分数（见表1），需要说明的是，表1中的数据仅为示意性的数据，在此不做具体限定。
68.表1结合低能耗注意力网络的机器翻译实验结果（bleu 值）
相比较于注意力机制网络的其他变体，本说明书实施例提供的数据处理方法可以在语义计算上提供相对精确的语义对齐信息，且对于跨语言语义对齐上效果超过了其他注意力网络变体（见表2）。
69.表2不同注意力网络组合实验结果（bleu 值）相比于知识蒸馏方法，我们的模型不需要已有模型来指导学习，且我们的方法通过减少耗能运算来降低能耗，而非减少参数量。模型效果相比于知识蒸馏方法在效果相当时仍有较大的低能耗优势（可参见附图2，图2示出了低能耗注意力网络与知识蒸馏方法对比图）。
70.综上，本说明书实施例提供的数据处理方法，通过在模型运算过程中大大降低乘法计算操作，使用加法计算操作来进行计算，以达到降低模型整体能耗的目的。
71.参见图3，图3示出了根据本说明书一个实施例提供的一种文本处理方法的流程图，具体包括以下步骤。
72.步骤302：确定第一待处理文本的第一文本矩阵和第二待处理文本的第二文本矩阵。
73.其中，第一待处理文本可以理解为上述实施例中的第一初始文本，第一文本矩阵可以理解为上述实施例中的第一文本矩阵，即对第一待处理文本进行向量化处理后的文本矩阵；第二待处理文本可以理解为上述实施例中的第二初始文本，第二文本矩阵可以理解为上述实施例中的第二文本矩阵，即对第二待处理文本进行向量化处理后的文本矩阵。
74.沿用上述实施例中的例子，第一待处理文本为“床前明月光”，第二待处理文本为“疑是地上霜”，因此，实际应用中，服务器先对上述两段文本分别进行向量化处理，获得对应的第一文本矩阵和第二文本矩阵。
75.步骤304：将所述第一文本矩阵和所述第二文本矩阵输入文本处理模型的注意力层。
76.进一步地，将上述两段文本对应的两个文本矩阵输入至文本处理模型中进行文本处理，需要说明的是，该文本处理模型中包括多个模型层，其中，注意力层可根据调整该层中的注意力权重，以提高该文本处理模型对第一待处理文本以及第二待处理文本的文本处理效果，进而，本实施例在实际应用中，可利用调整后的文本处理模型的注意力层，对上述两段文本进行处理。
77.步骤306：基于所述注意力层中确定的注意力值对所述第一文本矩阵和所述第二文本矩阵进行处理，输出文本处理结果。
78.其中，所述注意力层中的注意力值是由上述实施例的数据处理方法确定。
79.需要说明的是，本实施例中利用的文本处理模型的注意力层中的注意力值可参考上述实施例中对注意力值的生成方法，通过离散化处理，降低该层文本处理过程中对于乘
法计算的操作，改用加法计算操作，以实现降低模型整体耗能的目的。
80.因此，通过对文本处理模型中的注意力值确定方式的改变，能够对上述两段文本对应的文本矩阵进一步地处理，进而输出文本处理结果，不仅能够实现准确地文本处理结果，还能够在处理过程中降低整体模型的能耗。
81.与上述方法实施例相对应，本说明书还提供了数据处理装置实施例，图4示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图4所示，该装置应用于文本处理模型的注意力层，包括：矩阵接收模块402，被配置为接收第一文本矩阵和第二文本矩阵；离散处理模块404，被配置为对所述第一文本矩阵和所述第二文本矩阵进行离散化处理，获得第一离散文本矩阵和第二离散文本矩阵；提取特征模块406，被配置为提取所述第一离散文本矩阵和所述第二离散文本矩阵的特征信息，生成目标查询矩阵和目标键值矩阵；注意力值计算模块408，被配置为基于所述目标查询矩阵和所述目标键值矩阵计算矩阵距离，基于所述矩阵距离确定所述第一文本矩阵和所述第二文本矩阵之间的注意力值。
82.可选地，所述提取特征模块406，进一步被配置为：基于所述第一文本矩阵的第一文本长度对所述文本处理模型的第一初始参数矩阵的模型维度进行扩展，获得第一目标参数矩阵；提取所述第一目标参数矩阵以及所述第一离散文本矩阵的特征信息，确定所述第一文本矩阵的目标查询矩阵。
83.可选地，所述提取特征模块406，进一步被配置为：提取所述第一目标参数矩阵以及所述第一离散文本矩阵的特征信息，确定所述第一文本矩阵的初始查询矩阵；对所述初始查询矩阵中的目标模型维度进行求和处理，获得所述第一文本矩阵的目标查询矩阵。
84.可选地，所述提取特征模块406，进一步被配置为：基于所述第二文本矩阵的第二文本长度对所述文本处理模型的第二初始参数矩阵的模型维度进行扩展，获得第二目标参数矩阵；提取所述第二目标参数矩阵以及所述第二离散文本矩阵的特征信息，确定所述第二文本矩阵的目标键值矩阵。
85.可选地，所述提取特征模块406，进一步被配置为：提取所述第二目标参数矩阵以及所述第二离散文本矩阵的特征信息，确定所述第二文本矩阵的初始键值矩阵；对所述初始键值矩阵中的目标模型维度进行求和处理，获得所述第二文本矩阵的目标键值矩阵。
86.可选地，所述离散处理模块404，进一步被配置为：确定预设离散化阈值，比对所述第一文本矩阵中的各个元素值与所述预设离散化阈值；将所述第一文本矩阵中的元素值大于所述预设离散化阈值的元素值替换为第一
离散值；将所述第一文本矩阵中的元素值小于等于所述预设离散化阈值的元素值替换为第二离散值；基于所述第一离散值和所述第二离散值确定所述第一离散文本矩阵。
87.可选地，所述离散处理模块404，进一步被配置为：确定预设离散化阈值，比对所述第二文本矩阵中的各个元素值与所述预设离散化阈值；将所述第二文本矩阵中的元素值大于所述预设离散化阈值的元素值替换为第一离散值；将所述第二文本矩阵中的元素值小于等于所述预设离散化阈值的元素值替换为第二离散值；基于所述第一离散值和所述第二离散值确定所述第二离散文本矩阵。
88.可选地，所述装置，还包括:参数调整模块，被配置为确定所述第一文本矩阵的第一矩阵梯度，以及确定所述第二文本矩阵的第二矩阵梯度；基于所述第一矩阵梯度以及所述第二矩阵梯度调整所述注意力层中的模型参数。
89.可选地，所述对第一文本矩阵进行离散化处理通过下述公式确定：其中，表示第一离散文本矩阵，为第一文本矩阵，d为模型维度，表示对应的文本长度，表示根据预设离散化阈值对表示进行离散化处理；相应地，所述对第二文本矩阵进行离散化处理通过下述公式确定：其中，表示第二离散文本矩阵，为第二文本矩阵，d为模型维度，表示对应的文本长度，表示根据预设离散化阈值对表示进行离散化处理。
90.可选地，所述基于所述目标查询矩阵和所述目标键值矩阵计算矩阵距离通过下述公式确定：其中，可以理解为第i个文本及第j个维度上的注意力值，表示l1距离运算，为文本矩阵的目标查询矩阵，为文本矩阵的目标键值矩阵，d为模型维度，l为文本长度。
91.本说明书实施例提供的数据处理装置，通过文本矩阵进行离散化处理，并对离散化文本矩阵进行特征提取，获得对应的目标查询矩阵和目标键值矩阵，进而，再确定矩阵距离以计算注意力值，通过减少乘法操作，降低了耗能较高的运算方式，也提高了文本处理的场景下模型的处理性能。
92.上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。
93.与上述方法实施例相对应，本说明书还提供了文本处理装置实施例，图5示出了本说明书一个实施例提供的一种文本处理装置的结构示意图。如图5所示，该装置，包括：矩阵确定模块502，被配置为确定第一待处理文本的第一文本矩阵和第二待处理文本的第二文本矩阵；矩阵输入模块504，被配置为将所述第一文本矩阵和所述第二文本矩阵输入文本处理模型的注意力层；文本处理模块506，被配置为基于所述注意力层中确定的注意力值对所述第一文本矩阵和所述第二文本矩阵进行处理，输出文本处理结果；其中，所述注意力层中的注意力值是由上述数据处理方法确定。
94.本说明书实施例提供的文本处理装置，通过对文本处理模型中的注意力值确定方式的改变，能够对上述两段文本对应的文本矩阵进一步地处理，进而输出文本处理结果，不仅能够实现准确地文本处理结果，还能够在处理过程中降低整体模型的能耗。
95.上述为本实施例的一种文本处理装置的示意性方案。需要说明的是，该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思，文本处理装置的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。
96.图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。
97.计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网（pstn）、局域网（lan）、广域网（wan）、个域网（pan）或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（nic））中的一个或多个，诸如ieee802.11无线局域网（wlan）无线接口、全球微波互联接入（wi-max）接口、以太网接口、通用串行总线（usb）接口、蜂窝网络接口、蓝牙接口、近场通信（nfc）接口，等等。
98.在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
99.计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
100.其中，处理器620用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法或文本处理方法的步骤。
101.上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技
术方案与上述的数据处理方法或文本处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法或文本处理方法的技术方案的描述。
102.本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法或文本处理方法的步骤。
103.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法或文本处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法或文本处理方法的技术方案的描述。
104.本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法或文本处理方法的步骤。
105.上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的数据处理方法或文本处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述数据处理方法或文本处理方法的技术方案的描述。
106.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
107.所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
108.需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。
109.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
110.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：人物交互检测方法、装置及电子设备与流程

数据处理方法以及装置、文本处理方法以及装置与流程

相关文献

最热文献