文本数据增强方法及装置、电子设备、存储介质与流程

2022-04-09 03:08:17 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，具体而言，涉及一种文本数据增强方法、文本数据增强装置、电子设备以及计算机可读存储介质。

背景技术：

2.随着互联网技术的不断发展，数据增强技术也越来越多样化，特别是文本数据增强在防火墙领域的应用成为数据增强技术研究的另一热点。
3.在相关的文本增强方案中，要么是采用加噪方式，例如，同义词替换(sr：synonyms replace)、随机插入(ri：randomly insert)、随机交换(rs：randomly swap)、随机删除(rd：randomly delete)，要么是采用生成对抗网络的方式生成新的数据。然而，基于加噪方式的文本数据增强方法容易生成无效的数据，使得生成的增强文本数据不可靠；同时，基于生成对抗网络的文本数据增强方法，不但需要根据具体的任务耗费大量的网络资源训练生成器和判别器，而且训练完成的生成器和判别器只能生成固定类型的数据，使得生成的增强文本数据具有较大的局限性。
4.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

5.本公开实施例的目的在于提供一种文本数据增强方法、文本数据增强装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服新生文本数据的可靠性较低，以及局限性较大和耗费资源较多的问题。
6.本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
7.根据本公开实施例的第一方面，提供了一种文本数据增强方法，包括：获取文本数据，并对所述文本数据进行预处理生成所述文本数据的分词序列；对所述分词序列进行向量化表示得到所述分词序列的词向量，并基于所述分词序列和所述词向量构建所述文本数据的初始矩阵；基于所述初始矩阵，确定每次对所述分词序列执行随机抽选分词操作生成的目标分词序列和与所述目标分词序列对应的目标矩阵，以及与所述目标分词序列对应的候选分词序列，和与所述候选分词序列对应的候选矩阵；计算与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵的相似度，并基于所述相似度从所述候选分词序列中确定备选词，以从所述备选词中筛选替换词，并基于所述替换词生成所述文本数据的增强文本数据。
8.在本公开的一些示例实施例中，基于前述方案，所述对所述文本数据进行预处理生成所述文本数据的分词序列，包括：对所述文本数据进行泛化处理，确定所述文本数据的泛化字符串；基于所述泛化字符串对所述文本数据进行分词处理，生成所述文本数据的分词序列。
9.在本公开的一些示例实施例中，基于前述方案，所述对所述分词序列进行向量化表示得到所述分词序列的词向量，包括：获取预构建的词嵌入模型，并基于所述词嵌入模型对所述分词序列进行文本向量化处理得到所述分词序列的词向量。
10.在本公开的一些示例实施例中，基于前述方案，所述确定每次对所述分词序列执行随机抽选分词操作生成的目标分词序列和与所述目标分词序列对应的目标矩阵，包括：读取随机抽选分词操作的目标次数，并对所述分词序列执行所述目标次数的随机抽选分词操作；在每次对所述分词序列执行所述随机抽选分词操作时，确定当次随机抽选的第一分词，并基于所述第一分词在所述分词序列中的位置计算所述第一分词的窗口文本距离；以及将所述分词序列中以所述第一分词为中心，且满足所述窗口文本距离的子分词序列作为目标分词序列，并基于所述初始矩阵生成与所述目标分词序列对应的目标矩阵。
11.在本公开的一些示例实施例中，基于前述方案，所述方法还包括：在检测到所述第一分词与所述泛化字符串相同时，对所述分词序列重新执行所述随机抽选分词操作。
12.在本公开的一些示例实施例中，基于前述方案，所述基于所述初始矩阵，确定与所述目标分词序列对应的候选分词序列，和与所述候选分词序列对应的候选矩阵，包括：从所述分词序列中随机选取第二分词，并通过所述第二分词替换所述目标分词序列中的第一分词得到候选分词序列；基于所述初始矩阵生成与所述候选分词序列匹配的候选矩阵。
13.在本公开的一些示例实施例中，基于前述方案，所述计算与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵的相似度，并基于所述相似度从所述候选分词序列中确定备选词，包括：对与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵分别进行归一化处理，得到归一化目标矩阵和归一化候选矩阵；计算所述归一化目标矩阵和所述归一化候选矩阵中列向量的相似度的平均和，并将所述平均和作为标准相似度；获取预设相似度阈值，并在检测到所述标准相似度大于所述相似度阈值时，将与所述候选矩阵对应的第二分词作为备选词。
14.在本公开的一些示例实施例中，基于前述方案，所述从所述备选词中筛选替换词，并基于所述替换词生成所述文本数据的增强文本数据，包括：对大于所述相似度阈值的所有所述标准相似度，按序排列得到标准相似度序列；读取预设替换词数目，并确定所述标准相似度序列中与所述替换词数目匹配的数值较大的子标准相似度序列；将所述子标准相似度序列各自的备选词作为替换词，并基于所述替换词生成所述文本数据的增强文本数据。
15.在本公开的一些示例实施例中，基于前述方案，所述方法还包括：确定所述标准相似度序列的长度，并在检测到所述长度小于所述替换词数目时，将与所述标准相似度序列对应的备选词均作为所述替换词。
16.根据本公开实施例的第二方面，提供了一种文本数据增强装置，包括：分词序列生成模块，用于获取文本数据，并对所述文本数据进行预处理生成所述文本数据的分词序列；初始矩阵构建模块，用于对所述分词序列进行向量化表示得到所述分词序列的词向量，并基于所述分词序列和所述词向量构建所述文本数据的初始矩阵；随机抽选分词操作模块，用于基于所述初始矩阵，确定每次对所述分词序列执随机抽选分词操作生成的目标分词序列和与所述目标分词序列对应的目标矩阵，以及与所述目标分词序列对应的候选分词序列，和与所述候选分词序列对应的候选矩阵；替换词确定模块，用于计算与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵的相似度，并基于所述相似度从所述候选
分词序列中确定备选词，以从所述备选词中筛选替换词，并基于所述替换词生成所述文本数据的增强文本数据。
17.在本公开的一些示例实施例中，基于前述方案，所述分词序列生成模块包括分词序列生成单元，所述分词序列生成单元用于对所述文本数据进行泛化处理，确定所述文本数据的泛化字符串；基于所述泛化字符串对所述文本数据进行分词处理，生成所述文本数据的分词序列。
18.在本公开的一些示例实施例中，基于前述方案，所述初始矩阵构建模块包括文本向量化处理单元，所述文本向量化处理单元用于获取预构建的词嵌入模型，并基于所述词嵌入模型对所述分词序列进行文本向量化处理得到所述分词序列的词向量。
19.在本公开的一些示例实施例中，基于前述方案，所述随机抽选分词操作模块包括目标矩阵生成单元，所述目标矩阵生成单元用于读取随机抽选分词操作的目标次数，并对所述分词序列执行所述目标次数的随机抽选分词操作；在每次对所述分词序列执行所述随机抽选分词操作时，确定当次随机抽选的第一分词，并基于所述第一分词在所述分词序列中的位置计算所述第一分词的窗口文本距离；以及将所述分词序列中以所述第一分词为中心，且满足所述窗口文本距离的子分词序列作为目标分词序列，并基于所述初始矩阵生成与所述目标分词序列对应的目标矩阵。
20.在本公开的一些示例实施例中，基于前述方案，所述随机抽选分词操作模块还包括分词检测单元，所述分词检测单元用于在检测到所述第一分词与所述泛化字符串相同时，对所述分词序列重新执行所述随机抽选分词操作。
21.在本公开的一些示例实施例中，基于前述方案，所述随机抽选分词操作模块还包括候选矩阵生成单元，所述候选词向量生成单元用于从所述分词序列中随机选取第二分词，并通过所述第二分词替换所述目标分词序列中的第一分词得到候选分词序列；基于所述初始矩阵生成与所述候选分词序列匹配的候选矩阵。
22.在本公开的一些示例实施例中，基于前述方案，所述替换词确定模块包括备选词确定单元，所述备选词确定单元用于对与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵分别进行归一化处理，得到归一化目标矩阵和归一化候选矩阵；计算所述归一化目标矩阵和所述归一化候选矩阵中列向量的相似度的平均和，并将所述平均和作为标准相似度；获取预设相似度阈值，并在检测到所述标准相似度大于所述相似度阈值时，将与所述候选矩阵对应的第二分词作为备选词。
23.在本公开的一些示例实施例中，基于前述方案，所述替换词确定模块还包括替换词确定单元，所述替换词确定单元用于对大于所述相似度阈值的所有所述标准相似度，按序排列得到标准相似度序列；读取预设替换词数目，并确定所述标准相似度序列中与所述替换词数目匹配的数值较大的子标准相似度序列；将所述子标准相似度序列各自的备选词作为替换词，并基于所述替换词生成所述文本数据的增强文本数据。
24.在本公开的一些示例实施例中，基于前述方案，所述替换词确定模块还包括数目检测单元，所述数目检测单元用于确定所述标准相似度序列的长度，并在检测到所述长度小于所述替换词数目时，将与所述标准相似度序列对应的备选词均作为所述替换词。
25.根据本公开实施例的第三方面，提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述
任意一项所述的文本数据增强方法。
26.根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的文本数据增强方法。
27.本公开实施例提供的技术方案可以包括以下有益效果：
28.本公开的示例实施例中的文本数据增强方法，获取文本数据，并对文本数据进行预处理生成文本数据的分词序列；对分词序列进行向量化表示得到分词序列的词向量，并基于分词序列和词向量构建文本数据的初始矩阵；基于所述初始矩阵，确定每次对分词序列执行随机抽选分词操作生成的目标分词序列和与目标分词序列对应的目标矩阵，以及与目标分词序列对应的候选分词序列，和与候选分词序列对应的候选矩阵；计算与每次随机抽选分词操作对应的目标矩阵和候选矩阵的相似度，并基于相似度从候选分词序列中确定备选词，以从备选词中筛选替换词，并基于替换词生成文本数据的增强文本数据。一方面，可以对文本数据进行预处理生成文本数据的分词序列，并对分词序列执行多次随机抽选分词操作确定与分词序列对应的目标分词序列和候选分词序列，以通过联系分词序列的上下文，从候选分词序列中筛选替换词，并基于替换词生成增强文本数据，提高了增强文本数据的可靠性；另一方面，可以构建初始矩阵，并基于初始矩阵确定与各目标分词序列对应的目标矩阵，和与各候选分词序列对应的候选矩阵，通过计算目标矩阵和候选矩阵之间的相似度，再根据相似度从候选分词序列中确定备选词，以从备选词中筛选替换词，并基于替换词生成文本数据的增强文本数据，避免了通过加燥或训练特定任务的生成器和判别器生成增强文本数据的局限性，提高了生成增强文本数据的普适性；再一方面，可以通过对分词序列进行向量化表示，并计算目标矩阵和候选矩阵中各向量之间的相似度，再根据相似度从候选分词序列中确定备选词，以及从备选词中筛选替换词，并基于替换词生成文本数据的增强文本数据，避免了耗费较多的网络资源加燥或训练生成器和判别器，节省了网络资源，也提高了增强文本数据的生成效率。
29.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
30.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
31.图1示意性示出了根据本公开的一些实施例的文本数据增强方法流程的示意图；
32.图2示意性示出了根据本公开的一些实施例的分词序列生成方法流程的示意图；
33.图3示意性示出了根据本公开的一些实施例的目标矩阵生成方法流程的示意图；
34.图4示意性示出了根据本公开的一些实施例的候选矩阵生成方法流程的示意图；
35.图5示意性示出了根据本公开的一些实施例的备选词确定方法流程的示意图；
36.图6示意性示出了根据本公开的一些实施例的增强文本数据生成方法流程的示意图；
37.图7示意性示出了根据本公开的一些实施例的另一文本数据增强方法流程的示意图；
38.图8示意性示出了根据本公开的一些实施例的文本数据增强装置的示意图；
39.图9示意性示出了根据本公开的一些实施例的电子设备的计算机系统的结构示意图；
40.图10示意性示出了根据本公开的一些实施例的计算机可读存储介质的示意图。
41.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
42.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。
43.此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
44.此外，附图仅为示意性图解，并非一定是按比例绘制。附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
45.在本示例实施例中，首先提供了一种文本数据增强方法，该文本数据增强方法可以应用于终端设备，例如手机、电脑等电子设备。图1示意性示出了根据本公开的一些实施例的文本数据增强方法流程的示意图。参考图1所示，该文本数据增强方法可以包括以下步骤：
46.步骤s110，获取文本数据，并对所述文本数据进行预处理生成所述文本数据的分词序列；
47.步骤s120，对所述分词序列进行向量化表示得到所述分词序列的词向量，并基于所述分词序列和所述词向量构建所述文本数据的初始矩阵；
48.步骤s130，基于所述初始矩阵，确定每次对所述分词序列执行随机抽选分词操作生成的目标分词序列和与所述目标分词序列对应的目标矩阵，以及与所述目标分词序列对应的候选分词序列，和与所述候选分词序列对应的候选矩阵；
49.步骤s140，计算与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵的相似度，并基于所述相似度从所述候选分词序列中确定备选词，以从所述备选词中筛选替换词，并基于所述替换词生成所述文本数据的增强文本数据。
50.根据本示例实施例中的文本数据增强方法，一方面，可以对文本数据进行预处理生成文本数据的分词序列，并对分词序列执行多次随机抽选分词操作确定与分词序列对应的目标分词序列和候选分词序列，以通过联系分词序列的上下文，从候选分词序列中筛选替换词，并基于替换词生成增强文本数据，提高了增强文本数据的可靠性；另一方面，可以
构建初始矩阵，并基于初始矩阵确定与各目标分词序列对应的目标矩阵，和与各候选分词序列对应的候选矩阵，通过计算目标矩阵和候选矩阵之间的相似度，再根据相似度从候选分词序列中确定备选词，以从备选词中筛选替换词，并基于替换词生成文本数据的增强文本数据，避免了通过加燥或训练特定任务的生成器和判别器生成增强文本数据的局限性，提高了生成增强文本数据的普适性；再一方面，可以通过对分词序列进行向量化表示，并计算目标矩阵和候选矩阵中各向量之间的相似度，再根据相似度从候选分词序列中确定备选词，以及从备选词中筛选替换词，并基于替换词生成文本数据的增强文本数据，避免了耗费较多的网络资源加燥或训练生成器和判别器，节省了网络资源，也提高了增强文本数据的生成效率。
51.下面，将对本示例实施例中的文本数据增强方法进行进一步的说明。
52.在步骤s110中，获取文本数据，并对所述文本数据进行预处理生成所述文本数据的分词序列。
53.在本公开的一些示例实施例中，分词序列可以指对文本数据进行预处理后得到的字符串序列，例如，分词序列可以是对文本数据进行泛化处理以及分词处理后得到的词序列，分词序列也可以是对文本数据进行泛化处理以及分词处理后得到的单个字符序列，当然，分词序列还可以是对文本数据进行其他预处理得到的字符串序列，本例实施例对此不作特殊限定。
54.可以对文本数据进行泛化处理确定文本数据的泛化字符串，并结合泛化字符串对文本数据进行分词数据得到文本数据的分词序列，例如，对web请求文本进行泛化处理将符合一定特征的变量名泛化为《ip》，《emial》，《num》，《date》，《time》等，再对所有泛化后的文本数据进行分词处理得到请求文本的分词序列，减少了对文本数据分布特性的改变，增强了文本数据样本的泛化性。
55.在步骤s120中，对所述分词序列进行向量化表示得到所述分词序列的词向量，并基于所述分词序列和所述词向量构建所述文本数据的初始矩阵。
56.在本公开的一些示例实施例中，词向量可以指对分词序列进行向量化表示得到的数据，例如，词向量可以是提取分词序列在由文本数据构成的样本空间中的特征，并对提取到的特征进行向量化表示得到的特征点坐标，词向量也可以是提取分词序列在文本数据中属于某泛化字符串的概率，并对提取到的概率进行向量化表示得到的向量，当然，词向量还可以是对分词序列进行其他向量化表示得到的数据，本例实施例对此不作特殊限定。
57.可以通过获取预先构建的词嵌入模型提取分词序列的特征，并对提取到的特征进行向量化表示得到分词序列的词向量，例如，可以通过cbow模型(continuous bag-of-words model，连续词袋模型)提取分词序列的特征，并对提取到的特征进行向量化表示得到分词序列的词向量，也可以通过skip-gram模型(把一个词从词窗剔除)，当然，还可以是通过其他模型提取分词序列的特征，并对提取到的特征进行向量化表示得到分词序列的词向量，本例实施例对此不作特殊限定。
58.优选的，可以对分词序列进行向量化表示得到分词序列的词向量，并基于分词序列和分词序列的词向量构建初始矩阵，以基于初始矩阵确定每次对分词序列执行随机抽选分词操作对应的目标矩阵和候选矩阵。
59.在步骤s130中，基于所述初始矩阵，确定每次对所述分词序列执行随机抽选分词
操作生成的目标分词序列和与所述目标分词序列对应的目标矩阵，以及与所述目标分词序列对应的候选分词序列，和与所述候选分词序列对应的候选矩阵；
60.在本公开的一些示例实施例中，目标分词序列可以指通过对分词序列执行随机抽选分词操作后得到的分词序列，例如，目标分词序列可以是通过对分词序列执行随机抽选分词操作得到抽选分词，在根据抽选分词在分词序列中的位置确定抽选分词的窗口文本距离，以抽选分词为中心，且将分词序列中满足抽选分词的窗口文本距离的子分词序列作为目标分词序列，当然，目标分词序列还可以是通过对分词序列执行其他随机抽选分词操作后得到的分词序列，本例实施例对此不作特殊限定。
61.候选分词序列可以指对目标分词序列进行分词替换操作得到的分词序列，例如，候选分词序列可以是对目标分词序列中的中心分词进行替换操作，而目标分词序列中的其他分词不变的分词序列，当然，候选分词序列还可以是对目标分词序列进行其他分词替换操作得到的分词序列，本例实施例对此不作特殊限定。
62.可以读取对分词序列执行随机抽选操作的目标次数，并基于初始矩阵确定每次对分词序列执行随机抽选分词操作生成的目标分词序列和与目标分词序列对应的目标矩阵，以及与目标分词序列对应的候选分词序列，和与候选分词序列对应的候选矩阵。
63.在步骤s140中，计算与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵的相似度，并基于所述相似度从所述候选分词序列中确定备选词，以从所述备选词中筛选替换词，并基于所述替换词生成所述文本数据的增强文本数据。
64.在本公开的一些示例实施例中，相似度可以指通过计算目标矩阵和候选矩阵之间的距离确定的用于衡量目标矩阵和候选矩阵中各列向量相似程度的标量值，例如，相似度可以是通过计算目标矩阵和候选矩阵之间的余弦距离确定的用于衡量目标矩阵和候选矩阵中各列向量相似程度的标量值，相似度也可以是通过计算目标矩阵和候选矩阵之间的欧几里得距离确定的用于衡量目标矩阵和候选矩阵中各列向量相似程度的标量值，当然，相似度还可以是通过计算目标矩阵和候选句子之间的其他距离，如曼哈顿距离或切雪比夫距离确定用于衡量目标矩阵和候选矩阵中各列向量相似程度的标量值，本例实施例对此不作特殊限定。
65.可以在计算目标矩阵和候选矩阵的相似度之前，对目标矩阵和候选矩阵分别进行归一化处理，进而计算归一化处理后的目标矩阵和候选矩阵中各列向量的相似度，并计算各列向量相似度的平均和。进而，可以读取预设的相似度阈值，并将该相似度阈值与各目标矩阵和候选矩阵的相似度平均和进行比较，将与各相似度平均和大于相似度阈值的候选矩阵对应的候选分词序列中的中心分词作为备选词，以及将相似度平均和大于阈值的相似度按照从小到大的顺序排列，并选取目标数目个大于阈值的相似度平均和，以将与选取的该相似度平均和对应的备选词作为替换词，并基于替换词生成与文本数据对应的增强文本数据。
66.在生成文本数据的增强文本数据过程中，首先需要对文本数据进行预处理，在寻找替换词的过程中多次采用随机性抽取，减少了对数据分布的改变，增强了样本的泛化性，进而提高了增强文本数据的普适性；同时，在对分词序列执行多次随机抽取分词操作生成目标分词序列过程中，考虑了文本数据的上下文的影响，从而提高了增强文本数据的有效性；此外，在计算目标矩阵和候选矩阵的相似度时，不是直接计算文本相似性，而是从其向
量化表示出发，降低了目标矩阵和候选矩阵的相似度的计算复杂度，也避免了训练生成器和判别器，节省了网络资源，提高了生成增量文本数据的效率。
67.图2示意性示出了根据本公开的一些实施例的分词序列生成方法流程的示意图。参考图2所示，该分词序列生成方法可以包括以下步骤：
68.在步骤s210中，对所述文本数据进行泛化处理，确定所述文本数据的泛化字符串；
69.在步骤s220中，基于所述泛化字符串对所述文本数据进行分词处理，生成所述文本数据的分词序列。
70.其中，泛化字符串可以指用于将文本数据中的字符串按照特定规则进行划分得到分词序列的特殊字符串，例如，泛化字符串可以是用于将文本数据中的字符串按照语法规则进行划分得到分词序列的特殊字符串，泛化字符串也可以是用于将文本数据中的字符串按照语义规则进行划分得到分词序列的特殊字符串，当然，泛化字符串还可以是用于将文本数据中的字符串按照其他特定规则进行划分得到分词序列的特殊字符串，本例实施例对此不作特殊限定。
71.可以对文本数据进行泛化处理，确定文本数据的泛化字符串，并按照泛化字符串对文本数据进行分词处理，生成文本数据的分词序列。例如，假设文本数据中有类似192.168.34.56这样的数据，在对文本数据进行泛化处理的过程中，可以将192.168.34.56这样的数据直接用《ip》这个字符代替，也就是在确定文本数据的分词序列时，可以将《ip》作为文本数据的泛化字符串直接放入字典，文本数据中类似192.168.34.56这样的数据就不会被拆分，进而可以按照泛化字符串对文本数据进行分词处理，得到文本数据的分词序列。
72.在本公开的一些示例实施例中，可以获取预构建的词嵌入模型，并基于词嵌入模型对分词序列进行文本向量化处理得到分词序列的词向量。
73.其中，词嵌入模型可以指用于对分词序列进行文本向量化处理的模型，例如，词嵌入模型可以是用于对分词序列进行文本向量化处理的cbow模型(continuous bag-of-words model，连续词袋模型)，词嵌入模型可以是用于对分词序列进行文本向量化处理的skip-gram模型(把一个词从词窗剔除)，当然，词嵌入模型还可以是用于对分词序列进行文本向量化处理的其他模型，本例实施例对此不作特殊限定。
74.可以通过获取预构建的词嵌入模型，并通过词嵌入模型对分词序列进行文本向量化处理，以对分词序列进行向量化表示，得到分词序列的词向量，进而可以基于分词序列和分词序列的词向量构建初始矩阵。
75.图3示意性示出了根据本公开的一些实施例的目标矩阵生成方法流程的示意图。参考图3所示，该目标矩阵生成方法可以包括以下步骤：
76.在步骤s310中，读取随机抽选分词操作的目标次数，并对所述分词序列执行所述目标次数的随机抽选分词操作；
77.在步骤s320中，在每次对所述分词序列执行所述随机抽选分词操作时，确定当次随机抽选的第一分词，并基于所述第一分词在所述分词序列中的位置计算所述第一分词的窗口文本距离；以及
78.在步骤s330中，将所述分词序列中以所述第一分词为中心，且满足所述窗口文本距离的子分词序列作为目标分词序列，并基于所述初始矩阵生成与所述目标分词序列对应
的目标矩阵。
79.其中，窗口文本距离可以指用于衡量目标分词序列长度的距离，例如，窗口文本距离可以是基于第一分词在分词序列中的位置确定第一分词距离分词序列的第一个分词的初始距离，并基于该初始距离确定的用于衡量目标分词序列长度的距离，窗口文本距离也可以是基于第一分词在第一分词序列中的位置确定第一分词距离分词序列的第一个分词的初始距离，并基于该初始距离确定的在分词序列中以第一分词为中心，且以初始距离为基准半径的子分词序列的长度，将该长度作为衡量目标分词序列长度的距离，当然，窗口文本距离还可以是基于第一分词在分词序列中的位置计算的其他用于衡量目标分词序列长度的距离，本例实施例对此不作特殊限定。
80.可以读取预设的随机抽选分词操作的目标次数，并对分词序列执行目标次数的随机抽选分词操作，确定当次从分词序列中随机抽选的第一分词，并根据第一分词在分词序列中的位置，计算第一分词的窗口文本距离，以第一分词为中心，从分词序列中确定满足第一分词的窗口文本距离的子分词序列，并将该子分词序列作为目标分词序列。进而，可以基于初始矩阵，生成与目标分词序列对应的目标矩阵，例如，可以按照目标分词序列，对初始矩阵进行简单的行变换，如删除初始矩阵中与目标分词序列不匹配的行向量，得到与目标分词序列匹配的目标矩阵。
81.在本公开的一些示例实施例中，可以在检测当次随机抽选的第一分词与文本数据的泛化字符串相同时，对文本数据的分词序列重新执行随机抽选分词操作。
82.可以将每次随机抽选的分词与文本数据的泛化字符串进行比对处理，在检测到当次随机抽选的分词与文本数据的泛化字符串相同时，重新对分词序列进行随机抽选分词操作，并将重新进行随机抽选分词操作得到的非泛化字符串的分词作为第一分词，以第一分词为中心，并从分词序列中确定与由第一分词在分词序列中的位置计算的窗口文本距离匹配的子分词序列，将该子分词序列作为目标分词序列。
83.图4示意性示出了根据本公开的一些实施例的候选矩阵生成方法流程的示意图。参考图4所示，该候选矩阵生成方法可以包括以下步骤：
84.在步骤s410中，从所述分词序列中随机选取第二分词，并通过所述第二分词替换所述目标分词序列中的第一分词得到候选分词序列；
85.在步骤s420中，基于所述初始矩阵生成与所述候选分词序列匹配的候选矩阵。
86.其中，第二分词可以指从分词序列中随机抽选的与文本数据的泛化字符串和第一分词均不相同的分词。
87.举例而言，对文本数据进行预处理后得到的分词序列为[t1，t2，t3，t4，t5，t6，t7，t8，t9，t10]，假设当次从分词序列中随机抽选的第一分词为t3，可以得到第一分词的窗口文本距离为win＝5，进而可以基于分词序列得到以序列t3，且与第一分词的窗口文本距离对应的目标分词序列[t1，t2，t3，t4，t5]；同时，在得到目标分词序列后，假设对分词序列继续执行随机抽选分词操作得到的第二分词为t8，可以用第二分词t8替换目标分词序列中的第一分词t3，得到候选分词序列[t1，t2，t8，t4，t5]。
[0088]
可以从分词序列中随机抽选第二分词，并在检测到第二分词和泛化字符串不相同时，可以通过第二分词替换目标分词序列中的第一分词得到候选分词序列，进而可以基于初始矩阵生成与候选分词序列匹配的候选矩阵，例如，删除初始矩阵中与候选分词序列不
对应的行向量得到与候选分词序列匹配的候选矩阵。在生成候选分词序列以及候选矩阵的过程中，通过从分词序列中随机抽选分词，减少了对文本数据结构的改变，提高了候选分词序列以及候选矩阵的泛化性，进一步降低了通过加燥或训练生成器、判别器产生增强文本数据的局限性，提高了生成增强文本数据的灵活性和普适性。
[0089]
图5示意性示出了根据本公开的一些实施例的备选词确定方法流程的示意图。参考图5所示，该备选词确定方法可以包括以下步骤：
[0090]
在步骤s510中，对与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵分别进行归一化处理，得到归一化目标矩阵和归一化候选矩阵；
[0091]
在步骤s520中，计算所述归一化目标矩阵和所述归一化候选矩阵中列向量的相似度的平均和，并将所述平均和作为标准相似度；
[0092]
在步骤s530中，获取预设相似度阈值，并在检测到所述标准相似度大于所述相似阈值时，将与所述候选矩阵对应的第二分词作为备选词。
[0093]
其中，可以在对分词序列执行每次随机抽选分词操作得到目标矩阵和候选矩阵后，对目标矩阵和候选矩阵分别进行归一化处理得到归一化目标矩阵和归一化候选矩阵。进而，计算归一化目标矩阵中每一列向量和归一化候选矩阵中每一列向量之间的相似度，并计算各列向量的相似度的平均和，以将相似度的平均和作为每次随机抽选分词操作得到的目标矩阵和候选矩阵之间的标准相似度。
[0094]
举例而言，在对分词序列执行当次随机抽选分词操作得到目标矩阵和候选矩阵后，可以对目标矩阵和候选矩阵分别做归一化处理，得到归一化目标矩阵和归一化候选矩阵。假设，归一化目标矩阵和归一化候选矩阵均为二维矩阵，且归一化目标矩阵和归一化候选矩阵的行向量可以看做是每个分词序列的向量化表示，而归一化目标矩阵和归一化候选矩阵的列向量可以看做是每个分词序列向量化表示的特征对应的取值。同时，可以采用公式(1)计算归一化目标矩阵和归一化候选矩阵的各列向量的相似度的平均和。
[0095][0096]
其中，d可以表示当次对分词序列执行随机抽选分词操作得到的目标矩阵和候选矩阵进行归一化处理后，计算的归一化目标矩阵和归一化候选矩阵之间的标准相似度，m可以表示归一化目标矩阵和归一化候选矩阵的列向量数目，f可以表示归一化目标矩阵和归一化候选矩阵的当前列向量的列数，win可以表示与归一化目标矩阵和归一化候选矩阵的行向量数目，i可以表示归一化目标矩阵和归一化候选矩阵的当前行向量的行数，xi可以表示归一化目标矩阵中每个列向量的取值，yi可以表示归一化候选矩阵中每个列向量的取值。
[0097]
可以对每次随机抽选分词操作得到的目标矩阵和候选矩阵进行归一化处理得到归一化目标矩阵和归一化候选矩阵，并计算各归一化目标矩阵和归一化候选矩阵的列向量的相似度的平均和，将列向量的相似度的平均和作为标准相似度。进而，可以读取预设的相似度阈值，并将标准相似度阈值与相似度阈值进行比较，在检测到标准相似度阈值大于相似度阈值时，将与标准相似度阈值对应的候选矩阵的候选分词序列中的第二分词作为备选
词。从而，可以从备选词中筛选替换词，提高了增强文本数据的有效性。
[0098]
图6示意性示出了根据本公开的一些实施例的增强文本数据生成方法流程的示意图。参考图6所示，该增强文本数据生成方法可以包括以下步骤：
[0099]
在步骤s610中，对大于所述相似度阈值的所有所述标准相似度，按序排列得到标准相似度序列；
[0100]
在步骤s620中，读取预设替换词数目，并确定所述标准相似度序列中与所述替换词数目匹配的数值较大的子标准相似度序列；
[0101]
在步骤s630中，将所述子标准相似度序列各自的备选词作为替换词，并基于所述替换词生成所述文本数据的增强文本数据。
[0102]
其中，在检测到所有通过对分词序列执行随机抽选分词操作得到的目标矩阵和候选矩阵的标准相似度中存在大于相似度阈值的数值时，将与各标准相似度大于相似度阈值的候选矩阵对应的候选分词序列中的第二分词作为备选词。进而，可以通过对大于相似度阈值的标准相似度，按照从小到大的顺序排列得到标准相似度序列，也可以对大于相似度阈值的标准相似度按照从大到小的顺序得到标准相似度序列，并从标准相似度序列中筛选数值较大的目标数目个标准相似度作为子标准相似度序列，以将与子标准相似度序列对应的备选词作为替换词，从而基于该替换词生成与文本数据对应的增量文本数据。
[0103]
举例而言，假设对分词序列执行随机抽选分词操作的目标次数为n，且对分词序列执行n次随机抽选分词操作得到的目标矩阵和候选矩阵后，n个归一化目标矩阵和n各归一化候选矩阵之间的标准相似度中有k个标准相似度大于预设的相似度阈值，可以将与该k个大于相似度阈值的标准相似度对应的候选矩阵的候选分词序列中的第二分词作为备选词。进而，对该k个大于相似度阈值的标准相似度按照从小到大的顺序排列得到标准相似度序列，可以从标准相似度序列中选取与替换词数目匹配的数值较大的标准相似度生成子标准相似度序列，并将与子标准相似度序列对应的备选词作为替换词。
[0104]
可以首先筛选标准相似度大于相似度阈值的候选矩阵，并确定与各标准相似度大于相似度阈值的候选矩阵对应的候选分词的第二分词，并将该各第二分词作为文本数据的备选词；其次，对所有大于相似度阈值的标准相似度按照从小到大排序得到标准相似度序列，并读取替换词数目，以从标准相似度序列中读取与替换词数目匹配的数值较大的标准相似度构成子标准相似度序列；最后，将与子标准相似度序列对应的备选词作为文本数据的替换词，并基于各替换词生成与文本数据对应的增强文本数据。在计算目标矩阵和候选矩阵的相似度时，不是直接计算文本相似性，而是从其向量化表示出发，降低了目标矩阵和候选矩阵的相似度的计算复杂度，也避免了训练生成器和判别器，节省了网络资源，提高了生成增量文本数据的效率；同时，通过确定所有标准相似度大于相似度阈值的候选矩阵对应的候选分词序列的第二分词，并将第二分词作为备选词，从备选词中选取相似度最高的分词作为替换词，再基于从备选词中筛选的替换词生成与文本数据对应的增强文本数据，提高了增强文本数据的可靠性。
[0105]
在本公开的一些示例实施例中，可以确定由所有大于相似度阈值的标准相似度构成的标准相似度序列的长度，并在检测到标准相似度序列的长度小于替换词数目时，将与标准相似度对应的备选词均作为文本数据的替换词。
[0106]
可以在对所有大于相似度阈值的标准相似度按照从小到大排序得到标准相似度
序列后，确定标准相似度序列的长度，并在检测到标准相似度序列的长度小于预设的替换词数目时，也就是说在检测到备选词的数目小于预设的替换词数目时，可以将与标准相似度序列对应的备选词均作为文本数据的替换词。
[0107]
图7示意性示出了根据本公开的一些实施例的另一文本数据增强方法流程的示意图。参考图7所示，该文本数据增强方法流程的示意图可以包括以下步骤：
[0108]
在步骤s710中，获取文本数据，对文本数据进行泛化处理和分词处理，得到文本数据的分词序列；
[0109]
在步骤s720中，通过词嵌入模型对分词序列进行向量化表示，生成分词序列的词向量；
[0110]
在步骤s730中，基于分词序列和分词序列的词向量构建初始矩阵；
[0111]
在步骤s740中，对分词序列执行多次随机抽选分词操作，确定与每次随机抽选分词操作对应的目标分词序列，以及用于替换目标分词序列的中心词的候选分词；
[0112]
在步骤s750中，基于初始矩阵，生成与各目标分词序列对应的各目标矩阵；
[0113]
在步骤s760中，通过各候选分词替换各目标分词序列的中心词得到各候选分词序列；
[0114]
在步骤s770中，基于初始矩阵，生成与各候选分词序列对应的各候选矩阵；
[0115]
在步骤s780中，基于各目标矩阵和各候选矩阵的相似度，确定文本数据的备选词，并从备选词中筛选替换词；
[0116]
在步骤s790中，基于替换词生成与文本数据对应的增强文本数据。
[0117]
可以从待进行数据增强的类别中随机抽取部分样本作为文本数据，并对文本数据进行泛化处理和分词处理得到文本数据的分词序列，通过词嵌入模型对分词序列进行向量化表示得到分词序列的词向量，进而可以将文本数据表示为由分词序列和分词序列的词向量构成的初始矩阵。
[0118]
在得到分词序列后，可以对分词序列执行目标次数的随机抽选分词操作，确定每次随机抽选的第一分词，并确定每个第一分词在分词序列中的位置如序列号，基于第一分词的位置计算第一分词的窗口文本距离，进而以第一分词为中心，从分词序列中确定满足第一分词的窗口文本距离的子分词序列，并将子分词序列作为目标分词序列，以及基于初始矩阵，生成与目标分词序列对应的目标矩阵。从而，可以得到每次对分词序列执行随机抽选分词操作对应的目标分词序列以及目标矩阵。
[0119]
在生成每个目标分词序列的过程中，可以继续对分词序列执行随机抽选操作，确定用于替换每个目标分词序列中的第一分词的第二分词，并通过第二分词替换目标分词序列中的第一分词，得到候选分词序列，以及基于初始矩阵，得到与候选分词序列对应的候选矩阵；进而，可以得到与每个目标分词序列对应的候选分词序列，以及与每个候选分词序列对应的候选矩阵。
[0120]
在得到各目标矩阵和候选矩阵后，可以采用knn(k-nearest neighbor，最邻近)算法的思想，确定文本数据的替换词。具体地，可以对各目标矩阵和与各目标矩阵对应的候选矩阵分别进行归一化处理得到各归一化目标矩阵和各归一化候选矩阵，并计算各归一化目标矩阵和与各归一化目标矩阵对应的归一化候选矩阵之间的各列向量的相似度的平均和，并将各相似度的平均和作为各目标矩阵和与各目标矩阵对应的候选矩阵之间的标准相似
度，再将各标准相似度与相似度阈值进行比较，确定大于相似度阈值的标准相似度，并将与大于相似度阈值的标准相似度对应的候选矩阵的候选分词序列的第二分词作为备选词。进而，可以将大于相似度阈值的标准相似度，按照从小到大的顺序排列或从大到小的顺序排列得到标准相似度序列，并读取预设的替换词数目，从标准相似度序列中选取数值较大的与替换词数目匹配的标准相似度作为子标准相似度序列，以将与子标准相似度序列对应的备选词作为文本数据的替换词；然而，在检测到标准相似度序列的长度小于预设的替换词数目时，也就是说在检测到备选词的数目小于替换词数目时，可以将所有备选词作为文本数据的替换词。从而，基于文本数据的替换词，生成与文本数据对应的增强文本数据。
[0121]
需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。
[0122]
此外，在本示例实施例中，还提供了一种文本数据增强装置。参照图8所示，该文本数据增强装置800包括：分词序列生成模块810、初始矩阵构建模块820、随机抽选分词操作模块830、替换词确定模块840。其中：分词序列生成模块810，用于获取文本数据，并对所述文本数据进行预处理生成所述文本数据的分词序列；初始矩阵构建模块820，用于对所述分词序列进行向量化表示得到所述分词序列的词向量，并基于所述分词序列和所述词向量构建所述文本数据的初始矩阵；随机抽选分词操作模块830，用于基于所述初始矩阵，确定每次对所述分词序列执随机抽选分词操作生成的目标分词序列和与所述目标分词序列对应的目标矩阵，以及与所述目标分词序列对应的候选分词序列，和与所述候选分词序列对应的候选矩阵；替换词确定模块840，用于计算与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵的相似度，并基于所述相似度从所述候选分词序列中确定备选词，以从所述备选词中筛选替换词，并基于所述替换词生成所述文本数据的增强文本数据。
[0123]
在本公开的一些示例实施例中，基于前述方案，所述分词序列生成模块810包括分词序列生成单元，所述分词序列生成单元用于对所述文本数据进行泛化处理，确定所述文本数据的泛化字符串；基于所述泛化字符串对所述文本数据进行分词处理，生成所述文本数据的分词序列。
[0124]
在本公开的一些示例实施例中，基于前述方案，所述初始矩阵构建模块820包括文本向量化处理单元，所述文本向量化处理单元用于获取预构建的词嵌入模型，并基于所述词嵌入模型对所述分词序列进行文本向量化处理得到所述分词序列的词向量。
[0125]
在本公开的一些示例实施例中，基于前述方案，所述随机抽选分词操作模块830包括目标矩阵生成单元，所述目标矩阵生成单元用于读取随机抽选分词操作的目标次数，并对所述分词序列执行所述目标次数的随机抽选分词操作；在每次对所述分词序列执行所述随机抽选分词操作时，确定当次随机抽选的第一分词，并基于所述第一分词在所述分词序列中的位置计算所述第一分词的窗口文本距离；以及将所述分词序列中以所述第一分词为中心，且满足所述窗口文本距离的子分词序列作为目标分词序列，并基于所述初始矩阵生成与所述目标分词序列对应的目标矩阵。
[0126]
在本公开的一些示例实施例中，基于前述方案，所述随机抽选分词操作模块830还包括分词检测单元，所述分词检测单元用于在检测到所述第一分词与所述泛化字符串相同
时，对所述分词序列重新执行所述随机抽选分词操作。
[0127]
在本公开的一些示例实施例中，基于前述方案，所述随机抽选分词操作模块830还包括候选矩阵生成单元，所述候选词向量生成单元用于从所述分词序列中随机选取第二分词，并通过所述第二分词替换所述目标分词序列中的第一分词得到候选分词序列；基于所述初始矩阵生成与所述候选分词序列匹配的候选矩阵。
[0128]
在本公开的一些示例实施例中，基于前述方案，所述替换词确定模块840包括备选词确定单元，所述备选词确定单元用于对与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵分别进行归一化处理，得到归一化目标矩阵和归一化候选矩阵；计算所述归一化目标矩阵和所述归一化候选矩阵中列向量的相似度的平均和，并将所述平均和作为标准相似度；获取预设相似度阈值，并在检测到所述标准相似度大于所述相似度阈值时，将与所述候选矩阵对应的第二分词作为备选词。
[0129]
在本公开的一些示例实施例中，基于前述方案，所述替换词确定模块840还包括替换词确定单元，所述替换词确定单元用于对大于所述相似度阈值的所有所述标准相似度，按序排列得到标准相似度序列；读取预设替换词数目，并确定所述标准相似度序列中与所述替换词数目匹配的数值较大的子标准相似度序列；将所述子标准相似度序列各自的备选词作为替换词，并基于所述替换词生成所述文本数据的增强文本数据。
[0130]
在本公开的一些示例实施例中，基于前述方案，所述替换词确定模块840还包括数目检测单元，所述数目检测单元用于确定所述标准相似度序列的长度，并在检测到所述长度小于所述替换词数目时，将与所述标准相似度序列对应的备选词均作为所述替换词。
[0131]
上述中文本数据增强装置各模块的具体细节已经在对应的文本数据增强方法中进行了详细的描述，因此此处不再赘述。
[0132]
应当注意，尽管在上文详细描述中提及了文本数据增强装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0133]
此外，在本公开的示例性实施例中，还提供了一种能够实现上述文本数据增强方法的电子设备。
[0134]
所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。
[0135]
下面参照图9来描述根据本公开的这种实施例的电子设备900。图9所示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0136]
如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940。
[0137]
其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。例如，所述处理单元910可以执行如图1中所示的步骤s110，获取文本
数据，并对所述文本数据进行预处理生成所述文本数据的分词序列；步骤s120，对所述分词序列进行向量化表示得到所述分词序列的词向量，并基于所述分词序列和所述词向量构建所述文本数据的初始矩阵；步骤s130，基于所述初始矩阵，确定每次对所述分词序列执行随机抽选分词操作生成的目标分词序列和与所述目标分词序列对应的目标矩阵，以及与所述目标分词序列对应的候选分词序列，和与所述候选分词序列对应的候选矩阵；步骤s140，计算与所述每次随机抽选分词操作对应的所述目标矩阵和所述候选矩阵的相似度，并基于所述相似度从所述候选分词序列中确定备选词，以从所述备选词中筛选替换词，并基于所述替换词生成所述文本数据的增强文本数据。
[0138]
存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)921和/或高速缓存存储单元922，还可以进一步包括只读存储单元(rom)923。
[0139]
存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924，这样的程序模块925包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0140]
总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0141]
电子设备900也可以与一个或多个外部设备970(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且，电子设备500还可以通过网络适配器960与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0142]
通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
[0143]
在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
[0144]
参考图10所示，描述了根据本公开的实施例的用于实现上述文本数据增强方法的程序产品1000，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件
使用或者与其结合使用。
[0145]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0146]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0147]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0148]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0149]
此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。
[0150]
通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施例的方法。
[0151]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。
[0152]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：风机布置方案的生成方法、装置、电子设备及存储介质与流程

文本数据增强方法及装置、电子设备、存储介质与流程

相关文献

最热文献