一种基于深度学习的文本训练增强方法与系统与流程

2022-02-20 00:07:30 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，尤其是一种基于深度学习的文本训练增强方法与系统。

背景技术：

2.近几年以深度学习技术为核心的人工智能得到广泛的关注，无论是学术界还是工业界，它们都把深度学习作为研究应用的焦点。而深度学习技术突飞猛进的发展离不开海量数据的积累。关于深度学习技术在文本领域的应用与成就层出不穷又各有千秋。
3.自然语言处理(nlp)是一种专业分析人类的语言的人工智能。整个过程的工作原理如下：首先收集大量的自然语言，对自然语言进行预处理工作；其次转译自然语言，通过深度学习算法；最终分析自然语言并输出结果。那么，在整个过程中，收集大量的自然语言，对语言进行预处理就需要花费大量的人力、物力。而自然语言预处理的结果也直接决定了最终模型的效果。
4.随着人工智能的发展，深度学习的趋势愈演愈烈，而基于深度学习的研究，数据必不可少。当下数据稀疏，数据广，导致所需数据过于单一，数据量无法满足深度学习训练；同时整理数据过程费事费力，针对数据单一，效率低，成效差这些情况，本文提出了一种基于深度学习的文本训练数据增强的方法，不仅能够丰富数据数量，同时扩充词语情境使用，提升数据模型训练的容错性，提升文本数据训练整体性能。
5.本文提出了一种基于深度学习训练的文本增强方法。首先针对特定需求获取对应的文本样本，基于人工检索的情况下，对数据进行初步处理；其次，将预处理数据分为训练集、验证集、测试集；通过特定的格式转化成机器语言，进行深度学习训练，得到一个深度学习模型，使用测试集对模型结果进行验证，查看其准确率。正常情况下，初步数据做的工作越少，模型的偏差结果越大。为了让模型更加强大，则需要对数据进行加强，在得到模型结果后，将结果数据进行整理，查看正确数据以及问题数据，根据问题数据进行数据加强，数据加强方式包括语句句式转换、不同词与词之间的结合。另外，针对非出错的数据也统一进行加强，通过人工检索获取高词频数据(关键词)，创设关键词在不同情境中的用法，增强样本数据，同时加强数据干扰。解决了数据样本单一、数据样本数量少的情况下，依然能够进行文本训练,进行情报信息获取，重要信息甄别的情况。
6.目前，对于深度学习文本训练的原有技术有：首先获取待训练文本，对待训练文本进行分类，获取到各个类型文本的中心向量，再进一步根据中心向量对文本进行区分。针对提取的各个类别的文本数据进行深度卷积神经网络训练，不断调整数据，纠正偏差，最终获取到一个能够提取到所需信息熵的模型。而该模型的效果更多是基于海量的数据，只有更具有代表性的文本数据，以及数据量更大，才能让模型更有价值。

技术实现要素：

7.本发明提出了一种基于深度学习的文本训练增强方法与系统，以解决上文提到的
现有技术的缺陷。
8.在一个方面，本发明提出了一种基于深度学习的文本训练增强方法，该方法包括以下步骤：
9.s1：针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内，然后在所述一定范围内对所述待训练文本进行检索，获取所述待训练文本的定位再获取其中各个词语的词频，将词频超过一定数量的词语作为关键词；
10.s2：对所述待训练文本打上标签后再将其划分为训练集、验证集、测试集，将所述训练集、所述验证集和所述测试集中的文本所使用的语言经过预处理后成为机器所使用的语言，再利用预处理后的所述训练集、所述验证集和所述测试集进行深度学习训练得到训练结果模型，再使用所述测试集验证所述训练结果模型的测试效果；
11.s3：若所述测试效果不符合所需的要求，则取出所述测试效果中出错的数据记为问题数据，对所述问题数据进行加强后跳转至所述s2；若所述测试效果符合所需的要求则输出所述训练结果模型；
12.对所述问题数据进行加强包括：针对所述问题数据进行语句句式的转换之后，生成所述问题数据对应的新数据加入所述待训练文本中；对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后，生成所述问题数据对应的新数据加入所述待训练文本中。
13.以上方法首先针对特定需求获取对应的文本样本，并对文本样本进行初步处理；再将预处理数据分为训练集、验证集、测试集；最后通过特定的格式转化成机器语言，进行深度学习训练，得到一个深度学习模型，使用测试集对模型结果进行验证，对验证后发现问题的数据进行加强后加入原本的文本样本中，重新进行训练得到新的模型。对数据进行加强包括语句句式转换、不同词语之间的结合，还包括对词频较高的词语创设不同语境中都适用的句式，最终加强了原始的文本样本。使得在数据样本单一、数据样本数量少的情况下，依然能够进行文本训练，从而提高了信息甄别的准确率。
14.在具体的实施例中，所述方法还包括在所述s1后执行s4：设置能够在多种不同的语境中被使用的句式，以所述句式作为创建样本的模板将所述待训练文本中的词语分别加入所述句式中得到新样本，利用所述新样本对所述待训练文本进行加强。
15.在具体的实施例中，所述s4具体包括针对所述待训练文本中的各个词语执行如下步骤：
16.设置能够在多种不同的语境中被使用的句式，所述句式中包含文本不确定并且可填入任意词语的固定位置，且所述句式中除所述固定位置外的文本均为确定信息；
17.将所述待训练文本中的各个词语分别填入所述固定位置，根据各个词语在不同情境中的用法不同来创建包含各个词语的正样本；同时根据各个词语在不同情境中的相反含义来创建包含各个词语的负样本；
18.最后利用所述正样本增强所述待训练文本的正向数据，利用所述负样本增强所述待训练文本中的干扰数据。
19.在具体的实施例中，所述针对所述问题数据进行语句句式的转换之后，生成所述问题数据对应的新数据加入所述待训练文本中，具体包括：
20.通过语句句式的转换将所述问题数据中的语句使用多种不同的方法进行表述，从
而使一条语句生成多条意思相同的新语句，并将所述新语句加入所述待训练文本中。本方法中语句句式的转换，实现了针对bert算法使用的绝对位置信息进行位置信息的加强。
21.在具体的实施例中，所述对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后，生成所述问题数据对应的新数据加入所述待训练文本中，具体包括：
22.对所述问题数据中的关键词进行不同程度的拆词，再用拆词后得到的多个词进行随机组词，得到所述关键词所对应的多个新词，根据所述多个新词将所述关键词所在的语句变为多条新语句加入到所述待训练文本中。
23.在具体的实施例中，所述通过语句句式的转换将所述问题数据中的语句使用多种不同的方法进行表述，具体包括：
24.常规通用方法：在语句前加入不会影响所述语句的原本含义的前置信息；
25.语句类型转换方法：将语句中的肯定句改为双重否定句；将语句中的把字句改为被字句；利用增加若干通用的形容词的方式对语句进行扩展；将语句中的一般句式改为问句/感叹句。
26.在具体的实施例中，所述针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内，具体包括：
27.分析待训练文本中的数据从而获取数据中包含关键字和主题内容在内的相关信息，根据所述相关信息将所述待训练文本归类在一定范围内。
28.根据本发明的第二方面，提出了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机处理器执行时实施上述方法。
29.根据本发明的第三方面，提出一种基于深度学习的文本训练增强系统，该系统包括：
30.数据分析模块：配置用于针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内，然后在所述一定范围内对所述待训练文本进行检索，获取所述待训练文本的定位再获取其中各个词语的词频，将词频超过一定数量的词语作为关键词；
31.模型训练模块：配置用于对所述待训练文本打上标签后再将其划分为训练集、验证集、测试集，将所述训练集、所述验证集和所述测试集中的文本所使用的语言经过预处理后成为机器所使用的语言，再利用预处理后的所述训练集、所述验证集和所述测试集进行深度学习训练得到训练结果模型，再使用所述测试集验证所述训练结果模型的测试效果；
32.问题数据加强模块：配置用于若所述测试效果不符合所需的要求，则取出所述测试效果中出错的数据记为问题数据，对所述问题数据进行加强后跳转至所述模型训练模块；若所述测试效果符合所需的要求则输出所述训练结果模型；
33.对所述问题数据进行加强包括：针对所述问题数据进行语句句式的转换之后，生成所述问题数据对应的新数据加入所述待训练文本中；对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后，生成所述问题数据对应的新数据加入所述待训练文本中。
34.在具体的实施例中，所述系统还包括：
35.全文本数据加强模块：配置用于设置能够在多种不同的语境中被使用的句式，以所述句式作为创建样本的模板将所述待训练文本中的词语分别加入所述句式中得到新样本，利用所述新样本对所述待训练文本进行加强。
36.本发明首先针对特定需求获取对应的文本样本，并对文本样本进行初步处理；再将预处理数据分为训练集、验证集、测试集；最后通过特定的格式转化成机器语言，进行深度学习训练，得到一个深度学习模型，使用测试集对模型结果进行验证，对验证后发现问题的数据进行加强后加入原本的文本样本中，重新进行训练得到新的模型。对数据进行加强包括语句句式转换、不同词语之间的结合，还包括对词频较高的词语创设不同语境中都适用的句式，最终加强了原始的文本样本。使得在数据样本单一、数据样本数量少的情况下，依然能够进行文本训练，从而提高了信息甄别的准确率。
附图说明
37.包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
38.图1是本技术可以应用于其中的示例性系统架构图；
39.图2是本发明的一个实施例的一种基于深度学习的文本训练增强方法的流程图；
40.图3是本发明的一个实施例的一种基于深度学习的文本训练增强系统的框架图；
41.图4是适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
42.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
43.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
44.图1示出了可以应用本技术实施例的一种基于深度学习的文本训练增强方法的示例性系统架构100。
45.如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
46.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、数据可视化类应用、网页浏览器应用等。
47.终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
48.服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上展示的
待训练文本提供支持的后台信息处理服务器。后台信息处理服务器可以对获取的关键词进行处理，并生成处理结果(例如所述问题数据对应的新数据)。
49.需要说明的是，本技术实施例所提供的方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应的装置一般设置于服务器105中，也可以设置于终端设备101、102、103中。
50.需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
51.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
52.根据本发明的一个实施例的一种基于深度学习的文本训练增强方法，图2示出了根据本发明的实施例的一种基于深度学习的文本训练增强方法的流程图。如图2所示，该方法包括以下步骤：
53.s1：针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内，然后在所述一定范围内对所述待训练文本进行检索，获取所述待训练文本的定位再获取其中各个词语的词频，将词频超过一定数量的词语作为关键词。
54.在具体的实施例中，所述针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内，具体包括：
55.分析待训练文本中的数据从而获取数据中包含关键字和主题内容在内的相关信息，根据所述相关信息将所述待训练文本归类在一定范围内。
56.在具体的实施例中，首先针对待训练文本进行简单数据分析，将待训练文本划分在一定范围内，然后对待训练文本进行人工检索，更精准的把握文本的定位。将待训练文本进行打标签，对于打完标签的文本划分为训练集、验证集、测试集。
57.s2：对所述待训练文本打上标签后再将其划分为训练集、验证集、测试集，将所述训练集、所述验证集和所述测试集中的文本所使用的语言经过预处理后成为机器所使用的语言，再利用预处理后的所述训练集、所述验证集和所述测试集进行深度学习训练得到训练结果模型，再使用所述测试集验证所述训练结果模型的测试效果。
58.在具体的实施例中，将划分好的待训练文本进行预处理成机器需要使用的语言进行深度学习训练，得到模型结果后进行模型结果验证，使用测试集验证模型的效果，最后可通过真实数据来进行测试查看实际的识别效果。
59.s3：若所述测试效果不符合所需的要求，则取出所述测试效果中出错的数据记为问题数据，对所述问题数据进行加强后跳转至所述s2；若所述测试效果符合所需的要求则输出所述训练结果模型；
60.对所述问题数据进行加强包括：针对所述问题数据进行语句句式的转换之后，生成所述问题数据对应的新数据加入所述待训练文本中；对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后，生成所述问题数据对应的新数据加入所述待训练文本中。
61.在具体的实施例中，所述针对所述问题数据进行语句句式的转换之后，生成所述
问题数据对应的新数据加入所述待训练文本中，具体包括：
62.通过语句句式的转换将所述问题数据中的语句使用多种不同的方法进行表述，从而使一条语句生成多条意思相同的新语句，并将所述新语句加入所述待训练文本中。
63.在具体的实施例中，所述通过语句句式的转换将所述问题数据中的语句使用多种不同的方法进行表述，具体包括：
64.常规通用方法：在语句前加入不会影响所述语句的原本含义的前置信息；
65.语句类型转换方法：将语句中的肯定句改为双重否定句；将语句中的把字句改为被字句；利用增加若干通用的形容词的方式对语句进行扩展；将语句中的一般句式改为问句/感叹句。
66.在具体的实施例中，所述对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后，生成所述问题数据对应的新数据加入所述待训练文本中，具体包括：
67.对所述问题数据中的关键词进行不同程度的拆词，再用拆词后得到的多个词进行随机组词，得到所述关键词所对应的多个新词，根据所述多个新词将所述关键词所在的语句变为多条新语句加入到所述待训练文本中。
68.在具体的实施例中，根据s2中得到的模型效果数据，查看出错的问题数据，根据问题数据的内容进行数据加强，一方面针对问题数据进行语句句式的转换，另一方面，通过问题数据中的不同词语之间进行不同程度，不同顺序的结合。
69.以下利用实际语句来举例说明s3所述的方法：
70.(1)首先，对于语句句式的转换，是针对bert算法使用的绝对位置信息进行位置信息的加强，下面进行举例说明：正常情况下，以下两句话是属于同一个意思：
71.例句1：来杯奶茶。
72.例句2：你好，来杯奶茶。
73.以上两句话是同一个意思，但是目前bert算法内嵌的是使用绝对位置信息，那么，这两句话就会变得有差异。因此通过基本的语句句式转换，将同一个意思下的语句转变成不同的转述方法，消减这方面的不足，同时也增加样本数量。
74.以下是句式转换的例子：
75.常规通用方法：在所有问题语句前面加上“有人说”，“他说”，“你知道吗？”等等，这些加上之后不会影响原话意思，但是对于位置信息而言，会消减其绝对位置的使用，也是间接将绝对位置信息转化为相对位置信息。但是这样的更改之后会导致这些“前缀”，权重过大，而忽视了整个样本的核心内容，因此，需要按比例，也为其他类别样本加上相同的前缀。
76.语句类型转换方法：将肯定句改为双重否定句，将把字句改为被字句，将句子进行扩展，加一些通用的形容词，将一般句式改为问句，感叹句。
77.(2)其次，针对词与词进行不同程度，不同类型的结合，这种做法是为了避免词语出现次数过多，对机器形成定势思维，权重赋予过多，导致最后一出现该词，立即被认定为固有类型。因此采用拆词、组词搭配。举例如下：
78.原样本句子：他自小学开始就是个好学生。(其中本样本主要的中心范围是小学，因此但凡出现小学就被认定为本类型)
79.出错句子：小明打小学习武术。(此处的小学并非原来小学的意思)
80.出错句子2：小明欺负小学生。(此处的小学生与小学也并非一个意思)
81.这种情况下，对于机器而言，他结合上下文的同时也会过多赋予词频较重的词语更高的权重，也就容易产生问题句子，因此整理出问题数据，针对问题数据中的词频高的词进行不同程度的拆词或组词，降低出错概率。
82.在具体的实施例中，所述方法还包括在所述s1后执行s4：设置能够在多种不同的语境中被使用的句式，以所述句式作为创建样本的模板将所述待训练文本中的词语分别加入所述句式中得到新样本，利用所述新样本对所述待训练文本进行加强。
83.在具体的实施例中，所述s4具体包括针对所述待训练文本中的各个词语执行如下步骤：
84.设置能够在多种不同的语境中被使用的句式，所述句式中包含文本不确定并且可填入任意词语的固定位置，且所述句式中除所述固定位置外的文本均为确定信息；
85.将所述待训练文本中的各个词语分别填入所述固定位置，根据各个词语在不同情境中的用法不同来创建包含各个词语的正样本；同时根据各个词语在不同情境中的相反含义来创建包含各个词语的负样本；
86.最后利用所述正样本增强所述待训练文本的正向数据，利用所述负样本增强所述待训练文本中的干扰数据。
87.以下利用实际语句来举例说明s4所述的方法：
88.针对s1中得到的待训练文本，通过人工检索以及算法工具获取到词频数据，创设同一词频在不同情境中的用法，增加正样本，同时根据同一个词频增加负样本，增强样本数据，同时加强数据干扰。最终获得更加健硕的文本模型。
89.同一个词在不同的语境中有不同的含义；例如：
90.例句1：骄傲使人落后；
91.例句2：身为中国人，女排取得奥运会冠军，我感到无比骄傲；
92.例句3：家里安装的电话已经不是什么新鲜事了；
93.例句4：新鲜的蔬菜一定要用冷水泡过才能喝。
94.其中例1例2中的骄傲是同一个词，但是含义是相反的。例3例4也是不同含义。通过对词频高的词语进行加强，也增强样本数据的健硕，同时增加样本量。
95.图3示出了本发明的一个实施例的一种基于深度学习的文本训练增强系统的框架图。该系统包括数据分析模块301、模型训练模块302、问题数据加强模块303和全文本数据加强模块304。
96.在具体的实施例中，数据分析模块301被配置用于针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内，然后在所述一定范围内对所述待训练文本进行检索，获取所述待训练文本的定位再获取其中各个词语的词频，将词频超过一定数量的词语作为关键词；
97.模型训练模块302被配置用于对所述待训练文本打上标签后再将其划分为训练集、验证集、测试集，将所述训练集、所述验证集和所述测试集中的文本所使用的语言经过预处理后成为机器所使用的语言，再利用预处理后的所述训练集、所述验证集和所述测试集进行深度学习训练得到训练结果模型，再使用所述测试集验证所述训练结果模型的测试效果；
98.问题数据加强模块303被配置用于若所述测试效果不符合所需的要求，则取出所
述测试效果中出错的数据记为问题数据，对所述问题数据进行加强后跳转至所述模型训练模块；若所述测试效果符合所需的要求则输出所述训练结果模型；对所述问题数据进行加强包括：针对所述问题数据进行语句句式的转换之后，生成所述问题数据对应的新数据加入所述待训练文本中；对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后，生成所述问题数据对应的新数据加入所述待训练文本中。
99.全文本数据加强模块304被配置用于设置能够在多种不同的语境中被使用的句式，以所述句式作为创建样本的模板将所述待训练文本中的词语分别加入所述句式中得到新样本，利用所述新样本对所述待训练文本进行加强。
100.本系统首先针对特定需求获取对应的文本样本，并对文本样本进行初步处理；再将预处理数据分为训练集、验证集、测试集；最后通过特定的格式转化成机器语言，进行深度学习训练，得到一个深度学习模型，使用测试集对模型结果进行验证，对验证后发现问题的数据进行加强后加入原本的文本样本中，重新进行训练得到新的模型。对数据进行加强包括语句句式转换、不同词语之间的结合，还包括对词频较高的词语创设不同语境中都适用的句式，最终加强了原始的文本样本。使得在数据样本单一、数据样本数量少的情况下，依然能够进行文本训练，从而提高了信息甄别的准确率。
101.下面参考图4，其示出了适于用来实现本技术实施例的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
102.如图4所示，计算机系统400包括中央处理单元(cpu)401，其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中，还存储有系统400操作所需的各种程序和数据。cpu 401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
103.以下部件连接至i/o接口405：包括键盘、鼠标等的输入部分406；包括诸如液晶显示器(lcd)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。
104.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(cpu)401执行时，执行本技术的方法中限定的上述功能。需要说明的是，本技术所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程
只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
105.可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
106.附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
107.描述于本技术实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，并且这些单元的名称在某种情况下并不构成对该单元本身的限定。
108.本发明的实施例还涉及一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是，本技术的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
109.本发明首先针对特定需求获取对应的文本样本，并对文本样本进行初步处理；再将预处理数据分为训练集、验证集、测试集；最后通过特定的格式转化成机器语言，进行深度学习训练，得到一个深度学习模型，使用测试集对模型结果进行验证，对验证后发现问题的数据进行加强后加入原本的文本样本中，重新进行训练得到新的模型。对数据进行加强包括语句句式转换、不同词语之间的结合，还包括对词频较高的词语创设不同语境中都适
用的句式，最终加强了原始的文本样本。使得在数据样本单一、数据样本数量少的情况下，依然能够进行文本训练，从而提高了信息甄别的准确率。
110.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于深度学习的文本训练增强方法与系统与流程

相关文献

最热文献