一种基于倾斜随机森林的处理大量文本中识别不良文本的方法

2022-06-02 10:13:34 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种基于倾斜随机森林的处理大量文本中识别不良文本的方法。

背景技术：

2.随着互联网的飞速发展，从海量数据中进行事件检测已经成为一个研究热点。然而，现有的社交网络事件检测方法很少考虑短文本数据中的过滤数据。因此，有效检测短文本的敏感信息项、限制敏感信息的肆意传播、阻止不良信息对网络资源的侵害有利于实现互联网的发展。
3.随机森林(random forests,rf)是分类算法的重要技术之一，相关文本过滤也进行了使用。但随机森林算法在分类不平衡数据集时，对少数类分类准确率过低，导致整体分类准确率下降。网络过滤过程中，往往面对海量的数据信息，从中找出敏感词，因此传统的随机森林算法影响了事件检测的效率和准确性。

技术实现要素：

4.本发明的目的在于提供一种基于倾斜随机森林的处理大量文本中识别不良文本的方法，旨在解决传统的随机森林算法分类的准确率较低的问题。
5.为实现上述目的，本发明提供了一种基于倾斜随机森林的处理大量文本中识别不良文本的方法，包括以下步骤：
6.s1读取文本数据；
7.s2对所述文本数据进行预处理，得到文本向量；
8.s3建立不良文本词典对所述文本向量进行不良率判断，若判断不合格则将所述文本向量定义为不良文本；若判断合格则得到文本集合并执行步骤s4；
9.s4基于所述文本集合，利用随机森林构建倾斜随机森林分类模型；
10.s5利用所述倾斜随机森林分类模型对所述文本向量进行分类，得到文本分类结果。
11.其中，所述获取文本内容的具体方式为：
12.采用网络爬虫和调用api读取文本数据。
13.其中，所述对所述文本数据进行预处理，得到文本向量的具体方式为：
14.s21对所述文本数据进行分词选取，得到选取文本；
15.s22对所述选取文本进行特征选取，得到特征文本；
16.s23利用卷积神经网络对所述特征文本进行长短文本区分，得到文本向量。
17.其中，所述建立不良文本词典对所述文本向量进行不良率判断，判断不合格，将所述文本向量定义为不良文本，判断合格，得到文本集合，执行步骤s4的具体方式为：
18.s31建立地址词典和关键词词典；
19.s32所述地址词典对所述文本向量中的地址进行不良文本内容占比判断，如所述地址的不良文本内容占比大于等于50％，将所述文本向量定义为不良文本，如所述地址的不良文本内容占比小于50％，执行步骤s33；
20.s33所述关键词词典对所述文本向量进行铭感词判断，将所述文本向量包含铭感词的内容判断为不良文本，并将所述不良文本滤除，得到文本集合，执行步骤s4。
21.其中，所述基于所述文本集合，利用随机森林构建倾斜随机森林分类模型的具体方式为：
22.s41通过随机森林使用交叉认证的方式对所述文本集合进行划分，生成样本子集；
23.s42基于所述样本子集构建多个决策树分类模型；
24.s43采用随机森林装袋的思想对每个所述决策树分类模型的预测结果进行统计，将票数最高的结果作为倾斜随机森林分类模型的预测结果。
25.本发明的一种基于倾斜随机森林的处理大量文本中识别不良文本的方法，读取文本数据；对所述文本数据进行预处理，得到文本向量；建立不良文本词典对所述文本向量进行不良率判断，判断不合格，将所述文本向量定义为不良文本，判断合格，执行步骤下一步；基于所述文本集合，利用随机森林构建倾斜随机森林分类模型；利用所述倾斜随机森林分类模型对所述文本向量进行分类，得到文本分类结果，通过所述倾斜随机森林分类模型得出的分类结果准确率较高，解决了传统的随机森林算法分类的准确率较低的问题。
附图说明
26.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.图1是本发明提供的一种基于倾斜随机森林的处理大量文本中识别不良文本的方法的流程图。
28.图2是对所述文本数据进行预处理，得到文本向量的流程图。
29.图3是建立不良文本词典对所述文本向量进行不良率判断，判断不合格，将所述文本向量定义为不良文本，判断合格，得到文本集合，执行步骤s4的流程图。
30.图4是基于所述文本集合，利用随机森林构建倾斜随机森林分类模型的程图。
31.图5是读取文本数据的流程图。
具体实施方式
32.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
33.请参阅图1至图5，本发明提供一种基于倾斜随机森林的处理大量文本中识别不良文本的方法，包括以下步骤：
34.s1读取文本数据；
35.具体的，采用网络爬虫和调用api读取文本数据。
36.其中，api，全称application programming interface，即应用程序编程接口。api是一些预先定义函数，目的是用来提供应用程序与开发人员基于某软件或者某硬件得以访问一组例程的能力，并且无需访问源码或无需理解内部工作机制细节。api就是操作系统给应用程序的调用接口，应用程序通过调用操作系统的api而使操作系统去执行应用程序的命令(动作)。在windows中，系统api是以函数调用的方式提供的。
37.其中，网络爬虫，又被称为网络蜘蛛，广泛应用于互联网搜索引擎及其他类似网站，其目的是将互联网上的网页、数据或文本信息下载到本地以供做进一步处理。传统的网络爬虫将待抓取的url放入抓取队列中等待抓取，我们可以称队列为url种子库，里面包含url抓取的信息，分别代表新投递为抓取，抓取成功，抓取失败等。每次抓取时，会在队列中选取新投递的url，解析dns获取主机ip，并根据ip地址抓取新的页面，然后更新种子库的url状态，对于抓取页面后产生的新的url，我们称之为新链扩展，将扩展出的url重新投递到种子库中，直到满足一定条件时候停止抓取，例如页面拓展深度等。
38.其中，在本文的不良文本过滤基础数据获取中，所需要的爬虫与传统的爬虫程序存在一定的差异。如图5所示，本文所需要的是，将一批网页url作为种子url放入待抓取队列，也就是种子库中，这一批url在域名和分类上相同，存在的差异主要在分类下面的id，对应到网站下某分类的url。其次，网络爬虫不需要解析已抓取页面中包含的新url，即采取广度优先策略而抓取深度为1，因为只需要抓取网页中的文本内容，通常情况下这类网页的外链对本文的研究不存在影响。最后，将抓取下的文本内容放入服务器指定位置或数据库中，得到所述文本数据，等待进一步解析和过滤。
39.s2对所述文本数据进行预处理，得到文本向量；
40.具体方式为：
41.s21对所述文本数据进行分词选取，得到选取文本；
42.具体的，由于抓取的文本均是以文章或段落的形式展现，因此首先对所述文本数据进行中文分词及去噪处理。中文语句之间以标点符号分隔，而词与词之间通常没有隔断，紧密连接在句子中，不具备英文词与词之间均用空格分隔的优势，而自然语言处理领域大部分的算法都以词为处理的基本单位，因此分词处理是文本预处理中一个重要的阶段，直接影响到后续的实验结果。
43.其中，本发明采用的开发语言是python、nlpir需要通过python调用c 库实现，而结巴分词本身对python语言的支持非常好。考虑到在调用c 库时可能会产生的系统不稳定情况，以及调用产生的时间消耗，认为结巴分词在使用方面更胜一筹。综合上述因素，本发明选择结巴分词作为分词算法。由于不良文本的特殊性，单靠分词算法来进行中文分词还不是特别完备，因此本发明加入n-gram方法补充分词。
44.其中，n-gram是最大词汇连续语音识别中常用的一种语言模型。该模型基于这样一种假设，当前词出现的概率取决于前面n-1个词的概率。如果当前词出现的概率只取决于前1个词，也就是常用的二元的bi-gram；如果当前词出现的概率取决于前2个词，也就是常用的三元的tri-gram。本发明最终选取bi-gram。
45.其中，gram是以单字为基本单位，即相邻的n个字作为一个词。按照字进行划分，存在将原本的词语拆分到两个词特征中的现象。本发明结合分词和n-gram方法的优点，首先将文本通过分词，再将分词的结果作为n-gram的输入，也就是说将相邻的n个词当作一个特
征词。这样将相邻的词语拼接，可以看做是对上下文语境简单补充，弥补在语义理解方面的缺陷。
46.s22对所述选取文本进行特征选取，得到特征文本；
47.具体的，由于计算机可处理的是结构化形式的数据，文本输入不能有效地被计算机识别，因此首先需要将所述选取文本的形式进行转化。将文档进行分词之后，每篇文档就可以看做是词语的集合，即可转化为以词语作为特征的多维向量，其中词语能够在一定程度上表示文本的内容。特征词作为文档的中间表示形式，能够有效地表示目标文本，同时要尽量保证在其他文本中出现较少，也就是说对其他文本的表示能力较差。为了简化计算机的计算，提高文本处理效率，特征词应精简、概括性强，也就是说用尽量少的特征词表示尽量丰富文本信息。
48.其中，tf-idf是一种常用的基于统计计算词条权重的方法，词条的权重越高，则其重要程度越高。它的主要思想是：对于区分性、代表性强的词条，除了要求其在目标文本中出现的频率高，同时要求其在其他文本中出现的频率低，适合用来分类。tf-idf实际上是tf*idf，如公式1.1所示。
49.tf-idf
i,j
＝tf
i,j
×
idfi(公式1.1)
50.其中，tf(termfrequency)为词频，表示关键词在文档中出现的频次，简单来讲，就是对关键词在某文档中的出现进行计数。考虑到文章有长有短，如果以出现频次来计算，那么在长文本中关键词的tf相对较高，从而导致因为文本长度不同对分类结果产生影响。通常会对tf标准化，以词条出现的频率来表示，减弱长文本中高频词条的权重：
[0051][0052]
在公式1.2中，分子是词i在文档j中出现的次数之和，分母为文档j中所有词出现次数之和。
[0053]
其中，idf(inverse document frequency)为逆向文件频率，表示词语的普遍重要性。如果包含某词条的文档越少，idf越大，表示词条的类别区分能力越强。某一词条的idf，计算方式如公式1.3所示，其中分子为文件数目，可以由总文件数目除以包含该词语的文件数目，再将得到的商取对数得到：
[0054][0055]
其中，分子为总共的文档篇数，分母为包含词语t的文档数目。为了避免没有包含词语t的文档，分母为0，通常做加1处理。
[0056]
考虑计算特征权重的复杂度和表示信息能力的有效性，本发明选用tf-idf的方法来计算特征词条的权重。
[0057]
s23利用卷积神经网络对所述特征文本进行长短文本区分，得到文本向量。
[0058]
具体的，考虑到互联网中的文本数据多种多样、长度不一，因此爬取的数据尽量符合互联网中的分布比例。
[0059]
在本发明的训练数据中，长至长篇文章，短至不足十字的语句，在表达方面确实存在一定的差异。文本是以特征向量的形式传到模型中，因此尽可能地丰富特征，有利于模型
的正确训练。
[0060]
本发明采取了结巴分词和bi-gram相结合的方法，对文本的特征词进行提取，旨在补充分词工具在中文文本未登录词处理方面的不完备性。
[0061]
在短文本中，使用分词工具得到的结果作为基础的特征词，同时将n-gram的结果作为补充，这种结合的方法确实有效地提高了分类的准确率。假设一段文本长度为n，则通过bi-gram提取到的特征词数为n-1，假设结巴分词的输出有m个，则通过bi-gram与结巴分词结果相结合方法能提取特征m-1个，此时，这段文本共提取特征n 2m-2个。
[0062]
在长文本中，这种特征提取方法会将特征词数大大提高，使特征的计算更为复杂。由于长文本不局限于文本长度，在文本的表达方面比较充分，且结巴分词的结果较为准确，则不再使用bi-gram提取特征。
[0063]
s3建立不良文本词典对所述文本向量进行不良率判断，若判断不合格则将所述文本向量定义为不良文本；若判断合格则得到文本集合并执行步骤s4；
[0064]
具体方式为：
[0065]
s31建立地址词典和关键词词典；
[0066]
具体的，地址词典和关键词词典这两个词典在建立初期都是通过人工方法添加数据，在不良文本统计过程中进行反馈，更新词典内容。
[0067]
s32所述地址词典对所述文本向量中的地址进行不良文本内容占比判断，如所述地址的不良文本内容占比大于等于50％，将所述文本向量定义为不良文本，如所述地址的不良文本内容占比小于50％，执行步骤s33；
[0068]
具体的，由于在保存抓取文本内容时，我们同时保存了抓取的网页的url，因此我们先对url地址进行处理。将同一站点下所有所述文本向量构成一个集合，可以看成是一个站点下不同的文档，对站点所有文档进行不良文本覆盖率的占比。本发明定义当站点的不良文本内容占比达到50％，即将该站点加入地址黑名单，在后续不良文本过滤过程中，首先对站点进行判断，是否在地址黑名单中。对于站点在地址黑名单中的文本，不再进行后续的判断，直接定义为不良文本，以提高过滤效率。
[0069]
s33所述关键词词典对所述文本向量进行铭感词判断，将所述文本向量包含铭感词的内容判断为不良文本，并将所述不良文本滤除，得到文本集合，执行步骤s4。
[0070]
具体的，所述关键词词典对所述文本向量进行铭感词判断，将包含敏感词的文档判为不良文本。其中，通过将具有明显不良文本特征且去其他文本区别性较大的词语加入到关键词词典中，对于判断为不良文本的内容，也将文本的关键词反馈给关键词词典，进行词典更新。基于url的过滤、基于关键词的过滤可以过滤掉不良网站中的文本内容，一些包含敏感词的较为明显的文本内容也可以被过滤掉。
[0071]
s4基于所述文本集合，利用随机森林构建倾斜随机森林分类模型；
[0072]
具体方式为：
[0073]
s41通过随机森林使用交叉认证的方式对所述文本集合进行划分，生成样本子集；
[0074]
具体的，随机森林是一种集成分类器，对于每个基分类器需要产生一定的样本子集作为基分类器的输入变量。为了兼顾评估模型,样本集的划分有多种方式，在本发明，使用的是交叉认证的方式对数据集进行划分，所述交叉认证是把需要进行训练的文本根据字数的不同，分成k(k为任意大于零的自然数)个子数据集，在每次训练时，使用其中一个子数
据集进行作为测试集，其余子数据集作为训练集，并进行k次轮换步骤。
[0075]
具体地，确定袋外估计矩阵，所述袋外估计矩阵为给定的n个元组m个属性的分类数据集d；对所述给定的n个元组m个属性的分类数据集，每个单分类器，该决策树从训练数据集d中有放回的抽取n个元组，并且对抽取的元组进行标记。
[0076]
分类数据集袋外估计矩阵d包括：将所述给定的n个元组m个属性，共同构成分类数据集矩阵。
[0077]
对于给定的n个元组m个属性的分类数据集d，假设随机森林拥有k个单分类器，装袋的基本思想是，对于循环i(i＝1,2，...，k)，第i个决策树从训练数据集d中有放回的抽取n个元组，并且对被抽取的元组进行标记。
[0078]
确定袋外估计矩阵，所述袋外估计矩阵为给定的n个元组m个属性的分类数据集d；其中第i个决策树从训练数据集d中有放回的抽取n个元组，并且对被抽取的元组进行标记生成样本子集。
[0079]
s42基于所述样本子集构建多个决策树分类模型；
[0080]
具体的，在随机森林中，每个基分类器都是一棵独立的决策树。在决策树的构建过程利用分裂规则试图寻找一个最优的特征对样本进行划分，来提高最终分类的准确性。随机森林的决策树与普通的决策树构建方式基本一致，不同的是随机森林的决策树在进行分裂时选择的特征并不是对整个特征全集进行搜索，而是随机选取k(k为任意大于零的自然数)个特征进行划分。在本发明以每个文本向量作为决策树的根，将上述利用卷积神经网络得到的文本向量的标签的特征作为决策树的子节点，其下节点为各自再次提取到的特征，据此对每个决策树进行训练。
[0081]
其中，分裂规则指的是决策树在分裂时涉及到的具体规则。如，选择哪个特征和分裂的条件是什么，同时还要知道何时终止分裂。由于决策树的生成相对比较武断，需要利用分裂规则对其进行调整，才能让它看起来更好。
[0082]
所述数据分类集袋外估计矩阵d包括：将所述给定的n个元组m个属性，共同构成分类数据集矩阵。
[0083]
对于给定的n个元组m个属性的分类数据集d，假设随机森林拥有k个单分类器，装袋的基本思想是，对于循环i(i＝1,2，...，k)，第i个决策树从训练数据集d中有放回的抽取n个元组，并且对被抽取的元组进行标记。
[0084]
确定袋外估计矩阵，所述袋外估计矩阵为给定的n个元组m个属性的分类数据集d；其中第i个决策树从训练数据集d中有放回的抽取n个元组，并且对被抽取的元组进行标记。
[0085]
具体地，所述estimators(随机森林的参数)个倾斜决策树由每个结点最优分裂准则得到包括：其中通过求解每个结点的基尼指数最小值，得到每个结点最优分裂原则，最终得到estimators个决策树的分类模型序列；
[0086]
为保证构建倾斜分裂超平面的基础上提升运算性能，本发明使用如下公式作为代价函数以求解超平面的参数作为倾斜分裂超平面：
[0087][0088]
在上述方案中，基于大量已提取的文本的特征信息构造倾斜随机森林分类模型，在传统随机森林算法中为求得最优分裂准则，通常会以最小化该结点gini指数为目标。假
设，求解得分裂准则为在属性ai(i＝1,2,...,m)上分裂点为常数b，即分裂准则为垂直于数据空间某一维度的超平面。但是这样的分裂方式不能很好抓住数据空间中的几何结构。为保证构建倾斜分裂超平面的基础上提升运算性能，本发明使用公式7作为代价函数以求解超平面的参数作为倾斜分裂超平面。
[0089]
即：使用基尼指数作为分裂准则，用于衡量数据分区d的不纯度；
[0090]
考虑确定分裂属性a与确定分裂点的情况下，数据集d被规则划分为d1、d2，计算该分裂准则基尼指数；
[0091]
随机森林构建决策树常使用gini指数作为分裂准则，用于衡量数据分区d的不纯度。基尼指数定义计算公式如下：
[0092][0093]
pi表示d中元组属于ci类的概率。考虑确定分裂属性a与确定分裂点的情况下，数据集d被该规则划分为d1、d2。
[0094]
该分裂准则的基尼指数计算公式如下：
[0095][0096]
通过求解每个结点基尼指数ginia(d)最小值得到每个结点最优分裂准则。最终得到k个决策树的分类模型序列{h1(x),h2(x),...,hk(x)}。
[0097]
所述倾斜分裂超平面包括：所述倾斜分裂超平面与传统随机森林算法分裂准则不相同，且传统分裂准则为倾斜分裂超平的一种特例。
[0098]
利用代价函数来表示对于确定的模型对样本属性x分类错误程度，为自变量，求解代价函数的最小值，即可求得分类错误程度最低时取值。具体的计算方法如下：
[0099]
逻辑回归是解决分类问题的一种常见算法。对于给定的样本属性x取值如公式如下：
[0100]hθ
(x)＝g(θ
t
x)(公式2.1)
[0101]
θ为权重参数；
[0102]
函数g计算公式如下：
[0103][0104]
由此公式2.1和公式2.2可知，当函数g(z)中z》0时，g(z)》0.5，此时预测该样本类别y取值为1。反之，当函数g(z)中z小于0时，g(z)小于0.5，此时预测该样本类别y取值为0。
[0105]
对于一个训练完成的逻辑回归模型h
θ
(x)＝g(θ
t
x)，将样本xi带入决策边界θ
t
x计算该式是否大于0来判断该样本属于某一类。θ
t
x＝0被称之为该模型的决策边界。
[0106]
获取代价函数最小值时的取值后，利用倾斜分裂超平面作为倾斜决策树结点分裂准则的分类算法，创建倾斜决策树。具体的计算过程如下：
[0107]
倾斜决策树(obliquedecisiontree)是以决策边界作为树中每个结点的分裂准则的决策树。假设类obliquedecisiontree，对于该类的每个实例对象node，变量classlabel表示当前结点的类标号；变量dataset表示当前结点的数据分区；变量leftchildtree与rightchildtree分别指向其左子树和右子树；变量obliquesplithyperplane表示当前结点
分裂超平面的θ值。倾斜分裂超平面(oblique split hyperplane))ofdb算法中每个倾斜决策树结点node的倾斜分裂超平面公式如下：θ
t
·
x θ0＝0；
[0108]
传统随机森林算法分裂准则可由如下公式计算x＝b其中，x表示某一确定属性，b表示确定常数。传统随机森林算法分裂准则公式可由倾斜分裂超平面公式表示，即传统分裂准则为倾斜分裂超平的一种特例，倾斜分裂超平面考虑更为广泛的情况。
[0109]
考虑在单个结点上通过一个超平面只能解决二分类的问题。为使算法可以解决多分类问题，本发明使用“一对多”的策略，在单个结点使用最多类与其他类进行二分类，使算法适用于多分类问题。
[0110]
考虑到正负类样本比例不同而对分类算法效果产生的影响，本发明在叶子结点上设置如以下公式所示的类标签计算方法：
[0111][0112]
其中，arg max表示取一组数中的最大值，wc(数组)表示各个类的权重，i(yi＝c)表示遍历计算当前叶子节点上每个类元组的个数。按照样本中类的比例对叶子结点标记方法做出改进。
[0113]
其中，然后利用损失函数对随机森林分类模型中的各基分类器的组合权重系数进行调整，生成新的倾斜随机森林分类模型，并使用新的随机森林分类模型对待识别文本进行识别。进而使得倾斜随机森林分类模型的最终的损失最小，大大提升随机森林分类模型识别分类不良文本的准确性。
[0114]
其中，在本发明中考虑代价函数为凸函数，即函数局部最小值即是全局最小值，本发明使用梯度下降法求解代价函数最小值。参数θ更新规则为：
[0115][0116]
其中，是求偏导的符号。
[0117]
为保证梯度下降法迅速收敛，本发明在训练之前使用公式：
[0118][0119]
对数据集进行规范化处理，将其取值映射至区间[0,1]之间。
[0120]
s43采用随机森林装袋的思想对每个所述决策树分类模型的预测结果进行统计，将票数最高的结果作为倾斜随机森林分类模型的预测结果。
[0121]
具体的，随机森林的分类结果是各个基分类器，即决策树，进行投票得出。随机森林对基分类器一视同仁，每个决策树得出一个分类结果，汇集所有决策树的投票结果进行累加求和，票数最高的结果为最终结果。据此，根据每个决策树(需要进行标签分类的文本向量)其每个子节点(标签)的得分情况，若该标签得分超过本技术所设置阈值t，则认为该标签可对该文本向量进行解释，从而获得该文本向量的所有标签。其中阈值t的确认方式为:累加该决策树所有分类器的投票结果*0.3。
[0122]
随机森林预测采用多数投票法计算公式如下：
[0123]
[0124]
y表示最终可能输出的结果是哪个类。二分类的y可能取到的值为{0,1}。
[0125]
其中h(x)表示组合分类模型，hi是单个决策树分类模型。在预测中以多数表决的方法，得到随机森林总体的分类结果。袋外估计(out ofbag estimation,oobe)用来估计随机森林的分类能力，其使用每个决策树训练子集中没有被抽样的元组来对这个决策树进行测试。
[0126]
s5利用所述倾斜随机森林分类模型对所述文本向量进行分类，得到文本分类结果。
[0127]
其中，选取n个已提取的文本(所述文本向量)，并获得所述n个已提取的文本特征变量的值；其中，所述n个提取的文本类型包括已确认的良好的文本和已确认的不良文本，所述n个提取的文本中
[0128]
每个提取的文本对应其句子特征特征变量；
[0129]
将所述n个提取的文本作为原始样本集，并基于所述原始样本集构建倾斜随机森林分类模型；其中，所述倾斜随机森林分类模型的输入为提取的文本特征变量的值，输出是所述倾斜随机森林
[0130]
分类模型中所有基分类器判定所述文本为不良文本的概率；
[0131]
构建所述倾斜随机森林分类模型的损失函数，其中，所述损失函数的自变量为所述所有基分类器的权重系数；
[0132]
求解损失函数的因变量为最小时所述自变量的最优解，并根据所述最优解更新所述所有基分类器的权重系数，生成新的倾斜随机森林分类模型；
[0133]
将待识别已提取的文本特征变量的值输入所述新的随机森林分类模型，获得输出结果；
[0134]
根据所述输出结果确定所述待识别已提取的文本为良好文本或非不良文本。
[0135]
不平衡数据集一般是指，不同类别下的数据量有非常大的差异，小类样本的数量很少或者相对大类样本很少。随着近些年数据量的爆炸式增长，不平衡数据现象出现在各行各业，比如电子商务领域的商品推荐，购买的推荐商品往往占据很小的比例；银行领域的信用卡欺诈检测，问题信用卡占所有信用卡很少一部分；网络安全领域中攻击识别，网络攻击次数远低于正常网络连接。
[0136]
一般的随机森林都是通过方法来训练数据集，生成多棵决策树，进行集成学习。假设训练数据集不平衡，在同等概率条件下，抽取的新样本集中小类样本数量只会更少，所训练的模型也会进一步失衡，造成预测结果准确率的严重偏差。
[0137]
本发明选取了倾斜随机森林对样本进行分类处理，将各类正负样本按照实际比例作为输入数据，随机分成训练集和验证集，以输出的预测实值代替分类二值表示样本被判断为某一类别的可能性。由于样本较少的一类所包含的信息较少，因此数据的分布难以确定，可能会出现样本较少的一类被划分到样本较多的一类的现象，从而造成类别判断准确率低。
[0138]
随机森林在生成过程中具有两个随机性，即样本选择的随机性和特征选择的随机性，也被称为行采样和列采样，这样的优点是不容易产生过拟合。样本选择的随机性是指，在生成单棵决策树的过程中，在总训练样本集中，使用有放回采样，构成单棵树的训练集，因此在样本集合中可能存在重复的样本。特征选择的随机性是指，在提取的全部特征集合
中，随机选取一个特征子集用于训练一个基学习器。假设共有m个特征属性，选择m个特征属性，单棵决策树就是在m个特征属性上的分布，一般情况下，建立决策树，直至某叶子节点无法继续分裂或者落在某叶子节点上的样本都属于一类。随机森林的两个随机采样过程保证了随机性，因此无需再剪枝。随机森林实现简单，计算开销小，且适合特征维度较多的情况。
[0139]
决策树算法有着训练时间复杂度低、预测速度快等特性，但单决策树又同时存在着容易过拟合的缺点，虽然通过剪枝可以减少这种情况，但过拟合仍无法避免。而通过生成多棵树进行模型组合的方法，可以大大减少单决策树的缺点。通常认为，如果每棵决策树对于不同的特征进行判断，且其判断的结果认定是准确的，那么如果有多棵决策树，进行不同的分工合作，得到的结果将优于其中任一棵树单独的判断结果，这也是集成学习的思想。基学习器之间是相互独立的，每个基学习器的训练过程与其他学习器无关，只需要满足自身的优化条件，可同时生成的并行化方法。随机森林模型的训练目的是为了减小模型的方差，也就是不同的训练集训练出的模型输出值之间的差异。模型保证多次训练的模型输出值之间相差最小。
[0140]
决策树是一种根据样本的特征取值对样本进行分类的模型，其对于属性判断的分支形似树形结构。决策树的训练过程是有监督的，对于给定的训练数据，每次选择区分性最好的特征，也叫做最优特征，作为当前节点的判断条件。根据在当前判断条件下的不同输出，将训练数据进行分割，继续进行下一个节点的判断。当取得的子集中都能够被正确分类时，或者已经满足停止条件时，将这些子集分到叶结点中。当有新数据输入时，根据已经建立好的树形结构对数据进行判断，从根节点到叶节点依次将数据通过每个节点的属性判断，直至到达叶节点。此时叶节点定义的类别就做为该数据类别。错误率降低剪枝的思想是，从决策树的叶结点向上直到根结点，删除以该结点为根的子树，比较删除前后树的损失函数值，若损失函数没有变大，则真正删除该结点，若损失函数变大则保留该结点。
[0141]
以上所揭露的仅为本发明一种基于倾斜随机森林的处理大量文本中识别不良文本的方法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于倾斜随机森林的处理大量文本中识别不良文本的方法

相关文献

最热文献