一种文本信息分类方法和系统与流程

2022-10-13 06:39:44 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，尤其涉及一种文本信息分类方法和系统。

背景技术：

2.现代社会是一个飞速发展的时代，各种资源与信息无处不在，文本信息也随之迅速膨胀，大量的文本信息远远超过了人们可以直接处理的范围，文本信息分类是将一篇文本归属到预先定义的类别的过程，可以协助人们解决这种需求，面对海量电子数据，如何能快速地对其分类成为人们最自然而然的需求。
3.自动文本信息分类是解决海量文本信息的有效手段之一，现有的文本信息分类一般是通过，复杂的深度学习模型，对文本内容进行学习、建模，不仅对计算机的计算资源消耗较大，而且对学习的数据依赖性极高，不仅数据需求量大，而且在经过耗费大量计算资源后，依旧不可避免的存在领域适应性不强，所能针对的领域有限，且在复杂任务中表现较差，不太能够适应越来越发达的社会，细分领域的增加，使得该种解决方法不能很好的满足人们的需求。
4.因此，本领域的技术人员致力于开发一种文本信息分类方法和系统，以解决上述现有技术的不足。

技术实现要素：

5.有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是目前现有技术中，自动信息分类过程中，分类系统结构复杂，所需要的计算资源庞大，对数据依赖程度高，且领域适应性不强，不能适应随着经济发展越来越细分的各种领域了。
6.为实现上述目的，本发明提供一种文本信息分类方法和系统，包括如下步骤：
7.步骤1、对文本信息进行初步预处理；
8.步骤2、将文本信息进行分词，并且对文本信息特征进行提取；
9.步骤3、对步骤2中所获取的文本信息特征进行特征降维；
10.步骤4、对步骤3得到的经过特征降维的数据，采用数学模型进行表示，随后进行相关特征权重的计算；
11.步骤5、将计算结果，进行相关的评价、反馈。
12.进一步地，所述步骤1中，对文本进行预处理时，首先执行的是将文本进行语种的分类，可以将文本分为中文文本与英文文本；
13.进一步地，当文本为英文文本时，所进行的预处理步骤如下：首先对英文文本进行相关词根的还原；
14.进一步地，相关词根的还原包括，将现在进行时和过去时之间、名词的单数和复数之间、形容词和副词之间，经过词根的还原，能够全部用一个英文单词表示，而还原后的词根并不会改变文本特征的提取，反而可以远远减少后续的计算量；
15.进一步地，对完成了词根还原的英文文本，再进行停用词的去除，在英文文本中，
就是将与进行文本信息分类相关度不大的，代词、介词、连词等文本进行去除，这些词语对于文本信息分类无关紧要；
16.进一步地，当文本为中文文本时，所进行的预处理步骤如下：首先将中文文本中可能存在的英文大写类专有名词进行转化，随后再去掉譬如“你”“我”“它”“得”等不可能成为特征组成元素的停用词；
17.进一步地，所述步骤2中对英文文本进行分词，因为英文文本书写天然的存在自然分隔符，因此按照英文文本中的自然分隔符进行分类即可；
18.进一步地，所述步骤2中对中文文本进行分词，因为中文文本不存在自然分隔符，因此，采用词典法进行分词，分词的准确率极大的依赖词典的质量与规模；对于词典涵盖的领域，分词可以做到较高准确率，检索的查准率也就相当高；
19.进一步地，所述步骤3中的特征降维包括特征选择和特征提取；
20.进一步地，所述步骤3中的特征提取，经过步骤2后，所产生的特征提取出来的相关特征维数非常的多，并且可能存在着大量无关或冗余的特征；
21.进一步地，所述大量无关的特征，即步骤1中，进行预处理时，未将该类停用词进行删减，造成了该无关特征的维数增加，即不影响文本信息分类的特征，但会浪费系统的计算资源，所以也应当进行删减；
22.进一步地，所述大量冗余的特征，即步骤2中，进行分词，以及特征信息提取的时候，存在的相同或相近的词，譬如“计算机”“电脑”两个词表示的同一概念，又譬如“漂亮”“美丽”两个词是近义词，约等于是相同的概念，因此在执行步骤2中的词典分词后造成了冗余，也应当进行相应的合并处理；
23.进一步地，进行相关特征选择，即选择不同的特征，基于特征频率，进行相关特征的选择，一方面此特征在文本信息中出现的次数越多，那么就对文本分类的贡献越大，特征在文本信息中出现的次数越少，对文本进行分类的贡献就越小；
24.进一步地，倘若该特征在所有的文本信息中出现的频率相近，即均匀的分布在所有的文本信息中，即可能是无法提供信息分类的停用词未被删减掉，因此后续通过人工专家学者，对存在类似的情况进行相关停用词表的增补；
25.进一步地，当该领域的专家进行人为的特征降维后，将相关无关的停用词，以及造成冗余的相关同义近义词，进行相关的，反馈，将收集得到的相关词组，反馈到步骤2中，当系统下一次进行文本分类时，便可以提高精度，增加准确率；
26.进一步地，在人工专家的反馈下，对特征进行筛选，进行特征选择，将其中低于某一处阈值的特征项从原始特征空间中移除，降低特征空间的维数，保留高于阈值的特性；
27.进一步地，在人工专家持续的正反馈下，可以持续使系统获得人类给予的相关文本特征；
28.进一步地，所述步骤4中，对进行了特征降维后的文本信息数据，采用向量空间模型(vsm)模型，来进行相关数学模型的表示，该数学模型将文本信息中的特征词看做一个无序的特征集合，将所获取的文档集的特征向量集合假设为t＝{t1,t2,t3,
…
tn},其中n是文本中特征信息的总数，亦可认为是该特征向量空间的维数；
29.进一步地，所述步骤4中执行完，对于数学模型的表示后，每一篇文本信息都可以表示成一个向量的形式v(d)，v(d)＝{w1,w2,w3,
…
wn},向量中第i个分量wi即为特征项ti的
权重，表示特征项ti；所要预测的类别集合d＝{d1,d2,d3,
…dm
}；
30.进一步地，所述步骤4中，相关的特征权重计算为特征频率权重计算法，根据特征在文档中出现的频率来确定其对于文本分类重要程度的影响，倘若该特征出现的频率越大，那么在文本中的重要程度越大；
31.进一步地，所述特征权重计算主要基于以下考虑：根据上述建立的相关向量空间模型，进行相关的特征权重的计算，一个词组在文本中出现的次数越多，则对识别文档的贡献率越大；一个词组在不同文档中出现的次数越多，则它区分不同文档的能力越弱；
32.进一步地，该未分类的文本信息可以与已经完成分类的文本信息进行内积运算，两向量内积之和的数值几何意义在于表征两个向量夹角cosθ的值，两向量越相似，该数值越大，越能够体现未分类文本，与已经完成分类的文本信息之间的相关的关系，即可以表征与进行相关文本信息的分类。并且两个向量内积相乘，需要遍历，所有的特征项进行匹配，使得相关相似度的区分更加有说服力；
33.进一步地，所述步骤5的计算结果全部基于步骤4所得出，其中计算结果是将待分类文本信息与已经分类的文本信息进行内积运算得出；
34.进一步地，所述步骤5中的评价具体为，由人工专家对，待分类文本信息进行人工选择评价，并与系统分类完成的文本信息进行比对计算，得出相应的结论，如图2所示，当文本分类系统和人工专家都一致认为分类合理属于与之比较的该类，则用ax表示；倘若人工专家觉得分类合理，但系统判断不应属于该分类，则用ay进行表示；如图2所示：倘若人工专家判断分类不合理不属于与之比较的该类，但系统判断分类合理，则用bx表示；倘若人工专家判断与之比较的该类与待分类文本信息两者不属于同种类型，系统亦判断分类不属于该类型，则用by表示；通过公式相关的计算即可以得出相应的系统分类正确率；
35.其中相关计算公式如下：
36.准确率＝ax by/ax bx ay by；
37.错误率＝1-准确率；
38.进一步地，通过人工专家的判断来得出该方法所进行文本分类的准确率，将多个结果进行结合，即可以得到当前系统中文本分类的准确率；
39.进一步地，所述步骤5中的反馈是指，当经过人工专家的判断后，在两篇判断错误的文本信息分类中，进行相关该分类，类别的特征提取，以及相关特征权重的反馈，因为涉及不同领域之间，相关特征词组的使用以及相关含义差别巨大，譬如在英语文本中base，在军事领域指“基地”，但在数学领域指“三角形的底边”，而在化学领域又指“碱”，因此后续的人工专家针对不同领域之间进行通过评价、反馈体系，可以快速的使得系统习得人工给予的相关文本信息特征，使得在相关后续复杂领域可以实现快速的，迁移学习，通过该领域的专家进行相关特征权重的重新分配，后续持续优化该系统方法的文本信息分类成功率；
40.采用以上方案，本发明公开的文本信息分类方法和系统，具有以下优点：
41.(1)本发明的文本信息分类方法和系统，通过对文本信息进行预处理与特征降维，极大的减少了大量无关、冗余的特征，精简了文本信息中的特征维数，节约了后续的计算资源，并且在本系统的持续运行中，有人工专家可以持续进行正反馈调节，使得该系统运行的越久，相关特征降维越精准，更加减少了计算资源的无端消耗，使得本发明的方法更加绿色节能环保；
42.(2)本发明的文本信息分类方法和系统，通过人工计算反馈的，
43.在进行文本信息分类时，遍历了所有特征项，使得所有的特征项都参与到了文本信息分类中，该发明方法使得相关的文本信息分类的精度高，具有普遍性与代表性，并且通过后续人工专家通过评价、反馈的文本信息特征，可以在有限的数学模型中，充分利用人工给予的文本信息特征进行分类，可以在复杂领域较快的实现分类性能准确度的增加，并且具备更加良好的领域适应性，可以更快扩展相关文本信息分类领域的扩展。
44.综上所述，本发明公开的文本信息分类方法和系统，精简了特征维数，减少了相关计算资源的消耗，更加绿色节能环保，并且充分利用人工专家赋予的文本信息特征，能很好的实现复杂领域的分类性能准确度的提高，具备良好的领域适应性与领域扩展性。
45.以下将结合具体实施方式对本发明的构思、具体技术方案及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。
附图说明
46.图1是本发明文本信息分类系统的基本运行流程图；
47.图2是本发明步骤5中所执行的评价系统示意图；
具体实施方式
48.以下介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，这些实施例为示例性描述，本发明的保护范围并非仅限于文中提到的实施例。
49.名词解释：
50.停用词：停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理文本信息之前或之后会自动过滤掉某些字或词，这些字或词即被称为stop words(停用词)。一类是人类语言中包含的功能词，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义如“the”、“is”、“at”、“on”等；另一类词包括词汇词，比如“want”等，这些词应用十分广泛，但是对这样的词在进行文本信息分类时并不能提供任何分类参考依据。
51.实施例、对一篇含有大量文言文的中文文本进行分类
52.步骤1、首先对文本信息进行初步预处理：首先该文本信息分类系统对该文章进行文本语言语种的分类判断，判断为中文文本，即执行相关的中文文本预处理步骤，首先对该中文文本进行相关英文大写专有名词的改写，系统遍历后未发现该篇文章存在英语大写专有名词，因此跳过执行相关英文专有名词的改写步骤，
53.随后进行相关的停用词的去除，譬如“你”“我”“它”“得”“的”等不可能成为特征组成元素的停用词，当删减完成停用词后开始执行下一步骤。
54.步骤2、将文本信息进行分词，并且对文本信息特征进行提取：中文文本不像英文文本存在天然的自然空格符，因此采用词典法对执行了步骤1的文本信息进行分词，该词典的涵盖范围由人工专家进行相应的选择，因为充分利用人工专家给予的文本信息特征词典进行中文文本的分词，所以分词出来的中文文本具有较高的准确率，以及较高的检索率。
55.步骤3、对完成步骤2的文本进行特征降维：因为经过步骤2后，所产生的特征提取出来的相关特征维数非常的多，不可避免的存在着大量无关或冗余的特征；
56.所述步骤3中的的特征降维包括了特征提取与特征选择，其中无关的特征信息，可能是执行步骤1的时候，相关停用词并未被收录进停用词表中，导致了在该文本信息分类中，未能将该不具备分类信息的停用词给删减掉，由人工专家发现后，将该无关特征信息列入停用词表中进行对停用词表的丰富，使得系统能够获取人工专家赋予的相关文本特征，对其直接进行增加，简单直接的增加了系统的特征提取性能。
57.当进行特征降维时，发现某两个词，譬如“亦”“也”两个词义类似、相近的同时具有较为高的特征频率，则需要进行相关的同一概念的合并，由人工专家对特征信息中冗余的特征信息进行合并，减少后续系统的处理计算量，随着多次的人工专家的持续反馈，可以将人工给予的文本信息进行相关的学习，使得可以在较短的时间内对该领域的文本信息分类达到可用的程度。
58.步骤4、当完成了上述文本信息的特征降维后，便可以开始相关的，将经过特征降维的数据采用数学模型进行表示，并且进行相关特征权重的计算。
59.将经过降维后的文本信息特征数据，采用vsm即向量空间模型进行表示，将所获取的文本信息特征集的特征向量集合设为t＝{t1,t2,t3,
…
tn},其中n是文本中特征的总数，亦可以认为是该特征空间的维数。在对特征向量用vsm向量空间模型进行表示后，每一篇文本信息都可以表达成数学模式的一个向量形式v(d)，v(d)＝{w1,w2,w3,
…
wn},向量中第i个分量wi即为特征项ti的权重，表示特征项ti。
60.所将该实施例将文本信息，与一篇已经完成文本分类的古代文学赏析文本进行内积运算，两个向量进行内积之和的几何意义可以表征两个向量夹角的cosθ值，该值越大，则说明两个向量越相似，匹配程度越高，反之则匹配程度愈加的低。且两向量内积之和的计算过程，会遍历向量中的每一个特征项，该文本信息中的每一个特征项都会参与匹配度的计算，使得匹配计算结果具备广泛性与说服力。
61.在该实施例中，待分类的文本信息与已经完成文本分类的古代文学赏析文本两者相关数量积之和为0.172。匹配度较低，系统认定，该待分类文本不属于古代文学赏析类别，随之与一篇已经完成文本分类的古代历史评说类文章进行相关内积运算，计算得出两者数量积之和为0.715。两者匹配度的数值较高，系统认定该待分类文章属于古代历史类的类型。该系统初步完成了对待分类文本的文本信息分类。
62.随后进行步骤5，将计算结果进行相关的评价和反馈，由人工专家进行相关的专业评判，对该篇待分类文本进行相关的专家评判，因为该待分类文言文中带有大量重复的古代帝王名讳，系统将其判断为是该帝王的历史逸闻，归类到历史类。经过专家评判，该文章是评说该帝王在位时的相关法律制度，其中引用的大量文言文为古代成文法的部分摘选截取。应当分类到古代律法类。人工专家进行重新纠错分类后，将相关法律制度的特征项权重进行重新的提取，反馈给文本信息分类系统。
63.当人工专家进行多次系统分类文章的评价后，就可以得出该阶段系统的分类准确率与错误率，可以直观的展现刚开始运行系统的相关分类性能，随后由人工专家进行相应的反馈，对相关领域的特征项，进行进一步的分类，赋予相关特征权重进行重新分配，使得系统可以快速的习得人工给予的相关文本信息特征，可以快速完成在细分复杂领域的特征项积累，进行实现更加快速的迁移学习，进行更加精确的文本信息分类工作。
64.结果分析：经过对一篇含有大量文言文的中文文本进行分类，从结果分析可以看
出，该系统可以较为轻松的分辨出文本信息之间分类差异巨大的情况，在初步分类中，很快的将该待分类文章，将该待分类文本与古代文学赏析文本进行区分。相对于现有文本分类技术，可以在较少的参考模型中，实现初级的分类能力。但当类别相近，差异较小，特征项未输入学习过的分类，该系统无法进行较为细致的分辨，随后人工专家进行相关的文本特征项进行补充，随后反馈到该系统的分类库中，使得在较少的模型中，实现对复杂任务的良好处理能力。
65.综上所述，本发明技术方案，通过对文本信息进行初步预处理；以及对所获取的文本信息特征进行特征降维；极大的减少了大量无关、冗余的特征，精简了文本信息中的特征维数，节约了后续的计算资源，使得本发明的方法更加绿色节能环保；并且在进行文本信息分类时，遍历了所有特征项，使得所有的特征项都参与到了文本信息分类中，该发明方法使得相关的文本信息分类的精度高，具有普遍性与代表性，并且在本系统的持续运行中，有人工专家进行持续的正反馈，使得该系统运行的越久，相关特征降维越精准，具备更加良好的领域适应性，可以更快进行相关文本信息分类领域的扩展。
66.以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于语义增强的端到端车牌检测方法与流程

一种文本信息分类方法和系统与流程

相关文献

最热文献