政策分类方法、装置、设备及存储介质与流程

2022-03-19 21:06:45 来源：中国专利 TAG：

1.本技术涉及政策文本分类技术领域，特别是涉及一种政策分类方法、装置、设备及存储介质。

背景技术：

2.文本分类识别是人工智能的重要领域，对于人类来说这是一种天生的能力。人可以从一篇住房政策长文中了解到相关信息，并对住房政策作出分类，对房价利好或是利空或是无影响作出判断；传统的住房政策分类需要面对复杂、冗长的政策内容，需靠经验丰富的专业人员对住房政策进行分析，根据特定内容，特定词汇对政策进行分类，工作需要耗费专业人员的大量时间，造成高投入，低产出的问题；同时因为无法及时知道新住房政策对市场的影响，从而造成了严重的滞后，使企业无法占到先机，同时让客户满意度大大降低。

技术实现要素：

3.本技术提供一种政策分类方法、装置、设备及存储介质，以解决现有的政策需要相关人员耗费大量时间进行阅读了解的问题。
4.为解决上述技术问题，本技术采用的一个技术方案是：提供一种政策分类方法，包括：获取待分类政策的文本内容，并对文本内容进行分词，得到多个关键词；根据tf-idf算法计算每个关键词的tf-idf值，并根据每个关键词的tf-idf值构建文本内容的特征向量；将特征向量输入至预先训练好的政策分类模型中，输出得到待分类政策所属的类型，政策的类型预先设置，政策分类模型利用类别预先分好的政策的文本内容训练得到。
5.作为本技术的进一步改进，获取待分类政策的文本内容，并对文本内容进行分词，得到多个关键词，包括：获取待分类政策的文本内容，以及预先配置好的停用词库；对文本内容进行分词处理，并利用停用词库过滤掉文本内容中的停用词，得到分词后的多个关键词。
6.作为本技术的进一步改进，根据tf-idf算法计算每个关键词的tf-idf值，并根据每个关键词的tf-idf值构建文本内容的特征向量，包括：获取属性信息和预设语料库，属性信息包括关键词在文本内容中的出现次数，关键词的总数目；根据属性信息和预设语料库计算每个关键词的词频和逆文档频率；根据词频和逆文档频率计算得到每个关键词的tf-idf值。
7.作为本技术的进一步改进，词频的计算公式为：tf＝关键词在文本内容中的出现次数/关键词的总数目；逆文档频率的计算公式为：idf＝log(预设语料库中文本总数/(预设语料库中包含关键词的文本数目 1))；tf-idf值的计算公式为：tf-idf＝tf*idf。
8.作为本技术的进一步改进，当所述政策为住房政策时，政策的类型包括预先设置的宽松型、松动型、中性型、收紧型和严控型。
9.作为本技术的进一步改进，方法还包括预先训练政策分类模型，训练步骤包括：获取预先准备好的政策的训练文本集和测试文本集；根据预先配置好的停用词库对训练文本
进行分词和过滤停用词处理，得到样本关键词；将样本关键词输入至tf-idf训练器中进行计算得到每个样本关键词的样本tf-idf值，并构建样本关键词的样本特征向量；将样本特征向量输入至待训练的政策分类模型中，得到样本分类结果；根据样本分类结果和训练文本的真实分类结果反向传播更新政策分类模型；利用测试文本集对更新后的政策分类模型进行测试，且当政策分类模型的预测准确率未达到预设阈值时，利用训练文本集继续对政策分类模型进行训练，直至政策分类模型的预测准确率达到预设阈值时为止。
10.作为本技术的进一步改进，训练文本集基于过采样的方式采样得到。
11.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种政策分类装置，包括：分词模块，用于获取待分类政策的文本内容，并对文本内容进行分词，得到多个关键词；构建模块，用于根据tf-idf算法计算每个关键词的tf-idf值，并根据每个关键词的tf-idf值构建文本内容的特征向量；分类模块，用于将特征向量输入至预先训练好的政策分类模型中，输出得到待分类政策所属的类型，政策的类型预先设置，政策分类模型利用类别预先分好的政策的文本内容训练得到。
12.为解决上述技术问题，本技术采用的再一个技术方案是：提供一种计算机设备，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如上述中任一项所述的政策分类方法的步骤。
13.为解决上述技术问题，本技术采用的再一个技术方案是：提供一种存储介质，存储有能够实现上述政策分类方法的程序指令。
14.本技术的有益效果是：本技术的住房政策分类方法通过定期获取住房政策的文本内容后，对文本内容进行分词处理，从而获取到其中的关键词，再利用tf-idf算法计算关键词的tf-idf值，并以此来构建文本内容的特征向量，最后将特征向量输入值住房政策分类模型中进行预测，得到住房政策所属的类型，可以快速自动识别出新的住房政策对于当前房价是否利好，能提供专业人员快速了解政策的影响力度，从而对当前房价涨幅的一个预测；能够免除专业人员耗费大量的时间对住房政策进行阅读，并且筛选关键信息，才能对住房政策进行分类，对房产信息的及时反馈造成了滞后；因此该系统可以大大减少时间成本，并且能够快速预测到市场房价的涨幅情况，降低了滞后性，帮助企业快速感知到政策所造成市场影响，帮助企业改善服务质量，提高客户满意度。
附图说明
15.图1是本发明第一实施例的政策分类方法的流程示意图；
16.图2是本发明第二实施例的政策分类方法的流程示意图；
17.图3是本发明实施例的政策分类装置的功能模块示意图；
18.图4是本发明实施例的计算机设备的结构示意图；
19.图5是本发明实施例的存储介质的结构示意图。
具体实施方式
20.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术的一部分实施例，而不是全部的实施例。基于
idf值，并构建样本关键词的样本特征向量；
45.4、将样本特征向量输入至待训练的政策分类模型中，得到样本分类结果；
46.5、根据样本分类结果和训练文本的真实分类结果反向传播更新政策分类模型；
47.6、利用测试文本集对更新后的政策分类模型进行测试，且当政策分类模型的预测准确率未达到预设阈值时，利用训练文本集继续对政策分类模型进行训练，直至政策分类模型的预测准确率达到预设阈值时为止。
48.需要说明的是，本实施例中通过样本特征向量对sgd算法模型进行训练，在训练过程中不断的更新模型的参数值，以对政策分类模型进行训练，并在训练完成之后，通过测试文本集对政策分类模型进行测试，直至政策分类模型的准确率不再提升或者是训练次数达到预设次数时为止。
49.进一步的，在一些实施例中，所述训练文本集基于过采样的方式采样得到，从而让不同类别的政策数量级平衡，保证对政策分类模型具备较好的预测效果。
50.本发明第一实施例的政策分类方法通过定期获取政策的文本内容后，对文本内容进行分词处理，从而获取到其中的关键词，再利用tf-idf算法计算关键词的tf-idf值，并以此来构建文本内容的特征向量，最后将特征向量输入值政策分类模型中进行预测，得到政策所属的类型，可以快速自动识别出新的政策对于当前房价是否利好，能提供专业人员快速了解政策的影响力度，从而对当前房价涨幅的一个预测；能够免除专业人员耗费大量的时间对政策进行阅读，并且筛选关键信息，才能对政策进行分类，对房产信息的及时反馈造成了滞后；因此该系统可以大大减少时间成本，并且能够快速预测到市场房价的涨幅情况，降低了滞后性，帮助企业快速感知到政策所造成市场影响，帮助企业改善服务质量，提高客户满意度。
51.图2是本发明第二实施例的政策分类方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该方法包括步骤：
52.步骤s201：获取待分类政策的文本内容，并对文本内容进行分词，得到多个关键词。
53.在本实施例中，图2中的步骤s201和图1中的步骤s101类似，为简约起见，在此不再赘述。
54.步骤s202：获取待分类政策的文本内容，以及预先配置好的停用词库。
55.进一步的，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为stop words(停用词)，对于一个给定的目的，任何一类的词语都可以被选作停用词，通常意义上，停用词大致分为两类。一类是人类语言中包含的功能词，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义，比如'the'、'is'、'at'、'which'、'on'等，但是对于搜索引擎来说，当所要搜索的短语包含功能词，特别是像'the who'、'the the'或'take the'等复合名词时，停用词的使用就会导致问题，另一类词包括词汇词，比如'want'等，这些词应用十分广泛，但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率，所以通常会把这些词从问题中移去，从而提高搜索性能。因此，本实施例中，停用词库主要针对于中文文本，例如可以是“啊”、“呢”、“的”、“是”等无实际意义的词，还包括标点符号和特殊符号，如“、”、“，”、“％”等，进一步的，在一些实施
例中，停用词还可根据用户的实际需求自定义停用词，例如可以是“百事可乐”、“京东”、“淘宝”等。
56.步骤s203：对文本内容进行分词处理，并利用停用词库过滤掉文本内容中的停用词，得到分词后的多个关键词。
57.具体地，在对文本内容进行分词后，将其中的停用词过滤掉，只需要保留文本内容中的关键词，再利用关键词来预测政策所属的类型，通过过滤掉停用词可以大大降低这些停用词对后续模型预测结果的影响，提高了模型预测结果的准确性。通常地，在过滤点停用词后，剩余的词即可作为关键词。
58.步骤s204：根据tf-idf算法计算每个关键词的tf-idf值，并根据每个关键词的tf-idf值构建文本内容的特征向量。
59.在本实施例中，图2中的步骤s204和图1中的步骤s102类似，为简约起见，在此不再赘述。
60.步骤s205：将特征向量输入至预先训练好的政策分类模型中，输出得到待分类政策所属的类型，政策的类型预先设置，政策分类模型利用类别预先分好的政策的文本内容训练得到。
61.在本实施例中，图2中的步骤s205和图1中的步骤s103类似，为简约起见，在此不再赘述。
62.本发明第二实施例的政策分类方法在第一实施例的基础上，通过预先配置好的停用词库，将待分类政策的文本内容中的停用词过滤掉，仅保留具有意义的关键词，从而减少需要进行处理的关键词的数量，提升关键词的处理效率。
63.图3是本发明实施例的政策分类装置的功能模块示意图。如图3所示，该政策分类装置30包括分词模块31、构建模块32和分类模块33。
64.分词模块31，用于获取待分类政策的文本内容，并对文本内容进行分词，得到多个关键词；
65.构建模块32，用于根据tf-idf算法计算每个关键词的tf-idf值，并根据每个关键词的tf-idf值构建文本内容的特征向量；
66.分类模块33，用于将特征向量输入至预先训练好的政策分类模型中，输出得到待分类政策所属的类型，政策的类型预先设置，政策分类模型利用类别预先分好的政策的文本内容训练得到。
67.可选地，分词模块31执行获取待分类政策的文本内容，并对文本内容进行分词，得到多个关键词的操作，包括：获取待分类政策的文本内容，以及预先配置好的停用词库；对文本内容进行分词处理，并利用停用词库过滤掉文本内容中的停用词，得到分词后的多个关键词。
68.可选地，构建模块32执行根据tf-idf算法计算每个关键词的tf-idf值，并根据每个关键词的tf-idf值构建文本内容的特征向量的操作，包括：获取属性信息和预设语料库，属性信息包括关键词在文本内容中的出现次数，关键词的总数目；根据属性信息和预设语料库计算每个关键词的词频和逆文档频率；根据词频和逆文档频率计算得到每个关键词的tf-idf值。
69.可选地，词频的计算公式为：tf＝关键词在文本内容中的出现次数/关键词的总数
目；逆文档频率的计算公式为：idf＝log(预设语料库中文本总数/(预设语料库中包含关键词的文本数目 1))；tf-idf值的计算公式为：tf-idf＝tf*idf。
70.可选地，政策的类型包括预先设置的宽松型、松动型、中性型、收紧型和严控型。
71.可选地，该政策分类装置30还包括训练模块，用于预先训练政策分类模型，训练模块训练政策分类模型的操作包括：获取预先准备好的政策的训练文本集和测试文本集；根据预先配置好的停用词库对训练文本进行分词和过滤停用词处理，得到样本关键词；将样本关键词输入至tf-idf训练器中进行计算得到每个样本关键词的样本tf-idf值，并构建样本关键词的样本特征向量；将样本特征向量输入至待训练的政策分类模型中，得到样本分类结果；根据样本分类结果和训练文本的真实分类结果反向传播更新政策分类模型；利用测试文本集对更新后的政策分类模型进行测试，且当政策分类模型的预测准确率未达到预设阈值时，利用训练文本集继续对政策分类模型进行训练，直至政策分类模型的预测准确率达到预设阈值时为止。
72.可选地，训练文本集基于过采样的方式采样得到。
73.关于上述实施例政策分类装置中各模块实现技术方案的其他细节，可参见上述实施例中的政策分类方法中的描述，此处不再赘述。
74.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
75.请参阅图4，图4为本发明实施例的计算机设备的结构示意图。如图4所示，该计算机设备40包括处理器41及和处理器41耦接的存储器42，存储器42中存储有程序指令，程序指令被处理器41执行时，使得处理器41执行上述任一实施例所述的政策分类方法的步骤。
76.其中，处理器41还可以称为cpu(central processing unit，中央处理单元)。处理器41可能是一种集成电路芯片，具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
77.参阅图5，图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令51，其中，该程序指令51可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等计算机设备设备。
78.在本技术所提供的几个实施例中，应该理解到，所揭露的计算机设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接
耦合或通信连接，可以是电性，机械或其它的形式。
79.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种计算机程序性能的测试方法、系统及相关装置与流程

政策分类方法、装置、设备及存储介质与流程

相关文献

最热文献