一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种结合文本主题分析、情感分析和GSVM的智慧环保宣教方法

2022-06-05 12:14:52 来源:中国专利 TAG:

一种结合文本主题分析、情感分析和gsvm的智慧环保宣教方法
技术领域
1.本发明涉及互联网技术领域,尤其涉及一种结合文本主题分析、 情感分析和gsvm的智慧环保宣教方法。


背景技术:

2.但在互联网时代,信息的传递上互联网有着不容忽视的优势,所 以环保宣传教育的方式必须要与合适的社交媒体相连接,而在我国, 使用范围最广的是微信平台,以微信公众号“上海绿色账号”2015 至2019年的环保推文为例,现有的宣传方法多是随机且不确定的, 宣教者通常采用“任务式”的推文宣传模式,没有考虑到包括文本主 题、标题情感等内部因素,难以引起公众的兴趣;除此之外,宣传者 在发布推文的时候并没有充分考虑到各种外部因素(如发布时间、发 布星期等),以上两点导致很多重要的宣传推文并没有获得足够的关 注度,宣传效果较差。
3.

技术实现要素:

4.本发明的目的是为了解决现有技术中存在的缺点,而提出的一种 结合文本主题分析、情感分析和gsvm的智慧环保宣教方法。其优点 在于为宣传者提供更具有针对性的决策指导,以提供高效、准确、实 用的推文,避免资源浪费。
5.为了实现上述目的,本发明采用了如下技术方案:
6.一种结合文本主题分析、情感分析和gsvm的智慧环保宣教方法, 包括以下步骤:
7.s1:针对给定的宣传推文数据,对原始数据进行划分,以阅读量 的50%分位数为阈值,将高于界线的样本划分为正样本1,代表阅读 量高,将低于界线的样本划分为负样本0,代表阅读量低。经过样本 筛选后,我们得到二分类的标签样本。将该样本集合及对应的诸多特 征变量作为主要的数据输入及依据进入下一环节;
8.s2:基于前一步骤获得的样本集合,从中综合整理得出的变量可 分为两大因素,分别为内部因素,包括标题主题、标题情感、标题符 号和外部因素,包括发布星期、发布时间、是否为头条;
9.s3:采用gsvm对数据进行预测分类,当面对不能够完全线性可 分的样本,通过增加软间隔的ε-svm法来处理数据噪声和异常值, 利用ε-svm处理非线性问题时,将不可分样本维映射到更高维度特 征空间,实现线性可分,再将其转为拉格朗日对偶问题,最后引入核 函数来解决维数灾难,在参数优化上,利用自适应粒子群优化算法优 化,根据粒子适应度不断迭代对svm的参数如c等进行自动调优,迭 代完成后的得到最适合支持向量机的模型参数,从而达到更好的预测 效果,最终,我们在示例中取得了91%的预测准确率,证明该模型能 够高效预测出阅读量较高的推文。
10.本发明进一步设置为,所述标题主题采用lda文本主题分析算法 将示例数据中的
推文标题划分为10个主题,并得到每个样本的标题 中这些主题各自占据的比例。通过相关性分析和实证检验,发现标题 主题成分不同的推文对公众有不同的吸引力。
11.本发明进一步设置为,所述标题情感采用字典式的情感分析算法 对样本数据中的标题进行情感分析。通过相关性分析和实证检验,发 现标题情感取向不同的推文,对公众的吸引力有显著区别。
12.本发明进一步设置为,所述标题符号考虑到“标题党”常常在人 气爆炸性推文的标题中采用“?”“!”等语气强烈的标点符号,将 其作为变量特征进行提取分析,发现其与推文阅读量具有显著相关性。
13.本发明进一步设置为,所述发布星期对示例样本数据进行分析发 现,在星期2、3、4发布的推文具有较高的阅读量,而在星期5、6、 7、1发布的推文,相比之下具有更低的阅读量。这一发现与事实相 符——人们更喜欢在工作日闲暇的碎片时间查看微信推文信息,而在 周末则会利用大部分时间进行线下娱乐活动。
14.本发明进一步设置为,所述发布时间通过将发布时间划分为24 小时后进行数据挖掘,发现在12:00-13:00和20:00-24:00这两个时 间段是推文阅读的高峰期。此发现也与实际生活相符,午休和下班之 后的时间是人们休闲放松、接受碎片化推文信息的高峰期。
15.本发明进一步设置为,所述是否为头条观察得到示例中微信公众 号“上海绿色账号”每次发布推文5-7条,同一批次发送的推文只有 一篇能够占据头条。通过分析发现,是否为版面头条与阅读量具有显 著的强相关性。
16.本发明进一步设置为,所述ε-svm法通过计算公式实施,所述 计算公式为f(x)=《w,x》 b,w∈rn;l
ε
(y-f(x))=max{0,|y-f(x)|-ε}.; 17.本发明的有益效果为:
18.1、该结合文本主题分析、情感分析和gsvm的智慧环保宣教方法, gsvm能够对数据进行预测分类,自适应的参数优化突破现有研究的 预测准确率,预测准确率接近90%,为宣传者提供更具有针对性的决 策指导,以提供高效、准确、实用的推文,避免资源浪费。
19.2、该结合文本主题分析、情感分析和gsvm的智慧环保宣教方法, 本发明利用多维度变量选取,对不同的特征变量进行分析,可以在内 部和外部层面对推文宣传进行人为优化,综合考虑标题主题、发布时 间等特征,合理解决当前阶段社交媒体宣传中的随机性、不精准等问 题,从而实现更好的宣传效果。
20.3、该结合文本主题分析、情感分析和gsvm的智慧环保宣教方法, 信息的互联网传递化对诸多领域提出更高的宣教要求,本发明提出的 宣教效果预测方法能够在广泛领域得到应用,如政府宣教、商业宣传、 公益科普等,高效的推文能够稳定读者阅读兴趣,同时节约宣教过程 中不必要的人力物力浪费,缓和现阶段推文阅读率低下的问题,兼顾 经济效益与社会效益。
附图说明
21.图1为本发明提出的一种结合文本主题分析、情感分析和gsvm 的智慧环保宣教方法的工作流程结构示意图;
22.图2为本发明提出的一种结合文本主题分析、情感分析和gsvm 的智慧环保宣教方
法的ε-svm概念结构示意图。
具体实施方式
23.下面结合具体实施方式对本专利的技术方案作进一步详细地说 明。
24.参照图1-2,一种结合文本主题分析、情感分析和gsvm的智慧 环保宣教方法,包括以下步骤:
25.s1:针对给定的宣传推文数据,对原始数据进行划分,以阅读量 的50%分位数为阈值,将高于界线的样本划分为正样本1,代表阅读 量高,将低于界线的样本划分为负样本0,代表阅读量低。经过样本 筛选后,我们得到二分类的标签样本。将该样本集合及对应的诸多特 征变量作为主要的数据输入及依据进入下一环节;
26.s2:基于前一步骤获得的样本集合,从中综合整理得出的变量可 分为两大因素,分别为内部因素,包括标题主题、标题情感、标题符 号和外部因素,包括发布星期、发布时间、是否为头条;
27.s3:采用gsvm对数据进行预测分类,当面对不能够完全线性可 分的样本,通过增加软间隔的ε-svm法来处理数据噪声和异常值, 利用ε-svm处理非线性问题时,将不可分样本维映射到更高维度特 征空间,实现线性可分,再将其转为拉格朗日对偶问题,最后引入核 函数来解决维数灾难,在参数优化上,利用自适应粒子群优化算法优 化,根据粒子适应度不断迭代对svm的参数如c等进行自动调优,迭 代完成后的得到最适合支持向量机的模型参数,从而达到更好的预测 效果,最终,我们在示例中取得了91%的预测准确率,证明该模型能 够高效预测出阅读量较高的推文。
28.在本实施例中,标题主题采用lda文本主题分析算法将示例数据 中的推文标题划分为10个主题,并得到每个样本的标题中这些主题 各自占据的比例。通过相关性分析和实证检验,发现标题主题成分不 同的推文对公众有不同的吸引力。
29.在本实施例中,标题情感采用字典式的情感分析算法对样本数据 中的标题进行情感分析。通过相关性分析和实证检验,发现标题情感 取向不同的推文,对公众的吸引力有显著区别。
30.在本实施例中,标题符号考虑到“标题党”常常在人气爆炸性推 文的标题中采用“?”“!”等语气强烈的标点符号,将其作为变量 特征进行提取分析,发现其与推文阅读量具有显著相关性。
31.在本实施例中,发布星期对示例样本数据进行分析发现,在星期 2、3、4发布的推文具有较高的阅读量,而在星期5、6、7、1发布 的推文,相比之下具有更低的阅读量。这一发现与事实相符——人 们更喜欢在工作日闲暇的碎片时间查看微信推文信息,而在周末则会 利用大部分时间进行线下娱乐活动。
32.在本实施例中,发布时间通过将发布时间划分为24小时后进行 数据挖掘,发现在12:00-13:00和20:00-24:00这两个时间段是推文 阅读的高峰期。此发现也与实际生活相符,午休和下班之后的时间是 人们休闲放松、接受碎片化推文信息的高峰期。
33.在本实施例中,是否为头条观察得到示例中微信公众号“上海绿 色账号”每次发布推文5-7条,同一批次发送的推文只有一篇能够占 据头条。通过分析发现,是否为版面头条与阅读量具有显著的强相关 性。
34.在本实施例中,ε-svm法通过计算公式实施,计算公式为 f(x)=〈w,x》 b,w∈rn;l
ε
(y-f(x))=max{0,|y-f(x)|-ε}.; 35.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范 围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技 术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变, 都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献