基于大数据文本挖掘的消费者政策感知分析方法及系统与流程

2022-04-02 10:41:37 来源：中国专利 TAG：

1.本发明涉及数据挖掘技术领域，尤其涉及基于大数据文本挖掘的消费者政策感知挖掘，具体为一种基于大数据文本挖掘的消费者政策感知分析方法及系统。

背景技术：

2.研究消费者对于政策的感知具有重大的现实意义。对消费者的政策感知进行研究，就是研究消费者对政策的关注内容、关注程度、对政策合理性、必要性的评价和情感态度等。
3.随着互联网技术的普及，越来越多的消费者在网上发表自己的评论，形成大量消费者生成内容(ugc)，这些在社交媒体平台上产生的大量文本数据很大程度上地反映了消费者内心的真实想法，对其进行分析可以把握消费者的关注热点及情感态度。同时，政府网站上不断增长的政策文本数据作为一种公开、可获取的信息资源，也蕴含着许多信息，对其进行深入挖掘分析是追溯政策意图、把握决策者态度的一个重要途径。在政策研究方面，传统的内容分析法主要依赖专家学者对政策文本内容进行研究，工作量大且覆盖面窄，效率低下。随着大数据技术的不断发展，定量分析的方法在政策文本挖掘分析研究中占据着一席之地。
4.关于消费者的政策感知研究，尽管相关研究人员在政策挖掘方面也提出了很多解决方案。但是现有政策挖掘研究对于“政府-消费者”这一层面的研究数量较少，较少涉及到消费者政策感知挖掘的解决方案，在完善性方面也有待提高。如申请号202011260570.6的中国专利于2021年2月19日公开的一种基于标签相似度的企业政策匹配方法，该方案通过构造企业标签和政策标签并计算两者相似度，以此完成企业和政策的匹配。该方案将政策供给侧和需求侧匹配，但该研究基于“政府-企业”层面展开，忽略了消费者舆论对政策制定与推行的优化作用，存在完善的空间。
5.现有的基于文本挖掘技术挖掘政策感知的解决方案中，较少研究人员对网络舆情数据进行利用，如申请号201710934706.9的中国专利于2017年10月9日公开的一种基于城市特定人群和关联政策的匹配推荐方法及系统，该方案通过对特定人群进行聚类，抽取各分类需求标签，针对特定人群采取的相关政策进行分析，将人群与政策进行匹配，并推荐政策给指定消费者。但该方案的信息来源主要来自各委办局信息系统数据以及针对特定人群的问卷调查数据，没有充分利用网络舆论信息，忽略了消费者舆论中所蕴含的感知价值。采用的问卷调查方式，存在回收率和有效率不能保证、人群覆盖不够广的问题，并且回答的结果真实性难以保证。
6.并且，现有解决方案采用的分词工具缺少结合专家知识语料库的政策语料库，完善识别消费者评论中和政策相关的词汇，政策文本分词的准确度有待提升。如申请号202110204049.9的中国专利于2021年5月14日公开的一种面向政府决策的政务大数据分析方法及设备。该方案根据与政务数据相关的层级划分指标和分类汇总指标，构建多维数据挖掘模型，并对政务数据进行多维挖掘分析，但由于政策文本具有与普通文本不同的语言
风格和特征，政策文本的表达具有严格的规范性，具有特定的公文专用语，而消费者评论中和政策相关的词汇相对丰富，现有解决方案没有针对此构建政策语料库，分词结果准确度有待提升。
7.可见，现有政策感知研究方法存在以下问题：
8.消费者感知数据多来源于问卷调查，问卷的回收率和有效率不能保证，人群的覆盖面不够广，并且回答的结果真实性难以保证；
9.现有的基于文本挖掘的研究往往忽略了消费者评论中所蕴含的感知价值；
10.现有分词工具缺少基于专家知识语料库对消费者评论识别的政策语料库，政策文本分词的准确度有待提升，且一般采用手动标注的方法，因此构建政策语料库需耗费大量人力。

技术实现要素：

11.针对现有技术存在的问题，本发明提供一种基于大数据文本挖掘的消费者政策感知分析方法及系统，用于获取更准确的文本挖掘分析结果及不同消费者人群的政策感知差异。
12.根据本发明说明书的一方面，提供一种基于大数据文本挖掘的消费者政策感知分析方法，包括：
13.获取政策文本数据及消费者评论文本数据并进行预处理；
14.基于预处理后的文本数据构建政策语料库；
15.基于政策语料库进行消费者政策感知分析。
16.上述技术方案充分利用网络信息，从消费者感知角度，对消费者评论文本进行挖掘，并且建立政策语料库，提升文本分词效果，结合深度学习、专家知识语料库等技术，更加系统、准确地挖掘分析消费者对政策的感知状态。
17.上述技术方案可对不同类别消费者群体对于政策感知的差异进行比较分析，从而为优化政策供给、提高政策精准性和效益性提供建议。
18.作为进一步的技术方案，获取政策文本数据及消费者评论数据的步骤进一步包括：
19.确定数据源；
20.利用网络爬虫工具采集政策文本数据和对应消费者评论文本数据；
21.对采集的数据源进行随机抽样，并与爬取到的数据进行匹配校验；
22.若爬取到的数据通过校验，则将对应数据作本地持久化存储。
23.具体地，数据源可为相关政府网站及社交网络平台。
24.在利用网络爬虫工具进行采集时，可自定义采集规则，以获取所需的政策文本数据及对应消费者评论文本数据。
25.作为进一步的技术方案，预处理进一步包括去重、去噪及文本短句删除。
26.去重，即删除文本数据中的重复数据，减少冗余信息的干扰。
27.去噪，将文本数据内的一些表情、网址等特殊字符删除，这些内容缺乏实际的意义和研究价值，同时会影响后续的分词及其他文本挖掘分析结果，因此需进行去噪操作，让文本特征更集中于词汇和语义本身。
28.文本短句删除，是指删除文本数据中字数过少的数据。从分析角度来说，较少的字数说明该评论信息则包含的信息价值则越少，则很有可能是消费者随机生成的内容或者平台默认评价，不具有反馈意义和研究价值。
29.作为进一步的技术方案，基于预处理后的文本数据构建政策文本语料库进一步包括：
30.对预处理后的政策文本和消费者评论文本数据进行词语拆分，并统计所有产生的词语的词频；
31.基于词频统计结果进行点间互信息筛选；
32.基于点间互信息筛选结果进行左右信息熵筛选；
33.基于左右信息熵筛选结果进行停用词及常见通用词汇的去除，得到政策专业词汇；
34.由专家知识语料库对得到的政策专业词汇进行筛选，并完善识别消费者评论中与政策感知相关的词汇，对筛选和完善后的词汇按照政策分类分为四类，形成最终的政策文本语料库。
35.上述技术方案首先基于点间互信息和左右信息熵筛选，再去除停用词以及常见通用词汇，挖掘政策文本中的专业词汇和消费者评论文本中的政策相关词汇，构建政策语料库；然后在机器识别的基础上结合专家知识语料库对政策语料库进行内容筛选及补充，得到最终的政策语料库。
36.点间互信息(pmi)筛选具体为：根据词频的结果，计算每个词片段的凝固度(对于二元词串ab，其凝固度即为pmi(a,b)；对于三元词串abc，其凝固度为min[pmi(a,bc),pmi(ab,c)]以此类推。)，不同长度的词片段设置不同的阈值，根据阈值筛选，得到一个包含凝固度较高的片段的集合g。
[0037]
左右信息熵筛选具体为：统计集合g中各个片段在文本中所有可能的左右邻字，计算每个片段的左右信息熵，词片段根据左右信息熵进行排序，得到集合f。
[0038]
将集合f中的词去除停用词以及一些常见通用词，得到政策专业词汇。
[0039]
将通过机器识别得到的专业词汇由专家知识语料库进行筛选补充，剔除无意义词汇，完善识别消费者评论中与政策感知相关词汇，并对词汇按照政策分类分为供给推动、需求拉动、环境规制以及环境支持四种类型，形成最终政策语料库。
[0040]
作为进一步的技术方案，执行消费者政策感知挖掘分析进一步包括：
[0041]
将消费者分为不同类别；
[0042]
在不同类别消费者中挖掘评论数据，包括词频强度分析、话题识别、语义网络分析、情感倾向分析；
[0043]
比较不同类别消费者的挖掘分析结果，得到不同群体对于不同类别政策感知的差异。
[0044]
上述技术方案基于政策语料库对消费者评论进行文本挖掘，根据消费者画像、所在地区将消费者分为不同类别，在不同类别消费者中挖掘评论数据，比较词频强度、话题识别、语义网络分析、情感倾向分析结果，得到不同消费者群体对于不同类别政策感知的差异。
[0045]
作为进一步的技术方案，词频强度分析进一步包括：将构建的政策语料库以及相
关领域细胞词库导入自定义词典，利用jieba进行消费者评论文本的分词，并统计词频强度；将词频结果按照政策分类划分，并根据词频强度生成对应词云图。
[0046]
作为进一步的技术方案，话题识别进一步包括：
[0047]
将分词后的消费者评论文本按照每篇文档一个列表的格式存储；
[0048]
将文本转化成词袋模型对应的稀疏向量的表达，构建词频矩阵；
[0049]
计算不同主题数模型的困惑度，确定最优的模型主题数；
[0050]
将通过困惑度法评估得到的最优主题数作为参数，训练lda模型，分析得到消费者评论中关注的主题。
[0051]
作为进一步的技术方案，语义网络分析进一步包括：
[0052]
根据政策语料库，在消费者评论文本中筛选出谈及到政策相关的评论文本；
[0053]
统计评论文本中高频词两两之间共同出现的次数，得出这些词之间的紧密程度；
[0054]
统计共现词对出现的频率，根据结果构建高频词共现矩阵；
[0055]
根据高频词共现矩阵，利用netdraw绘制语义网络图，得到语义网络图中各节点之间的层级、紧密关系，以此了解消费者对于政策的感知情况。
[0056]
作为进一步的技术方案，情感倾向分析进一步包括：
[0057]
基于政策语料库抽取消费者评论中与政策相关的片段文档，对每条评论文档进行分词，找出文档中的情感词、否定词及程度副词；
[0058]
判断每个情感词之前是否有否定词或程度副词，若有否定词或程度副词，则将情感词与之前的否定词或程度副词划分为一个组，并将情感词的情感得分乘以该组对应的权重系数；否定词的权重系数设置为-1，程度副词根据语义设置不同的权重系数；
[0059]
判断评论文档中的每一句话是否是感叹句或反问句，若是则增加情感得分值；
[0060]
将该条评论中所有情感得分加起来，即为最终该条评论文档的情感分析得分。
[0061]
根据本发明说明书的另一方面，提供一种基于大数据文本挖掘的消费者政策感知分析系统，包括：数据采集模块，用于获取政策文本数据及消费者评论文本数据；数据预处理模块，用于对获取的文本数据进行预处理；语料库构建模块，用于基于预处理后的文本数据构建政策语料库；政策感知挖掘模块，用于基于政策语料库进行消费者的政策感知分析。
[0062]
与现有技术相比，本发明的有益效果包括：
[0063]
(1)本发明基于机器识别专业词汇与专家知识语料库人工语义筛选的方法构建政策语料库，构建的政策语料库可作为分词词典，改善文本分词效果，之后基于文本挖掘对消费者评论比较词频强度、话题识别、语义网络、情感分析结果，并在现有研究的基础上加入消费者画像、地域等维度，关注不同类别消费者群体对于政策感知的差异，从而为优化政策供给，提高政策精准性和效益性质提供建议。
[0064]
(2)本发明采用自然语言处理技术，使用机器识别政策领域专业词汇，构建政策语料库，提高信息筛选效率，节省大量人力。
[0065]
(3)本发明构建的政策语料库作为分词词典，改善了文本分词效果，使之后的文本挖掘分析结果更加准确。
[0066]
(4)本发明基于大数据文本挖掘，采用多源数据进行挖掘分析，充分利用网络信息，且通过不同分类的消费者评论分析比较特定消费者群体的政策感知差异。
附图说明
[0067]
图1为本发明第一实施例的基于大数据文本挖掘的消费者政策感知分析方法的流程示意图；
[0068]
图2为本发明第一实施例中步骤s1数据采集的流程示意图；
[0069]
图3为本发明第一实施例中步骤s3步骤构建政策语料库的流程示意图；
[0070]
图4为本发明第一实施例中步骤s4步骤消费者政策感知挖掘分析的流程示意图；
[0071]
图5为本发明第一实施例中步骤s4中子步骤s43话题识别的流程示意图；
[0072]
图6为本发明第一实施例中步骤s4中子步骤s44语义网络分析的流程示意图；
[0073]
图7为本发明第一实施例中步骤s4中子步骤s45情感倾向分析的流程示意图。
具体实施方式
[0074]
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述发实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。
[0075]
如图1所示，本实施例提供了一种基于消费者评论文本挖掘的新能源汽车政策感知分析方法，以分析新能源汽车政策为例，包括以下步骤：
[0076]
s1，在相关政府网站和社交平台采集特定领域政策文本数据及消费者评论数据。
[0077]
s2，对收集的政策文本和消费者评论文本数据进行预处理。
[0078]
s3，基于机器识别和专家知识语料库结合构建政策语料库。
[0079]
s4，新能源汽车消费者政策感知挖掘分析。
[0080]
具体地，步骤s1如图2所示，具体包含：
[0081]
s11，确定数据源，本实施例数据源为中国工业信息网、工信部等相关政府官方、法律法规数据库及爱卡汽车网、汽车之家等新能源汽车垂直门户网站。
[0082]
s12，利用python编写网络爬虫程序或者使用后羿采集器、八爪鱼等采集工具，自定义采集规则，采集政策文本数据和对应消费者评论文本数据。
[0083]
s13，对采集来源进行随机抽样，并与爬取到的数据进行匹配校验，剔除因爬取过程出错而造成的不完整数据或错误数据。
[0084]
s14，在确保爬取数据通过校验的情况下，将采集到的数据作本地持久化存储。
[0085]
在本实施例中，步骤s1数据采集完成后还应进行步骤s2数据预处理。数据预处理主要目的是去除文本内无用的信息，具体而言，主要分为三个方面的操作，即去重、去噪、文本短句删除。
[0086]
s21，去重，即删除文本数据中的重复数据，减少冗余信息的干扰。
[0087]
s22，去噪，将文本数据内的一些表情、网址等特殊字符删除，这些内容缺乏实际的意义和研究价值，同时会影响后续的分词及其他文本挖掘分析结果，因此需进行去噪操作，让文本特征更集中于词汇和语义本身。
[0088]
s23，文本短句删除，是指删除文本数据中字数过于少的数据。从分析角度来说，较少的字数说明该评论信息则包含的信息价值则越少，则很有可能是消费者随机生成的内容或者平台默认评价，不具有反馈意义和研究价值。
[0089]
本实施例中构建政策语料库步骤s3流程如图3所示，首先基于点间互信息和左右信息熵筛选，再去除停用词以及常见通用词汇，挖掘政策文本和消费者评论文本中的政策相关词汇，构建政策语料库。在机器识别的基础上结合专家知识语料库对政策语料库进行内容筛选及补充，得到最终的政策语料库。具体如下：
[0090]
s31，利用n-gram将传入的文本进行词语拆分，并统计所有产生的词语的词频。
[0091]
s32，点间互信息(pmi)筛选。点间互信息(pointwise mutual information,pmi)可以用来衡量两个变量之间的相关性，在此处可以用来反映相邻字或词之间的紧密程度。其计算公式如下：
[0092][0093]
其中：x、y为相邻的字符串；xy为x和y组合而成的词；p(x)、p(y)、p(xy)分别为x、y、xy在语料全文中出现的概率。pmi越大，说明相邻字串的共现频率的紧密程度越高，即x、y二者越可能构成一个固定词汇。
[0094]
根据词频计算每个词片段的凝固度(对于二元词串ab，其凝固度即为pmi(a,b)；对于三元词串abc，其凝固度为min[pmi(a,bc),pmi(ab,c)]以此类推。)不同长度的词片段设置不同的阈值，根据阈值筛选。此时得到一个包含凝固度较高的片段的集合g。
[0095]
s33，左右信息熵筛选。左右信息熵用来判断词串是否有丰富的左右搭配。计算公式分别如下：
[0096][0097][0098]
其中，h
l
(x)与hr(x)为词串x的左右信息熵；s
l
与sr为词串x的左邻字集合和右邻字集合；p(w
l
x|x)为词串x出现时其左邻字为w
l
的条件概率；p(wrx|x)为词串x出现时其右邻字为wr的条件概率。
[0099]
词串的左、右信息熵越高，其左右相邻字越不确定，说明该词串越有可能是一个独立的词汇。在点间互信息筛选得到词串后，通过边界信息熵的计算，来判断这一词串是否是一个独立的词汇。
[0100]
在此步骤中，需统计集合g中各个片段在文本中所有可能的左右邻字，计算每个片段的左右信息熵，词片段根据左右信息熵进行排序，得到集合f。
[0101]
s34，将集合f中的词去除停用词以及一些常见通用词，得到政策专业词汇。
[0102]
s35，将通过机器识别得到的专业词汇由专家知识语料库进行筛选补充，剔除无意义词汇，完善识别消费者评论中与政策感知相关词汇，并对词汇按照政策分类分为供给推动、需求拉动、环境规制以及环境支持四种类型，形成最终政策语料库。
[0103]
(4)消费者政策感知挖掘，流程如图4所示。基于政策语料库对消费者评论进行文本挖掘，根据消费者画像、所在地区将消费者分为不同类别，在不同类别消费者中挖掘评论数据，比较词频强度、话题识别结果、语义网络、情感分析结果，得到不同群体对于不同类别政策感知的差异。
[0104]
s41，消费者分类
[0105]
爱卡汽车网采集到的汽车口碑信息包含消费者昵称、车型、购车地点、购车目的、裸车价格、会员等级、关于汽车各维度的评论等，从中提取消费者信息，根据会员等级、消费能力(裸车价格)、车型、购车目的构建消费者画像，按照消费者画像和消费者所在地区分别给消费者进行分类。再把消费者评论数据根据消费者分类进行筛选归类，以便后续针对不同类别消费者感知差异进行进一步比较分析。
[0106]
s42，词频强度分析
[0107]
利用jieba实现对文本的分词，将构建的政策语料库以及相关领域细胞词库导入自定义词典进行分词，之后统计词频强度。将词频结果按照政策分类划分，可根据词频强度生成对应词云图，更直观地比较消费者的关注点差异。
[0108]
s43，话题识别
[0109]
利用lda(latent dirichlet allocation)模型来提取消费者评论主题，分析消费者评论中关注的主题。流程如图5所示，步骤包含：
[0110]
s431，将分词后的文本按照每篇文档一个列表的格式存储。
[0111]
s432，将文本转化成词袋模型对应的稀疏向量的表达，构建词频矩阵。
[0112]
s433，通过评估不同主题数模型的困惑度来确定最优的模型主题数。
[0113]
s434，将通过困惑度得到的最优主题数作为参数，训练lda模型，分析得到消费者评论中关注的主题。
[0114]
子步骤s431中文本存储需符合gensim库的要求。(gensim所需要的输入格式为：['新能源汽车','政策','补贴',
……
]，每篇文档是一个列表，元素为词语)。
[0115]
子步骤s433中所述通过困惑度法确定lda模型主题数的方法具体为：
[0116]
a,计算词语出现概率，公式如下：
[0117]
p(w)＝p(l|m)p(w|l)
[0118]
b,根据困惑度计算公式计算不同模型主题数下的困惑度：
[0119][0120]
其中，n表示文本中词的总数，p(w)表示词w出现的概率，p(l|m)表示主题词l在文本m中的主题概率，p(w|l)代表词w在主题l中的词概率。困惑度数值越低，不确定性就越小，则最后的聚类结果就越好。
[0121]
c,根据不同模型主题数下的困惑度绘制主题数-困惑度折线图，根据手肘法，拐点即为最佳模型主题数。
[0122]
s44，语义网络分析
[0123]
通过对消费者评论文本进行语义网络分析，从整体上了解消费者对于新能源汽车政策的感知情况，流程如图6所示，具体包含以下步骤：
[0124]
s441，根据政策语料库，在消费者评论文本中筛选出谈及到政策相关的评论文本。
[0125]
s442，统计文本中高频词两两之间共同出现的次数，得出这些词之间的紧密程度。
[0126]
s443，统计共现词对出现的频率，根据结果构建高频词共现矩阵。
[0127]
s444，根据高频词共现矩阵，利用netdraw绘制语义网络图，得到语义网络图中各节点之间的层级、紧密关系，以此了解消费者对于政策的感知情况。
[0128]
s45，情感倾向分析
[0129]
基于政策语料库，在消费者评论中抽取与政策相关的片段文档，并对其进行情感倾向分析。本发明基于情感词典进行文本情感倾向分析，流程如图7所示，具体包含以下步骤：
[0130]
s451，在做情感分析前需先基于政策语料库对文档分词，找出文档中的情感词、否定词以及程度副词。
[0131]
s452，程度词与否定词处理。判断每个情感词之前是否有否定词或程度副词，若有否定词或程度副词，则将情感词与之前的否定词或程度副词划分为一个组，并将情感词的情感得分乘以该组对应的权重系数。否定词的权重系数设置为-1；程度副词根据语义设置不同的权重系数。常见的程度副词如“非常”、“特别”、“有点”、“不太”等，分别赋予不同的权重系数。
[0132]
s453，特殊句式处理。判断是否是感叹句或是反问句，因为感叹句和反问句会加强语气，故需特别处理。此处只需判断句尾标点符号是否为感叹号或问号，若有则增加一定情感得分值。
[0133]
s454，将该条评论文档中所有情感得分加起来，即为最终该评论文档的情感分析得分。
[0134]
s455，将评论数据按照情感得分值分为两大组(积极、消极)。以数字0作为情感的界限值，即积极情绪为得分为0分以上，消极情绪为得分为0分以下。
[0135]
s46，结果比较
[0136]
最后，比较不同类别消费者的上述文本挖掘分析结果，即可得到不同消费者群体的政策感知差异。
[0137]
本发明是参照根据本发明实施例的方法、平台(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0138]
根据本发明另一方面，还提供一种基于大数据文本挖掘的消费者政策感知分析系统，包括：数据采集模块，用于获取政策文本数据及消费者文本数据；数据预处理模块，用于对获取的文本数据进行预处理；语料库构建模块，用于基于预处理后的文本数据构建政策语料库；政策感知挖掘模块，用于基于政策语料库进行消费者政策感知分析。
[0139]
上述系统所涉及的模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0140]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同
替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：车险定价变动用户识别方法、装置、设备及存储介质与流程

基于大数据文本挖掘的消费者政策感知分析方法及系统与流程

相关文献

最热文献