一种对网络舆情进行动态分析的方法及可读存储介质与流程

2022-09-03 10:09:28 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，特别是涉及一种对网络舆情进行动态分析的方法及可读存储介质。

背景技术：

2.由于互联网具备实时性、开放性的特点，因此互联网已经成为了人们对当前社会的热点事件表达观点、诉求的平台。也即互联网日益成为言论产生、传播的重要媒介。越来越多的人，通过互联网表达意见或者自身诉求。从互联网这一自由开放的媒体中了解人民群众的意见感受，开展互联网言论信息的监控与分析，已经成为目前各大企业乃至各级政府部门面临的重要课题。但是现有的互联网网络言论分析方法并不能有效地对网络舆情进行有效分析，从而限制了对互联网言论的正向使用。

技术实现要素：

3.本发明提供了一种对网络舆情进行动态分析的方法及可读存储介质，以解决现有技术中不能很好地对互联网网络言论进行分析的问题。
4.第一方面，本发明提供了一种对网络舆情进行动态分析的方法，该方法包括：采集网络舆情数据，对所采集的网络舆情数据自动进行特征提取，将所提取的特征转换为词向量，并对连续出现的任意个数的词向量进行相似性度量；
5.基于词向量的相似性通过现场总线层xlnet模型和transform-xl模型来对所述网络舆情数据进行分类分级，并对分类分级后的预设数据进行标注标签，其中，所述预设数据是所有分类分级数据中的预设比例部分的数据；
6.通过标注标签的预设数据来对用户行为进行学习得到分类分级模型，并将除设有标注标签以外的所有预设数据作为测试集，来对所述分类分级模型进行测试，并通过更改xlnet中的softmax层中的阈值参数，以动态调整所述分类分级模型的鲁棒性和准确性，最终获得所需的对网络舆情的分类分级结果。
7.可选地，所述采集网络舆情数据，包括：从公开网络上采集网络舆情数据，并对所采集的网络舆情数据进行网页离线快照，以使采集到的数据具有可溯性和不可抵赖性，然后将采集的网络舆情数据以及对应的网页离线快照存储到数据库中。
8.可选地，所述从公开网络上采集网络舆情数据，并对所采集的网络舆情数据进行网页离线快照，以使采集到的数据具有可溯性和不可抵赖性，然后将采集的网络舆情数据以及对应的网页离线快照存储到数据库中，包括：
9.从微信公众号、国内外目标网站和/或新媒体平台上使用爬虫技术采集所述网络舆情数据，且所采集的数据字段包括：言论来源、发表言论的时间、网址和网页离线快照，并将采集到的所有数据均存储到数据库中，其中，所述数据库为分布式存储数据库。
10.可选地，对所采集的网络舆情数据自动进行特征提取，将所提取的特征转换为词向量，包括：
11.通过word2vec模型对所采集的网络舆情数据自动进行提取特征，并将所提取的特征转换为词向量。
12.可选地，所述对连续出现的任意个数的词向量进行相似性度量，包括：
13.通过n-gram对连续出现的任意个数的词向量进行相似性度量。
14.可选地，所述基于词向量的相似性通过现场总线层xlnet模型和transform-xl模型来对所述网络舆情数据进行分类分级，包括：基于词向量的相似性通过现场总线层xlnet模型，以及transform-xl模型中的片段循环机制和相对位置编码机制，来对所述网络舆情数据进行分类分级。
15.可选地，基于词向量的相似性通过现场总线层xlnet模型和transform-xl模型来对所述网络舆情数据进行分类分级，还包括：
16.将所述网络舆情数据的分级作为一个维度的分类，并基于词向量的相似性通过现场总线层xlnet模型和transform-xl模型来对所述网络舆情数据进行分类设置。
17.可选地，所述xlnet模型包含有三层：输入 embedding层、网络层以及language model softmax层。
18.第二方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现上述任一种所述的对网络舆情进行动态分析的方法。
19.本发明有益效果如下：
20.本发明的方法能够自动收集微信公众号、网页、新媒体等不同渠道的网络言论并进行分布式存储，保证了信息的可追溯性，并运用了n-gram和word2vec模型自动进行提取特征，实现了数据特征处理的自动化，节省了繁琐的人工提取特征工作，并避免了传统算法需要专业的技术背景这一需求，另外，本发明还实现了模型参数的动态更新，从而保证了模型的高可用性、鲁棒性与先进性。
21.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
22.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
23.图1是本发明第一实施例提供的一种对网络舆情进行动态分析的方法的流程示意图；
24.图2是本发明第一实施例提供的另一种对网络舆情进行动态分析的方法的流程示意图。
具体实施方式
25.以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。
26.本发明第一实施例提供了一种对网络舆情进行动态分析的方法，参见图1，该方法包括：
27.s101、采集网络舆情数据，对所采集的网络舆情数据自动进行特征提取，将所提取的特征转换为词向量，并对连续出现的任意个数的词向量进行相似性度量；
28.具体本发明实施例中采集网络舆情数据，包括：从公开网络上采集网络舆情数据，并对所采集的网络舆情数据进行网页离线快照，以使采集到的数据具有可溯性和不可抵赖性，然后将采集的网络舆情数据以及对应的网页离线快照存储到数据库中。
29.也即，本发明实施例是从微信公众号、国内外目标网站和/或新媒体平台上使用爬虫技术采集所述网络舆情数据，且所采集的数据字段包括：言论来源、发表言论的时间、网址和网页离线快照，并将采集到的所有数据均存储到数据库中，其中，所述数据库为分布式存储数据库。
30.另外，在具体实施时，本发明实施例是通过word2vec模型对所采集的网络舆情数据自动进行提取特征，并将所提取的特征转换为词向量，并通过n-gram对连续出现的任意个数的词向量进行相似性度量。
31.所以，本发明实施例是基于n-gram模型和word2vec模型自动提取网络言论的特征，具有普适性且省去了繁琐的人工提取特征步骤，并结合基于xlnet模型算法构建了一整套的自动化网络言论分类分级架构。
32.s102、基于词向量的相似性通过现场总线层xlnet模型和transform-xl模型来对所述网络舆情数据进行分类分级，并对分类分级后的预设数据进行标注标签，其中，所述预设数据是所有分类分级数据中的预设比例部分的数据；
33.本发明实施例中所述基于词向量的相似性通过现场总线层xlnet模型和transform-xl模型来对所述网络舆情数据进行分类分级，包括：基于词向量的相似性通过现场总线层xlnet模型，以及transform-xl模型中的片段循环机制和相对位置编码机制，来对所述网络舆情数据进行分类分级。
34.具体实施时，本发明实施例是将所述网络舆情数据的分级作为一个特殊维度的分类，并基于词向量的相似性通过现场总线层xlnet模型和transform-xl模型来对所述网络舆情数据进行分类设置。
35.例如，可以将政策类分类分为一级、二级社会言论；社会事件类分为一级、二级社会言论；在这套系统中本发明实施例是统一将不同的类型分级的言论都映射成一个单独类别的标签去处理，从而节省因为设置分级而引起的处理过程繁琐等问题。
36.换而言之，本发明在处理言论分类分级工作时，将分级看着特殊维度的分类，这种方案可以减少分类的数量。与当前的数据分类分级一般按照先分类再分级的顺序进行，将分级融入到分类之中对比，节省了人工处理步骤，有效的提升了工作效率。
37.s103、通过标注标签的预设数据来对用户行为进行学习得到分类分级模型，并将除设有标注标签以外的所有预设数据作为测试集，来对所述分类分级模型进行测试，并通过更改xlnet中的softmax层中的阈值参数，以动态调整所述分类分级模型的鲁棒性和准确性，最终获得所需的对网络舆情的分类分级结果。
38.也即，本发明提供了一种基于人工智能半监督算法模型架构，实现了仅需要小样本数据集就能够对网络言论分类分级，从而节省了标注大量数据级的工作，并能够使模型
保持动态更新，继而有效保证了模型的先进性和鲁棒性。
39.下面将结合图2通过一个具体的例子来对本发明所述的方法进行详细的解释和说明：
40.参见图2，本发明实施例提供了基于人工智能网络舆情动态分类分级方法，该方法包括以下的步骤：
41.数据采集步骤包括：自主的数据采集技术，针对目前数据采集系统主要通过在线搜索分析的特点，本系统能够对数据进行离线分布式存储分析，保证了后续数据进一步分析的可用性以及网络言论的可溯性以及不可抵赖性；
42.文本挖掘步骤包括：针对传统的按照关键词、正则表达式等规则方法进行文本分类分级的准确性已经不能满足实际的需求。人类的语言千变万化，微小的差异都可能导致语义完全相反。因此简单使用关键词等规则方法会导致分类分级的准确率很低，需要大量的人工确认。而相比来说，本发明实施例所提出的网络言论分析则主要依赖于n-gram模型以及自然语言处理(nlp)技术有机组合。当前的数据分类分级一般按照先分类再分级的顺序进行，本发明则完全不同，本发明是将分级融入到分类之中，这样在分类分级维度上会导致数据细化程度不够，对收集到的信息仍需进一步的人工处理，无法有效的提升工作效率。所以本发明实施例是将分级看做特殊维度的分类，通过这种处理方式来减少分类的数量。
43.深度学习的步骤具体包括：当前深度学习按照训练集是否包含标签分类，主要包括监督学习、无监督学习以及半监督学习。而用户出于高准确率等指标的需求，在训练模型时通常采用监督学习，监督学习主要依赖于大量的标签数据才能保证模型的性能和效果。在对数据进行分类分级标注标签过程中消耗了大量的人力物力，针对该问题，本发明实施例提出了深度学习模型，该深度学习模型主要采用了半监督学习，其仅需少量标签数据基于用户行为学习实现网络言论分类分级、智能推送。
44.从模块的角度来看，针对本发明的方法的各个步骤，本发明实施例可以设置四个模块，分别是数据预处理模块、特征提取模块、言论分类分级模块以及半监督算法模块。其中，数据预处理模块主要负责从微信公众号、国内外目标网站、新媒体等其他平台使用爬虫技术采集相关网络言论，而后将采集到的数据存储到数据库中，数据库采用分布式存储方式。采集到的数据字段包括：言论来源、发表言论的时间、网址、网页离线快照以及具体言论，从而保证了数据的可追溯性，避免了后续因网络或删帖等问题造成无法对相关言论溯源的后果。
45.良好的特征是保证神经网络模型表现效果的前提，本发明实施例中的特征提取模块主要是采用n-gram模型和word2vec模型对网络言论自动提取特征。word2vec模型的作用是将单词转化为一个向量，从而使得计算机能够识别人类语言。word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；并且，该工具得到的训练结果——词向量(word embedding)，可以很好地度量词与词之间的相似性，其算法背后是一个浅层的神经网络。n-gram模型是指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型，通过n个语词出现的概率来推断语句的结构。例如针对“我爱中国”这条语句使用1-gram算法来提取特征，特征包括[
‘
我’,
‘
爱’,
‘
中’,
‘
国’]，而采用3-gram提取特征，特征则包括[
‘
我爱中’，
‘
爱中国’]。通过使用n-gram和word2vec两种算法结合使用提取特征，保证了网络言论中语句的词句的空间特性和语义特性。
[0046]
本发明实施例中的言论分类分级模块主要采用xlnet模型，该模型是基于一种序列语言建模目标进行学习任务，消除了训练场景和真实应用场景不一致造成的误差，同时引入了transformer-xl模型，使得xlnet模型能够更好的学习长文本的语义，尤其适合网络言论分类分级场景。xlnet中的transform-xl的引入了相对位置编码与片段循环机制这两个最重要的技术点：
[0047]
片段循环机制，transformer-xl的提出主要是为了解决超长序列的依赖问题，对于普通的transformer由于有一个最长序列的超参数控制其长度，对于特别长的序列就会导致丢失一些信息，transformer-xl就能解决这个问题。如，对于一个长度为1000的序列，如果设置transformer的最大序列长度是100，那么这个1000长度的序列需要计算十次，并且每一次的计算都没法考虑到每一个段之间的关系，如果采用transformer-xl，首先取第一个段进行计算，然后把得到的结果的隐藏层的值进行缓存，第二个段计算的过程中，把缓存的值拼接起来再进行计算。该机制不但能保留长依赖关系还能加快训练，因为每一个前置片段都保留了下来，不需要再重新计算，在transformer-xl的论文中，经过试验其速度比transformer快了1800倍。
[0048]
相对位置编码，bert的position embedding采用的是绝对位置编码，但是绝对位置编码在transformer-xl中有一个致命的问题，因为没法区分到底是哪一个片段里的，这就导致了一些位置信息的损失，transformer-xl中的相对位置编码避免了这一问题。
[0049]
总的来说，xlnet模型从结构上来看主要包含三层：输入 embedding层、网络层以及language model softmax层。
[0050]
本发明实施例中的半监督算法模块是在数据预处理模块处所采用的数据集通常会有数据集体量过小、数据集与网络言论分类分级目标任务匹配度不高等问题，因此为了获得良好的足够的标签数据集，模型主要是通过xlnet进行分类分级后的良好标签数据加入到数据集中，起到扩充数据集的作用。通过设置xlnet中的softmax层中的阈值参数，可以动态调整模型的鲁棒性和准确性。例如：当面对大量的网络言论数据时，通常会将快速处理数据进行网络言论分类分级作为主要任务，因此此时可以调低阈值参数，从而保证模型能够处理数据得出具体言论的分类分级标签，但是与此同时不可避免的就是分类分级的准确性可能会有所舍弃。此后，将阈值过低的分类后数据作为分类分级中的“其他”数据，经过人工判断后重新加入训练集对xlnet模型参数进行更新，动态调整模型的网络参数。当面对少量的网络言论数据时，通常会将网络言论分类分级结果的质量作为主要目标。此时可以适当的调高阈值，从而筛选出更多的“其他”数据，而后继续依照上述流程调整模型的网络参数。
[0051]
总体来说，本发明的方法能够自动收集微信公众号、网页、新媒体等不同渠道的网络言论并进行分布式存储，保证了信息的可追溯性，并运用了n-gram和word2vec模型自动进行提取特征，实现了数据特征处理的自动化，节省了繁琐的人工提取特征工作，并避免了传统算法需要专业的技术背景这一需求，另外，本发明还实现了模型参数的动态更新，从而保证了模型的高可用性、鲁棒性与先进性。
[0052]
本发明第二实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现本发明第一实施例中任一种所述的对网络舆情进行动态分析的方法。
[0053]
本发明实施例的相关内容可参见本发明第一实施例进行理解，在此不做详细论述。
[0054]
尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种对网络舆情进行动态分析的方法及可读存储介质与流程

相关文献

最热文献