一种互联网舆情信息发生地的判断方法与流程

2022-04-24 21:48:26 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，特别涉及一种互联网舆情信息发生地的判断方法。

背景技术：

2.随着互联网在全球范围的飞速发展，网络媒体已经逐渐成为超越报纸、广播、电视的“第一媒体”，成为反应社会舆情信息的重要载体之一，网络的开放性和虚拟性决定了网络舆情具有直接性、突发性和信息多元性的特点。根据中国互联网络信息中心(cnnic)发布的第47期《中国互联网发展统计报告》显示，截至2020年12月20日，中国互联网用户数量达到9.89亿，随着中国网民数量的增加，由互联网引发产生的舆情数据事件逐渐增加，且部分舆情信息都具有一定的负面性，需要及时获取其准确信息，方便及时进行处理。
3.对于各区域管理层而言，准确有效的发现与当地相关的舆情事件信息，能够提高相关部门和人员对舆情事件的处理进度，及时对互联网不良信息进行管理疏导。
4.现有的互联网舆情信息发生地的自动判断方法较为简单和传统，其主要是根据地域行政名词来识别确定舆情发生的主体地区。但在当前复杂的互联网环境下，舆情数据信息来源具备多渠道性、信息标题模糊性和信息内容的多地域涉及性，因此只依靠地域行政名词判断舆情的发生地，其判别结果存在较大的误差，需要处理人员从大量的信息中再次人工筛选出相关的发生地信息，严重降低了工作效率。
5.针对现有技术存在的问题，本技术提供了种一种互联网舆情信息发生地的判断方法，利用多方位的地域属性体系设定进行多方面匹配，利用阈值设定提高筛选灵活性，精准的对互联网舆情数据进行发生地的自动判断。

技术实现要素：

6.本发明的目的在于提供一种互联网舆情信息发生地的判断方法，利用多方位的地域属性体系设定进行多方面匹配，利用阈值设定提高筛选灵活性，精准的对互联网舆情数据进行发生地的自动判断。
7.本发明提供了一种互联网舆情信息发生地的判断方法，包括以下步骤：
8.构建地域属性库，所述地域属性库内包括：地域行政信息，以及与地域行政信息对应的地域建筑信息、地域景点信息、地域文化信息、地域网站信息和地域企业信息；
9.获取舆情信息文本；
10.对舆情信息文本中的语句进行分词，得到分词组合；
11.对分词组合进行过滤，得到最优的分词结果；
12.将最优的分词结果中的词语分别与地域属性库内的信息进行匹配，输出匹配成功的词语；
13.根据匹配成功的词语，确定舆情信息类型为行政信息、建筑信息、景点信息、文化信息、网站信息或企业信息中的一种或多种；
14.设置舆情信息中行政信息、建筑信息、景点信息、文化信息、网站信息和企业信息的优先级权重；
15.统计舆情信息中优先级最高的信息出现的次数，将出现次数与对应的权重值相乘，将相乘结果相加，得到权重的乘积之和；
16.设定判定阈值，将权重的乘积之和与判定阈值进行比较，若权重的乘积之和大于或者等于判定阈值，则根据优先级最高的信息得出舆情信息发生地，若权重的乘积之和小于判定阈值，则根据次优先级的信息得出舆情信息发生地。
17.进一步地，所述对舆情信息文本中的语句进行分词，得到分词结果的步骤包括：
18.采用mmseg算法对需要分词的语句按照从左到右的顺序，对舆情信息文本中的语句进行分词；
19.识别出所有3个词的分词组合，输出识别出的所有3个词的分词组合。
20.进一步地，所述对分词结果进行过滤，得到最优的分词结果的步骤，包括：
21.利用mmseg算法的4条消除歧义规则依次对识别出的所有3个词的分词组合进行过滤；
22.只有一种分词组合或4条消除歧义规则过滤完成时停止过滤；
23.输出过滤完成后的最优的分词结果。
24.进一步地，所述将最优的分词结果中的词语分别与地域属性库内的信息进行匹配，输出匹配成功的词语的步骤，包括：
25.将最优的分词结果中的每个词分别与地域属性库中的地域行政信息、地域建筑信息、地域景点信息、地域文化信息、地域网站信息和地域企业信息进行匹配；
26.若最优的分词结果中的某个或多个词语与地域属性库中的信息匹配成功，则根据匹配成功的地域属性库中的信息类型，将匹配成功的最优的分词结果中的词语划分为舆情信息的对应信息类型，得到匹配成功的词语。
27.进一步地，还包括：
28.将最优的分词结果中的每个词分别与地域属性库中的地域行政信息、地域建筑信息、地域景点信息、地域文化信息、地域网站信息和地域企业信息进行匹配；
29.若分词结果中的某个或多个词语与地域属性库中的信息匹配不成功，则按舆情信息文本的语句顺序进行下一语句分词结果与地域属性库内的信息的匹配。
30.进一步地，所述统计舆情信息中优先级最高的信息出现的次数，将出现次数与对应的权重值相乘，将相乘结果相加，得到权重的乘积之和的步骤，包括：
31.根据地域行政信息、地域建筑信息、地域景点信息、地域文化信息、地域网站信息和地域企业信息的优先级权重设置匹配结果中优先级高的词语为舆情信息的主信息属性词；
32.设置主信息属性词的判定阈值；
33.统计舆情信息的分词结果中主信息属性词的出现次数，并确定对应主信息属性词的权重；
34.将主信息属性词的出现次数与对应的权重值相乘，并将相乘结果相加，得到主信息属性词的权重的乘积之和。
35.进一步地，还包括：
36.将主信息属性词的权重的乘积之和与主信息的判定阈值相比较，若主信息属性词的权重的乘积之和大于或者等于主信息的判定阈值，则根据主信息属性词确定舆情地域；
37.若主信息属性词的权重的乘积之和小于主信息的判定阈值，则根据优先级迭代进行辅信息阈值的比较判定，得出舆情地域的判断结果。
38.进一步地，所述根据优先级迭代进行辅信息阈值的比较判定，得出舆情地域的判断结果，包括：
39.设置匹配结果中优先级低于主信息属性词的若干个信息词语为舆情信息的辅信息属性词；
40.设置辅信息属性词的判定阈值；
41.统计舆情信息的分词结果中辅信息属性词的出现次数，并确定对应辅信息属性词的权重；
42.将辅信息属性词的出现次数与对应的权重值相乘，并将相乘结果与主信息属性词的权重的乘积之和相加，得到辅信息属性词的权重的乘积之和，将辅信息属性词的权重的乘积之和与辅信息的判定阈值相比较，若辅信息属性词的权重的乘积之和大于或者等于辅信息的判定阈值，则根据辅信息属性词确定舆情地域；
43.若辅信息属性词的权重的乘积之和小于辅信息的判定阈值，则不能根据辅信息属性词确定舆情地域，根据优先级迭代进行下一个辅信息阈值的比较判定，得出舆情地域的判断结果。
44.与现有技术相比，本发明具有如下显著优点：
45.(一)本发明提出的一种互联网舆情信息发生地的判断方法，建立标准化的数据体系，利用多方位的地域属性体系设定进行多方面匹配，利用阈值设定提高筛选灵活性，较以往实现了准确度、匹配度等优点，精准的对互联网舆情数据进行发生地的自动判断，降低工作量，提高时效性。
46.(二)本发明提出的一种互联网舆情信息发生地的判断方法，通过利用匹配算法将语句进行分词，并采用mmseg算法的4条消除歧义规则对分词组合进行过滤，得到最优的分词结果，将其与地域属性库内的信息进行匹配，匹配结果表征舆情的某种信息，通过设置判定阈值，判断能否根据舆情的某种信息得出舆情信息发生地的判断结果。
附图说明
47.图1为本发明实施例提供的舆情信息发生地判断框图；
48.图2为本发明实施例提供的陕西地域舆情数据自动判断框图；
49.图3为本发明实施例提供的新疆地域舆情数据自动判断框图。
具体实施方式
50.下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。
51.mmseg算法是一种基于字符串匹配(亦称基于词典)的中文分词算法，主要是每次
从一个需要分词的句子里，按照从左到右的顺序，识别多种不同的3个词组合。然后根据4条消岐规则：最大匹配、最大平均词汇长度、最小词长方差、最大单字自由度选取最优分词组合。其主要思想是每次从一个完整的句子里，按照从左向右的顺序，识别出多种不同的3个词的组合，然后根据4条消歧规则，确定最佳的备选词组合。选择备选词组合中的第1个词，作为1次迭代的分词结果；剩余的词(即这个句子中除了第一个已经分出的词的剩余部分)继续进行下一轮的分词运算。此算法相较于传统的前向最大匹配算法加入了上下文信息，解决了其每次选词只考虑词本身，而忽视上下文相关词的问题。
52.地域属性库的设定主要是根据当前地域特性，按照地域行政、地域建筑景点、地域文化、地域网站、地域民族等信息进行的地域属性库中与之对应的内容构造，并对设置构造的内容设定优先级和判定阈值，对舆情信息数据中的属性词语进行权重计算值赋予。
53.参照图1-3，本发明提供了一种互联网舆情信息发生地的判断方法，包括以下步骤：
54.构建地域属性库，地域属性库内包括：地域行政信息，以及与地域行政信息对应的地域建筑信息、地域景点信息、地域文化信息、地域网站信息和地域企业信息，根据地域特色进行地域属性库的属性词设定，如地域行政信息参考各地域行政名词；地域景点信息参考各地域著名景点名词；地域网站信息参考各地域地方性网站；
55.获取舆情信息文本；
56.采用匹配算法对需要分词的语句按照从左到右的顺序，对舆情信息文本中的语句进行分词，识别出所有3个词的分词组合，输出识别出的所有3个词的分词组合；
57.利用mmseg算法的4条消除歧义规则依次对识别出的所有3个词的分词组合进行过滤，只有一种分词组合或4条消除歧义规则过滤完成时停止过滤，输出过滤完成后的最优的分词结果；
58.将最优的分词结果中的词语分别与地域属性库中的地域行政信息、地域建筑信息、地域景点信息、地域文化信息、地域网站信息和地域企业信息进行匹配，若最优的分词结果中的某个或多个词语与地域属性库中的信息匹配成功，则根据匹配成功的地域属性库中的信息类型，将匹配成功的最优的分词结果中的词语划分为舆情信息的对应信息类型，得到匹配成功的词语，若分词结果中的某个或多个词语与地域属性库中的信息匹配不成功，则按舆情信息文本的语句顺序进行下一语句分词结果与地域属性库内的信息的匹配，输出匹配成功的词语；
59.根据匹配成功的词语，确定舆情信息类型为行政信息、建筑信息、景点信息、文化信息、网站信息或企业信息中的一种或多种；
60.设置舆情信息中行政信息、建筑信息、景点信息、文化信息、网站信息和企业信息的优先级权重；
61.设置匹配结果中优先级高的词语为舆情信息的主信息属性词，设置主信息属性词的判定阈值，统计舆情信息的分词结果中主信息属性词的出现次数，并确定对应主信息属性词的权重，将主信息属性词的出现次数与对应的权重值相乘，并将相乘结果相加，得到主信息属性词的权重的乘积之和；
62.将主信息属性词的权重的乘积之和与主信息的判定阈值相比较，若主信息属性词的权重的乘积之和大于或者等于主信息的判定阈值，则根据主信息属性词确定舆情地域，
若主信息属性词的权重的乘积之和小于主信息的判定阈值，则根据优先级迭代进行辅信息阈值的比较判定，得出舆情地域的判断结果；
63.设置匹配结果中优先级低于主信息属性词的若干个信息词语为舆情信息的辅信息属性词，设置辅信息属性词的判定阈值，统计舆情信息的分词结果中辅信息属性词的出现次数，并确定对应辅信息属性词的权重，将辅信息属性词的出现次数与对应的权重值相乘，并将相乘结果与主信息属性词的权重的乘积之和相加，得到辅信息属性词的权重的乘积之和，将辅信息属性词的权重的乘积之和与辅信息的判定阈值相比较，若辅信息属性词的权重的乘积之和大于或者等于辅信息的判定阈值，则根据辅信息属性词确定舆情地域，若辅信息属性词的权重的乘积之和小于辅信息的判定阈值，则不能根据辅信息属性词确定舆情地域，根据优先级迭代进行下一个辅信息阈值的比较判定，得出舆情地域的判断结果。
64.实施例1
65.利用匹配算法和mmseg算法的4条消除歧义规则得到过滤完成后的最优的分词结果，方法如下：
66.匹配算法采用simple方法或complex方法：
67.simple方法：即简单的正向匹配，根据开头的字，列出所有可能的结果，比如“国际化大都市”，可以得到：国、国际、国际化；
68.complex方法：匹配出所有的“三个词的词组”，即从某一既定的字为起始位置，得到所有可能的“以三个词为一组”的所有组合。比如“研究生命起源”，可以得到研_究_生、研_究_生命、研究生_命_起源、研究_生命_起源等这些词组。
69.mmseg算法的4条消除歧义规则为：
70.规则1、备选词组合的长度之和最大：对“simple”匹配方法，选择长度最大的词，例如，选择最长的“国际化”匹配结果；对“complex”匹配方法，选择“词组长度最大的”词组，然后选择这个词组的第一个词，作为切分出的第一个词，例如“研究生_命_起源”中的“研究生”，或者“研究_生命_起源”中的“研究”；
71.规则2、备选词组合的平均词长最大：经过规则1过滤后，如果剩余的词组超过1个，那就选择平均词语长度最大的那个(平均词长＝词组总字数/词语数量)。比如“生活水平”，可能得到如下词组：生_活水_平(4/3＝1.33)、生活_水_平(4/3＝1.33)、生活_水平(4/2＝2)根据此规则，就可以确定选择“生活_水平”这个词组；
72.规则3、备选词组合的词长变化最小：由于词语长度的变化率可以由标准差反映，所以此处直接套用标准差公式即可。比如对于“研究生命起源”有：研究_生命_起源(标准差＝sqrt(((2-2)^2 (2-2)^2 (2-2^2))/3)＝0)、研究生_命_起源(标准差＝sqrt(((2-3)^2 (2-1)^2 (2-2)^2)/3)＝0.8165)，于是通过这一规则选择“研究_生命_起源”这个词组；
73.规则4、备选词组合中，单字词的出现频率统计值最高：计算词组中的所有单字词词频的自然对数，然后将得到的值相加，取总和最大的词组。比如：“设施和服务”，这个会有如下几种组合：设施_和服_务_、设施_和_服务_、设_施_和服_，经过规则1过滤得到：设施_和服_务_和设施_和_服务_，规则2和规则3都无法得到唯一结果，只能利用最后一个规则第一条中的“务”和第二条中的“和”，从直观看，显然是“和”的词频在日常场景下要高，这依赖一个词频字典和的词频决定了的分词。假设“务”作为单字词时候的频率是30，“和”作为单字词时候的频率是100，对30和100取自然对数，然后取最大值者，所以取“和”字所在的词
组，即“设施_和_服务”。
74.根据4条消除歧义规则依次进行过滤后，可以得到最佳的分词组合。
75.实施例2
76.参照图2，进行陕西地域舆情数据的自动判断。
77.设定地域属性库的属性词，按照陕西地域特色：地域行政信息(陕西、西安、咸阳)，地域景点信息(兵马俑、大雁塔、华山)，地域网站信息(西北要闻、华商网)；
78.利用mmseg算法中的匹配算法对舆情信息文本内容进行中文分词，根据mmseg的4条消歧规则生成舆情信息文本最佳分词结果；
79.将舆情信息文本的分词结果与地域属性库进行匹配，根据匹配成功的词语，确定舆情信息的地域行政信息、地域景点信息和地域网站信息；
80.设置舆情信息中地域行政信息、地域景点信息和地域网站信息的优先级和主辅性，其中地域行政信息、地域景点信息为主信息属性词，地域网站信息为辅信息属性词，为地域行政信息、地域景点信息设定双重的主信息的判定阈值s；
81.设定地域行政信息、地域景点信息和地域网站信息的权重值；
82.统计舆情信息的分词结果中主信息属性词的出现次数a1、a2、a3，并确定对应主信息属性词的权重b1、b2、b3，将主信息属性词的出现次数与对应的权重值相乘，并将相乘结果相加，得到主信息属性词的权重的乘积之和a1*b1 a2*b2 a3*b3；
83.将主信息属性词的权重的乘积之和与主信息的判定阈值相比较，若主信息属性词的权重的乘积之和大于或者等于主信息的判定阈值，则根据主信息属性词确定舆情地域，若主信息属性词的权重的乘积之和小于主信息的判定阈值，则根据优先级迭代进行辅信息阈值的比较判定，得出舆情地域的判断结果。
84.实施例3
85.参照图3，新疆地域舆情数据自动判断。
86.设定地域模块属性词，按照新疆地域特色：行政(新疆、乌鲁木齐、自治区)，民族(回族、维吾尔族)，文化(切糕、新疆人)；
87.利用mmseg算法中的匹配算法对舆情信息文本内容进行中文分词，根据mmseg的4条消歧规则生成舆情信息文本最佳分词结果；
88.将舆情信息文本的分词结果与地域属性库进行匹配，根据匹配成功的词语，确定舆情信息的地域行政信息、地域民族信息和地域文化信息；
89.设定舆情信息的地域行政信息、地域民族信息和地域文化信息的优先级和主辅性，地域民族信息为主信息，地域文化信息为辅信息，为行政民族设定双重阈值；
90.设定属性词权重值；
91.以舆情信息文本生成的分词结果为基准，按照地域属性模块优先级设定，第一轮以行政库为基准，对新疆、乌鲁木齐、自治区属性词进行文本匹配，存在辅助库，以切糕和新疆人进行文本匹配，统计相关属性词命中次数；
92.按照属性词统计结果和权重值进行统计计算，参考辅助库属性词命中结果，生成不同属性匹配阈值。
93.当前属性库设定阈值进行判定，命中，定位舆情地域；未命中，以民族库为基准进行第二轮定位，得出舆情信息发生地的判断结果。
94.以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种互联网舆情信息发生地的判断方法与流程

相关文献

最热文献