藏文热点事件检测方法与流程

2022-02-25 18:50:08 来源：中国专利 TAG：

1.本技术涉及文本处理技术领域，具体涉及一种藏文热点事件检测方法。

背景技术：

2.随着互联网技术的快速发展，“互联网 ”渗透到生活的方方面面，极大地丰富了网络信息，网络信息中新闻数据是重要来源。网络新闻已成为主要的网络应用，是生活中不可缺少的一部分。“互联网 ”也开始改变藏文使用者的生活方式，尤其是藏文新闻网站、app的普及，网络新闻成为藏文使用者了解外界的窗口。
3.进入web2.0时代，藏文新闻爆炸式、多样式增长，各种热点事件在藏文新闻网站被广泛报道。藏文使用者对热点事件的讨论反映出其价值取向，表达出藏文使用者的观点态度，反映出热点事件的社会影响。热点事件的社会影响反过来吸引媒体开展更多地后续报道，因此，藏文新闻中包含巨大的舆情信息。
4.目前，对网络藏文的舆情分析尚处于传统人工模式，藏文新闻热点事件检测研究开展较少，技术较为薄弱，这种现状亟待改变。

技术实现要素：

5.本技术的目的是提供一种藏文热点事件检测方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。
6.根据本技术实施例的一个方面，提供一种藏文热点事件检测方法，包括：
7.获取热词；
8.获取词对；
9.对所述热词和所述词对进行聚类。
10.进一步地，所述获取热词包括：计算词频权重；计算词频增长率权重；计算网站影响力权重；融合所述词频权重、所述词频增长率权重以及所述网站影响力权重进行热词热度度量。
11.进一步地，所述计算词频权重，包括：
12.针对藏文新闻文本，记标题位置为sp，位置参数为λ，赋予标题单词权重，位置权重loc(i)计算公式为
[0013][0014]
对单词词性赋予不同权重；
[0015]
在时间窗口t的文本集c中，单词i的词频权重w
i，t
计算公式为
[0016][0017]wi，t
＝(|f
ic
|
×
loc(i)c×
pos(i)c)exp(n
ic
/nc)
[0018]
其中，f
ic
为时间窗口t内单词i在文本集c中的初始词频，k表示文本集c中的单词总数，loc(i)c是单词i在文本集c中的位置权重，pos(i)c表示单词i在文本集c中的词性权重，n
ic
表示文本集c中包含单词i的文本数，nc表示文本集c中的文本总数。
[0019]
进一步地，所述计算词频增长率权重包括：
[0020]
词频增长率权重f
i，t
计算方法为
[0021][0022]
其中，sf
i，t
是单词i在时间窗口t内的词频。
[0023]
进一步地，所述计算网站影响力权重，包括：
[0024]
定义网站s＝(r
alexa
，w
baidu
，w
360
，v
pr
，v
rl
)，其中r
alexa
是网站alexa排名，w
baidu
是百度权重，w
360
是360权重，v
pr
是page rank值，v
rl
是反链数；网站影响力权重flus的计算公式为
[0025][0026]
采用sigmoid函数对网站影响力权重归一化处理，公式为
[0027][0028]
其中，表示归一化后的网站影响力权重。
[0029]
进一步地，所述融合所述词频权重、所述词频增长率权重以及所述网站影响力权重进行热词热度度量，包括：
[0030][0031]hi，t
代表单词i在时间窗口t内的热度，d
i，t
表示时间窗口t内包含单词i的文本集，表示发布文本集d
i，t
中文本dn的网站影响力权重；
[0032]
将热度大于阈值δ的单词放入热词集中，表示为
[0033][0034]
其中，表示时间窗口t内的第n个热词。
[0035]
进一步地，藏文新闻文本由不同引力强度的单词序列构成；所述获取词对包括：约定序列节点由单词和相应权重组成，节点间引力表示时间窗口t内词对的热度特征，词对语义距离表示词对距离权重；
[0036]
词对语义引力f计算公式为
[0037][0038]
其中，mi、mj分别为单词i、单词j的质量；r为单词i与单词j之间的语义距离；dice系
数表征两个单词的共现概率，采用dice系数代替万有引力系数g，g的计算方法为
[0039][0040]
其中，freq(i，j)d表示单词i和单词j在文本d中的共现频率，freq(i)d、freq(j)d分别为单词i，单词j在文本d中单独出现的频率；
[0041]
词频计算公式为
[0042]
freq(i)d＝freq(i)d×
loc(i)d×
pos(i)d[0043]
其中，freq(i)d表示单词i在文本d中的频率，freq(i)d为单词i在文中d中的初始词频，loc(i)d表示单词i在文本d中的位置权重，poc(i)d表示单词i在文本d中的词性权重；
[0044]
采用google深度学习框架word2vec将藏文单词表示为m维词向量，词对(i，j)中单词的词向量分别表示为i(x1，x2，x3，...xm)，j(y1，y2，y3，...ym)，单词i和单词j之间的语义距离r(i，j)采用欧式距离度量，计算公式为
[0045][0046]
文本d中词对(i，j)的语义引力f(i，j)d计算公式为
[0047][0048]
词对热度计算公式为
[0049][0050]
其中，h(i，j)
t
表示时间窗口t内词对(i，j)的热度，d是时间窗口t内包含词对(i，j)的所有文本，wd表示发布d中文本d的网站影响力权重；将热度大于阈值的词对放入词对集中，
[0051][0052]
其中，表示时间窗口t内第n个词对。
[0053]
进一步地，所述对所述热词和所述词对进行聚类包括：混合热词集合和词对集合计算混合集合set
t
内热词i和词对(i，j)的热度加权词向量，热度加权词向量计算方法为
[0054]
wi＝h
i，t
×
wi[0055][0056]
其中，wi、w
i，j
分别代表单词i、词对(i，j)的加权词向量，wi、wj分别表示单词i、单词j经过word2vec深度学习框架训练的词向量；采用两个加权词向量的余弦相似度计算相似度sim(wm，wn)，相似度计算公式为
[0057][0058]
其中，wm和wn为混合集合set
t
中元素的加权词向量。
[0059]
根据本技术实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的藏文热点事件检测方法。
[0060]
根据本技术实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的藏文热点事件检测方法。
[0061]
本技术实施例的其中一个方面提供的技术方案可以包括以下有益效果：
[0062]
本技术实施例提供的藏文热点事件检测方法，通过在热度度量方法中融合词频、词频增长率、网站影响力特征，并经热度过滤，提高热词抽取的有效性；通过建立词对生成模型和词对语义引力模型，并经热度筛选，获得较高质量的词对集合；运用凝聚式层次聚类算法获得热点事件，采用热词和词对描述事件，进而满足事件描述细粒度的要求，能够较为有效地检测热点事件，具有较高的应用价值，本方法达到的正确率、召回率和f值均较高。
[0063]
本技术的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0064]
为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0065]
图1为词对选取示意图。
具体实施方式
[0066]
为了使本技术的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本技术做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0067]
本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
[0068]
目前中英文新闻热点事件检测研究较为成熟，研究成果较多，而基于藏文的相关研究较为落后，是亟需解决的研究课题。藏文信息处理技术的快速发展为实现自动舆情分析提供了条件。主动检测藏文新闻热点事件，及时发现各种舆情，为相关部门制定政策提供数据支持，对藏区的安全、稳定发展、藏文使用者文化的持续繁荣具有积极价值。本技术实施例从藏文舆情分析的现实需求出发，参考中英文的研究成果，采用热词为中心的事件检测思路，根据藏文新闻热词产生特点，分析位置信息、词性信息对词频权重的影响，提出兼
顾位置信息、词性信息的词频计算方法。为了有效度量热词的热点特征，提出融合词频、词频增长率、网站影响力特征的热度度量方法，通过热度筛选实现热词抽取。根据词对分布特点，建立词对生成模型和词对语义引力模型，通过热度过滤实现词对抽取。运用凝聚式层次聚类算法实现热点事件检测。
[0069]
本技术一个实施例提供的藏文热点事件检测方法，包括：获取热词；获取词对；对所述热词和所述词对进行聚类。所述获取热词包括：计算词频权重；计算词频增长率权重；计算网站影响力权重；融合所述词频权重、所述词频增长率权重以及所述网站影响力权重进行热词热度度量。
[0070]
多特征融合的热词和词对抽取模型
[0071]
热词特征的分析与表示
[0072]
藏文新闻热点事件的产生往往带有相关的单词特征。例如，某一事件在时间窗口t-1内影响力较小，但在时间窗口t内得到广泛关注，此时，与该事件相关单词的词频、词频增长率产生较大变化。定义具有上述特征的单词为事件热词。为了准确、有效地抽取事件热词，本技术实施例从词频、词频增长率、网站影响力等多个角度研究热词特征。
[0073]
(1)词频特征
[0074]
藏文新闻报道中，若某一单词在同一时间窗口内高频出现，则可能出现与该单词相关的热点事件。针对词频特征，传统的tf-idf方法通常赋予高词频、大区分度的单词较大权重，不会兼顾位置信息、词性信息对热词的影响。实际上，藏文新闻热词往往会在不同文本中多次出现，使用tf-idf算法会使该类单词存在被忽略风险。为了解决上述问题，本技术实施例采用一种新的词频权重计算方法，具体细节如下。
[0075]
分析藏文新闻文本，发现标题单词与正文单词表达文本主题时贡献不同，标题单词更能体现文本主题，更具有热词潜力。记标题位置为sp，位置参数为λ，赋予标题单词相对较高的权重，则位置权重loc(i)计算公式如式(1)所示。
[0076][0077]
从语言学角度分析热词词性特征，发现不同词性单词成为热词的概率差别较大，为了兼顾词性信息对热词的影响，对单词词性赋予不同权重。热词词性分布统计如表1所示：
[0078]
表1热词词性分布表
[0079][0080]
分析表1可知，热词词性主要由名词、动词、形容词、数词构成，四种词性合计占比高达81.35％，其它的词性占比较小，不予考虑。将名词、动词、形容词、数词权重pos(i)按照表中占比分别赋值为0.4416，0.2876，0.0433，0.0409。
[0081]
经过上述分析，本技术实施例提出克服传统tf-idf算法缺点，融合单词位置和词性信息的词频权重计算方法，在时间窗口t的文本集c中，单词i的词频权重w
i，t
计算公式如式(2)～式(3)所示。
[0082][0083]wi，t
＝(|f
ic
|
×
loc(i)c×
pos(i)c)exp(n
ic
/nc)
ꢀꢀꢀꢀ
(3)
[0084]
其中，f
ic
为时间窗口t内单词i在文本集c中的初始词频，k表示文本集c中的单词总数，loc(i)c是单词i在文本集c中的位置权重，pos(i)c表示单词i在文本集c中的词性权重，n
ic
表示文本集c中包含单词i的文本数，nc表示文本集c中的文本总数。
[0085]
(2)词频增长率特征
[0086]
上述藏文新闻热词特征研究，考虑了词频特性，但没有关注词频变化趋势，实际上，当某一热点事件发生时，新闻网站会发布大量该事件的报道，若某单词词频增长率大于阈值γ，则该单词具有热词潜力。词频增长率权重f
i，t
计算方法如式(4)所示。
[0087][0088]
其中，sf
i，t
是单词i在时间窗口t内的词频。
[0089]
(3)网站影响力特征
[0090]
研究藏文新闻热点事件产生特征，发现影响力较大的网站发布的事件，更有可能成为热点事件。为了准确识别热词，本技术实施例引入网站影响力权重。定义网站s＝(r
alexa
，w
baidu
，w
360
，v
pr
，v
rl
)，其中r
alexa
是网站alexa排名，w
baidu
是百度权重，w
360
是360权重，v
pr
是page rank值，v
rl
是反链数。网站影响力权重flus的计算方法如式(5)所示。为了便于表示，采用sigmoid函数对网站影响力权重归一化处理，处理方法如式(6)所示。
[0091][0092][0093]
其中，表示归一化后的网站影响力权重。根据上式，分别赋予人民网藏文、中国西藏网、中国西藏新闻网、中国藏族网通、青海藏语网络广播电视台的网站影响力权重为1.00，0.72，0.52，0.50，0.50。
[0094]
为有效度量事件热词的热点特性，本技术实施例提出融合词频权重、词频增长率权重、网站影响力权重的热词热度度量方法，具体方法如式(7)所示。
[0095][0096]hi，t
代表单词i在时间窗口t内的热度，d
i，t
表示时间窗口t内包含单词i的文本集，表示发布文本集d
i，t
中文本dn的网站影响力权重。将热度大于阈值δ的单词放入热词集中，表示如式(8)所示。
[0097][0098]
其中，表示时间窗口t内的第n个热词。
[0099]
词对特征的分析与表示
[0100]
描述同一热点事件的两个热词往往具有“形影不离”、语义聚集的特点，热词间的语义引力越大，二者描述同一热点事件的概率就越大。例如：者描述同一热点事件的概率就越大。例如：(一大早，爸爸就上班去了，我自己也不晓得去哪玩)”和和(爸爸去哪儿，将在周五晚20：00播出)”，两个句子均含有，两个句子均含有两词，两词共现频率相同，无法根据共现频率区分二者，此时引入语义引力可将二者显著区分。为了提高藏文新闻热点事件检测的准确率，从语义引力角度研究词对特征。
[0101]
(1)词对生成模型
[0102]
从序列角度分析藏文新闻文本，藏文新闻文本可视为由不同引力强度的单词序列构成，约定序列节点由单词和相应权重组成，节点间引力表示时间窗口t内词对的热度特征，词对语义距离表示词对距离权重。不同于二元语言模型，词对模型不要求两个单词必须相邻，二元语言模型是词对模型的一个特例。为了简化模型，设定滑动共现窗口为5，约定词对单词均来自同一共现窗口。例如，句子对单词均来自同一共现窗口。例如，句子(第三届数字中国建设峰会在福州开幕)中部分词对选取示意图如图1所示。
[0103]
实线代表共现窗口1，虚线代表共现窗口2，两共现窗口产生的词对集合为实线代表共现窗口1，虚线代表共现窗口2，两共现窗口产生的词对集合为{(数字，中国)，(数字，建设)，(数字，峰会)，(数字，第三)，(中国，建设)，(中国，峰会)，(中国，第三)，(中国，福州)}。在藏文新闻文本预处理环节，虚词时间词被视为停用词在词对生成之前去除。
[0104]
(2)词对语义引力模型
[0105]
针对词对语义引力计算问题，引入物理学中的牛顿万有引力定律对其建模，万有引力定律指出，任何两个物体间的引力正比于质量的乘积，反比于距离的平方。根据上述模型，词对语义引力f计算方法如式(9)所示。
[0106][0107]
其中，mi、mj分别为单词i、单词j的质量。r为单词i与单词j之间的语义距离。g原本是万有引力常数，dice系数能够表征两个单词的共现概率，采用dice系数代替万有引力系数g，g的计算方法如式(10)所示。
[0108][0109]
其中，freq(i，j)d表示单词i和单词j在文本d中的共现频率，freq(i)d、freq(j)d分别为单词i，单词j在文本d中单独出现的频率。
[0110]
根据词对语义引力模型，语义引力与单词质量的乘积成正比，为了准确计算词对语义引力，单词质量需被合理表示。如果仅用词频度量单词质量，则忽略了单词位置信息、
词性信息对词频的影响。
[0111]
本技术实施例采用词频表示单词质量时，兼顾位置信息、词性信息的影响，提出改进的词频计算方法，计算公式如式(11)所示。
[0112]
freq(i)d＝freq(i)d×
loc(i)d×
pos(i)dꢀꢀꢀꢀꢀ
(11)
[0113]
其中，freq(i)d表示单词i在文本d中的频率，freq(i)d为单词i在文中d中的初始词频，loc(i)d表示单词i在文本d中的位置权重，poc(i)d表示单词i在文本d中的词性权重。
[0114]
根据词对语义引力模型，词对语义引力与词间语义距离成反比，为了保证词对的抽取效果，词间语义距离需被准确表征。为了计算词间语义距离，采用google深度学习框架word2vec将藏文单词表示为m维词向量，词对(i，j)中单词的词向量分别表示为i(x1，x2，x3，...xm)，j(y1，y2，y3，...ym)，单词i和单词j之间的语义距离r(i，j)采用欧式距离度量。计算方法如式(12)所示。
[0115][0116]
根据上述研究，文本d中词对(i，j)的语义引力f(i，j)d计算方法如式(13)所示。
[0117][0118]
为有效度量事件词对的热点特性，本技术实施例结合词对语义引力权重、网站影响力权重提出词对热度度量方法，词对热度计算公式如式(14)所示。
[0119][0120]
其中，h(i，j)
t
表示时间窗口t内词对(i，j)的热度，d是时间窗口t内包含词对(i，j)的所有文本，wd表示发布d中文本d的网站影响力权重。将热度大于阈值的词对放入词对集中，表示如式(15)所示。
[0121][0122]
其中，表示时间窗口t内第n个词对。
[0123]
基于凝聚式层次聚类的热点事件检测
[0124]
上述多特征融合的热词和词对提取模型较深入地研究热词、词对的表示及抽取问题，奠定了聚类任务的研究基础。为实现热点事件的有效检测，本技术实施例采用凝聚式层次聚类算法聚类热词和词对，通过类簇中的热词和词对准确描述热点事件。
[0125]
相似度计算
[0126]
相似度计算是聚类任务的核心问题，为了保证相似度计算的有效性，混合热词集合和词对集合计算混合集合set
t
内热词i和词对(i，j)的热度加权词向量，热度加权词向量计算方法如式(16)～式(17)所示。
[0127]
wi＝h
i，t
×
wiꢀꢀꢀꢀꢀꢀ
(16)
[0128][0129]
其中，wi、w
i，j
分别代表单词i、词对(i，j)的加权词向量，wi、wj分别表示单词i、单词
j经过word2vec深度学习框架训练的词向量。采用两个加权词向量的余弦相似度计算相似度sim(wm，wn)，相似度计算方法如式(18)所示。
[0130][0131]
其中，wm和wn为混合集合set
t
中元素的加权词向量。
[0132]
新闻热点事件检测
[0133]
聚类是事件检测的关键任务，为了有效检测热点事件，采用凝聚式层次聚类算法实现聚类任务。该算法初始化时将聚类元素视为单独类簇，通过自底向上的方式合并最相似的两个类簇，直到所有类簇合并为一个类簇，或者满足终止条件时结束聚类。凝聚式层次聚类算法，包括以下步骤：
[0134]
输入：热词与词对混合集合set
t
，相似度阈值μ；
[0135]
输出：热词与词对类簇集cluster；
[0136]
步骤1：将set
t
中每个元素的加权词向量作为一个簇；
[0137]
步骤2：计算任意两个簇之间的余弦相似度，将相似度最大的两个簇合并；
[0138]
步骤3：重新计算各个簇之间的余弦相似度，得到各个簇之间的最大相似度max sim；
[0139]
步骤4：若max sim大于阈值μ，执行步骤2；否则，结束；
[0140]
步骤5：输出聚类结果。
[0141]
热词和词对经过算法1聚类后，被归入到不同的类簇。分析事件的描述特征，发现清楚描述一个事件至少需要何时、何地以及何事三要素。为了准确描述热点事件，筛除元素少于3个的类簇，剩下的每个类簇代表一个事件。
[0142]
针对藏文舆情分析需求，本技术实施例提出了融合多特征的藏文新闻热点事件检测方法。本技术实施例的方法所达到的正确率、召回率和f值均较高。通过兼顾位置信息、词性信息对单词词频权重的影响，克服了传统tf-idf方法在计算藏文新闻热词词频时的不足。通过在热度度量方法中融合词频、词频增长率、网站影响力特征，并经热度过滤，提高热词抽取的有效性。通过建立词对生成模型和词对语义引力模型，并经热度筛选，获得较高质量的词对集合。运用凝聚式层次聚类算法获得热点事件，采用热词和词对描述事件，进而满足事件描述细粒度的要求。本技术实施例的融合多特征的藏文新闻热点事件检测方法能够较为有效地检测热点事件，具有较高的应用价值。
[0143]
需要说明的是：
[0144]
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本技术也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本技术的内容，并且上面对特定语言所做的描述是为了披露本技术的最佳实施方式。
[0145]
类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本技术的示例性实施例的描述中，本技术的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面
的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本技术的单独实施例。
[0146]
应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0147]
以上所述实施例仅表达了本技术的实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于模型模拟的联邦学习安全审计方法及装置与流程

藏文热点事件检测方法与流程

相关文献

最热文献