一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于最优运输的动态主题质量评价方法

2022-06-05 02:49:02 来源:中国专利 TAG:

技术特征:
1.一种基于最优运输的动态主题质量评价方法,其特征在于:包括以下步骤:步骤1,对每篇文本进行预处理;步骤2,通过word2vec模型对步骤1预处理后文本中的词进行训练,得到词嵌入矩阵ρ;步骤3,然后使用欧氏距离的计算方法对得到的词嵌入矩阵ρ求内积,得到成本矩阵c,即:c=euclidean(ρ);步骤4,确定主题个数;步骤5,建立动态主题模型和动态嵌入式主题模型;步骤6,计算不同时刻主题之间的转移距离;设x={x1,

,x
n
}和y={y1,

,y
m
}是一组度量空间中的两组点,x1,

,x
n
表示x的坐标,y1,

,y
m
表示y的坐标,表示n个元素上的概率,表示m个元素上的概率,p,q是两个在x,y上的离散的概率分布,即p∈δ
n
,q∈δ
m
,所以有p,q之间的1-wasserstein距离为:其中,w1表示1-wasserstein距离,c表示的是成本矩阵,c
ij
=l(x
i
,y
j
)表示距离,通过表达式中的约束,γ表示传输矩阵;计算主题转移距离:距离:其中,表示的是在t时刻第k个主题在词上分布的第i个分量;步骤7,通过遍历所有主题,计算出所有主题的演化距离,通过归一化并求平均,即:其中,s表示演化距离,即主题k在t时刻到t 1时刻的转移距离;k表示主题个数,k表示主题,t表示时刻个数,t表示时刻,表示归一化后的值,β表示在t时刻词在主题k上的分布比例;步骤8,计算主题一致性,表示为:
其中topic-coherence表示主题一致性,k表示主题个数,n表示选取的每个主题下的前n个词,c表示成本矩阵,f表示与的函数,表示第k个主题的第i个词,表示第k个主题的第j个词;p(w
i
,w
j
)表示词w
i
和w
j
之间的点互信息;步骤9,将两种指标相结合来综合评价主题模型的质量,表示为:2.根据权利要求1所述的一种基于最优运输的动态主题质量评价方法,其特征在于:所述步骤5建立动态主题模型和动态嵌入式主题模型,具体方法是:步骤5.1:建立动态主题模型:步骤5.1.1,对每个文档d生成主题比例其中,θ
d
表示每个文档d的主题比例,θ
d
的先验取决于文档d的时间戳;ln表示渐近正态分布,是一个潜在的变量,它控制着在t时刻文档d对主题比例的先验平均值,t∈{1,2,

,t}:t表示时刻,t表示时刻个数;a表示模型的超参数;i表示单位矩阵;步骤5.1.2,对于文档d中的第n个词生成主题分配和生成词;z
dn
~cat(θ
d
)其中,z
dn
表示文档d中的第n个词的主题分配,cat(
·
)表示分类分布;w
dn
表示文档d的第n个词,表示在t时刻文档d中的词在主题z
dn
上的分布比例;步骤5.1.3,将主题在时间上的演化通过马尔科夫链表示:步骤5.1.3,将主题在时间上的演化通过马尔科夫链表示:η
t

t 1
~n(η
t 1
,δ2i);其中,表示转换后的主题,r表示实数向量空间,v表示表示维数,将映射到
softmax函数上,得到了主题n(
·
)表示正态分布;超参数σ和δ控制了马尔可夫链的光滑度;步骤5.2:建立动态嵌入式主题模型;步骤5.2.1,生成初始的主题嵌入和主题比例均值:η0~n(0,i)其中,表示0时刻的主题k的嵌入,它是单词语义空间中第k个主题的分布式表示,它服从均值为0,方差-协方差矩阵为单位阵的正态分布;η0为初始的主题比例均值,它服从均值为0,方差-协方差矩阵为单位阵的正态分布;步骤5.2.2,对于时刻t生成主题嵌入和主题比例均值:η
t
~n(η
t-1
,δ2i);其中,表示t时刻的主题k的嵌入,它服从均值为方差-协方差矩阵为γ2i的正态分布,γ2表示高斯噪声的方差;η
t
表示t时刻的主题比例均值,它服从均值为η
t-1
,方差-协方差矩阵为δ2i的正态分布;步骤5.2.3,对于每篇文档d生成主题比例其中,θ
d
的先验依赖于一个潜在变量t
d
是文档d的时间戳;步骤5.2.4,对于每篇文档中的词n生成主题分配和生成词;z
dn
~cat(θ
d
)其中,w
dn
表示文档d的第n个词,它服从参数为的分类分布,表示在t时刻文档d的主题z
dn
的嵌入,ρ表示词的嵌入表示。3.根据权利要求1所述的一种基于最优运输的动态主题质量评价方法,其特征在于:所述步骤4确定主题个数,还包括以下步骤:步骤4.1,采用多维尺度法进行初步的主题个数确定;步骤4.2,通过困惑度指标的大小确定最终的主题个数。

技术总结
本发明公开了一种基于最优运输的动态主题质量评价方法,属于文本挖掘技术领域。结合主题一致性和最优运输理论,使用最优运输距离(OT距离)来计算主题转移距离,用来评估在整个演化过程中的主题相关性;同时计算每一个主题下的主题一致性,用来评价整个模型的可解释性。最后结合两个指标提出一种新的主题演化质量评价方法来评价动态模型的演化效果。本发明通过最优传输距离来判断该主题是否朝着最相关的主题进行了演化,同时结合主题一致性对模型综合评价。本发明基于最优运输动态主题的质量评价方法在文本内容主题的挖掘和演化中对于文本建模和分类及推荐效果提升具有重要作用。用。用。


技术研发人员:牛奉高 王思佳 苏雅
受保护的技术使用者:山西大学
技术研发日:2022.02.28
技术公布日:2022/6/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献