基于门控卷积网络的在线论坛用户抑郁检测模型的制作方法

2021-10-29 22:36:00 来源：中国专利 TAG：门控在线抑郁卷积检测

1.本发明涉及抑郁检测技术领域，特别是涉及一种基于门控卷积网络的在线论坛用户抑郁检测模型。

背景技术：

2.抑郁症是最常见的与精神健康相关的疾病之一，是导致全球范围内自我伤害和自杀并影响数百万人的主要原因。早期抑郁症的发现和治疗可以减少由疾病引起的损害。但早期发现和治疗抑郁症和其他精神疾病的服务非常有限。而且许多患者不愿意主动寻求医疗保健提供者的帮助。这些问题使患者无法得到及时的治疗，导致病情进一步恶化。
3.越来越多的抑郁症患者开始使用在线资源(twitter，网站，reddit等)来表达自己的心理问题并寻求帮助。特别是一些可选择匿名或匿名的在线论坛更受欢迎。利用社交媒体数据早期发现抑郁症任务已成为一种有效的手段。同时，海量社交媒体数据难以手动识别患有抑郁症或有自杀倾向的用户，这使得自动抑郁症检测技术的开发变得更为关键。
4.论坛中，经常有大量带有敏感内容的帖子post，表明用户有自杀和自残风险。使用适当深度学习模型和社交媒体数据进行早期抑郁症检测可防止潜在自我伤害。但是现有的抑郁症检测模型功能不足，无法从每个用户发布的大量帖子中捕获关键的情绪信息，这使得这些模型的性能无法令人满意。

技术实现要素：

5.本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于门控卷积网络的在线论坛用户抑郁检测模型，并提供基于门控卷积网络的在线论坛用户抑郁检测模型进行抑郁检测的方法。
6.为实现本发明的目的所采用的技术方案是：
7.一种基于门控卷积网络的在线论坛用户抑郁检测方法，包括：
8.利用基于门控卷积网络对在线论文用户进行抑郁检测的模型实现检测，该模型的检测步骤如下：
9.s1.帖子级操作
10.模型的输入通过多层带有门控单元的卷积神经网络，卷积神经网络利用有限的上下文信息来获取帖子表示的关键特征；
11.其中，帖子级操作的处理层包括两个卷积层和一个全局平均池；第一卷积层使用两个大小不同的卷积内核来获得抽象特征图，然后，具有门控单元的第二卷积层使用卷积核来获得不同的门控权重，应用所述门控权重与第一个卷积层生成的特征图进行逐元素乘积，以此获得帖子级别的表征；
12.每个单词由词嵌入矩阵l
ω
∈r
d
×
|v|
表示，|v|是词汇量中的单词数，d是单词向量的维数，每条帖子表示为n个单词，分别为{ω1，ω2，...ω
i
...ω
n
}，令x
i
∈r
d
为与帖子中第i个单词相对应的d维单词向量，长度为n的帖子嵌入后表示为
13.x
1：n
＝[x1，x2，...，x
n
]
[0014]
第一卷积层中，使用cnn和多个不同宽度的卷积滤波器生成帖子的表示形式；将具有不同宽度的卷积滤波器视为提取器以获取的多粒度局部信息；使用不同窗口大小的多个卷积滤波器以获得多个特征图；
[0015]
设k∈r
s
×
d
是步长为1的卷积滤波器，应用于s个单词的窗口以产生新的特征，[x
i 1
，x
i 2
，...，x
i s
‑1]表示长度固定为s的窗口中的词嵌入，将两个向量串联起来即x
i：i s
‑1，由x
i：i s
‑1生成一个新的特征a
i
[0016]
a
i
＝f(k*x
i：i s 1
b)
[0017]
其中，b∈r是偏置项，*表示卷积运算，f是激活函数leakyrelu，该过滤器应用于帖子[x
1：s
，x
2：s 1
，...，x
n
‑
s 1：n
]中每个可能窗口的s个单词来生成特征图a，
[0018]
a＝[a1，a2，...，a
n
‑
s 1
]
[0019]
其中，a∈r
(n
‑
s 1)
×1表示通过不同大小的过滤器得到所有的特征图，然后将每个特征图a都作为输入传给第二卷积层；
[0020]
第二卷积层包括卷积层和门控单元，用来生成不同的门控权重，包含一个核f∈r
h
×1的卷积运算，用于提取特征图a，卷积核f以窗口h在特征a1上滑动，以此来生成门控权重；
[0021][0022]
其中，g
l
∈r，l＝1，2，...，n
‑
s 1，所有门控权重元素均由特征图a和卷积核f所生成，并组成门控权重矩阵g：
[0023]
g＝[g1，g2，
…
，g
n
‑
s 1
]
[0024]
其中，g∈r
(n
‑
s 1)
×1，m为第二卷积层中的卷积核的数量，利用门控单元提取不同的门控权重矩阵g1，g2，...，g
m
，然后通过门控权重矩阵g获得输出特征图o：
[0025][0026]
其中，是矩阵之间的按元素乘积，o∈r
m
×
(n
‑
s 1)
；
[0027]
第一卷积层的输出特征图o由门控权重矩阵g控制；
[0028]
接着将第二个卷积层的输出特征图o输入到全局平均池化层，并连接所有输出以获取帖子的表征；
[0029]
s2.用户级操作
[0030]
将获得的帖子表征输入送到用户级操作处理中，使用与帖子级操作相同的方法，获得用户状态表征，然后将获得的用户状态表征传递到全连接的softmax图层，该softmax图层输出标签上的概率分布，从而实现检测；模型损失函数使用的是分类交叉熵，每个文档的目标情感分布记为p
t
，p为预测文档情感分布；
[0031]
[0032]
其中，t为训练数据，c为分类数，i是文档的索引，j是类别索引，训练的目的是使所有训练文档的p
t
和p之间的交叉熵的误差最小化。
[0033]
本发明模型与基准之间的差异具有统计学意义(mcnemar检验，p＜0.05)。使用具有两组功能的mnb和svm分类器，将本发明模型与多个基准进行比较。针对抑郁用户提出的mgl
‑
cnn模型在精度，召回率和f1方面均优于基线(分别增长了6.8％，6.7％和5.9％)。结果证明，方法可以使用选通权重来有效地识别与用户帖子中的负面情绪相关的语言。
附图说明
[0034]
图1是本发明的基于门控卷积网络对在线论文用户进行抑郁检测模型(mg
‑
cnn)整体结构图；
[0035]
图2是本发明的帖子级操作模型结构图。
具体实施方式
[0036]
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0037]
如图1
‑
2所示，本发明的基于门控卷积网络的在线论坛用户抑郁检测方法，利用基于门控卷积网络对在线论文用户进行抑郁检测的模型实现检测，该模型的检测步骤如下：
[0038]
步骤一：帖子级操作
[0039]
模型的输入通过多层带有门控单元的卷积神经网络，卷积神经网络利用有限的上下文信息来获取帖子表示的关键特征。
[0040]
mg
‑
cnn中的帖子级操作，由两个卷积层和一个全局平均池组成。在mg
‑
cnn中的帖子级操作的演示模型中，第一卷积层使用两个大小不同的卷积内核来获得抽象特征图。然后，具有门控单元的第二卷积层使用卷积核来获得不同的门控权重。应用这些门控权重来与第一个卷积层生成的特征图进行逐元素乘积，以此获得帖子级别的表征。
[0041]
每个单词都由词嵌入矩阵l
ω
∈r
d
×
|v|
表示，|v|是词汇量中的单词数，d是单词向量的维数。将用户的每条帖子都表示为n个单词，分别为{ω1，ω2，...ω
i
...ω
n
}，令x
i
∈r
d
为与帖子中第i个单词(英文单词)相对应的d维单词向量，比如iam depress，要变成[0，0，1]，[0，1，0][0，1，1]，维度为3。长度为n的帖子嵌入后表示为
[0042]
x
1：n
＝[x1，x2，...，x
n
]
ꢀꢀ
(1)
[0043]
在第一卷积层中，使用cnn和多个不同宽度的卷积滤波器来生成帖子的表示形式。可以将具有不同宽度的卷积滤波器视为提取器，以获取诸如n
‑
grams之类的多粒度局部信息。同样，宽度为2的卷积滤波器实质上可捕获用户帖子中的双单词组的语义。使用不同窗口大小的多个卷积滤波器以获得多个特征图。设k∈r
s
×
d
是步长为1的卷积滤波器，将其应用于s个单词的窗口以产生新的特征。[x
i 1
，x
i 2
，...，x
i s
‑1]表示长度固定为s的窗口中的词嵌入，将两个向量串联起来即x
i：i s
‑1。由x
i：i s
‑1生成一个新的特征a
i
[0044]
a
i
＝f(k*x
i：i s 1
b)
ꢀꢀ
(2)
[0045]
其中b∈r是偏置项，*表示卷积运算，f是激活函数(leakyrelu)。此过滤器应用于帖子[x
1：s
，x
2：s 1
，...，x
n
‑
s 1：n
]中的每个可能窗口的s个单词来生成特征图a，
[0046]
a＝[a1，a2，...，a
n
‑
s 1
]
ꢀꢀ
(3)
[0047]
其中a∈r
(n
‑
s 1)
×1。通过不同大小的过滤器得到所有的特征图，然后将每个特征图a都作为输入传给第二卷积层。
[0048]
第二卷积层由卷积层和门控单元组成。该层用来生成不同的门控权重。它包含一个核f∈r
h
×1的卷积运算，主要应用于提取上下文特征a。卷积核f以窗口h在特征a1上滑动，以此来生成门控权重。
[0049][0050]
其中g
l
∈r，l＝1，2，...，n
‑
s 1。所有门控权重元素均由特征图a和卷积核f所生成，并组成门控权重矩阵：
[0051]
g＝[g1，g2，
…
，g
n
‑
s 1
]
ꢀꢀ
(5)
[0052]
其中g∈r
(n
‑
s 1)
×1。令m为第二卷积层中使用的卷积核的数量。利用mgl
‑
cnn的门控单元提取不同的门控权重矩阵：g1，g2，...，g
m
。然后，通过门控权重矩阵g获得输出特征图o：
[0053][0054]
其中是矩阵之间的按元素乘积。在mg
‑
cnn中，o∈r
m
×
(n
‑
s 1)
。
[0055]
第一卷积层的输出o由门控权重g控制。这些门控权重乘以特征图a，并控制应在层中传播哪些信息。为了捕获帖子的全局信息，接着将第二个卷积层的输出输入到全局平均池化层，并连接所有输出以获取帖子的表征。
[0056]
步骤二：用户级操作
[0057]
将获得的帖子表征输入送到用户级操作，使用与帖子级操作相同的方法，获得用户的状态表征。然后，将获得的用户特征传递到全连接的softmax图层，该图层的输出是标签上的概率分布。模型的损失函数使用的是分类交叉熵。每个文档的目标情感分布记为p
t
，p为预测文档情感分布。
[0058][0059]
其中t为训练数据，c为分类数，i是文档的索引，j是类别索引。训练的目的是使所有训练文档的p
t
和p之间的交叉熵的误差最小化。
[0060]
实验验证：
[0061]
实验基于reddit自我报告的抑郁诊断(rsdd)数据集和抑郁的早期检测数据集(erisk 2017)。通过与其他强大的基线模型进行比较来评估提出的模型的性能，并分析模型的性能。
[0062]
rsdd数据集由训练，验证和测试数据集组成，每个数据集包含大约3,000个已诊断用户和35,000个对照用户。使用验证集来调整模型和基线的超参数。erisk 2017由训练和测试数据集组成。erisk 2017的训练集包含83个抑郁的用户和403个对照用户，而测试集包含52个抑郁的用户和349个对照用户。
[0063]
rsdd验证集用于选择抑郁症检测模型的超参数，测试集用于报告结果。不使用预训练(如公开的glove)的嵌入来初始化嵌入层。抑郁模型的输入的原始编码由one
‑
hot向量组成，然后使用输入层学习50维和100维的嵌入。学习率(lr)设置为0.001。对于rsdd，erisk 2017，将batch大小分别设置为64和128。将maxm定义为每个用户的最大帖子数，maxn定义为每个帖子的最大特征数。当一个用户的文档超过了最大帖子数时，将随机打乱帖子，然后随机选择帖子并截取maxm的长度。例如，将模型设置为接收rsdd数据集中最多600个帖子(maxm＝600)，其中每个帖子最多包含100个单词(maxn＝100)。本发明提出的抑郁症检测模型是用keras框架实现的。
[0064]
对mg
‑
cnn帖子级操作，将第一卷积层的卷积核(s)的窗口大小分别设置为2、3、4、5、6，每个窗口大小有30个不同的卷积核。第二个卷积层中，卷积核(h)的窗口大小为1、3、5、7，每个窗口大小有30个不同的卷积核。在sg
‑
cnn第二层中使用窗口大小为3的卷积核。对于模型的用户级操作，设置与帖子级操作相同的参数，不会对数据集进行任何特定的调整。
[0065]
本发明模型使用softmax函数和分类交叉熵作为其损失函数，对于类别的平衡问题，是通过“分类交叉”的方式进行处理的。所有模型都通过随机梯度下降法使用adam优化器进行训练的。
[0066][0067]
上表中显示了rsdd中从方法和其他基准中识别抑郁用户的结果。本发明模型与基准之间的差异具有统计学意义(mcnemar检验，p<0.05)。使用具有两组功能的mnb和svm分类器，将本发明模型与多个基准进行比较。
[0068]
本发明针对抑郁用户提出的mgl
‑
cnn模型在精度，召回率和f1方面均优于基线(分别增长了6.8％，6.7％和5.9％)。结果证明，方法可以使用选通权重来有效地识别与用户帖子中的负面情绪相关的语言。
[0069][0070]
上述表中显示了模型和当前表现最佳方法的抑郁症早期检测数据集的结果。来自基线的度量标准的绝对值表明，抑郁症任务的早期检测很困难。
[0071]
就f1而言，性能低下，最高f1为0.64。某些方法(如fhdo
‑
bcsgb)选择优化精度，但召回率较低，而其他方法(如unsla)选择优化召回率，但精度较低。这可能与数据集的规模和创建有关。本发明提出的模型(mgl
‑
cnn)在抑郁用户上的精度，召回率和f1方面的性能接近几种最新方法。
[0072]
此外，本发明模型并非旨在像基线模型那样改善一个指标，而是在所有三个指标(precision，recall和f1)上均表现良好。本发明模型的结果和最先进的方法表明，提出的通用神经网络架构也可以用于在不同的在线论坛上对抑郁症进行早期检测。
[0073]
以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于门控卷积网络的在线论坛用户抑郁检测模型的制作方法

相关文献

最热文献