一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于细粒度学生时空行为异质网表征的相似学生搜索方法

2022-06-01 01:08:21 来源:中国专利 TAG:


1.本发明属于大数据挖掘中教育数据挖掘领域,具体涉及一种基于细粒度学生时空行为异质网表征的相似学生搜索方法。


背景技术:

2.近年来,在人工智能、数据挖掘等前沿技术与高等教育管理情景深度融合的背景下,基于校园海量数据的智慧教育进一步为精准教育、精准学生管理等提供了技术支持。面向学生在校内的学业、生活、经济、心理等各方面问题,高校教育工作者利用学生在校产生的各类大规模数据进行学业表现预测、高危学生聚类、课程参与度与学生成绩的关联规则分析等任务,实现对学生的个性化培养和精准管理,改善学生在校生活质量、帮助学生成长。搜索相似学生、挖掘学生特点便是教育管理工作的一个重要方面。
3.在进行教育数据挖掘时,传统方法大多将实际数据建模为同质信息网络,并未对网络中不同类型的对象及链接加以区分,这样的学习到的嵌入表达往往包含语义信息较少。现实世界的系统往往由大量类型各异、彼此交互的组件构成,在高校教育情景下,就存在着多种多样的交互组件,如:学生、教师、课程、校园建筑等多种实体;消费、签到、活动等多种行为;学生间社交关系、学生和课程的选择关系、学生和物品的消费关系等多种关系。因此,利用异质信息网络嵌入解决教育情景问题已成为教育数据挖掘的研究热点。不少研究关注于基于异质信息网络对学生的大数据资源进行建模,表征学生在各个教育情景下的行为,如:线上课程学习行为、线下教学场景行为、校内生活活动轨迹行为等,可以保留更全面的语义及结构信息,全面刻画学生特征及学生行为等,为发现学生行为特点和隐含规律等提供了精准可解释的新途径。
4.随着高校校园一卡通的广泛使用,利用一卡通记录进行学生行为大数据分析为高校管理决策提供了客观依据,成为智慧教育领域研究热点。然而一卡通具有被集中用于餐饮消费的使用特点,刷卡地点和时间密集而紧凑,刷卡记录所提供的学生活动时空轨迹数据呈现高重复特点,为基于一卡通的学生行为建模带来了挑战。无法准确地建模学生的行为,也就无法准确地对学生的行为进行进一步的分析。


技术实现要素:

5.本发明的目的在于提供了一种基于细粒度学生时空行为异质网表征的相似学生搜索方法,该方法在构建学生校园行为异质信息网络图结构的基础上,探究不同时间划分策略的影响,提出建立可同时覆盖更细粒度的时间信息和位置信息的细粒度时空节点,并以多重边保留多次相同刷卡行为信息,抽取可揭示学生间共现关系的元路径进行随机游走,学习学生行为模式的嵌入表示,从而准确表征学生行为模式,提升了基于一卡通数据的学生行为模式嵌入的可判别性,实现学生共现关系语义计算。同时,为克服一卡通刷卡轨迹时空信息的高重复性带来的数据分布偏向性影响,提出辅以学生属性信息进行相似学生搜
索,建立融合学生行为轨迹和属性的嵌入表征,提升学生相似度计算的鲁棒性。
6.为实现上述目的,本发明采用以下技术方案:一种基于细粒度学生时空行为异质网表征的相似学生搜索方法。首先,在脱敏的学生一卡通数据的基础上构建学生细粒度时空校园行为异质多重网络结构,这是一种同时采用时空双特性组合法、细粒度时间划分法和多重边表示法三种特殊处理方法的学生校园行为异质信息网络;其次,设计可揭示学生校内共现行为的学生共现关系元路径,以此指导学生细粒度时空校园行为异质多重网络上进行的随机游走,进而学习带有共现关系语义的学生校园行为模式嵌入;再次,将学生属性信息进行词向量表示,将学生属性嵌入与学生校园行为模式嵌入融合,得到同时含有行为信息和属性信息的学生嵌入;最终利用学生嵌入计算每个学生的前n个相似学生节点列表,即得到相似学生搜索结果。
7.一种基于细粒度学生时空行为异质网表征的相似学生搜索方法,该方法包括以下步骤:
8.步骤1,基于脱敏的学生一卡通数据构建学生细粒度时空校园行为异质多重网络。
9.步骤1.1,构建时空双特性节点,将按照一定尺度划分的时间和位置信息组合起来。
10.步骤1.2,探究不同粒度划分的时间信息影响,构建细粒度时空节点。
11.步骤1.3,基于一卡通刷卡记录连接学生节点和细粒度时空节点,保留短时多次刷卡情景,构建学生细粒度时空校园行为异质多重网络。
12.步骤2,基于学生共现关系元路径进行学生行为模式嵌入学习。
13.步骤2.1,设计可揭示学生共现关系的元路径。
14.步骤2.2,基于元路径随机游走算法学习学生行为模式嵌入。
15.步骤3,采用低维向量空间中的密集表示法进行学生学籍信息中的学生属性表示,得到学生属性嵌入表征。
16.步骤4,将学生行为模式嵌入表征与学生属性嵌入表征进行融合,得到学生嵌入表征后采用annoy算法来查找每个学生嵌入表示的top n个相似嵌入。
17.本发明从实际高校管理情景应用出发,使用实际高校学生一卡通数据作为,提出了一种基于细粒度学生时空行为异质网表征的相似学生搜索方法。相比于此前提出的传统方法,本发明可准确、有区分、可判别地建模学生在校园内基于一卡通的轨迹行为,设计的可揭示学生共现关系的元路径也使基于随机游走的嵌入表征学习包含学生关系的语义信息,在相似学生搜索中利用学生属性信息进行辅助,使嵌入同时包含学生行为轨迹信息和属性信息,更提升了学生间相似度计算的鲁棒性。本发明可以协助高校校园管理工作者有效利用校园信息化和学生发展管理工作中所积累的校园大数据资源,整合学生在校行为和属性特征,科学分析并掌握学生行为,为高校做好学生思想教育及管理工作奠定基础。
附图说明
18.图1为本发明的总体模型结构图;
19.图2为本发明的方法流程图;
20.图3为多重边结构示意图;
21.图4为学生细粒度时空校园行为异质多重网络结构示意图。
具体实施方式
22.以下结合具体实施例,并参照附图,对本发明进一步详细说明。
23.本发明的总体结构图如图1所示,所述方法流程如图2所示,学生细粒度时空校园行为异质多重网络示意图如图3所示,多重边示意图如图4所示。具体包括以下步骤:
24.步骤1,基于脱敏的学生一卡通数据构建学生细粒度时空校园行为异质多重网络。
25.步骤1.1,构建时空双特性节点,将按照一定尺度划分的时间和位置信息组合起来。
26.一次刷卡记录具有时间和空间两个维度的特征,这两方面的特征不应被拆分处理,因此本发明特别提出一种时空双特性的节点,利用时间和空间的组合信息实现对学生校园行为的轨迹语义表征。
27.步骤1.2,探究不同粒度划分的时间信息影响,构建细粒度时空节点。
28.为了区分不同学生的行为差异,克服大尺度时空划分对学生行为描述的可区别性能差问题,需将时间信息以月、日、小时、分钟、秒等单位进行更加细粒度的划分处理。
29.步骤1.3,基于一卡通刷卡记录连接学生节点和细粒度时空节点,保留短时多次刷卡情景,构建学生细粒度时空校园行为异质多重网络。
30.结合应用情景,学生使用一卡通可能存在于某时某地有多次重复刷卡的情况,为准确保留模型信息,允许出现两个节点之间连接多条边的情况,即加入了“多重边”,如图3所示。并在步骤1.1、1.2的基础上构建了学生细粒度时空校园行为异质多重网络,如图4所示。
31.其中共有两种节点类型:学生节点和细粒度时空节点;一种链接类型:学生节点与细粒度时空节点之间由学生刷卡记录连接的关系。学生节点之间无连接,细粒度时空节点之间无连接。
32.3、根据权利要求1所述的一种基于细粒度学生时空行为异质网表征的相似学生搜索方法,其特征在于:具体包括以下的步骤:
33.步骤2,基于学生共现关系元路径进行学生行为模式嵌入学习。
34.步骤2.1,设计可揭示学生共现关系的元路径。
35.不同的元路径表达着不同的语义关系,根据学生校内活动场景,在学生细粒度时空校园行为异质多重网络上定义了学生共现关系元路径mp,记为:
[0036][0037]
其中vs表示学生类型的节点,v
tp
表示时空类型的节点,mp路径表示某个学生节点访问某个时空节点再访问某个学生节点,其语义为:两个学生在相同的时间空间内均有过一次刷卡记录,这种情况称为“一次共同出现”,并称这样的两个学生具有“共现”关系,互为“消费朋友”。
[0038]
步骤2.2,基于元路径随机游走算法学习学生行为模式嵌入。
[0039]
利用步骤2.1设计的学生共现关系元路径mp指导随机游走,得到学生节点和细粒度时空节点的序列,基于skip gram模型学习学生节点的低维向量嵌入表示,学习到的嵌入具有这样的特点:两个学生的行为习惯越相似,其嵌入在向量空间的度量距离就越接近。
[0040]
考虑到多重边加入,本发明改进metapath2vec 算法中经典的随机游走转移函数,使其可以捕捉多重边的影响进行异质信息网络嵌入学习。给定一个异质信息网络g=
(v,e),指定一条元路径mp:t,t 1,t 2

,每次随机游走时,用mp指导,从节点类型为t的第i个节点v
ti
游走到下一个节点v
i 1
,游走时的转移函数p
mp
如下所示:
[0041][0042]
其中,v
ti
∈v
t
表示节点类型为t的第i个节点,n(v
ti
)表示v
ti
的邻居节点,表示v
ti
与其所有邻居节点之间连接的总边数,|(v
i 1
,v
ti
)|表示节点v
ti
和节点v
i 1
之间连接的边数,f(v
ti
)表示节点v
ti
的节点类型,t 1表示的是mp中类型t的下一种类型。如果某节点不是v
ti
的邻居,也不符合元路径mp定义的下一个该游走的类型,则转移概率为0。
[0043]
3、根据权利要求1所述的一种基于细粒度学生时空行为异质网表征的相似学生搜索方法,其特征在于:具体包括以下的步骤:
[0044]
步骤3,采用低维向量空间中的密集表示法进行学生学籍信息中的学生属性表示,得到学生属性嵌入表征。
[0045]
学生的属性信息,如专业、性别等对相似学生分析具有重要作用。在利用这些信息时,需要将其进行合理表示,使得它们之间的距离可以度量。考虑到one-hot表示和label表示这样的稀疏表示法很可能产生维数灾难等问题,且无法揭示单词之间的潜在联系,本文采用低维空间中的密集表示法进行属性的表示,不但解决了上述问题,更提高了向量语义上的准确度。本发明将学生属性信息先按照label表示进行编号,学生i的属性w
si
的编号为a
si
,所有属性的编号总数为a。然后再将属性w
si
进行向量化,将词映射到一个新的度量空间中,并以k维的连续实数向量进行表示,如下式:
[0046]
yi=query(a
si
)
[0047]
其中,query(
·
)是一个随机初始化的a
×
k查询表,query(a
si
)即查询表的第a
si
行。
[0048]
步骤4,将学生行为模式嵌入表征与学生属性嵌入表征进行融合,得到学生嵌入表征后采用annoy算法来查找每个学生嵌入表示的top n个相似嵌入。
[0049]
将学生行为模式嵌入表征与学生属性嵌入表征进行融合,融合方法g(
·
)采用了拼接操作,公式如下:
[0050]
s=g(x,y)={x||y}
[0051]
如此,学生嵌入中不仅包含了行为信息,还包含了学生属性的语义信息,增加了学生嵌入的表征能力。鉴于annoy算法能够快速、精准地查找任何查询点的最近点,本发明采用annoy算法计算出每个学生嵌入的top n个近邻的嵌入,通过返回嵌入的位置来确定学生id,所得的每个学生的n个最相似的学生列表即为本发明方法的搜索结果。
[0052]
至此,本发明的具体实施过程描述完毕。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献