一种基于语义信息的相似题推荐系统及其使用方法与流程

2021-10-30 01:35:00 来源：中国专利 TAG：语义推荐系统信息使用方法

1.本技术涉及在线教育技术领域，特别涉及一种基于语义信息的相似题推荐系统，同时，本发明还涉及一种基于语义信息的相似题推荐系统的使用方法。

背景技术：

2.随着教育科技领域的发展，出现了大量的在线教育资源与数据，我们通过ai等技术手段为教学产品赋能。
3.k12教育一直是我国基础教育的核心阶段，由于这种特性，我国的在线教育规模的正以每年20％以上的速度增长，市场估值超过3000亿，同时在线教育资源的数据量也在爆炸式增长。在学生使用在线教育资源中的试题资源遇到薄弱题和感兴趣的题目，或者是老师在使用在线教育资源中的试题资源备课时遇到需要需要让学生反复强化的题目和出题思路优秀的题目时，需要推荐其相似题提供深入，强化练习。
4.现有的题目推荐大部分基于协方差矩阵的推荐系统，使用协同过滤的方法，引入类似商品推荐的体系，导致对于在教育领域的适用性较差，使得推荐效果一般。或者是更加关注试题答案中的信息，导致推荐与待推荐试题答案相同的其他试题的概率很大，使得推荐效果不佳。在这个基础上，现有的相似题推荐系统大部分存在着计算较慢的问题，因为在计算相似题时，将待推荐试题的向量与其他所有试题的向量进行相似度计算和排序需要占用大量的资源和时间。

技术实现要素：

5.本技术的主要目的在于提供一种基于语义信息的相似题推荐系统及其方法，以改善相关技术中的问题。
6.为了实现上述目的，本技术提供了一种基于语义信息的相似题推荐系统，包括数据读取单元、类型分类单元、生成单元和计算单元；
7.数据读取单元，所述数据读取单元包括第一读取模块、数据预处理模块和限制模块，所述第一读取模块用于对试题库中的全部数据进行读取，所述数据处理模块用于对试题库中的全部数据进行整理，所述限制模块用于对试题的文本长度进行限制，并限制在512个字符内；
8.类型分类单元，所述类型分类单元包括类型识别模块和试题分类模块，所述类型识别模块用于对每道试题的所述知识点进行识别，所述试题分类模块用于对识别后的试题进行归类；
9.生成单元，所述生成单元包括生成模块和存储模块，所述生成模块用于对每道试题使用基于汉明距离的哈希函数生成具有局部敏感哈西性质的哈希值和句向量，所述存储模块用于将生成的哈希值进行保存；
10.计算单元，所述计算单元用于将所有相同知识点下哈希值相同的推荐题进行余弦相似度计算。
11.在本发明的一种实施例中，所述数据读取单元还包括第二读取模块，所述第二读取模块用于读取待推荐试题的知识点和句向量，并读取该待推荐试题的哈希值。
12.本发明另提供了一种基于语义信息的相似题推荐系统的使用方法，包括如下步骤：
13.s1、读取试题数据，使用第一读取模块从试题库中读取全部的试题数据，包含试题题干，答案，题目id，并使用数据处理模块将答案与试题题干拼接，同时使用限制模块将试题的文本长度限制在512个字符内；
14.s2、知识点划分，使用类型识别模块对每道试题的知识点进行识别，同时使用试题分类模块将相同知识点的试题汇总在一起，与知识点不同的试题划分开；
15.s3、生成哈希值，使用生成模块，为每道试题生成具有局部敏感哈西性质的哈希值；
16.s4、读取待推荐试题，读取待推荐试题的知识点和句向量，并读取该待推荐试题的哈希值；
17.s5、推荐题输出，取相同知识点下哈希值相同的所有句向量，作为计算余弦相似度的候选者，对哈希值相同的这些试题的句向量与待推荐试题的句向量计算余弦相似度，为了防止推荐的题目与待推荐题目过于相似或者基本一致，设定余弦相似度的阈值，只推荐低于该阈值的试题，在相似度低于该阈值的试题，取相似度排名最高的几道试题作为输出。
18.在本发明的一种实施例中，在s1中，包括如下步骤：
19.s1.1、从试题库中读取全部的试题数据，包含试题题干，答案，题目id；
20.s1.2、将答案与试题题干拼接；
21.s1.3、将试题的文本长度限制在512个字符内。
22.在本发明的一种实施例中，在s2中，包括如下步骤：
23.s2.1、使用类型识别模块对每道试题的知识点进行识别，进行记录；
24.s2.2、根据知识点识别的试题，将相同知识点的试题汇总在一起，与知识点不同的试题划分开。
25.在本发明的一种实施例中，在s3中，包括如下步骤：
26.s3.1、运用bert为每道试题生成句向量；
27.s3.2、使用基于汉明距离的哈希函数生成为每道试题的句向量生成具有局部敏感哈西性质的哈希值。
28.在本发明的一种实施例中，在s4中，包括如下步骤：
29.s4.1、根据题目id，从计算完成的知识点和句向量中读取该题目所属的知识点和该题目的句向量；
30.s4.2、根据题目id，从计算完成的哈希值中读取该题目的哈希值。
31.在本发明的一种实施例中，在s4中，根据局部敏感哈希的性质，在高维空间中距离足够近的两个点在低维空间中才会由于哈希值相同产生哈希冲突，取哈希值相同的试题作为计算余弦相似度的待推荐试题，可以在确保相似题计算的精度的同时，最大限度地减少对于明显不够相似的题目的不必要的计算。
32.在本发明的一种实施例中，在s5中，在哈希值相同的向量中，对每个试题与待推荐试题计算余弦相似度，然后设定阈值，去除相似度过高的试题或相同试题。
33.与现有技术相比，本技术的有益效果是：通过上述设计的基于语义信息的相似题推荐系统及其使用方法，使用时，通过类型分类单元，对每道试题的所述知识点进行识别，并对识别后的试题进行归类，可以有效的减少系统处理数据的信息量；推荐基于试题语义，可以最大限度地结合试题文本的所有信息，而非着重于答案，可以防止推荐的题目与待推荐题目过于相似或者基本一致；使用了基于汉明距离的哈希函数，使其具有局部敏感哈希的性质，极大程度地减少了在进行相似度计算时需要占用的资源量和花费的时间量；在根据余弦相似度排序输出结果时，设定了阈值，防止了过度相似的试题被推荐。
附图说明
34.图1为根据本技术实施例提供的基于语义信息的相似题推荐系统及其使用方法的推荐系统的示意框图；
35.图2为根据本技术实施例提供的基于语义信息的相似题推荐系统及其使用方法的数据读取单元示意框图；
36.图3为根据本技术实施例提供的基于语义信息的相似题推荐系统及其使用方法的类型分类单元示意框图；
37.图4为根据本技术实施例提供的基于语义信息的相似题推荐系统及其使用方法的生成单元示意框图；
38.图5为根据本技术实施例提供的基于语义信息的相似题推荐系统及其使用方法的步骤示意框图。
具体实施方式
39.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
40.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
41.在本技术中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。
42.并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本技术中的具体含义。
43.另外，术语“多个”的含义应为两个以及两个以上。
44.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
45.实施例1
46.请参阅图1、图2、图3和图4，本技术提供了一种基于语义信息的相似题推荐系统，包括数据读取单元、类型分类单元、生成单元和计算单元；
47.所述数据读取单元包括第一读取模块、数据预处理模块和限制模块，所述第一读取模块用于对试题库中的全部数据进行读取，所述数据处理模块用于对试题库中的全部数据进行整理，所述限制模块用于对试题的文本长度进行限制，并限制在512个字符内，所述数据读取单元还包括第二读取模块，所述第二读取模块用于读取待推荐试题的知识点和句向量，并读取该待推荐试题的哈希值；
48.所述类型分类单元包括类型识别模块和试题分类模块，所述类型识别模块用于对每道试题的所述知识点进行识别，所述试题分类模块用于对识别后的试题进行归类；
49.所述生成单元包括生成模块和存储模块，所述生成模块用于对每道试题使用基于汉明距离的哈希函数生成具有局部敏感哈西性质的哈希值和句向量，所述存储模块用于将生成的哈希值进行保存；
50.所述计算单元用于将所有相同知识点下哈希值相同的推荐题进行余弦相似度计算。
51.请参阅图5，一种基于语义信息的相似题推荐系统的使用方法，包括如下步骤：
52.s1、读取试题数据，使用第一读取模块从试题库中读取全部的试题数据，包含试题题干，答案，题目id，并使用数据处理模块将答案与试题题干拼接，同时使用限制模块将试题的文本长度限制在512个字符内；
53.s2、知识点划分，使用类型识别模块对每道试题的知识点进行识别，同时使用试题分类模块将相同知识点的试题汇总在一起，与知识点不同的试题划分开；
54.s3、生成哈希值，使用生成模块，为每道试题生成具有局部敏感哈西性质的哈希值；
55.s4、读取待推荐试题，读取待推荐试题的知识点和句向量，并读取该待推荐试题的哈希值；
56.s5、推荐题输出，取相同知识点下哈希值相同的所有句向量，作为计算余弦相似度的候选者，对哈希值相同的这些试题的句向量与待推荐试题的句向量计算余弦相似度，为了防止推荐的题目与待推荐题目过于相似或者基本一致，设定余弦相似度的阈值，只推荐低于该阈值的试题，在相似度低于该阈值的试题，取相似度排名最高的几道试题作为输出。
57.在本实施例中，在s1中，包括如下步骤：
58.s1.1、从试题库中读取全部的试题数据，包含试题题干，答案，题目id；
59.s1.2、将答案与试题题干拼接；
60.s1.3、将试题的文本长度限制在512个字符内。
61.在本实施例中，在s2中，包括如下步骤：
62.s2.1、使用类型识别模块对每道试题的知识点进行识别，进行记录；
63.s2.2、根据知识点识别的试题，将相同知识点的试题汇总在一起，与知识点不同的
试题划分开。
64.在本实施例中，在s3中，包括如下步骤：
65.s3.1、运用bert为每道试题生成句向量；
66.s3.2、使用基于汉明距离的哈希函数生成为每道试题的句向量生成具有局部敏感哈西性质的哈希值。
67.在本实施例中，在s4中，包括如下步骤：
68.s4.1、根据题目id，从计算完成的知识点和句向量中读取该题目所属的知识点和该题目的句向量；
69.s4.2、根据题目id，从计算完成的哈希值中读取该题目的哈希值。
70.在本实施例中，在s4中，根据局部敏感哈希的性质，在高维空间中距离足够近的两个点在低维空间中才会由于哈希值相同产生哈希冲突，取哈希值相同的试题作为计算余弦相似度的待推荐试题，可以在确保相似题计算的精度的同时，最大限度地减少对于明显不够相似的题目的不必要的计算。
71.在本实施例中，在s5中，在哈希值相同的向量中，对每个试题与待推荐试题计算余弦相似度，然后设定阈值，去除相似度过高的试题或相同试题，当两道题目的相似度过高时，可以被认为是重复试题或者相同试题，这样的题目重复训练对于学生能力的强化作用不大，所以需要被过滤掉，在过滤掉这些试题后，再输出相似度排名考前的试题。
72.综上所述：通过类型分类单元，对每道试题的所述知识点进行识别，并对识别后的试题进行归类，可以有效的减少系统处理数据的信息量；推荐基于试题语义，可以最大限度地结合试题文本的所有信息，而非着重于答案，可以防止推荐的题目与待推荐题目过于相似或者基本一致；使用了基于汉明距离的哈希函数，使其具有局部敏感哈希的性质，极大程度地减少了在进行相似度计算时需要占用的资源量和花费的时间量；在根据余弦相似度排序输出结果时，设定了阈值，防止了过度相似的试题被推荐。
73.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于自注意力机制的表单识别方法、装置及存储介质与流程

一种基于语义信息的相似题推荐系统及其使用方法与流程

相关文献

最热文献