知识点标注方法、装置、电子设备和计算机存储介质与流程

2022-06-11 18:06:04 来源：中国专利 TAG：

1.本技术涉及数据处理
技术领域：
：，特别是涉及一种知识点标注方法、装置、电子设备和计算机存储介质。
背景技术：
：：2.近年来，互联网的快速发展催生了一大批在线教育平台。通过在线教育平台，学生可以在线进行学习、互动、作业、考试等等。在线教育平台缓解了传统教育资源不均衡问题，使得各个地区的学生都可以享受到优质的网络课程。但也出现了一些问题，如大量的试题内容使得学生无法对自己不熟悉的知识点进行专项有效的训练。因此构建一个以知识体系为导向的试题库，并根据每一个学生掌握知识的情况进行个性化推荐服务，是目前在线教育平台的研究重点。而构建试题库知识体系，首先要对每个试题进行知识点的标注。3.传统的针对试题中的知识点进行标注时，采用人工标注的方式进行。这种人工标注知识点的方式，由标注人员阅读每道试题，再根据自己的经验标注试题的知识点。因此，传统的知识点标注方法，费时费力，具有工作效率低的缺点。技术实现要素：4.基于此，有必要针对上述技术问题，提供一种能够提高工作效率的知识点标注方法、装置、电子设备和计算机存储介质。5.本技术第一方面，提供了一种知识点标注方法，包括：6.获取待标注的试题文本，对所述试题文本进行分词处理，生成词汇集；7.将所述词汇集与对应的知识图谱进行匹配，并根据匹配结果生成第一标注标签集；所述知识图谱由两个以上的知识点构成；8.将所述试题文本输入知识点标注模型，并对试题文本进行向量化处理，再基于预设算法生成第二标注标签集；9.通过文本相似度技术对所述第一标注标签集和所述第二标注标签集进行相似度匹配，提取相似度大于预设阈值的知识点标签，生成知识点标注结果。10.在一个实施例中，文本相似度技术为余弦相似度技术。11.在一个实施例中，所述获取待标注的试题文本，对所述试题文本进行分词处理，生成词汇集之前，还包括：12.对所述试题文挡进行预处理，生成试题文本。13.在一个实施例中，所述对所述试题文挡进行预处理，生成试题文本，包括：14.判断所述试题文挡的文档类型，并根据所述文档类型对所述试题文档进行格式转换，生成转换文档；15.判断所述转换文档中各信息点对应的元素类型，并根据所述元素类型，按照对应的算法对所述各信息点进行解析，得到解析结果；16.存储所述解析结果，生成试题文本。17.在一个实施例中，所述将所述词汇集与对应的知识图谱进行匹配，并根据匹配结果生成第一标注标签集之前，还包括：18.根据学科培养大纲和教学课本，构建对应学科的知识图谱。19.在一个实施例中，所述根据学科培养大纲和教学课本，构建对应学科的知识图谱，包括：20.根据学科培养大纲和教学课本的标题或目录，提取知识点；21.根据所述学科培养大纲和所述教学课本的内容，构建所述知识点之间的关联；22.根据所述知识点和所述知识点之间的关联，并结合专家领域知识，生成对应学科的知识图谱。23.在一个实施例中，所述根据学科培养大纲和教学课本，构建对应学科的知识图谱之后，所述将所述试题文本输入预设的知识点标注模型，并对所述试题文本进行向量化处理，再基于预设算法生成第二标注标签集之前，还包括：24.根据所述知识图谱，以题为单位标注所述试题文本，生成数据集，并根据所述数据集训练知识点标注模型。25.本技术第二方面，提供了一种知识点标注装置，包括：26.分词模块，用于获取待标注的试题文本，对所述试题文本进行分词处理，生成词汇集；27.第一标注标签集生成模块，用于将所述词汇集与对应的知识图谱进行匹配，并根据匹配结果生成第一标注标签集；28.第二标注标签集生成模块，用于将所述试题文本输入知识点标注模型，并对试题文本进行向量化处理，再基于预设算法生成第二标注标签集；所述知识图谱由两个以上的知识点构成；29.知识点标注结果确定模块，用于通过文本相似度技术对第一标注标签集和第二标注标签集进行相似度匹配，提取相似度大于预设阈值的知识点标签，生成知识点标注结果。30.在一个实施例中，该装置还包括预处理模块，用于：对试题文挡进行预处理，生成试题文本。31.在一个实施例中，预处理模块包括文档转换单元、解析单元和试题文本生成单元。其中，文档转换单元，用于判断试题文档的文档类型，并根据文档类型对试题文档进行格式转换，生成转换文档；解析单元，用于判断转换文档中各信息点对应的元素类型，并根据元素类型，按照对应的算法对各信息点进行解析，得到解析结果；试题文本生成单元，用于存储解析结果，生成试题文本。32.在一个实施例中，该装置还包括知识图谱构建模块，用于：根据学科培养大纲和教学课本，构建对应学科的知识图谱。33.在一个实施例中，知识图谱构建模块包括知识点构建单元、关联单元和知识图谱构建单元。其中，知识点构建单元，用于根据学科培养大纲和教学课本的标题或目录，提取知识点；关联单元，用于根据学科培养大纲和教学课本的内容，提取知识点之间的关联；知识图谱构建单元，用于根据知识点和知识点之间的关联，并结合专家领域知识，生成对应学科的知识图谱。34.在一个实施例中，该装置还包括知识点标注模型训练模块，用于：根据知识图谱，以题为单位标注试题文本，生成数据集，并根据数据集训练知识点标注模型。35.本技术第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述实施例中所述的方法的步骤。36.本技术第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述实施例中所述的方法的步骤。37.上述知识点标注方法、装置、电子设备和计算机存储介质，一方面，通过获取待标注的试题文本，对试题文本进行分词处理，生成词汇集，再将词汇集与对应的知识图谱进行匹配，并根据匹配结果生成第一标注标签集。另一方面，将试题文本输入知识点标注模型，并对试题文本进行向量化处理，再基于预设算法生成第二标注标签集。最后再按照预设的规则对第一标注标签集和第二标注标签集进行相似度匹配，生成知识点标注结果。整个知识点标注过程中，自动完成知识点标注，无需人工参与，有利于提高知识点标注过程的工作效率。附图说明38.图1为一个实施例中知识点标注方法的流程示意图；39.图2为另一个实施例中知识点标注方法的流程示意图；40.图3为一个实施例中对试题文挡进行预处理，生成试题文本的流程示意图；41.图4为一个实施例中对试题文档进行预处理的过程示意图；42.图5为一个实施例根据学科培养大纲和教学课本，构建对应学科的知识图谱的流程示意图；43.图6为一个实施例中知识点标注装置的结构框图；44.图7为另一个实施例中知识点标注装置的结构框图；45.图8为一个实施例中电子设备的内部结构图。具体实施方式46.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。47.在一个实施例中，如图1所示，提供了一种知识点标注方法，本实施例中以该方法应用于终端进行举例说明，可以理解，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的终端实现。本实施例中，知识点标注方法包括步骤s200至步骤s800。48.步骤s200：获取待标注的试题文本，对该试题文本进行分词处理，生成词汇集。49.其中，待标注的试题文本，可以是试卷或练习题等包含试题内容的文本。试题文本的学科，包括语文、数学、英语或政治等。总之，本技术实施例对试题文本的具体内容和学科类型不作限定。具体的，获取待标注的试题文本后，以题为单位，根据统计机器学习、词典规则等技术将试题文本划分成多个词语。可以理解，词汇集是指分词处理后得到的多个词语的集合。50.步骤s400：将词汇集与对应的知识图谱进行匹配，并根据匹配结果生成第一标注标签集。51.其中，知识图谱是指针对某一特定学科，或该特定学科内的某部分内容，构建的逻辑结构及体系构架。本技术中的知识图谱，是通过两个以上的知识点构建而成的。具体的，将词汇集内的词语，与知识图谱中的知识点进行关键词匹配以及文本相似度对比，就可以找到一个或多个知识点标签，生成第一标注标签集。52.步骤s600：将试题文本输入知识点标注模型，并对试题文本进行向量化处理，再基于预设算法生成第二标注标签集。53.具体的，将试题文本输入到知识点标注模型中，通过深度学习技术提取文本特征进行向量化表示，根据softmax算法将向量化的表示转换成当前试题属于每个知识点标签的概率分布，并将知识点的概率值高于预设阈值的知识点标签输出，生成第二标注标签集。54.步骤s800：通过文本相似度技术对第一标注标签集和第二标注标签集进行相似度匹配，提取相似度大于预设阈值的知识点标签，生成知识点标注结果。55.使用词向量及文本相似度技术，将第一标注标签集和第二标注标签集中的知识点标签进行对比，提取出相似度大于预设相似度阈值的知识点标签，并根据第一标注标签集加入隐藏的预备知识点，生成最终的标注结果。56.下面以预设相似度阈值为80％的情况，进行举例说明。57.例如，针对一个试题，第一标注标签集包括：长江经济带发展、生态环境、协同发展、绿色发展、辩证法、两点论、重点论、同一性、斗争性、主要矛盾、次要矛盾。第二标注标签集包括：主要矛盾、次要矛盾、辩证法。通过文本相似度技术融合，可以得出两部分中的“主要矛盾、次要矛盾、辩证法”是相同的。但“辩证法”和“同一性”或“斗争性”的相关性高，计算得出相似度为81％。结合第一标注标签集和第二标注标签集中相似度高于80％的知识点，就可以生成最终的知识点标注结果。58.在一个实施例中，文本相似度技术为余弦相似度技术。余弦相似度又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。具体的，将第一标注标签集和第二标注标签集进行向量化标识，并将向量根据坐标值，绘制到向量空间中，再计算向量间的余弦值，余弦值接近1，夹角趋于0°，表明两个向量越相似，余弦值接近于0，夹角趋于90°，表明两个向量越不相似。59.进一步的，在一个实施例中，生成知识点标注结果之前，还包括在构建好的知识图谱中，按照当前生成的知识点标签查找出隐藏的知识点，然后添加进去。60.上述知识点标注方法，一方面，通过获取待标注的试题文本，对试题文本进行分词处理，生成词汇集，再将词汇集与对应的知识图谱进行匹配，并根据匹配结果生成第一标注标签集。另一方面，将试题文本输入知识点标注模型，并对试题文本进行向量化处理，再基于预设算法生成第二标注标签集。最后再按照预设的规则对第一标注标签集和第二标注标签集进行相似度匹配，生成知识点标注结果。整个知识点标注过程中，自动完成知识点标注，无需人工参与，有利于提高知识点标注过程的工作效率，降低成本。另外，人工标注的主观性强，标注的准确率与标注人员的经验相关，本实施例中，无需人工干预自动完成知识点标注，可以消除人的主观因素的影响，提高知识点标注的准确性。61.在一个实施例中，请参考图2，步骤s200之前，还包括步骤s100：对试题文挡进行预处理，生成试题文本。62.具体的，试题文档中包括纯文本内容和非纯文本内容，其中非纯文本内容通常包括图片、公式和表格等。对试题文档进行预处理，将纯文本和非纯文本内容进行预处理，重新编码后生成试题文本。可以全面的提取试题文档中的有用信息，提高知识点标注的效率和准确性。63.在一个实施例中，请参考图3，步骤s100包括步骤s120至步骤s160。64.步骤s120：判断试题文档的文档类型，并根据文档类型对试题文档进行格式转换，生成转换文档。65.其中，试题文档的文档类型，是指试题文档的格式，如pdf(portabledocumentformat，可移植文档格式)、word或excel。具体的，先判断试题文档的文档类型，再根据文档类型对试题文档进行格式转换。请参考图4，提供了一种文档预处理过程。如图4所示，当试题文档是word文档时，将试题文档转换成mhtml格式。当试题文档不是word文档如pdf文档时，先将试题文档转换成word文档，再进一步转换成mhtml格式。由于mhtml格式可以将word文档中的图片、公式、表格等其他富文本信息存储到一个.mht文件中，并将word文档中的图片和公式自动转成imagebase64的图片编码格式。将文档转换为mhtml格式后，可以便于后续处理。66.步骤s140：判断转换文档中各信息点对应的元素类型，并根据元素类型，按照对应的算法对各信息点进行解析，得到解析结果。67.其中，元素类型是指文本、图片、公式或表格等。将转换后的文件输入到mhtml解析模块中，判断转换文档中各信息点对应的元素类型，并根据元素类型，按照对应的算法对各信息点进行解析，就可以得到解析结果。具体的，针对元素类型为文本、图片和表格的信息点，直接进入对应的解析模块中，得到解析结果。针对元素类型为公式的信息点，首先进行公式imagebase64内容编码的识别，再将公式内容转换成latex语言，然后再将latex语言转换成文字描述，得到解析结果。例如，“\int”用“积分”替换，“\vec”用“向量”替换。由于公式中通常包含知识点，通过替换后，可以更加全面的提取试题中的知识点。68.步骤s160：存储解析结果，生成试题文本。69.将解析结果存储至数据库，就得到了待处理的试题文本。70.上述实施例中，先对试题文档进行预处理，生成试题文本，由于试题文档中的非文字内容也会包含知识点，通过预处理，有利于更加全面的提取试题中的知识点，提高知识点标注方法的准确性。71.在一个实施例中，请参考图2，步骤s400之前，还包括步骤s300：根据学科培养大纲和教学课本，构建对应学科的知识图谱。72.其中，步骤s300可以在步骤s100之前、之后或与步骤s100同时进行，同样的，步骤s300也可以在步骤s200之前、之后或与步骤s100同时进行。73.如上文所述，知识图谱是指针对某一特定学科，或该特定学科内的某部分内容，构建的逻辑结构及体系构架。具体的，根据学科培养大纲、教学课本和专业领域知识，可以发现学科中的知识点具有层次包含和相互关联的特性，构建对应学科的知识图谱。74.在一个实施例中，请参考图5，步骤s300包括步骤s320至步骤s360。75.步骤s320：根据学科培养大纲和教学课本的标题或目录，提取知识点。76.可以理解，学科培养大纲和教学课本中包括多种层次的标题或目录，相应的，根据不同层次的标题或目录，就可以构建不同层次的知识点。具体的，采用自顶向下的设计模式，从学科培养大纲及教学课本中获取知识点：将培养大纲和教学课本中的第一层标题或一级目录中的内容提取为大知识点；将培养大纲和教学课本中的第二层标题或二级目录中的内容提取为中知识点；将培养大纲和教学课本中的第三层标题或三级目录中的内容提取为小知识点。77.步骤s340：根据学科培养大纲和教学课本的内容，提取知识点之间的关联。78.具体的，不同层次的知识点之间，是包含与被包含的关系。例如，一个大知识点包含很多中知识点，一个中知识点包含多个小知识点。针对同一层次知识点，根据学科培养大纲和教学课本的内容，可以提取知识点之间的联系。例如，知识点a的学习需要先掌握知识点b，那么知识点b就是知识点a的预备知识点，此时，使用一个有向箭头由知识点a指向知识点b，并标识“预备”字样。另外，只有知识点之间有较强的关联才能标记“预备”，例如：学科培养大纲及教学课本中对知识点a的描述中，出现了“需要提前掌握b”、“已知b”或“根据b”等描述，而内容b对应知识点b，则知识点b为知识点a的“预备”知识点。79.步骤s360：根据知识点和知识点之间的关联，并结合专家领域知识，生成对应学科的知识图谱。80.具体的，专家领域知识包括相关的知识图谱和学科知识词典。结合专家领域知识，按照设定的检查规则，就可以检查步骤s320中提取的知识点的内容，以及步骤s340中构建的知识点之间的关系。再根据检查结果对知识点和知识点之间的关系进行修正，就可以生成对应学科的知识图谱。81.上述实施例中，根据学科培养大纲和教学课本，按照自顶向下的设计模式，提取知识点，并构建知识点之间的关联，再结合专家领域知识进行修正，生成知识图谱，有利于提高知识图谱的准确度，进而提高标注结果的可靠性。82.在一个实施例中，请继续参考图2，步骤s300之后，步骤s600之前，还包括步骤s500。其中，步骤s500可以在步骤s200之前、之后或与步骤s200同时进行，同样的，步骤s500也可以在步骤s400之前、之后或与步骤s400同时进行。83.步骤s500：根据知识图谱，以题为单位标注试题文本，生成数据集，并根据数据集训练知识点标注模型。84.具体的，根据知识图谱的内容，以最小层次的知识点为标签，对试题文本的各题进行标注，生成数据集，再将数据集输入到知识点标注模型中进行训练。可以理解，模型预测的准确率与数据集中试题的数量正相关。因此，在模型预测阶段，知识点标注结果后，可以将包含标注内容的试题文本存储至数据集中，增加数据集中试题的数量，进一步提高知识点标注结果的准确率。85.应该理解的是，虽然上述实施例中涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例中涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。86.在一个实施例中，如图6所示，提供了一种知识点标注装置，包括：分词模块200、第一标注标签集生成模块400、第二标注标签集生成模块600和知识点标注结果确定模块800。其中：分词模块200，用于获取待标注的试题文本，对试题文本进行分词处理，生成词汇集；第一标注标签集生成模块400，用于将词汇集与对应的知识图谱进行匹配，并根据匹配结果生成第一标注标签集；第二标注标签集生成模块600，用于将试题文本输入知识点标注模型，并对试题文本进行向量化处理，再基于预设算法生成第二标注标签集；知识点标注结果确定模块800，用于通过文本相似度技术对第一标注标签集和第二标注标签集进行相似度匹配，提取相似度大于预设阈值的知识点标签，生成知识点标注结果。87.在一个实施例中，请参考图7，该装置还包括预处理模块100，用于：对试题文挡进行预处理，生成试题文本。88.在一个实施例中，预处理模块100包括文档转换单元、解析单元和试题文本生成单元。其中，文档转换单元，用于判断试题文档的文档类型，并根据文档类型对试题文档进行格式转换，生成转换文档；解析单元，用于判断转换文档中各信息点对应的元素类型，并根据元素类型，按照对应的算法对各信息点进行解析，得到解析结果；试题文本生成单元，用于存储解析结果，生成试题文本。89.在一个实施例中，请继续参考图7，该装置还包括知识图谱构建模块300，用于：根据学科培养大纲和教学课本，构建对应学科的知识图谱。90.在一个实施例中，知识图谱构建模块300包括知识点构建单元、关联单元和知识图谱构建单元。其中，知识点构建单元，用于根据学科培养大纲和教学课本的标题或目录，提取知识点；关联单元，用于根据学科培养大纲和教学课本的内容，提取知识点之间的关联；知识图谱构建单元，用于根据知识点和知识点之间的关联，并结合专家领域知识，生成对应学科的知识图谱。91.在一个实施例中，请继续参考图7，该装置还包括知识点标注模型训练模块500，用于：根据知识图谱，以题为单位标注试题文本，生成数据集，并根据数据集训练知识点标注模型。92.关于知识点标注装置的具体限定可以参见上文中对于知识点标注方法的限定，在此不再赘述。上述知识点标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。93.在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种知识点标注方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。94.本领域技术人员可以理解，图8中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。95.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(staticrandomaccessmemory，sram)或动态随机存取存储器(dynamicrandomaccessmemory，dram)等。96.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。97.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种共享储物管理存取系统、方法及装置

知识点标注方法、装置、电子设备和计算机存储介质与流程

相关文献

最热文献