一种视频知识点抽取方法及装置与流程

2022-02-19 02:14:21 来源：中国专利 TAG：

1.本发明属于自然语言处理技术和教育数据挖掘相结合的领域，更具体地，涉及一种视频知识点抽取方法及装置。

背景技术：

2.信息技术的快速发展下，越来越多的教学资源以视频形式存储在网络上。然而在海量教学视频资源中快速寻找学习者感兴趣的知识点片段成为当下亟待的问题。教学视频由画面(场景)、字幕和声音三部分组成。一般而言，教学视频知识点片段可通过画面和字幕两种方法抽取。但画面场景信息数据量大，且记录大量未经抽象的现实场景信息；字幕作为人的语言，数据量小，且具有高度凝练的抽象意义，为教学视频知识点抽取提供了新的切入点；
3.随着自然语言处理技术的发展，bert(bidirectional encoder representation from transformers)作为目前最优秀的预训练模型，可以提供更可靠的句向量编码，使得将字幕语义作为视频分割的主要依据成为可能。
4.现有的方法往往以画面场景为主，以字幕为辅对视频进行分割，此类视频分割方法通过计算相邻两帧画面的相似程度判断画面是否为连续的镜头，将视频分割为多个连续的镜头，再根据镜头的字幕主题将多个镜头进行合并，完成视频的分割。此类方法适用于新闻视频，以及其它画面经过严格组织视频。但教学视频的画面组织形式复杂多样，一个知识点中可能穿插老师的叙述，ppt的切换，教学动画的播放等，此类镜头转换全凭老师个人风格把握，镜头转换无明显规律，镜头转换频次高。而传统视频分割方法多以视频画面转换为主要分割依据，该方法可能割裂单个知识点，在处理画面、镜头复杂的教学视频时知识点抽取效果并不理想。

技术实现要素：

5.针对现有技术的缺陷，本发明的目的在于提供一种视频知识点抽取方法及装置，旨在解决现有的视频分割技术是以画面镜头为主导的分割技术，对教学视频进行提取时容易发生知识点割裂情况，导致对教学视频知识点抽取效果不理想的问题。
6.为实现上述目的，一方面，本发明提供了一种视频知识点抽取方法，包括以下步骤：
7.将字幕顺次输入至bert模型进行编码生成语义向量；
8.计算任意两个语义向量之间的余弦相似度，与字幕索引构建成语义相似度表；
9.将语义相似度表线性转换为可视的二值图；
10.使用边界检测方法找到二值图对角线上的公共下边界；以垂直于二值图对角线翻转二值图，找出公共上边界；
11.将公共上边界与公共下边界两两最近组合，给出字幕分割意见，提取视频知识点。
12.优选地，生成语义向量的方法，具体包括以下步骤：
13.将字幕输入至bert模型中，抽取bert模型隐层中的第一层和最后一层字向量求和，作为bert模型输出的字向量；
14.将每条字幕的所有字向量相加求平均，获取语义向量。
15.优选地，将语义相似度表线性转换为二值图的方法，包括以下步骤：
16.使用preprocessing.minmaxscaler()方法，将余弦相似度值域(
‑
1,1)线性转换为二维灰度图；其中，二维灰度图中的亮度根据余弦相似度的大小确定；
17.将二维灰度图展开成一维数组后，对数组的像素值升值排序，根据预设的二值比例，寻找二维灰度图的分界点；
18.将二维灰度图中各位置的像素值与分界点比较，当二维灰度图当前位置的像素值大于分界点的像素值，则当前位置的像素值设为0，否则，当前位置的像素值设为255，形成二值图。
19.优选地，采用边界检测方法寻找公共下边界的方法，包括以下步骤：
20.将二值图中对角线上的各点作为锚点和结束点，且结束点始终在锚点的右下方，锚点与结束点的横纵坐标围成的正方形为裁剪框；
21.对各锚点遍历结束点所有可能的位置，形成不同的裁剪框；
22.采用评估方法对裁剪框进行评分，筛选出各锚点对应的最佳结束点；
23.根据最佳结束点的出现次数，选择二值图的公共下边界。
24.优选地，获取最佳结束点的评估方法，包括以下步骤：
25.对裁剪框内所有像素值相加，计算裁剪框内像素值的平均值；
26.根据裁剪框区域的大小设置奖励值；
27.使用sklearn.preprocessing.standardscaler()方法，将平均值与奖励值分别进行标准正态分布处理；
28.将各裁剪框对应的经过标准正态分布处理后的平均值与奖励值相加，获取评价得分，得分最高的裁剪框对应结束点为最佳结束点。
29.优选地，根据最佳结束点获取二值图公共下边界的方法，包括以下步骤：
30.使用python中dict容器记录end[n]数组中各最佳结束点出现的次数；其中，dict中的一个key对应end[n]数组中的一个最佳结束点位置；value为end[n]数组中最佳结束点位置出现的次数；end[n]数组为各最佳结束点所在位置构成的数组；
[0031]
对dict的value值进行降序排列，选出value值最大的预设个数的key，筛选出的key值对应最佳结束点称为二值图的预设个数的公共下边界。
[0032]
另一方面，本发明提供了一种视频知识点抽取装置，包括：
[0033]
语义向量生成模块，用于将字幕顺次输入至bert模型进行编码生成语义向量；
[0034]
语义相似度表构建模块，用于计算任意两个语义向量之间的余弦相似度，与字幕索引构建成语义相似度表；
[0035]
二值图构建模块，用于将语义相似度表线性转换为可视的二值图；
[0036]
公共上下边界筛选模块，用于使用边界检测方法找到二值图对角线上的公共下边界；以垂直于二值图对角线翻转二值图，找出公共上边界；其中，二值图对角线为二值图左上第一个位置到右下最后一个位置之间的连线；
[0037]
知识点提取模块，用于将公共上边界与公共下边界两两最近组合，给出字幕分割
意见，提取视频知识点。
[0038]
优选地，语义向量生成模块包括：
[0039]
字向量生成单元，用于将字幕输入至所述bert模型中，抽取所述bert模型隐层中的第一层和最后一层字向量求和，作为所述bert模型输出的字向量；
[0040]
语义向量生成单元，用于将每条字幕的所有字向量相加求平均，获取每条字幕对应的语义向量。
[0041]
优选地，二值图构建模块包括：
[0042]
二维灰度图构建单元，用于使用preprocessing.minmaxscaler()方法，将语义相似度表中的余弦相似度值域(
‑
1,1)线性转换为二维灰度图；其中，二维灰度图中的亮度根据余弦相似度的大小确定；
[0043]
分界点寻找单元，用于将二维灰度图展开成一维数组后，对数组的像素值升值排序，根据预设的二值比例，寻找二维灰度图的分界点；
[0044]
二值图生成单元，用于将二维灰度图中各位置的像素值与分界点的像素值比较，当二维灰度图当前位置的像素值大于分界点的像素值，则当前位置的像素值设为0，否则，当前位置的像素值设为255，形成二值图。
[0045]
优选地，公共上下边界筛选模块包括公共上边界筛选单元和公共下边界筛选单元：
[0046]
公共上边界筛选单元和公共下边界筛选单元的结构相同，且执行工作的过程一致；但公共下边界筛选单元的输入为二值图；公共上边界筛选单元的输入为翻转后的二值图；二值图的翻转方法为以垂直于二值图对角线翻转；
[0047]
公共下边界筛选单元包括：裁剪框定义器、裁剪框生成器、最佳结束点筛选器和公共下边界筛选器；
[0048]
裁剪框定义器用于将所述二值图中对角线上的各点作为锚点和结束点，且结束点始终在所述锚点的右下方，锚点与所述结束点的横纵坐标围成的正方形为裁剪框；
[0049]
裁剪框生成器用于对各锚点遍历所述结束点所有可能的位置，形成不同的裁剪框；
[0050]
最佳结束点筛选器用于采用评估方法对所述裁剪框进行评分，筛选出各锚点对应的最佳结束点；
[0051]
公共下边界选择器用于根据最佳结束点的出现次数，选择二值图的公共下边界。
[0052]
总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：
[0053]
教学类视频与一般视频不同，往往包含教师准备的ppt与演示动画等内容，其场景多变，画面组成要素复杂，传统以画面场景转换为视频分割依据，往往会分裂教师知识的完整性。本发明采用字幕语义内容为核心对教学类视频进行知识点抽取，使用bert模型对自然语言字编码技术，可以有效地提出教学视频中高度凝练的知识点；为了让基于语义向量生成的余弦相似度的规律可视化，将语义相似度表转换为二值图，采用边界检测方法可以对视频的知识点进行提取。解决了现有画面组织形式复杂视频的分割困难问题。
附图说明
[0054]
图1是本发明实施例提供的视频知识点抽取方法的流程示意图；
[0055]
图2是本发明实施例提供的孪生网络结构调整bert模型的权重示意图；
[0056]
图3是本发明实施例提供的采用bert模型生成余弦相似度流程图；
[0057]
图4是本发明实施例提供的通过余弦相似度转换成的语义相似度表；
[0058]
图5是本发明实施例提供的语义相似度表转换为二值图的流程图；
[0059]
图6是本发明实施例提供的边界检测方法流程图；
[0060]
图7是本发明实施例提供的公共上下边界表。
具体实施方式
[0061]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0062]
本发明利用字幕信息对教学类视频进行知识点抽取，达到较高精度的教学视频知识点抽取效果。教学视频中的字幕一般都是教师讲课时对应的文字，其中包含起承转合等人类自然表达习惯，例如知识点的引入，知识点与知识点的衔接，与学生的沟通等字幕内容。字幕包含三方面属性，有文本信息、字幕的开始时间和结束时间；目前大部分视频字幕以外挂文件的形式随视频一起发布便于获得，对于.mp4和.rmvb这两种视频格式具有内嵌型字幕，需要使用文字识别技术提取字幕；字幕不仅包含视频开始与结束的时间节点，还能体现出教师授课时对知识点的描述；基于此，本发明通过bert对字幕语义识别对比，进而实现对教学视频知识点的准确、快速抽取。
[0063]
一方面，本发明提供了一种视频知识点抽取方法，包括以下步骤：
[0064]
将字幕顺次输入至bert模型进行编码生成语义向量；
[0065]
计算任意两个语义向量之间的余弦相似度，与字幕索引构建成语义相似度表；
[0066]
将语义相似度表线性转换为可视的二值图；
[0067]
使用边界检测方法找到二值图对角线上的公共下边界；以垂直于二值图对角线翻转二值图，找出公共上边界；
[0068]
将公共上边界与公共下边界两两最近组合，给出字幕分割意见，提取视频知识点。
[0069]
优选地，生成语义向量的方法，具体包括以下步骤：
[0070]
将字幕输入至bert模型中，抽取bert模型隐层中的第一层和最后一层字向量求和，作为bert模型输出的字向量；
[0071]
将每条字幕的所有字向量相加求平均，获取语义向量。
[0072]
优选地，将语义相似度表线性转换为二值图的方法，包括以下步骤：
[0073]
使用preprocessing.minmaxscaler()方法，将余弦相似度值域(
‑
1,1)线性转换为二维灰度图；其中，二维灰度图中的亮度根据余弦相似度的大小确定；
[0074]
将二维灰度图展开成一维数组后，对数组的像素值升值排序，根据预设的二值比例，寻找二维灰度图的分界点；
[0075]
将二维灰度图中各位置的像素值与分界点比较，当二维灰度图当前位置的像素值大于分界点的像素值，则当前位置的像素值设为0，否则，当前位置的像素值设为255，形成
二值图。
[0076]
优选地，采用边界检测方法寻找公共下边界的方法，包括以下步骤：
[0077]
将二值图中对角线上的各点作为锚点和结束点，且结束点始终在锚点的右下方，锚点与结束点的横纵坐标围成的正方形为裁剪框；
[0078]
对各锚点遍历结束点所有可能的位置，形成不同的裁剪框；
[0079]
采用评估方法对裁剪框进行评分，筛选出各锚点对应的最佳结束点；
[0080]
根据最佳结束点的出现次数，选择二值图的公共下边界。
[0081]
优选地，获取最佳结束点的评估方法，包括以下步骤：
[0082]
对裁剪框内所有像素值相加，计算裁剪框内像素值的平均值；
[0083]
根据裁剪框区域的大小设置奖励值；
[0084]
使用sklearn.preprocessing.standardscaler()方法，将平均值与奖励值分别进行标准正态分布处理；
[0085]
将各裁剪框对应的经过标准正态分布处理后的平均值与奖励值相加，获取评价得分，得分最高的裁剪框对应结束点为最佳结束点。
[0086]
优选地，根据最佳结束点获取二值图公共下边界的方法，包括以下步骤：
[0087]
使用python中dict容器记录end[n]数组中各最佳结束点出现的次数；其中，dict中的一个key对应end[n]数组中的一个最佳结束点位置；value为end[n]数组中最佳结束点位置出现的次数；end[n]数组为各最佳结束点所在位置构成的数组；
[0088]
对dict的value值进行降序排列，选出value值最大的预设个数的key，筛选出的key值对应最佳结束点称为二值图的预设个数的公共下边界。
[0089]
另一方面，本发明提供了一种视频知识点抽取装置，包括：
[0090]
语义向量生成模块，用于将字幕顺次输入至bert模型进行编码生成语义向量；
[0091]
语义相似度表构建模块，用于计算任意两个语义向量之间的余弦相似度，与字幕索引构建成语义相似度表；
[0092]
二值图构建模块，用于将语义相似度表线性转换为可视的二值图；
[0093]
公共上下边界筛选模块，用于使用边界检测方法找到二值图对角线上的公共下边界；以垂直于二值图对角线翻转二值图，找出公共上边界；其中，二值图对角线为二值图左上第一个位置到右下最后一个位置之间的连线；
[0094]
知识点提取模块，用于将公共上边界与公共下边界两两最近组合，给出字幕分割意见，提取视频知识点。
[0095]
优选地，语义向量生成模块包括：
[0096]
字向量生成单元，用于将字幕输入至所述bert模型中，抽取所述bert模型隐层中的第一层和最后一层字向量求和，作为所述bert模型输出的字向量；
[0097]
语义向量生成单元，用于将每条字幕的所有字向量相加求平均，获取每条字幕对应的语义向量。
[0098]
优选地，二值图构建模块包括：
[0099]
二维灰度图构建单元，用于使用preprocessing.minmaxscaler()方法，将语义相似度表中的余弦相似度值域(
‑
1,1)线性转换为二维灰度图；其中，二维灰度图中的亮度根据余弦相似度的大小确定；
[0100]
分界点寻找单元，用于将二维灰度图展开成一维数组后，对数组的像素值升值排序，根据预设的二值比例，寻找二维灰度图的分界点；
[0101]
二值图生成单元，用于将二维灰度图中各位置的像素值与分界点的像素值比较，当二维灰度图当前位置的像素值大于分界点的像素值，则当前位置设为0，否则，当前位置设为255，形成二值图。
[0102]
优选地，公共上下边界筛选模块包括公共上边界筛选单元和公共下边界筛选单元：
[0103]
公共上边界筛选单元和公共下边界筛选单元的结构相同，且执行工作的过程一致；但公共下边界筛选单元的输入为二值图；公共上边界筛选单元的输入为翻转后的二值图；二值图的翻转方法为以垂直于二值图对角线翻转；
[0104]
公共下边界筛选单元包括：裁剪框定义器、裁剪框生成器、最佳结束点筛选器和公共下边界筛选器；
[0105]
裁剪框定义器用于将所述二值图中对角线上的各点作为锚点和结束点，且结束点始终在所述锚点的右下方，锚点与所述结束点的横纵坐标围成的正方形为裁剪框；
[0106]
裁剪框生成器用于对各锚点遍历所述结束点所有可能的位置，形成不同的裁剪框；
[0107]
最佳结束点筛选器用于采用评估方法对所述裁剪框进行评分，筛选出各锚点对应的最佳结束点；
[0108]
公共下边界选择器用于根据最佳结束点的出现次数，选择二值图的公共下边界。
[0109]
实施例
[0110]
为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。
[0111]
1.总体流程
[0112]
图1是本实施例提供的一种基于bert和字幕语义的教学视频知识点抽取方法的总体流程框图，具体包括以下步骤：
[0113]
(1)使用中文语义相似度匹配数据集与孪生网络结构微调bert模型；
[0114]
(2)使用微调后的bert模型对字幕进行编码生成语义向量，语义向量标准化处理后，两两计算余弦相似度；
[0115]
(3)按字幕索引和余弦相似度组成语义相似度表；
[0116]
(4)将语义相似度表线性转换为可视的语义相似度灰度图，再对灰度图进行二值化处理为二值图；
[0117]
(5)使用边界检测方法找到二值图对角线上的公共下边界；翻转二值图，找到公共上边界；
[0118]
(6)上、下边界两两最近组合，给出字幕分割意见，提取教学视频知识点。
[0119]
下面具体介绍
[0120]
2.微调bert模型
[0121]
bert模型作为当前性能最优的特征提取模型，在自然语言处理领域的各项任务中有着优异的成绩；bert模型使用自编码技术在大规模无监督文本中可以学习到较好的特征，但是在文本语义相似度计算领域bert仍有提升的空间。基于上述原因，本发明采用孪生
网络结构与中文语义相似度数据集对bert进行微调训练以取得更准确的语义特征向量。具体如下：
[0122]
将bert模型搭建成如图2所示的结构；中文文本相似度匹配数据的结构为：第一个句子(sent1)、第二个句子(sent2)和分类标签(label)；将第一个句子和第二个句子分两次输入同一个bert模型中依次生成两个语义向量；多个数据构成中文文本相似度匹配数据集；数据的结构以chinese snli multinli数据为例，第一个句子与第二个句子间存在三种关系，分别为蕴含(entailment)、中立(neutral)和矛盾(contradiction)；例如如下：
[0123]
sent1：一个小男孩在秋千上玩；sent2：小男孩玩秋千；label：entailment；
[0124]
sent1：一名身穿绿色帽子、绿色衬衫和卡其布裤的男子正在森林大火上做饭；sent2：一个男人正在野营；label：neutral；
[0125]
sent1：两个年轻人用泡沫塑料杯子喝酒时做鬼脸；sent2：两个人在跳千斤顶；label：contradiction；
[0126]
具体地，生成语义向量的具体步骤包括：
[0127]
(2.1)将若干句子输入至bert模型中，抽取bert模型隐层中的第一层和最后一层字向量求和，作为bert输出的字向量；
[0128]
(2.2)采用词平均法获取句子的语义向量；其中词平均法为将一个句子的所有字向量相加求平均值；
[0129]
(2.3)将数据集中成对的语义向量进行拼接，输入同一个全连接层后使用softmax函数；具体为：
[0130][0131]
其中，t为数据集类别数；a
j
为全连接层的输出值；s
j
为样本预测为第j类的概率值；
[0132]
(2.4)利用交叉熵损失函数反向传播计算softmax函数的权重梯度，进而更新bert权重以实现对bert的微调；
[0133]
如图2所示的双塔结构实际共用同一个bert权重，成为孪生网络结构；交叉熵损失函数如下：
[0134][0135]
其中，y
j
为样本第j类的真实概率；样本是第j类时y
j
等于1，否则等于0；
[0136]
使用交叉熵损失函数反向传播更新bert的参数权重；经过微调的bert能产生更准确的文本语义向量，在后续计算字幕相似度时提供更好的表现；
[0137]
3.如图3所示，使用bert生成语义余弦相似度
[0138]
3.1bert处理字幕生成语义向量
[0139]
将n条字幕按顺序全部输入bert中，对应生成n条语义向量，其中，语义向量保存在数组vectors＝[n，768]中；n为字幕数量，768为一条语义向量的特征数；
[0140]
3.2语义向量标准化处理
[0141]
使用sklearn.preprocessing.standardscaler()方法将语义向量标准化，其中，
以所有语义向量中的同一特征数据为单元，对所有语义向量中的同一特征数据进行计算均值和方差，即均值和方差按数组vectors＝[n，768]的列进行求算；该步对语义向量的特征数据进行标准化，标准化的过程为：采用语义向量的特征数据减去均值然后除以方差(或标准差)，标准化方法处理后的特征数据符合标准正态分布，即均值为0，标准差为1；其中，stdvectors为标准化处理后的语义向量，stdvectors满足以下公式：
[0142]
stdvectors＝(vectors
‑
μ)/σ
[0143]
3.3向量间余弦相似度
[0144]
从stdvectors中任意取出两个语义向量记为a和b，cos(a,b)是余弦相似度；cos(a,b)满足以下公式：
[0145][0146]
其中，i为特征数的编号；n为一条语义向量的特征数；
[0147]
4.基于字幕向量的余弦相似度生成语义相似度表
[0148]
按上一步方法计算获取的所有字幕语义向量间的余弦相似度按图4的形式组织成一张语义相似度表；表中第x行第y列中的值即为索引分别为x，y字幕的余弦相似度；如图4所示，语义相似度表关于对角线轴对称，且在对角线上x＝y两个向量相同，余弦相似度为1；
[0149]
5.如图5所示，语义相似度表转换为二值图
[0150]
通常而言仅30分钟的教学视频就可以包含400余条字幕，语义相似度表的大小为400
×
400，难以在如此大的表格中发现规律，因此，将语义相似度表转换为图像，cos值转换成像素点亮度，在宏观上凭肉眼即可发现字幕的相似度规律；
[0151]
5.1语义相似度表转换为二维灰度图
[0152]
使用preprocessing.minmaxscaler()方法，将余弦相似度值域(
‑
1,1)线性转换到(0,255)上；记x为语义相似度表；x.min为表中最小值；x.max为表中最大值；img表示灰度图，则img满足以下公式：
[0153][0154]
5.2找到灰度图分界点
[0155]
不同的教学视频产生的灰度图img的亮度不同，所以需要动态地为每个灰度图产生阈值；具体如下：
[0156]
将二维灰度图展开成一维数组；
[0157]
对数组的像素值升值排序img.sort()；
[0158]
找到索引排在70％的像素值img[n*n*0.7]，此像素值即为二维灰度图的分界点；
[0159]
通过此分界点将二维灰度图转换为70％为白色，30％为黑色的灰度图；
[0160]
这一步骤保证了生成的二维二值图的稳定性，直接决定了边界检测方法是否有效；
[0161]
5.3依据分界点将灰度图转换为二值图
[0162]
遍历整个二维的灰度图img，将像素值大于分界点的位置设为0代表黑色，其他像素值设为255代表白色；二值图记为binary_img；
[0163]
6.如图6所示，边界检测方法寻找二值图的公共上、下边界
[0164]
教师的语言字幕通常具有连续性，距离相近的句子间的余弦相似度可能更大；由于语义相似度表的特有组织形式，在二值图binary_img中表现为对角线上会出现大小不等的黑色像素块，这些黑色像素块代表这语义高度凝聚知识点；识别分割这些褐色像素块就能提取字幕中的知识点，具体步骤如下：
[0165]
6.1确定一个锚点pos(i)的最佳结束点end(i)
[0166]
锚点和结束点始终在对角线上且结束点始终在锚点右下方；锚点与结束点的横纵坐标围成的正方形为裁剪框，裁剪框的边长记为k；裁剪框需满足以下三条性质：1.裁剪框内的颜色越黑越好，即文本语义越凝结越好；2.裁剪框越大越好；3.随着裁剪框的扩张可以适当牺牲语义凝结度；
[0167]
确定一个锚点(i，i)后，遍历结束点end的所有可能位置(i，i)～(n，n)，通过评估方法选出pos(i)的最佳结束点位置，记为end(i)；
[0168]
评估方法通过锚点与结束点围成的裁剪框进行评分，选出最佳结束点end(i)；
[0169]
其中，最佳结束点end(i)的评估方法具体如下：
[0170]
(6.1.1)裁剪框内设黑色像素值为1，白色像素值为0；将裁剪框内所有值相加记为σsum；evg为裁剪框内的平均值，evg满足下式：
[0171][0172]
(6.1.2)为避免裁剪框截取过小的区域，设置奖励值reward，裁剪框越大奖励分数越高；reward满足如下式：
[0173]
reward＝log(k/10)
[0174]
(6.1.3)评价得分score满足如下式：
[0175]
score＝evg reward
[0176]
(6.1.4)reward在score中比重过大时奖励分数偏大，评选出的最佳裁剪框过大；reward比重过小时，奖励分数偏小，评选出的裁剪框过小；为了消除evg与reward因数值大小对最终评分产生影响，使用sklearn.preprocessing.standardscaler()方法，将evg序列与reward序列分别处理成符合标准正态分布的数据，μ为均值，σ为方差，最终评价得分stdscore为：
[0177][0178]
6.2遍历所有锚点pos
[0179]
使用步骤6.1的方法遍历所有锚点pos，使用数组end[n]记录所有最佳结束点的位置；
[0180]
6.3寻找锚点的公共下边界
[0181]
很多不同锚点可以对应同一最佳结束点，意味着该结束点有明显的分界作用，在二值图binary_img中起有效分割作用，且由于结束点end始终在锚点pos的右下方，可以称该点的横纵坐标为多个锚点的下边界；
[0182]
寻找公共下边界有如下几个步骤：
[0183]
(6.3.1)使用python中dict容器，dict中的key为end[n]数组中某个值，value为
end[n]数组中该值出现的次数；遍历end[n]数组，若dict中没有某个key，则添加key，value设为1；若dict中已经存在该key，则value＝value 1；
[0184]
(6.3.2)对dict的value值进行降序排列，选出value值最大的m个key，m个key对应的最佳结束点称为该二值图的m个公共下边界；
[0185]
6.4翻转二值图寻找锚点的公共上边界
[0186]
遍历二值图binary_img，使用线性变换求出翻转二值图，其中，线性变换满足下式：
[0187]
rev_img[x,y]＝binary_img[n
‑1‑
x,n
‑1‑
y]x,y∈[0,n
‑
1]
[0188]
其中，rev_img是二值图binary_img的翻转二值图；rev_img的公共下边界就是binary_img的公共上边界，因此将rev_img按照上述方法寻找到的公共下边界记为x，f(x)是binary_img的公共上边界，f(x)满足以下公式：
[0189]
f(x)＝n
‑1‑
x
[0190]
7.基于上、下边界分割教学视频提取知识点
[0191]
图7所示第一行记录上边界索引，第二行记录下边界索引；根据上、下边界提取知识点的方法如下：
[0192]
上边界在所有下边界中从左到右搜索第一个大于自身的下边界，形成一个上下界组合；
[0193]
下边界在所有上边界中从右到左搜索第一个小于自身的上边界，形成一个上下界组合；
[0194]
剔除重复的上下界组合，最后保留的上下界组合就是一个个语义完整的字幕段；通过第一条字幕的开始时间与最后一条字幕的结束时间即可对教学视频进行分割，完成知识点的提取；
[0195]
少数情况下两个字幕段a和b之间会存在包含关系，包含关系指字幕段a是字幕段b的子集，字幕段a通常包含更为凝练的知识点，字幕段b则带有额外信息；
[0196]
这种包含关系可分为两类：
[0197]
1.共用上边界，下边界不同；此类情况表现为字幕段b在末尾包含a所不具备的额外信息，此类可直接使用字幕段a，它通常包含着更为凝练的知识；
[0198]
2.上边界不同，共用下边界；此类情况表现为字幕段b在开头拥有部分引入信息，用以衔接a中知识点，此类情况则需根据用户需要自行取舍，若用户熟悉研究问题则可直接使用字幕段a，若用户需要知识点引入信息，则可以使用字幕段b；
[0199]
本发明使用bert模型作为编码器，将字幕文本转换为特征向量，使用余弦相似度计算句子之间的相关性，最后根据句子相关性设计了边界检测方法，从而实现了教学视频的知识点提取。与传统方法不同，本发明以字幕语义为依据对视频进行划分，能有效避免因画面、镜头改变而造成的知识点错误分割；同时，视频中的话题发生转变时，边界检测方法能对其进行感知并找出分界点；本发明在处理画面、镜头复杂的视频时相较于传统方法，能有效提取视频中的知识点。
[0200]
本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种主动控制影响特征的推荐方法与流程

一种视频知识点抽取方法及装置与流程

相关文献

最热文献