虚拟文本识别方法、装置、介质及电子设备与流程

2022-07-30 22:24:21 来源：中国专利 TAG：

1.本公开涉及文本识别技术领域，具体地，涉及一种虚拟文本识别方法、装置、介质及电子设备。

背景技术：

2.文字作为普遍的交流工具，在人机交互的系统中扮演着越来越重要的角色，文字输入的方式多种多样，例如通过键盘进行文字输入，也可通过触摸屏和手写板等进行文字输入，但这些文字输入方式都有各自应用场景的限制，例如，键盘受到键盘大小、按键数量以及键盘所在物理位置的限制，用户使用时必须将手放在键盘上才能实现文字输入，特别是教师在讲课的过程中，这种输入方式不够便捷。
3.目前，通过手指在空中书写虚拟文字，摄像头可实时采集手指的运动轨迹，根据轨迹识别文字，这种书写方式不受区域的限制，相比其他输入方式更加灵活便捷。但是相关技术中对空中手写文字的识别方式也存在很多不足，下面进行举例说明。
4.例如，相关技术中使用传感器采集动作数据，或者使用传感器笔来进行空中手写数据采集，或者使用红外设备辅助记录书写轨迹，这些方式需要额外的辅助设备，包括但不限于定位设备、陀螺仪、红外发光装置等来辅助记录手指移动轨迹，额外增加了硬件成本，且限制了空中书写的灵活性。再例如，空中书写难以判断书写过程中的提笔和落笔，因而难以区分不同字符之间的断笔，因此相关技术中只能完成单字的识别，不能识别连续的文本行。此外，相关技术中的空中手写文字识别方式中，也有采用开始手势(如手掌)和结束手势(如拳头)来进行轨迹的切分和截取，其中文本行识别过程采用的是先基于动态规划算法对字符串进行切分，再对单个文字的笔画进行识别，由于切分过程可能有错，因而还需对切分过程进行一元删除评价和切分最优路径的辅助，由于轨迹的开始和结束需要特殊手势对应，流程有冗余部分，而且将每个字符切分出来之后使用单个字符分类器进行识别，对连续字符的切分一直是影响精度的难点问题，在没有提笔动作的手势书写中更是会限制字符切分的精度，进而限制最终识别字符串的精度。

技术实现要素：

5.本公开的目的是提供一种虚拟文本识别方法、装置、介质及电子设备，高效地解决虚拟文本的识别问题。
6.为了实现上述目的，第一方面，本公开提供一种虚拟文本识别方法，所述方法包括：
7.获取待检测视频；
8.将所述待检测视频输入至检测模型中，得到所述检测模型输出的检测结果，其中，所述检测模型用于对所述待检测视频中的图像帧进行检测，所述检测结果包括所述图像帧中是否存在预设书写手势，以及所述图像帧中存在所述预设书写手势的情况下、书写关键点在所述图像帧中的位置信息；
9.根据所述检测结果，确定初始连续书写轨迹信息，其中，所述初始连续书写轨迹信息包括各个书写关键点分别在对应指定图像帧中的位置信息、以及所述指定图像帧在所述待检测视频中的时间戳，所述指定图像帧包括连续存在所述预设书写手势的图像帧；
10.根据所述初始连续书写轨迹信息进行文本识别，以得到用户书写的虚拟文本信息，其中，所述虚拟文本信息包括至少一个字符。
11.可选地，所述检测模型是通过如下方式训练得到的：
12.将训练图像输入至目标检测网络中，得到所述目标检测网络输出的卷积特征图，其中，所述目标检测网络采用mobilenet卷积网络模块进行卷积操作；
13.根据所述卷积特征图和目标损失函数值，对所述目标检测网络进行训练，以得到所述检测模型，其中，所述目标损失函数值为以下函数值的加权和：用于定位目标中心点位置的中心损失函数的函数值、关于下采样偏移量的偏置损失函数的函数值、关于不同目标尺寸的尺寸损失函数的函数值、用于定位关键点位置的位置损失函数的函数值。
14.可选地，所述根据所述初始连续书写轨迹信息进行文本识别，包括：
15.将起始图像帧中的书写关键点的位置信息更新为坐标原点，并根据所述起始图像帧中的书写关键点的位置信息与所述坐标原点之间的距离，对其他图像帧中的书写关键点的位置信息进行更新，以对所述初始连续书写轨迹信息进行平移处理，其中，所述起始图像帧为时间戳最小的所述指定图像帧，所述其他图像帧包括所述指定图像帧中除所述起始图像帧外的图像帧；
16.根据平移处理后得到的第一连续书写轨迹信息进行文本识别。
17.可选地，所述根据平移处理后得到的第一连续书写轨迹信息进行文本识别，包括：
18.将所述第一连续书写轨迹信息构成的文本行像素高度等比例归一化处理至预设像素高度，得到第二连续书写轨迹信息；
19.根据所述第二连续书写轨迹信息进行文本识别。
20.可选地，所述根据所述第二连续书写轨迹信息进行文本识别，包括：
21.针对除起始关键点和结束关键点外的书写关键点，若该书写关键点满足预设条件中的至少一者，则将该书写关键点作为冗余关键点，其中，所述起始关键点为所述起始图像帧中的书写关键点，所述结束关键点为结束图像帧中的书写关键点，所述结束图像帧为时间戳最大的所述指定图像帧；
22.将除所述冗余关键点外的书写关键点作为目标关键点，并根据所述目标关键点确定目标连续书写轨迹信息；
23.根据所述目标连续书写轨迹信息进行文本识别；
24.其中，所述预设条件包括：该书写关键点与前一书写关键点之间的距离小于预设距离阈值、第一连线与第二连线之间的夹角小于预设角度阈值，其中，所述第一连线为该书写关键点与前一书写关键点之间的连线，所述第二连线为该书写关键点与后一书写关键点之间的连线，前一书写关键点对应的时间戳在该书写关键点对应的时间戳之前且与该书写关键点对应的时间戳最接近，后一书写关键点对应的时间戳在该书写关键点对应的时间戳之后且与该书写关键点对应的时间戳最接近。
25.可选地，所述根据所述目标连续书写轨迹信息进行文本识别，包括：
26.将所述目标连续书写轨迹信息输入至文本识别模型中，得到所述文本识别模型输
出的所述虚拟文本信息，其中，所述文本识别模型由链接时序分类模型和双向长短期记忆人工神经网络构成。
27.第二方面，本公开提供一种虚拟文本识别装置，所述装置包括：
28.获取模块，用于获取待检测视频；
29.视频输入模块，用于将所述待检测视频输入至检测模型中，得到所述检测模型输出的检测结果，其中，所述检测模型用于对所述待检测视频中的图像帧进行检测，所述检测结果包括所述图像帧中是否存在预设书写手势，以及所述图像帧中存在所述预设书写手势的情况下、书写关键点在所述图像帧中的位置信息；
30.确定模块，用于根据所述检测结果，确定初始连续书写轨迹信息，其中，所述初始连续书写轨迹信息包括各个书写关键点分别在对应指定图像帧中的位置信息、以及所述指定图像帧在所述待检测视频中的时间戳，所述指定图像帧包括连续存在所述预设书写手势的图像帧；
31.识别模块，用于根据所述初始连续书写轨迹信息进行文本识别，以得到用户书写的虚拟文本信息，其中，所述虚拟文本信息包括至少一个字符。
32.可选地，所述检测模型是通过如下模块训练得到的：
33.图像输入模块，用于将训练图像输入至目标检测网络中，得到所述目标检测网络输出的卷积特征图，其中，所述目标检测网络采用mobilenet卷积网络模块进行卷积操作；
34.训练模块，用于根据所述卷积特征图和目标损失函数值，对所述目标检测网络进行训练，以得到所述检测模型，其中，所述目标损失函数值为以下函数值的加权和：用于定位目标中心点位置的中心损失函数的函数值、关于下采样偏移量的偏置损失函数的函数值、关于不同目标尺寸的尺寸损失函数的函数值、用于定位关键点位置的位置损失函数的函数值。
35.可选地，所述识别模块，包括：
36.更新子模块，用于将起始图像帧中的书写关键点的位置信息更新为坐标原点，并根据所述起始图像帧中的书写关键点的位置信息与所述坐标原点之间的距离，对其他图像帧中的书写关键点的位置信息进行更新，以对所述初始连续书写轨迹信息进行平移处理，其中，所述起始图像帧为时间戳最小的所述指定图像帧，所述其他图像帧包括所述指定图像帧中除所述起始图像帧外的图像帧；
37.第一识别子模块，用于根据平移处理后得到的第一连续书写轨迹信息进行文本识别。
38.可选地，所述第一识别子模块，包括：
39.处理子模块，用于将所述第一连续书写轨迹信息构成的文本行像素高度等比例归一化处理至预设像素高度，得到第二连续书写轨迹信息；
40.第二识别子模块，用于根据所述第二连续书写轨迹信息进行文本识别。
41.可选地，所述第二识别子模块，包括：
42.第一确定子模块，用于针对除起始关键点和结束关键点外的书写关键点，若该书写关键点满足预设条件中的至少一者，则将该书写关键点作为冗余关键点，其中，所述起始关键点为所述起始图像帧中的书写关键点，所述结束关键点为结束图像帧中的书写关键点，所述结束图像帧为时间戳最大的所述指定图像帧；
43.第二确定子模块，用于将除所述冗余关键点外的书写关键点作为目标关键点，并根据所述目标关键点确定目标连续书写轨迹信息；
44.第三识别子模块，用于根据所述目标连续书写轨迹信息进行文本识别；
45.其中，所述预设条件包括：该书写关键点与前一书写关键点之间的距离小于预设距离阈值、第一连线与第二连线之间的夹角小于预设角度阈值，其中，所述第一连线为该书写关键点与前一书写关键点之间的连线，所述第二连线为该书写关键点与后一书写关键点之间的连线，前一书写关键点对应的时间戳在该书写关键点对应的时间戳之前且与该书写关键点对应的时间戳最接近，后一书写关键点对应的时间戳在该书写关键点对应的时间戳之后且与该书写关键点对应的时间戳最接近。
46.可选地，所述第三识别子模块用于：将所述目标连续书写轨迹信息输入至文本识别模型中，得到所述文本识别模型输出的所述虚拟文本信息，其中，所述文本识别模型由链接时序分类模型和双向长短期记忆人工神经网络构成。
47.第三方面，本公开提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。
48.第四方面，本公开提供一种电子设备，包括：
49.存储器，其上存储有计算机程序；
50.处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述方法的步骤。
51.通过上述技术方案，通过检测模型输出检测结果，检测模型可检测图像帧中是否具有预设书写手势，也可同时定位书写关键点在图像帧中的位置信息，减少对图片计算的冗余，提高计算效率。根据检测结果，确定初始连续书写轨迹信息，初始连续书写轨迹信息包括各个书写关键点分别在对应指定图像帧中的位置信息、以及指定图像帧在待检测视频中的时间戳，指定图像帧包括连续存在预设书写手势的图像帧，根据初始连续书写轨迹信息进行文本识别，以得到用户书写的虚拟文本信息。这样，无需进行字符串的切分，也无需根据开始手势和结束手势进行书写开始和停止的判断，可根据初始连续书写轨迹信息进行文本识别，如果用户书写了多个虚拟文字，可同时识别出文本行中包括的多个字符，高效地解决虚拟文本的识别问题，为智慧教室、在线教育及相关的娱乐模块提供更丰富的输入功能和准确的识别结果，提高虚拟文本识别的准确度。
52.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
53.附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：
54.图1是根据一示例性实施例示出的一种虚拟文本识别方法的流程图。
55.图2是根据一示例性实施例示出的一种根据初始连续书写轨迹信息进行文本识别的方法的流程图。
56.图3是根据一示例性实施例示出的一种根据第二连续书写轨迹信息进行文本识别的方法的流程图。
57.图4是示例性示出的判断书写关键点是否作为冗余关键点的示意图。
58.图5是示例性示出的去除冗余关键点的示意图。
59.图6是根据一示例性实施例示出的一种虚拟文本识别装置的框图。
60.图7是根据一示例性实施例示出的一种电子设备的框图。
61.图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
62.以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。
63.需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。
64.图1是根据一示例性实施例示出的一种虚拟文本识别方法的流程图，该方法可应用于具有处理能力的电子设备中，如终端或服务器，如图1所示，该方法可包括s101至s104。
65.在s101中，获取待检测视频。
66.其中，待检测视频可以是实时拍摄的视频，在一示例中，例如教师上课过程中可通过摄像头对上课内容进行实时录制，教师讲课过程中可能会进行板书书写，本公开中，教师无需借助黑板，也无需借助键盘、触摸屏等设备，教师可以面对摄像头，直接在空中进行虚拟文字的书写，电子设备可进行虚拟文本的识别。另外，待检测视频也可以是预先存储的视频，不做限制。
67.在s102中，将待检测视频输入至检测模型中，得到检测模型输出的检测结果。
68.其中，检测模型用于对待检测视频中的图像帧进行检测，检测结果包括图像帧中是否存在预设书写手势，以及图像帧中存在预设书写手势的情况下、书写关键点在图像帧中的位置信息。
69.本公开中可将手势检测模型和关键点定位模型合二为一，即本公开中的检测模型可检测图像帧中是否具有预设书写手势，也可同时定位书写关键点在图像帧中的位置信息，减少对图片计算的冗余，提高计算效率，完成对视频中特定手势的检测和书写关键点的定位。其中，预设书写手势例如可以为数字1的书写手势，书写关键点可以是用户的食指、中指等，也可是用户手持的笔的笔尖，不做限制，书写关键点的位置信息可以是该关键点在图像帧中的二维坐标。
70.在s103中，根据检测结果，确定初始连续书写轨迹信息。
71.其中，初始连续书写轨迹信息包括各个书写关键点分别在对应指定图像帧中的位置信息、以及指定图像帧在待检测视频中的时间戳，指定图像帧包括连续存在预设书写手势的图像帧。
72.示例地，待检测视频中的图像帧是具有时间顺序的，检测模型可按照从前到后的时间顺序对图像帧进行检测，当检测到某一图像帧中具有预设书写手势时，可从该图像帧开始，记录连续存在预设书写手势的图像帧中各个书写关键点的轨迹信息及图像帧的时间戳信息。随着检测的进行，当持续预设时长(如1秒)从图像帧中检测不到预设书写手势时，可根据记录的各个书写关键点构成初始连续书写轨迹信息。
73.在s104中，根据初始连续书写轨迹信息进行文本识别，以得到用户书写的虚拟文
本信息。
74.其中，虚拟文本信息包括至少一个字符。本公开中，无需进行字符串的切分，也无需根据开始手势和结束手势进行轨迹的截取，可根据初始连续书写轨迹信息进行文本识别，如果用户书写了多个虚拟文字，可同时识别出文本行中包括的多个字符。
75.通过上述技术方案，通过检测模型输出检测结果，检测模型可检测图像帧中是否具有预设书写手势，也可同时定位书写关键点在图像帧中的位置信息，减少对图片计算的冗余，提高计算效率。根据检测结果，确定初始连续书写轨迹信息，初始连续书写轨迹信息包括各个书写关键点分别在对应指定图像帧中的位置信息、以及指定图像帧在待检测视频中的时间戳，指定图像帧包括连续存在预设书写手势的图像帧，根据初始连续书写轨迹信息进行文本识别，以得到用户书写的虚拟文本信息。这样，无需进行字符串的切分，也无需根据开始手势和结束手势进行书写开始和停止的判断，可根据初始连续书写轨迹信息进行文本识别，如果用户书写了多个虚拟文字，可同时识别出文本行中包括的多个字符，高效地解决虚拟文本的识别，为智慧教室、在线教育及相关的娱乐模块提供更丰富的输入功能和准确的识别结果。
76.本公开中，检测模型可以是通过如下方式训练得到的：
77.首先，将训练图像输入至目标检测网络中，得到目标检测网络输出的卷积特征图。目标检测网络采用mobilenet卷积网络模块进行卷积操作。
78.其中，目标检测网络可以是centernet网络，centernet网络使用热度图heatmap针对不同任务设置不同损失函数，因而可以不使用基于锚点(anchor)的方法来进行目标检测和关键点检测，更适合手势这类外形轮廓变化较大的任务，该网络在有大量手势的视频中可实时检测出特定手势且同时输出关键点坐标位置。
79.相关技术的centernet网络算法中提供resnet网络等卷积网络，针对手势识别任务，本公开中采用mobilenet卷积网络模块来替代resnet网络，更小的mobilenet网络有更快的处理速度和对算力更小的需求。
80.之后，根据卷积特征图和目标损失函数值，对目标检测网络进行训练，以得到检测模型。
81.其中，目标损失函数值为以下函数值的加权和：用于定位目标中心点位置的中心损失函数的函数值、关于下采样偏移量的偏置损失函数的函数值、关于不同目标尺寸的尺寸损失函数的函数值、用于定位关键点位置的位置损失函数的函数值。
82.其中，用于定位目标中心点位置的中心损失函数可如下公式(1)所示：
[0083][0084]
其中，lk表示中心损失函数，n表示训练图像的数量，y
xyz
表示标签，表示预测准确率，用于区分难易样本，越大则预测的越准，xyz表示训练图像中心点，α和β均为预设系数。(1-y
xyc
)
β
对应热力图峰值的周围像素值，和中心点越接近的地方y
xyz
越接近1，因而该项越小，峰值周围被预测为峰值的惩罚系数相对越小，而距离远的地方该项越大，即如果远的地方预测为峰值，则惩罚系数加大。
[0085]
关于下采样偏移量的偏置损失函数可如下公式(2)所示：
[0086][0087]
其中，l
off
表示偏置损失函数，p表示关键点，表示偏移量，r为预设数值，例如为4，表示关键点的位置。
[0088]
关于不同目标尺寸的尺寸损失函数的函数值可如下公式(3)所示：
[0089][0090]
其中，l
wh
表示尺寸损失函数，k表示第k个训练图像，sk表示目标像素差值，表示像素差值偏移量。
[0091]
用于定位关键点位置的位置损失函数可如下公式(4)所示：
[0092][0093]
其中，l
joint
表示位置损失函数，表示目标中心的坐标，表示目标中心在x方向上的偏移量，表示目标中心在y方向上的偏移量，j表示训练图像。
[0094]
目标损失函数loss可如下公式(5)所示：
[0095]
loss＝lk λ
wh
l
wh
λ
off
l
off
λ
joint
l
joint
ꢀꢀꢀ
(5)
[0096]
其中，λ
wh
表示l
wh
对应的权重值，λ
off
表示l
off
对应的权重值，λ
joint
表示l
joint
对应的权重值。
[0097]
由此，训练得到的检测模型便可端到端同时检测到图片中特定手势及定位书写关键点位置。
[0098]
图2是根据一示例性实施例示出的一种根据初始连续书写轨迹信息进行文本识别的方法的流程图，如图2所示，s104可包括s201和s202。
[0099]
在s201中，将起始图像帧中的书写关键点的位置信息更新为坐标原点，并根据起始图像帧中的书写关键点的位置信息与坐标原点之间的距离，对其他图像帧中的书写关键点的位置信息进行更新，以对初始连续书写轨迹信息进行平移处理。
[0100]
其中，起始图像帧为时间戳最小的指定图像帧，其他图像帧包括指定图像帧中除起始图像帧外的图像帧。
[0101]
由于每个人书写文字快慢不同，以及每个笔画书写速度不同，因而书写结果的采样密集程度差别较大，本方案中可对初始连续书写轨迹信息进行进一步处理。首先对初始连续书写轨迹信息进行平移处理，其中，起始图像帧中的书写关键点即为起笔的点，将起笔的点更新为坐标原点，起始图像帧的时间戳更新为0点，根据起始图像帧中的书写关键点的位置信息与坐标原点之间的距离，其他图像帧中的书写关键点的位置信息也相应移动该距离大小，从而对其位置信息进行更新。
[0102]
在s202中，根据平移处理后得到的第一连续书写轨迹信息进行文本识别。
[0103]
该步骤s202的实施方式可以为：
[0104]
将第一连续书写轨迹信息构成的文本行像素高度等比例归一化处理至预设像素
高度，得到第二连续书写轨迹信息；
[0105]
根据所述第二连续书写轨迹信息进行文本识别。
[0106]
其中，如果用户在空中书写了多个字符，各个字符的高度可能不同，由于各个字符的宽度是变化的，因此以文本行像素高度等比例归一化处理至预设像素高度，该预设像素高度可以预先设置，例如为128个像素，以对书写轨迹信息进行高度归一化。
[0107]
图3是根据一示例性实施例示出的一种根据第二连续书写轨迹信息进行文本识别的方法的流程图，如图3所示，该方法可包括s301至s303。
[0108]
在s301中，针对除起始关键点和结束关键点外的书写关键点，若该书写关键点满足预设条件中的至少一者，则将该书写关键点作为冗余关键点。
[0109]
其中，起始关键点为起始图像帧中的书写关键点，结束关键点为图像帧中的书写关键点，结束图像帧为时间戳最大的指定图像帧。起始关键点即为起笔的点，结束关键点即为落笔的点。
[0110]
预设条件包括：该书写关键点与前一书写关键点之间的距离小于预设距离阈值、第一连线与第二连线之间的夹角小于预设角度阈值。
[0111]
其中，第一连线为该书写关键点与前一书写关键点之间的连线，所述第二连线为该书写关键点与后一书写关键点之间的连线，前一书写关键点对应的时间戳在该书写关键点对应的时间戳之前且与该书写关键点对应的时间戳最接近，后一书写关键点对应的时间戳在该书写关键点对应的时间戳之后且与该书写关键点对应的时间戳最接近。
[0112]
图4是示例性示出的判断书写关键点是否作为冗余关键点的示意图。如图4所示，图中可以判断第i个书写关键点是否为冗余关键点，图中所示第i-1个关键点为第i个关键点的前一书写关键点，第i 1个关键点为第i个关键点的后一书写关键点，例如第i个书写关键点为第i个图像帧中的书写关键点，第i-1个书写关键点为第i-1个图像帧中的书写关键点，第i 1个书写关键点为第i 1个图像帧中的书写关键点，则第i-1个图像帧、第i个图像帧、第i 1个图像帧为按照时间顺序从前到后的三个相邻图像帧。
[0113]
如图4所示，t
dist
表示第i个书写关键点与第i-1个书写关键点之间的距离，第i个书写关键点与第i-1个书写关键点之间的连线为第一连线，第i个书写关键点与第i 1个书写关键点之间的连线为第二连线，第一连线和第二连线之间的夹角为t
cos
，如果t
dist
小于预设距离阈值，或者t
cos
小于预设角度阈值，则可判断第i个书写关键点为冗余关键点。
[0114]
在s302中，将除冗余关键点外的书写关键点作为目标关键点，并根据目标关键点确定目标连续书写轨迹信息。
[0115]
目标连续书写轨迹信息可包括目标关键点的更新后的位置信息和更新后的时间戳，其中，更新方式已在上文介绍。
[0116]
图5是示例性示出的去除冗余关键点的示意图，如图5所示，左边为所有书写关键点构成的文字轨迹示意，右边为去除冗余关键点后、由目标关键点构成的文字轨迹示意。可见，去除冗余关键点后，不但不影响文字的识别，还降低了识别的难度。
[0117]
在s303中，根据目标连续书写轨迹信息进行文本识别。
[0118]
该步骤s303可包括：将所述目标连续书写轨迹信息输入至文本识别模型中，得到所述文本识别模型输出的所述虚拟文本信息，其中，所述文本识别模型由链接时序分类模型和双向长短期记忆人工神经网络构成。
[0119]
本公开中，文本识别模型有由链接时序分类模型(ctc，connectionist temporal classification)和双向长短期记忆人工神经网络(long short-term memory，lstm)构成。其中，双向lstm借鉴了人类神经记忆的长短时特性，通过门电路(遗忘门，更新门)的方式，保留了长时依赖中较为重要的信息，从而使得rnn((recurrent neural network，循环经网络)的性能大幅度的提高。ctc方法解决了输入长度不固定与输出字符长度不固定的匹配问题，预测得到不固定长度的字符串作为结果输出。借鉴双向lstm(bilstm)在特征提取阶段后从前后两个方向分别提取一次序列特征，以增强上下文信息。模型预测输出字符时使用ctc(connectionist temporal classification)的方式解决了输入长度不固定与输出字符长度不固定的匹配问题。对输入的特征序列逐一预测，对某个字符可能连续预测出多个该字符，我们通过预测空白符来区分不同情况。这种预测结果造成一个结果：输入x向前移动一帧，输出y保持不动或向前移动一帧；x与y映射是多对一的，且x的长度大于等于y。通过将ctc模型的输出去重，去掉空白符号后，将最终预测得到的字符串作为模型输出。
[0120]
通过上述方案，无需进行字符串的切分，也无需根据开始手势和结束手势进行书写开始和停止的判断，可根据初始连续书写轨迹信息进行文本识别，如果用户书写了多个虚拟文字，可同时识别出文本行中包括的多个字符，高效地解决虚拟文本的识别，为智慧教室、在线教育及相关的娱乐模块提供更丰富的输入功能和准确的识别结果。
[0121]
基于同一发明构思，本公开还提供一种虚拟文本识别装置，图6是根据一示例性实施例示出的一种虚拟文本识别装置的框图，如图6所示，该装置600可包括：
[0122]
获取模块601，用于获取待检测视频；
[0123]
视频输入模块602，用于将所述待检测视频输入至检测模型中，得到所述检测模型输出的检测结果，其中，所述检测模型用于对所述待检测视频中的图像帧进行检测，所述检测结果包括所述图像帧中是否存在预设书写手势，以及所述图像帧中存在所述预设书写手势的情况下、书写关键点在所述图像帧中的位置信息；
[0124]
确定模块603，用于根据所述检测结果，确定初始连续书写轨迹信息，其中，所述初始连续书写轨迹信息包括各个书写关键点分别在对应指定图像帧中的位置信息、以及所述指定图像帧在所述待检测视频中的时间戳，所述指定图像帧包括连续存在所述预设书写手势的图像帧；
[0125]
识别模块604，用于根据所述初始连续书写轨迹信息进行文本识别，以得到用户书写的虚拟文本信息，其中，所述虚拟文本信息包括至少一个字符。
[0126]
可选地，所述检测模型是通过如下模块训练得到的：
[0127]
图像输入模块，用于将训练图像输入至目标检测网络中，得到所述目标检测网络输出的卷积特征图，其中，所述目标检测网络采用mobilenet卷积网络模块进行卷积操作；
[0128]
训练模块，用于根据所述卷积特征图和目标损失函数值，对所述目标检测网络进行训练，以得到所述检测模型，其中，所述目标损失函数值为以下函数值的加权和：用于定位目标中心点位置的中心损失函数的函数值、关于下采样偏移量的偏置损失函数的函数值、关于不同目标尺寸的尺寸损失函数的函数值、用于定位关键点位置的位置损失函数的函数值。
[0129]
可选地，所述识别模块604，包括：
[0130]
更新子模块，用于将起始图像帧中的书写关键点的位置信息更新为坐标原点，并
根据所述起始图像帧中的书写关键点的位置信息与所述坐标原点之间的距离，对其他图像帧中的书写关键点的位置信息进行更新，以对所述初始连续书写轨迹信息进行平移处理，其中，所述起始图像帧为时间戳最小的所述指定图像帧，所述其他图像帧包括所述指定图像帧中除所述起始图像帧外的图像帧；
[0131]
第一识别子模块，用于根据平移处理后得到的第一连续书写轨迹信息进行文本识别。
[0132]
可选地，所述第一识别子模块，包括：
[0133]
处理子模块，用于将所述第一连续书写轨迹信息构成的文本行像素高度等比例归一化处理至预设像素高度，得到第二连续书写轨迹信息；
[0134]
第二识别子模块，用于根据所述第二连续书写轨迹信息进行文本识别。
[0135]
可选地，所述第二识别子模块，包括：
[0136]
第一确定子模块，用于针对除起始关键点和结束关键点外的书写关键点，若该书写关键点满足预设条件中的至少一者，则将该书写关键点作为冗余关键点，其中，所述起始关键点为所述起始图像帧中的书写关键点，所述结束关键点为结束图像帧中的书写关键点，所述结束图像帧为时间戳最大的所述指定图像帧；
[0137]
第二确定子模块，用于将除所述冗余关键点外的书写关键点作为目标关键点，并根据所述目标关键点确定目标连续书写轨迹信息；
[0138]
第三识别子模块，用于根据所述目标连续书写轨迹信息进行文本识别；
[0139]
其中，所述预设条件包括：该书写关键点与前一书写关键点之间的距离小于预设距离阈值、第一连线与第二连线之间的夹角小于预设角度阈值，其中，所述第一连线为该书写关键点与前一书写关键点之间的连线，所述第二连线为该书写关键点与后一书写关键点之间的连线，前一书写关键点对应的时间戳在该书写关键点对应的时间戳之前且与该书写关键点对应的时间戳最接近，后一书写关键点对应的时间戳在该书写关键点对应的时间戳之后且与该书写关键点对应的时间戳最接近。
[0140]
可选地，所述第三识别子模块用于：将所述目标连续书写轨迹信息输入至文本识别模型中，得到所述文本识别模型输出的所述虚拟文本信息，其中，所述文本识别模型由链接时序分类模型和双向长短期记忆人工神经网络构成。
[0141]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0142]
图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(i/o)接口704，以及通信组件705中的一者或多者。
[0143]
其中，处理器701用于控制该电子设备700的整体操作，以完成上述的虚拟文本识别方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(static random access memory，简称sram)，电可擦除可编程只读存储器(electrically erasable programmable read-only memory，简称eeprom)，可擦除可编程
只读存储器(erasable programmable read-only memory，简称eprom)，可编程只读存储器(programmable read-only memory，简称prom)，只读存储器(read-only memory，简称rom)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。i/o接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如wi-fi，蓝牙，近场通信(near field communication，简称nfc)，2g、3g、4g、nb-iot、emtc、或其他5g等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：wi-fi模块，蓝牙模块，nfc模块等等。
[0144]
在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(application specific integrated circuit，简称asic)、数字信号处理器(digital signal processor，简称dsp)、数字信号处理设备(digital signal processing device，简称dspd)、可编程逻辑器件(programmable logic device，简称pld)、现场可编程门阵列(field programmable gate array，简称fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的虚拟文本识别方法。
[0145]
在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的虚拟文本识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的虚拟文本识别方法。
[0146]
图8是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图8，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的虚拟文本识别方法。
[0147]
另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(i/o)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如windows server
tm
，mac os x
tm
，unix
tm
，linux
tm
等等。
[0148]
在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的虚拟文本识别方法的步骤。例如，该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的虚拟文本识别方法。
[0149]
在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的虚拟文本识别方法的代码部分。
[0150]
以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。
[0151]
另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。
[0152]
此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于FDM-DDA的非饱和瞬态流固耦合计算方法

虚拟文本识别方法、装置、介质及电子设备与流程

相关文献

最热文献