视频字幕错别字检测方法、装置、设备及存储介质与流程

2023-02-01 21:12:06 来源：中国专利 TAG：

1.本技术涉及自然语言处理技术领域，更具体的说，是涉及一种视频字幕错别字检测方法、装置、设备及存储介质。

背景技术：

2.随着信息技术的发展，媒介平台的不断涌现，以信息传递形式多元化、传递源多点化为特征的时代已经到来。目前已有的多媒体信息例如：自媒体人面对镜头传递专业知识或传播社会热点、各类型视频会议软件所提供的在线视频会议等。上述各类型多媒体信息中一般包含用户演讲时的影像，同时为了提高交流效率还配置有对应的字幕。此外，为了方便听障人群了解信息，部分多媒体视频中在包含字幕的情况下，还配置有专门的手语人员进行手语表达。
3.受限于字幕制作人员的粗心，或相关字幕生成技术的不成熟，在视频平台中，大量视频字幕出现错别字；在视频会议软件实时生成的字幕中，也能时常看到错别字的身影。这一现象对信息传递的准确性和文化传播的广泛性都有着极其严重的危害。如果单纯依据人力对这些文本进行校对与纠错将耗费大量的人力与时间。
4.在人工智能蓬勃发展的今天，特别是得益于自然语言处理技术的进步，各种各样的文本检错纠错系统应运而生，从而帮助人们高效进行文字错误的检查和修改。以视频字幕为例，现有纠错系统一般识别出视频字幕后，基于字幕文本信息的上下文，对字幕文本信息进行纠错处理，定位其中可能的错误，并返回给用户。
5.现有的纠错方式仅利用到纯文本信息进行纠错，导致错别字检测准确度不高。

技术实现要素：

6.鉴于上述问题，提出了本技术以便提供一种视频字幕错别字检测方法、装置、设备及存储介质，以实现提升对视频字幕错别字的检测准确度。具体方案如下：
7.第一方面，提供了一种视频字幕错别字检测方法，包括：
8.获取包含字幕及与字幕匹配的用户唇形和/或手语图像的视频；
9.识别所述视频中的字幕文本，以及，将所述视频中用户唇动过程抽取成唇形图像序列，和/或，将所述视频中用户手语动作过程抽取成手语图像序列；
10.提取所述字幕文本的文字模态特征，以及提取所述唇形图像序列的唇形模态特征，和/或，提取所述手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征；
11.将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征；
12.基于融合特征确定视频中包含的真实文本；
13.对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果。
14.第二方面，提供了一种视频字幕错别字检测装置，包括：
15.视频获取单元，用于获取包含字幕及与字幕匹配的用户唇形和/或手语图像的视
频；
16.视频预处理单元，用于识别所述视频中的字幕文本，以及，将所述视频中用户唇动过程抽取成唇形图像序列，和/或，将所述视频中用户手语动作过程抽取成手语图像序列；
17.特征提取单元，用于提取所述字幕文本的文字模态特征，以及提取所述唇形图像序列的唇形模态特征，和/或，提取所述手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征；
18.特征融合单元，用于将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征；
19.真实文本确定单元，用于基于融合特征确定视频中包含的真实文本；
20.错别字确定单元，用于对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果。
21.第三方面，提供了一种视频字幕错别字检测设备，包括：存储器和处理器；
22.所述存储器，用于存储程序；
23.所述处理器，用于执行所述程序，实现如上的视频字幕错别字检测方法的各个步骤。
24.第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上的视频字幕错别字检测方法的各个步骤。
25.借由上述技术方案，本技术对于包含字幕及与字幕匹配的用户唇形和/或手语图像的视频，识别出其中的字幕文本，以及将视频中用户唇动过程抽取成唇形图像序列，将视频中用户手语动作过程抽取成手语图像序列，进而提取字幕文本的文字模态特征，以及提取唇形图像序列的唇形模态特征，提取手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征，将视觉模态特征和文字模态特征进行融合，并基于融合特征确定视频中包含的真实文本，对比真实文本和字幕文本，以得到错别字检测结果。由此可见，本技术在对视频字幕进行错别字进行检测时，在考虑了字幕文本的文字模态特征的基础上，进一步融合了视频中的视觉模态特征，如手语模态特征、唇形模态特征，该视觉模态特征能够更好的辅助进行真实文本的预测，使得预测结果更加准确，在此基础上，通过对比真实文本和字幕文本，确定错别字检测结果，大大提升了错别字检测的准确度。
附图说明
26.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本技术的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
27.图1为本技术实施例提供的视频字幕错别字检测方法的一流程示意图；
28.图2示例了一种视频帧图片中错别字标记过程示意图；
29.图3示例了一种视频文本识别模型的结构示意图；
30.图4示例了一种图像处理模块的结构示意图；
31.图5示例了一种文本处理模块的结构示意图；
32.图6示例了一种多模态融合模块的结构示意图；
33.图7示例了一种多模态融合模块的处理流程示意图；
34.图8为本技术实施例提供的一种视频字幕错别字检测装置结构示意图；
35.图9为本技术实施例提供的视频字幕错别字检测设备的结构示意图。
具体实施方式
36.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
37.本技术提供了一种视频字幕错别字检测方案，可以适用于解决有人物唇形或手语信息的视频中字幕错别字的检测任务，示例如对视频会议app录制的视频会议中字幕进行错别字检测，或者是，对带有手语演示的多媒体视频中的字幕进行错别字检测等。
38.本技术方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。
39.接下来，结合图1所述，本技术的视频字幕错别字检测方法可以包括如下步骤：
40.步骤s100、获取包含字幕及与字幕匹配的用户唇形和/或手语图像的视频。
41.具体地，待检测的视频中包含有字幕信息，以及与字幕匹配的用户说话过程的唇形/手语图像。
42.对于视频其可以是用户录制的，也可以是从网络上下载的等。视频中包含的字幕文本的位置可以不限，例如可以是按照行排布的，也可以是按照列排布等。
43.视频中包含的字幕文本可以包括中文、非中文字符，如英文字母、特殊符号、数字等。
44.示例如图2，其为视频中某一帧图像，其中包含字幕文本。可以知道，字幕“说明在那副图上面”中的“副”属于错别字，正确的应该是“幅”。
45.步骤s110、识别所述视频中的字幕文本，以及，将所述视频中唇形/手语信息抽取成唇形/手语图像序列。
46.具体地，视频由多帧图像组成，可以对视频中的各帧图像进行字幕文本的识别。例如，首先确定图像中文本所处的文本块图片。该过程可以采用图像文本识别算法(例如ocr等算法)，识别图像中文本所处的文本块图片。进一步，识别文本块图片中包含的字幕文本。
47.此外，为了辅助识别视频对应的真实文本，本步骤中可以从视频中抽取出唇形/手语图像序列。具体地，可以将视频中用户唇动过程抽取成唇形图像序列，和/或，将所述视频中用户手语动作过程抽取成手语图像序列。
48.需要说明的是，若视频中仅包含唇形图像，则可以仅抽取唇形图像序列。若视频中仅包含手语图像，则可以仅抽取手语图像序列。若视频中同时包含唇形图像和手语图像，则可以提取唇形图像序列、手语图像序列中的任意一个或两个。
49.步骤s120、提取所述字幕文本的文字模态特征，以及，提取所述唇形/手语图像序列的视觉模态特征。
50.具体地，，本步骤中提取字幕文本的文字模态特征，也即文本特征。文字模态特征提取时，可以采用设定的文本特征提取算法提取，也可以采用预训练的自然语言处理模型
提取。
51.提取所述唇形/手语图像序列的视觉模态特征的过程，具体可以是提取所述唇形图像序列的唇形模态特征，和/或，提取所述手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征。
52.本步骤中可以采用设定的图像视觉算法提取唇形图像序列、手语图像序列的视觉模态特征，也可以采用预训练的神经网络模型来提取唇形图像序列、手语图像序列的视觉模态特征。
53.步骤s130、将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征。
54.具体地，视觉模态特征和文字模态特征分别从视觉(唇形视觉模态、手语视觉模态)和文字两种角度描述了相关信息，为了更准确的视频中包含的真实文本，本步骤中将视觉模态特征和文字模态特征进行融合，得到的融合特征的信息更加丰富，表达能力更强。
55.步骤s140、基于融合特征确定视频中包含的真实文本。
56.具体地，在上述步骤得到融合特征之后，可以基于融合特征预测视频中包含的真实文本，本步骤可以采用预训练的神经网络模型进行真实文本的预测。
57.经过本步骤预测的真实文本为本技术认定的视频中所应当包含的正确文本。
58.步骤s150、对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果。
59.具体地，本步骤中可以以真实文本作为基准，对比字幕文本和真实文本，确定字幕文本中是否包含错别字，以及，具体所包含的错别字内容，得到视频字幕的错别字检测结果。
60.示例性的，本步骤中可以匹配所述字幕文本中是否存在与所述真实文本不一致的字符，若存在，则将字幕文本中不一致的字符作为错别字。
61.本技术实施例提供的视频字幕错别字检测方法，对于包含字幕及与字幕匹配的用户唇形和/或手语图像的视频，识别出其中的字幕文本，以及将视频中用户唇动过程抽取成唇形图像序列，将视频中用户手语动作过程抽取成手语图像序列，进而提取字幕文本的文字模态特征，以及提取唇形图像序列的唇形模态特征，提取手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征，将视觉模态特征和文字模态特征进行融合，并基于融合特征确定视频中包含的真实文本，对比真实文本和字幕文本，以得到错别字检测结果。由此可见，本技术在对视频字幕进行错别字进行检测时，在考虑了字幕文本的文字模态特征的基础上，进一步融合了视频中的视觉模态特征，如手语模态特征、唇形模态特征，该视觉模态特征能够更好的辅助进行真实文本的预测，使得预测结果更加准确，在此基础上，通过对比真实文本和字幕文本，确定错别字检测结果，大大提升了错别字检测的准确度。
62.可选的，在上述步骤s150得到错别字检测结果之后，若确认视频中包含错别字，则可以进一步确定错别字在视频帧图片中的位置，进而按照所述位置，在视频帧图片中对错别字进行标记，以直观的展示错别字。
63.参考图2，对于视频帧图片中识别出的错别字“副”，通过矩形框的形式进行标记。
64.当然，对错别字的标记形式并不局限于矩形框标记，还可以采用其它多种类型的标记方式，如高亮显示、下划线等。
65.本实施例中，确定错别字在视频帧图片中的位置的过程，具体可以包括：
66.首先确定错别字所在的文本块图片的第一位置信息，该第一位置信息为文本块图片在视频帧图片中的位置信息。
67.进一步确定错别字在文本块图片包含的字幕文本中的排序顺序。
68.基于第一位置信息，在视频帧图片中确定文本块图片中首个字符的位置，按照预估的每个字符的宽度，采用滑动偏移的方式，从首个字符的位置向后偏移所述排序顺序个字符的宽度，以定位到错别字在视频帧图片中的位置。
69.在本技术的一些实施例中，对上述步骤s130，将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征的过程进行说明。
70.可选的，步骤s120中提取的视觉模态特征和文字模态特征可以是向量形式。视觉模态特征和文字模态特征的向量维度可以是相同的或不同的。在此基础上，本步骤进行特征融合时，可以将两个向量形式的特征进行融合，得到融合特征。
71.在进行向量融合时，可以采用多种融合方式，本实施例中提供了一种门控融合方式，将向量形式的视觉模态及文字模态特征进行融合，得到融合特征。
72.通过采用门控融合方式，以视觉模态特征作为门控，抽取文字模态特征中的部分特征，得到融合特征，也即，相当于以视觉模态特征的角度来看，抽取出文字模态特征中最为重要的部分，作为视觉模态和字符模态融合的特征表示。
73.可选的，本技术实施例中提供了几种不同形式的门控融合方式，示例如可以包括：按位相乘的门控融合方式、按位相加或相除的门控融合方式等。为了便于表述，下述实施例中仅以按位相乘的门控融合方式为例进行说明。
74.进一步的，为了避免文本语言层面全局特征的损失，本实施例中还可以将上述融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
75.为了增强视觉模态特征表示的丰富性，在步骤s130进行特征融合之前，还可以增加对视觉模态特征进行表示偏移及非线性变换的处理，以得到处理后视觉模态特征，以供步骤s130中对处理后视觉模态特征及文字模态特征进行融合。
76.在本技术的一些实施例中，对于前述实施例中介绍的步骤s120-s140，其可以通过预训练的视频文本识别模型处理得到。
77.对于视频文本识别模型，可以将其配置为：提取输入的唇形图像序列的唇形模态特征，和/或，提取输入的手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征，提取输入的字幕文本的文字模态特征，并将视觉模态特征和文字模态特征进行融合，基于融合特征预测视频中包含的真实文本的内部状态表示。
78.其中，视频文本识别模型的输入可以包括从视频中提取出的字幕文本，以及唇形图像序列，和/或，手语图像序列。
79.本实施例中，通过预先训练视频文本识别模型，能够利用神经网络模型的强大学习能力，提取到唇形图像序列，和/或手语图像序列的视觉模态特征和字幕文本的文字模态特征，在此基础上，进行融合后预测真实文本。
80.接下来，结合图3所示，本实施例中提供了视频文本识别模型的一种可选组成结构。
81.视频文本识别模型可以包括图像处理模块、文本处理模块、多模态融合模块及输出模块。其中：
82.图像处理模块，用于提取输入的唇形图像序列的唇形模态特征，和/或，提取输入的手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征。
83.其中，若同时提取到唇形模态特征和手语模态特征，则两种模态特征的维度是相同的，由两种模态特征组合为视觉模态特征。当然，若仅能够提取到唇形模态特征或手语模态特征，则可以由提取到的一种模态的特征单独作为视觉模态特征。
84.文本处理模块，用于提取输入的字幕文本的文字模态特征。
85.多模态融合模块，用于将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征。
86.输出模块，用于基于所述融合特征确定视频中包含的真实文本。
87.其中，输出模块可以采用mlm(masked language model)方式训练得到，基于多模态融合模块输出的融合特征，预测视频中包含的真实文本。
88.接下来，分别对上述各个模块进行展开说明。
89.1、图像处理模块
90.本实施例中介绍了图像处理模块的一种可选组成结构，如图4所示，其可以包括：
91.图像标准化模块，用于对输入的唇形图像序列和/或手语图像序列进行标准化处理，得到处理后的唇形图像序列和/或手语图像序列。
92.其中，图像标准化模块的输入可以是唇形图像序列和手语图像序列中的一种或两种。
93.由于视频中除了说话人的唇形、手形信息外，还可能包含其它丰富的信息，比如周围环境物体等，这就导致输入的唇形图像序列、手语图像序列中还包含了其他干扰信息，若直接对图像序列进行特征提取，很难学习到针对当前字幕特定的唇形/手语模态相关的特征。因此，为了更好的适配后续模块进行特征的抽取，保证视觉模态特征抽取的质量，本步骤中可以由图像标准化模块对唇形图像序列和手语图像序列进行标准化处理，如通过图像旋转、拉伸、缩放等算法对畸形的文本块图像进行处理。经过处理后的唇形图像序列和手语图像序列，其中包含的图像尺寸为设定尺寸，如[96，384]大小的矩阵形式。
[0094]
图像特征抽取模块，用于对所述处理后唇形图像序列和/或手语图像序列抽取视觉模态特征。
[0095]
如图4示例的，图像特征抽取模块可以由若干个视觉特征识别块串联组成，每个视觉特征识别块可以包括若干个卷积层、batch normalization层和非线性层。其中，不同的视觉特征识别块中包含的卷积层的卷积核的大小和数量可以不同，以丰富视觉模态特征抽取的角度，从而使得最终得到的视觉模态特征表示更加丰富和准确。
[0096]
线性变换模块，用于对所述视觉模态特征的维度进行线性变换，以输出与所述文字模态特征相同维度的视觉模态特征。
[0097]
具体地，经过上述图像特征抽取模块提取的视觉模态特征的通道数可能无法与文本处理模块所提取的文字模态特征的维度直接匹配，为此，需要通过线性变换模块对视觉模态特征的维度进行线性变换，以输出与文字模态特征相同维度的视觉模态特征。
[0098]
2、文本处理模块
[0099]
本实施例中介绍了文本处理模块的一种可选组成结构，如图5所示，其可以包括：
[0100]
文字预处理模块，用于将输入的字幕文本通过填充设定字符padding的方式编辑至设定长度，确定编辑后的字幕文本的特征表示。
[0101]
具体地，为了统一不同字幕文本的长度，本实施例中通过文字预处理模块，将字幕文本通过padding的方式编辑至设定长度。对于小于设定长度的字幕文本，可以在字幕文本末位添加设定的padding字符，如[pad]等，以将字幕文本补充至设定长度。对于大于设定长度的字幕文本，可以从首个字符开始截取设定长度，作为一条编辑后字幕文本，剩余部分长度如果仍超过设定长度，则重复上述截取操作，如果剩余部分长度不超过设定长度，则将剩余部分作为另一条编辑后字幕文本。
[0102]
对于每一条编辑后的字幕文本，可以采用预训练的分词器将字幕文本编码成模型可以识别的特征表示。具体地，将编辑后的字幕文本进行分词，并编码每一个分词，得到分词对应的token特征表示。
[0103]
其中，预训练的分词器可以采用bert tokenizer等预训练模型结构。
[0104]
文字模态特征抽取模块，用于对所述字幕文本的特征表示进行编码，得到字幕文本的文字模态特征。
[0105]
具体，文字模态特征抽取模块可以采用预训练模型(如bert、transformer等)对经文字预处理模块处理后的字幕文本的特征表示进行编码，得到字幕文本的文字模态特征。
[0106]
3、多模态融合模块
[0107]
本实施例中介绍了多模态融合模块的一种可选组成结构，如图6所示，其可以包括：特征编辑模块、门控融合模块和残差连接模块。
[0108]
其中，各个模块的处理流程结合图7进行说明：
[0109]
特征编辑模块，用于对视觉模态特征进行表示偏移及非线性变换，得到处理后视觉模态特征。
[0110]
其中，视觉模态特征可以包括唇形模态特征和手语模态特征中的一个，或二者的组合。
[0111]
为了增强视觉模态特征的表示效果，可以对视觉模态特征进行表示偏移及非线性变换。其中表示偏移即对视觉模态特征的每个位置添加可学习的偏置参数。非线性变换即，通过非线性函数层，如relu层、sigmoid层、tanh层等对表示偏移后的视觉模态特征进行非线性变换，将其变换至0附近的相对较小的范围，如sigmoid变换后的值域为(0，1)，tanh变换后的值域为(-1，1)。
[0112]
门控融合模块，用于采用门控融合方式，将所述处理后视觉模态特征及所述文字模态特征进行融合，得到融合特征。
[0113]
具体地，本实施例中通过门控融合模块，设计了一种可以按位相乘、按位相加或相除的门控融合方式，对处理后视觉模态特征及文字模态特征进行融合，得到融合特征。
[0114]
图7中以按位相乘的门控融合方式为例，通过采用按位相乘的门控融合方式，以视觉模态特征作为门控，抽取文字模态特征中的部分特征，得到融合特征，也即，相当于以视觉模态特征的角度来看，抽取出文字模态特征中最为重要的部分，作为视觉模态和字符模态融合的特征表示。
[0115]
经过上述特征编辑模块对视觉模态特征进行处理后，视觉模态特征相较文字模态特征多了表示偏移和非线性变换，将视觉模态特征映射到0附近的相对较小的范围，如
sigmoid的值域为(0,1)。而文字模态特征的值域和分布保持不变。那么，形象地说，经过特征编辑模块编辑后的视觉模态特征的每个位置都相当于一个水龙头(完全打开则对应非线性函数值域的上界，完全关闭则对应非线性函数值域的下界)，用于管控文字模态特征中对应位置的信息，视觉模态特征中这个位置水龙头开得大，那么文字模态特征中对应位置的信息就保留得多，反之保留得少。显然这样按位相乘就得到了由视觉角度进行保留程度把控的文字模态特征部分，即以视觉模态特征的角度来看，抽取出文字模态特征中最为重要的部分，作为视觉模态和字符模态融合的特征表示。
[0116]
残差连接模块，用于将所述融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
[0117]
进一步的，为了避免文本语言层面全局特征的损失，本实施例中通过残差连接模块还可以将上述融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
[0118]
在本技术的一些实施例中，为了进一步提升错别字检测的准确度，在步骤s150、对比所述真实文本和所述字幕文本，得到视频中的错别字检测结果之后，还可以进一步增加错别字核验的后处理操作。
[0119]
本实施例中，对于错别字核验的后处理过程，可以从句子语义通顺度的角度进行核验，具体可以包括：
[0120]
s1、将所述字幕文本中识别出的错别字删除，得到删除错别字的编辑文本。
[0121]
s2、采用预训练的语言模型，分别计算所述字幕文本和所述删除错别字的编辑文本各自的困惑度。
[0122]
具体地，困惑度是衡量句子语义通顺程度的一个指标，一个句子的语义越通顺，对应的困惑度越小。
[0123]
语言模型是用于计算一个句子是一个语义通顺的正确句子的概率模型。困惑度则是与语言模型预测一个句子的概率相关的经句子长度归一化的指标。对于一个完全正确的句子，语言模型在该句子上的困惑度越小，则说明该语言模型越好。从另一个角度看，若已经选取了一个非常优秀的语言模型，那么对于一个句子而言，如果语言模型在该句子上的困惑度很小，则说明该句子属于正确句子的可能性就很大。
[0124]
本步骤中，为了检验前述识别出的错别字是否真正是错别字，分别计算字幕文本，以及删除错别字后的编辑文本的困惑度。
[0125]
s3、若删除错别字后的编辑文本的困惑度小于字幕文本的困惑度，且二者差值的绝对值大于设定阈值，则将所述错别字作为最终的错别字检测结果，否则，将所述错别字从最终的错别字检测结果中去除。
[0126]
可以理解的是，若删除错别字后的编辑文本的困惑度小于字幕文本的困惑度，且二者差值的绝对值大于设定阈值，则表示删除错别字后的编辑文本的语义相比删除前的字幕文本的语义更通顺，也即删除的确实是一个错别字，因此可以将删除的错别字加入最终的错别字检测结果中。反之，说明前述步骤识别的错别字是一个伪错别字，可以将其从最终的错别字检测结果中去除，也即最终不会认定其为错别字。
[0127]
本实施例中，通过增加从句子语义通顺度的角度对错别字进行二次核验的后处理操作，进一步提升了错别字识别的准确度。
[0128]
下面对本技术实施例提供的视频字幕错别字检测装置进行描述，下文描述的视频字幕错别字检测装置与上文描述的视频字幕错别字检测方法可相互对应参照。
[0129]
参见图8，图8为本技术实施例公开的一种视频字幕错别字检测装置结构示意图。
[0130]
如图8所示，该装置可以包括：
[0131]
视频获取单元11，用于获取包含字幕及与字幕匹配的用户唇形和/或手语图像的视频；
[0132]
视频预处理单元12，用于识别所述视频中的字幕文本，以及，将所述视频中用户唇动过程抽取成唇形图像序列，和/或，将所述视频中用户手语动作过程抽取成手语图像序列；
[0133]
特征提取单元13，用于提取所述字幕文本的文字模态特征，以及提取所述唇形图像序列的唇形模态特征，和/或，提取所述手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征；
[0134]
特征融合单元14，用于将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征；
[0135]
真实文本确定单元15，用于基于融合特征确定视频中包含的真实文本；
[0136]
错别字确定单元16，用于对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果。
[0137]
可选的，所述视觉模态特征和所述文字模态特征分别为向量形式，则上述特征融合单元将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征的过程，可以包括：
[0138]
采用门控融合方式，将向量形式的视觉模态特征及文字模态特征进行融合，得到融合特征。
[0139]
可选的，上述门控融合方式可以包括按位相乘的门控融合方式、按位相加或相除的门控融合方式等。
[0140]
可选的，上述特征融合单元在采用门控融合方式，将向量形式的视觉模态特征及文字模态特征进行融合之后，还可以包括：
[0141]
将融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
[0142]
可选的，上述特征融合单元在采用门控融合方式，将向量形式的视觉模态特征及文字模态特征进行融合之前，还可以包括：
[0143]
对所述视觉模态特征进行表示偏移及非线性变换，得到处理后视觉模态特征。
[0144]
可选的，上述特征提取单元13、特征融合单元14和真实文本确定单元15的处理过程可以通过预训练的视频文本识别模型实现，所述视频文本识别模型被配置为，提取输入的唇形图像序列的唇形模态特征，和/或，提取输入的手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征，提取输入的字幕文本的文字模态特征，并将视觉模态特征和文字模态特征进行融合，基于融合特征预测视频中包含的真实文本的内部状态表示。
[0145]
其中，所述视频文本识别模型可以包括：图像处理模块、文本处理模块、多模态融合模块及输出模块；
[0146]
图像处理模块，用于提取输入的唇形图像序列的唇形模态特征，和/或，提取输入
的手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征；
[0147]
文本处理模块，用于提取输入的字幕文本的文字模态特征；
[0148]
多模态融合模块，用于将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征；
[0149]
输出模块，用于基于所述融合特征确定视频中包含的真实文本。
[0150]
可选的，上述多模态融合模块可以进一步包括：
[0151]
特征编辑模块，用于对所述视觉模态特征进行表示偏移及非线性变换，得到处理后视觉模态特征；
[0152]
门控融合模块，用于采用门控融合方式，将所述处理后视觉模态特征及所述文字模态特征进行融合，得到融合特征；
[0153]
残差连接模块，用于将所述融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
[0154]
可选的，上述图像处理模块可以进一步包括：
[0155]
图像标准化模块，用于对输入的唇形图像序列和/或手语图像序列进行标准化处理，得到处理后的唇形图像序列和/或手语图像序列；
[0156]
图像特征抽取模块，用于对所述处理后唇形图像序列和/或手语图像序列抽取视觉模态特征；
[0157]
线性变换模块，用于对所述视觉模态特征的维度进行线性变换，以输出与所述文字模态特征相同维度的视觉模态特征。
[0158]
可选的，上述文本处理模块可以进一步包括：
[0159]
文字预处理模块，用于将输入的字幕文本通过填充设定字符的方式编辑至设定长度，确定编辑后的字幕文本的特征表示；
[0160]
文字模态特征抽取模块，用于对所述字幕文本的特征表示进行编码，得到字幕文本的文字模态特征。
[0161]
可选的，上述错别字确定单元对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果的过程，可以包括：
[0162]
匹配所述字幕文本中是否存在与所述真实文本不一致的字符，若存在，则将字幕文本中不一致的字符作为视频字幕的错别字。
[0163]
可选的，本技术的装置还可以包括：错别字核验单元，用于：在对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果之后，将所述字幕文本中识别出的错别字删除，得到删除错别字的编辑文本；采用预训练的语言模型，分别计算所述字幕文本和所述删除错别字的编辑文本各自的困惑度；若删除错别字的编辑文本的困惑度小于字幕文本的困惑度，且二者差值的绝对值大于设定阈值，则将所述错别字作为最终的错别字检测结果，否则，将所述错别字从最终的错别字检测结果中去除。
[0164]
可选的，本技术的装置还可以包括：错别字标记单元，用于：在对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果之后，确定错别字在所述视频帧图片中的位置；按照所述位置，在所述视频帧图片中对所述错别字进行标记。
[0165]
本技术实施例提供的视频字幕错别字检测装置可应用于视频字幕错别字检测设
备，如终端：手机、电脑等。可选的，图9示出了视频字幕错别字检测设备的硬件结构框图，参照图9，视频字幕错别字检测设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；
[0166]
在本技术实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；
[0167]
处理器1可能是一个中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；
[0168]
存储器3可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；
[0169]
其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：
[0170]
获取包含字幕及与字幕匹配的用户唇形和/或手语图像的视频；
[0171]
识别所述视频中的字幕文本，以及，将所述视频中用户唇动过程抽取成唇形图像序列，和/或，将所述视频中用户手语动作过程抽取成手语图像序列；
[0172]
提取所述字幕文本的文字模态特征，以及提取所述唇形图像序列的唇形模态特征，和/或，提取所述手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征；
[0173]
将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征；
[0174]
基于融合特征确定视频中包含的真实文本；
[0175]
对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果。
[0176]
可选的，所述程序的细化功能和扩展功能可参照上文描述。
[0177]
本技术实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：
[0178]
获取包含字幕及与字幕匹配的用户唇形和/或手语图像的视频；
[0179]
识别所述视频中的字幕文本，以及，将所述视频中用户唇动过程抽取成唇形图像序列，和/或，将所述视频中用户手语动作过程抽取成手语图像序列；
[0180]
提取所述字幕文本的文字模态特征，以及提取所述唇形图像序列的唇形模态特征，和/或，提取所述手语图像序列的手语模态特征，由所述唇形模态特征和/或所述手语模态特征作为视觉模态特征；
[0181]
将所述视觉模态特征及所述文字模态特征进行融合，得到融合特征；
[0182]
基于融合特征确定视频中包含的真实文本；
[0183]
对比所述真实文本和所述字幕文本，得到视频字幕的错别字检测结果。
[0184]
可选的，所述程序的细化功能和扩展功能可参照上文描述。
[0185]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排
除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0186]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。
[0187]
对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种非迭代式的P2P用能市场的去中心化出清方法

视频字幕错别字检测方法、装置、设备及存储介质与流程

相关文献

最热文献