文本处理方法、装置、电子设备和存储介质与流程

2022-06-08 12:13:38 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，特别是涉及一种文本处理方法、装置、电子设备和存储介质。

背景技术：

2.在文本搜索、文本识别、文本翻译等领域中，首先需要定位到目标区域的目标文本，后续才能对定位的目标文本进行识别、翻译。目前常用的方法是通过文本行的位置信息判断该文本行是否属于目标区域的目标文本。然而，只用于文本行的位置信息对其进行判断，会导致当非目标文本出现在目标区域时，由于位置信息的成功匹配，导致该非目标文本被误识别为目标文本。同样也会出现目标文本的位置出现较大误差或刚好处于临界阈值时导致匹配失败、误过滤的情况。进而导致文本搜索、识别或翻译的效果较差，可能需要人工进行进一步的定位及提取目标文本，效率低下且成本较大。例如，在进行综艺的台词搜索、翻译生产过程中，需要在综艺视频中定位到台词文本行，过滤掉非台词文本行，例如赞助商、广告的宣传语等。但是，只使用文本行的位置信息对其进行判断，会导致当其它文本行出现在台词文本行的位置时，可能由位置信息的成功匹配，导致非台词文本行被误识别为台词文本行。同样也会出现台词文本行的位置出现较大误差或刚好处于临界阈值时导致匹配实失败、误过滤的情况。

技术实现要素：

3.为解决上述技术问题或至少部分地解决上述技术问题，本发明实施例提供了一种文本处理方法、装置、电子设备和存储介质。
4.在本发明实施例的第一方面，首先提供了一种文本处理方法，包括：对当前视频的视频帧序列进行文字检测，确定所述视频帧序列中的多个文本行；根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类，获得第一集合和第二集合，其中，所述第一集合中的文本行被识别为台词文本，所述第二集合中的文本行被识别为非台词文本；根据所述多个文本行对应的字体特征信息和预构建的聚类网络，对所述当前视频的文本行进行聚类，得到多个聚类结果，同一聚类结果中的文本行具有相同的字体；根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类，确定所述当前视频最终的台词文本。
5.可选地，所述预构建的聚类网络根据如下过程获得：获取训练样本集，所述训练样本集中的训练样本包括真实的台词图像和仿真的台词图像；根据预构建的字体特征提取模型，获取所述训练样本集中每一训练样本的字体特征信息；根据所述每一训练样本的字体特征信息，训练得到所述聚类网络。
6.可选地，根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，包括：针对每一聚类结果，根据所述第一集合和所述第二集合，确定所述聚类结果的标识；其中，所述聚类结果的标识包括台词标识和非台词标识；根据所述聚类结果的标
识，对所述第一集合和所述第二集合中的文本行进行调整。
7.可选地，根据所述第一集合和所述第二集合，确定所述聚类结果的标识，包括：对于每一聚类结果，确定所述聚类结果中属于第一集合的文本行所占的第一比例；在所述第一比例大于预设的第一阈值的情况下，确定所述聚类结果的标识为台词标识；在所述第一比例小于或等于所述预设的第一阈值的情况下，确定所述聚类结果的标识为非台词标识。
8.可选地，根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整包括：对于标识为台词标识的聚类结果，确定所述聚类结果中属于第二集合的第一待识别文本行，根据所述第一待识别文本行的位置信息，对所述第一待识别文本行进行二次分类，以确定所述第一待识别文本行是否为台词文本；若是，则将所述第一待识别文本行由所述第二集合迁移至所述第一集合；对于标识为非台词标识的聚类结果，确定所述聚类结果中属于第一集合的第二待识别文本行；确定所述第二待识别文本行为非台词文本，并将所述第二待识别文本行由所述第二集合迁移至所述第一集合。
9.可选地，根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类包括：根据所述多个文本行的位置信息，确定在所述当前视频的视频帧上每一像素点出现文本行的频次；将出现文本行的频次大于预设的第二阈值的像素点组成的区域确定为台词区域；根据所述文本行的位置信息，确定所述文本行对应的文本区域的宽度信息和高度信息；根据所述文本行对应的文本区域的宽度信息和高度信息，计算所述文本区域与所述台词区域的面积交并比；根据所述文本行对应的文本区域的高度信息，计算所述文本区域与所述台词区域的高度交并比；根据所述文本行对应的文本区域的宽度信息，去计算所述文本区域与所述台词区域的宽度交并比；在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。
10.可选地，根据所述第一待识别文本行的位置信息，对所述待识别文本行进行二次分类包括：将所述预设的第三阈值更新为预设的第六阈值以及将所述预设第四阈值更新为预设的第七阈值，其中，所述预设的第六阈值小于所述预设的第三阈值，所述预设的第七阈值小于所述预设的第四阈值；在所述文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；在所述文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。
11.在本发明实施例的第二方面，提供了一种文本处理装置，包括：文字检测模块，用于对当前视频的视频帧序列进行文字检测，确定所述视频帧序列中的多个文本行；识别模块，用于根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类，获得第一集合和第二集合，其中，所述第一集合中的文本行被识别为台词文本，所述第二集合中的文本行被识别为非台词文本；聚类模块，用于根据所述多个文本行对应的字体特征信息和预构建的聚类网络，对所述当前视频的文本行进行聚类，得到多个聚类结果，同一聚类结果中的文本行具有相同的字体；更新模块，用于根据所述多个聚类结果，对所述第一集合和所
述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类，确定所述当前视频最终的台词文本。
12.可选地，所述装置还包括训练模块，用于：获取训练样本集，所述训练样本集中的训练样本包括真实的台词图像和仿真的台词图像；根据预构建的字体特征提取模型，获取所述训练样本集中每一训练样本的字体特征信息；根据所述每一训练样本的字体特征信息，训练得到所述聚类网络。
13.可选地，所述更新模块还用于：针对每一聚类结果，根据所述第一集合和所述第二集合，确定所述聚类结果的标识；其中，所述聚类结果的标识包括台词标识和非台词标识；根据所述聚类结果的标识，对所述第一集合和所述第二集合中的文本行进行调整。
14.可选地，所述更新模块还用于：对于每一聚类结果，确定所述聚类结果中属于第一集合的文本行所占的第一比例；在所述第一比例大于预设的第一阈值的情况下，确定所述聚类结果的标识为台词标识；在所述第一比例小于或等于所述预设的第一阈值的情况下，确定所述聚类结果的标识为非台词标识。
15.可选地，所述更新模块还用于：对于标识为台词标识的聚类结果，确定所述聚类结果中属于第二集合的第一待识别文本行，根据所述第一待识别文本行的位置信息，对所述第一待识别文本行进行二次分类，以确定所述第一待识别文本行是否为台词文本；若是，则将所述第一待识别文本行由所述第二集合迁移至所述第一集合；对于标识为非台词标识的聚类结果，确定所述聚类结果中属于第一集合的第二待识别文本行；确定所述第二待识别文本行为非台词文本，并将所述第二待识别文本行由所述第二集合迁移至所述第一集合。
16.可选地，所述识别模块还用于：根据所述多个文本行的位置信息，确定在所述当前视频的视频帧上每一像素点出现文本行的频次；将出现文本行的频次大于预设的第二阈值的像素点组成的区域确定为台词区域；根据所述文本行的位置信息，确定所述文本行对应的文本区域的宽度信息和高度信息；根据所述文本行对应的文本区域的宽度信息和高度信息，计算所述文本区域与所述台词区域的面积交并比；根据所述文本行对应的文本区域的高度信息，计算所述文本区域与所述台词区域的高度交并比；根据所述文本行对应的文本区域的宽度信息，去计算所述文本区域与所述台词区域的宽度交并比；在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。
17.可选地，所述更新模块还用于：将所述预设的第三阈值更新为预设的第六阈值以及将所述预设第四阈值更新为预设的第七阈值，其中，所述预设的第六阈值小于所述预设的第三阈值，所述预设的第七阈值小于所述预设的第四阈值；在所述文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；在所述文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。
18.在本发明实施例的第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，
用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现本发明任一实施例的文本处理方法。
19.在本发明实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例的文本处理方法。
20.本发明实施例提供的文本处理方法、装置、电子设备和计算机可读存储介质，通过对当前视频的视频帧序列进行文字检测，确定该视频帧序列中的多个文本行，根据该多个文本行的位置信息，对该当前视频的文本行进行初始分类，初步确定文本行是否为台词文本行，从而将当前视频的文本行划分到两个集合中，然后获取每一文本行的字体特征信息，根据该字体特征信息对所有文本行进行聚类，获得多个聚类结果，其中，每一聚类结果中的文本行具有相同的字体；再然后，根据得到的聚类结果，对得到的两个集合进行二次过滤，过滤掉台词文本行集合中被误识别的非台词文本行，以及召回非台词文本行集合中漏识别台词文本行，从而提升了台词识别结果的准确性。
附图说明
21.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
22.图1示意性示出了本发明实施例的文本处理方法的主要流程的示意图；
23.图2示意性示出了本发明实施例的文本处理方法提取的字体特征信息的示意图；
24.图3示意性示出了本发明实施例的文本处理方法的子流程的示意图；
25.图4-图7分别示意性示出了本发明实施例的文本处理方法的聚类结果的示意图；
26.图8-图9示意性示出了本发明实施例的文本处理方法对分类结果进行调整的示意图；
27.图10示意性示出了本发明实施例的文本处理装置的结构示意图；
28.图11示意性示出了本发明实施例的适用于文本处理方法的电子设备的结构示意图。
具体实施方式
29.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。
30.在场景文字识别、文字搜索、文本翻译等应用场景中，首先需要准确定位到目标文本，进而对目标文本进行识别或翻译。例如，目标文本为当前视频的台词文本，其中，台词文本为当前视频中各个角色之间的对白和独白，即当前视频中由各个角色说出来的语言。在综艺台词的生产翻译场景中，需要在综艺视频中定位到台词文本行，过滤掉非台词文本行，例如过滤掉赞助商、广告的宣传语等。综艺视频中的台词文本行包括节目主持人和嘉宾的对白、所唱歌曲的歌词以及人名条，其中，人名条用于指示说出当前对白或演唱当前歌曲的人物名称。目前，常用的方法是通过文本行的位置信息来判定其是否为台词文本行。但是，只使用文本行的位置信息对其进行判断，会导致当其它文本行出现在台词文本行的位置时，可能由位置信息的成功匹配，导致非台词文本行被误识别为台词文本行。同样也会出现台词文本行的位置出现较大误差或刚好处于临界阈值时导致匹配实失败、误过滤的情况。
31.针对上述技术问题，考虑到在综艺视频中通常会对同一种标识或同一类别的文本
采用相同的字体进行展示，对不同标识或不同类别的文本采用不同的字体进行展示，例如对综艺视频的台词、广告文本、片尾的滚动字幕采用不同的字体进行展示，因而本发明实施例通过对视频中出现的文本行的字体特征进行聚类，将同一字体特征的文本行聚类到同一聚类结果中，以将属于同一标识或同一类别的文本聚类到同一聚类结果中，然后通过聚类的结果与根据文本行位置信息获得的分类结果进行合并，将当前分类结果中被误保留的其他字体的文本行过滤掉，同时将由于文字检测的位置信息与台词区域差异较大的台词，通过台词标识信息聚类结果进行进一步的召回，进而提高了文本行识别的准确性，对于文本翻译而言，可有效提升台词翻译结果的准确性和效率，避免人工进一步的核验，有效降低了成本。
32.为更清楚的理解本发明实施例的技术方案，下面结合附图对本发明实施例的技术方案进行清楚、完整的描述。
33.图1示意性示出了本发明实施例的文本处理方法的主要流程的示意图，如图1所示，该方法包括：
34.步骤101：对当前视频的视频帧序列进行文字检测，确定所述视频帧序列中的多个文本行。
35.在本实施例中，当前视频可以是各种类型的综艺视频(综艺视频是一种综合多种艺术形式并带有娱乐性的综艺节目)，例如访谈类、歌曲类等。视频帧序列中的视频帧可以是当前视频所有的视频帧，也可以是对当前视频所有的视频帧进行抽帧后得到的视频帧。本步骤对视频帧序列中的每一视频帧进行文本检测，确定该视频帧中是否存在文本行。若该视频帧中存在文本行则可以确定该文本行的位置信息，例如文本行在该视频帧中的坐标，通过该坐标可以确定文本行对应的文本区域的宽度、高度，即确定文本区域的大小。若该视频帧中不存在文本行，则对下一帧视频帧进行检测。
36.作为示例，可以使用ctpn文字检测器检测视频帧中的文本行。其中，ctpn(detecting textin natural image with connectionist text proposal network，基于连接网络的文本检测)可以检测水平或微斜的文本行，文本行被看成一个字符序列。ctpn文字检测器(也可以称为ctpn模型)的前端可以使用vggnet-16(vggnet是牛津大学计算机视觉组和谷歌公司一起研发的深度卷积神经网络，vggne-16是具有16层网络的深度卷积神经网络)做基础网络来提取各字符的局部图像特征，中间使用blstm(bi-directional long short-term memory，双向长短期记忆网络)层提取字符序列上下文特征，然后通过全连接层(fully connected layer)，末端经过预测分支输出各个文字块的坐标值，合并相邻的小文字块为文本行。
37.步骤102：根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类，获得第一集合和第二集合，其中，所述第一集合中的文本行被识别为台词文本，所述第二集合中的文本行被识别为非台词文本。
38.在本实施中将检测得到的文本行分为两类，一类是台词文本，另一类是非台词文本。台词文本可以包括主持人和嘉宾的对白、所唱歌曲的歌词以及人名条。其中，人名条用于指示说出当前对白或演唱当前歌曲的人物名称。
39.在本步骤中，针对每一文本行，根据该文本行的位置信息，可以确定该文本行是否位于台词区域，若该文本行位于台词区域，则可以确定该文本行为台词文本，若该文本行位
于台词区域之外的其他区域，则可以确定该文本行为非台词文本。其中，台词区域可以根据视频序列中所有文本行的位置信息确定。
40.步骤103：根据所述多个文本行对应的字体特征信息和预构建的聚类网络，对所述当前视频的文本行进行聚类，得到多个聚类结果，其中，同一聚类结果中的文本行具有相同的字体。
41.聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。在本步骤中，通过预构建的聚类网络和文本行的字体特征信息，对当前视频的文本行进行聚类，以将同一字体的文本行聚到一个聚类结果中，以及将不同字体的文本行聚到不同的聚类结果中。其中，字体特征信息用于表征一字体异于其他字体的特点。文本行对应的字体特征信息可以通过预构建的字体识别模型提取，该预构建的字体识别模型可以是卷积神经网络模型。预构建的聚类模型也可以是神经网络模型。该预构建的聚类模型可以是无中心点的聚类模型。作为示例，预构建的聚类模型可以通过gcn网络训练得到。其中，gcn(graph convolutional networks，图卷积网络)是一种在图上进行机器学习的神经网络框架。
42.步骤104：根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类，确定所述当前视频最终的台词文本。
43.本步骤通过聚类的结果，对已有的根据文本行位置信息获得的文本行分类结果进行过滤以及召回，将第一集合中被误识别的非台词文本进行过滤，将第二集合中被漏识别的台词文本行进行召回，实现了对当前视频帧中的文本行进行二次分类，可有效过滤掉初始分类结果中被误识别的非台词文本，以及召回被漏识别的台词文本，从而提升台词文本识别的准确率。
44.本发明实施例的文本处理方法，通过对当前视频的视频帧序列进行文字检测，确定该视频帧序列中的多个文本行，根据该多个文本行的位置信息，对该当前视频的文本行进行初始分类，初步确定文本行是否为台词文本行，从而将当前视频的文本行划分到两个集合中，然后获取每一文本行的字体特征信息，根据该字体特征信息对所有文本行进行聚类，获得多个聚类结果，其中，每一聚类结果中的文本行具有相同的字体；再然后，根据得到的聚类结果，对得到的两个集合进行二次过滤，过滤掉台词文本行集合中被误识别的非台词文本行，以及召回非台词文本行集合中漏识别台词文本行，从而提升了台词识别结果的准确性。
45.在可选的实施例中，步骤103中预构建的聚类网络可以通过如下过程获得：
46.首先，获取训练样本集，所述训练样本集中的训练样本包括真实的台词图像和仿真的台词图像；其中，训练样本集中的真实台词图像可以通过从综艺视频上截图获得，该真实台词图像中文本行可以涵盖多种字体的台词，该仿真的台词图像可以通过将不同字体的文本贴在图片上获得。
47.其次，根据预构建的字体特征提取模型，获取所述训练样本集中每一训练样本的字体特征信息；其中，该预构建的字体识别模型可以是卷积神经网络模型，如图2所示，提取到的字体特征信息为2048维的float数据。float是指浮点型数据类型。
48.最后，根据所述每一训练样本的字体特征信息，训练得到所述聚类网络，其中，可
以通过预设的交叉熵损失函数和预设的gcn网络，对训练样本的字体特征信息进行训练，得到该聚类网络。
49.本实施例的真实的台词图像以及仿真的台词图能够覆盖较多的字体，通过将包含真实的台词图像以及仿真的台词图像作为训练样本进行训练，得到的预构建的聚类网络能够准确地对文本行进行聚类，使得同一聚类结果内的字体相同，保证了聚类结果内的纯净度。
50.在可选的实施例中，根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整的过程包括：
51.针对每一聚类结果，根据所述第一集合和所述第二集合，确定所述聚类结果的标识，所述聚类结果的标识包括台词标识和非台词标识；
52.根据所述聚类结果的标识，对所述第一集合和所述第二集合中的文本行进行调整。
53.由于将视频中同一字体展示的文本行聚到同一个聚类结果中，且该聚类结果中不会掺杂进来多种字体的文本行，聚类结果内的纯净度较高，所以如果该类别中较多的文本行被识别为台词文本，即该类别中较多的文本行存在于第一集合中，则可以认定该聚类结果的标识为台词标识；如果该类别中较多的文本行被识别为非台词文本，即该类别中较多的文本行存在于第二集合中，则可以认定该聚类结果的标识为非台词标识。因此，本实施例可以通过聚类结果中台词文本所占的比例确定其标识。
54.另一方面，若聚类结果中较多的文本行被识别为台词文本，则该类别中其他的文本行(即不存在于第一集合，而存在于第二集合中的文本行)可能被误识别为非台词文本了；若聚类结果中较多的文本行被识别为非台词文本，则该类别中其他的文本行(即不存在于第二集合，而存在于第一集合中的文本行)可能被误识别为台词文本了。因此，在本发明实施例中可以根据聚类结果的标识，对第一集合与第二集合中的文本行进行二次分类，即通过聚类结果，对已有的根据文本行位置信息获得的文本行分类结果进行过滤以及召回，将第一集合中被误识别的非台词文本进行过滤，将第二集合中被漏识别的台词文本行进行召回，从而提高台词文本识别的准确率。
55.在可选的实施例中，针对每一聚类结果，根据第一集合和第二集合确定该聚类结果的标识的过程包括：对于每一聚类结果，确定所述聚类结果中属于第一集合的文本行所占的第一比例；在所述第一比例大于预设的第一阈值的情况下，确定所述聚类结果的标识为台词标识；在所述第一比例小于或等于所述预设的第一阈值的情况下，确定所述聚类结果的标识为非台词标识。其中，预设的第一阈值可以根据应用场景灵活设置，本发明在此不做限制。优选的，相对于过滤掉被误识别的非台词文本，召回被漏识别的台词文本更重要，因此可以将第一预设阈值设置的较小，例如将预设的第一阈值设置为3％、4％等。
56.在可选的实施例中，根据多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类的过程包括：
57.对于标识为台词标识的聚类结果，确定所述聚类结果中属于第二集合的第一待识别文本行，根据所述第一待识别文本行的位置信息，对所述第一待识别文本行进行二次分类，以确定所述第一待识别文本行是否为台词文本；若是，则将所述第一待识别文本行由所述第二集合迁移至所述第一集合；
58.对于标识为非台词标识的聚类结果，确定所述聚类结果中属于第一集合的第二待识别文本行；确定所述第二待识别文本行为非台词文本，并将所述第二待识别文本行由所述第二集合迁移至所述第一集合。
59.作为示例，假设第一阈值为4％，若某一聚类结果a中属于第一集合中的文本行所占的第一比例为60％，则确定该聚类结果的标识为台词标识。该聚类结果a中有40％的文本行不属于第一集合，而属于第二集合。该聚类结果a中属于第二集合的文本行为第一待识别文本行。对于第一待识别文本行，可以根据其位置信息，对其进行二次分类。在对其进行二次分类时可以放宽分类条件。
60.若某一聚类结果b中属于第一集合中的文本行所占的第一比例为2％，则确定该聚类结果的标识为非台词标识。该聚类结果b中有98％的文本行不属于第二集合，而属于第一集合。该聚类结果b中属于第一集合的文本行为第二待识别文本行。对于第二待识别文本行，确定其为非台词文本，并将所述第二待识别文本行由所述第二集合迁移至所述第一集合。
61.本实施例通过聚类的结果，对已有的根据文本行位置信息获得的文本行分类结果进行过滤以及召回，将第一集合中被误识别的非台词文本进行过滤，将第二集合中被漏识别的台词文本行进行召回，实现了对当前视频帧中的文本行进行二次分类，可有效过滤掉初始分类结果中被误识别的非台词文本，以及召回被漏识别的台词文本，从而提升台词文本识别的准确率。
62.在可选的实施例中，如图3所示，根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类包括：
63.步骤301：根据所述多个文本行的位置信息，确定在所述当前视频的视频帧上每一像素点出现文本行的频次。
64.步骤302：将出现文本行的频次大于预设的第二阈值的像素点组成的区域确定为台词区域。
65.其中，第二阈值可以根据应用场景灵活设置，本发明在此不做限制。在确定台词区域之后，可以确定台词区域的位置信息。台词区域的位置信息可以包括该台词区域的四个端点的坐标：(x1，y1)、(x1，y2)、(x2，y1)和(x2，y2)。根据x1和x2可以确定台词区域的宽度信息，根据y1和y2可以确定台词区域的高度信息。
66.步骤303：根据所述文本行的位置信息，确定所述文本行对应的文本区域的宽度信息和高度信息。其中，文本行的位置信息可以包括该文本行的四个端点的坐标：(x3，y3)、(x3，y4)、(x4，y3)和(x4，y4)。根据x3和x4可以确定文本区域的宽度信息，根据y3和y4可以确定文本区域的高度信息。
67.步骤304：根据所述文本行对应的文本区域的宽度信息和高度信息，计算所述文本区域与所述台词区域的面积交并比。其中，交并比(intersection-over-union，iou)是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率，即它们的交集与并集的比值。在本步骤中，面积交并比是文本区域、台词区域的重叠区域与文本区域、台词区域的合并区域的比值。
68.步骤305：根据所述文本行对应的文本区域的高度信息，计算所述文本区域与所述台词区域的高度交并比。该高度交并比为文本区域的高度信息[y3，y4]与台词区域的高度
信息[y1，y2]之间的交集与并集的比值。例如，y3＝100，y4＝200，y1＝110，y2＝210，则高度交并比＝90/110＝9/11。
[0069]
步骤306：根据所述文本行对应的文本区域的宽度信息，计算所述文本区域与所述台词区域的宽度交并比。该宽度交并比为文本区域的宽度信息[x3，x4]与台词区域的宽度信息[x1，x2]之间的交集与并集的比值。例如，x3＝90，x4＝200，x1＝110，x2＝210，则宽度交并比＝90/120＝9/12。
[0070]
步骤307：在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；或者，在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。
[0071]
在本实施例中，在判断某一文本行是否为台词文本时，需要分别判断该文本行的面积、高度、宽度是否都满足要求，在该文本行的面积、高度、宽度都满足要求的情况下才能判定该文本行为台词文本。对于文本行的面积的要求是文本行与台词区域的面积交并比大于第三阈值。对于文本行的高度的要求是文本行与台词区域的高度交并比大于第四阈值。对于文本行的宽度，其判断分为3种情况：
[0072]
(1)文本行与台词区域的宽度交并比大于第五阈值；
[0073]
(2)文本行与台词区域的宽度交并比不大于第五阈值，但文本行在宽度方向落在文本区域范围内；
[0074]
(3)文本行与台词区域的宽度交并比不大于第五阈值，并且文本行在宽度方向没有落在文本区域范围内。
[0075]
上述第(1)、(2)种情况都可以判定文本行的宽度满足要求，第(3)种情况可以判定不满足要求。在面积交并比、高度交并比大于相应阈值的情况下，上述第(1)、(2)种情况都可以判断文本行为台词文本。
[0076]
其中，第三阈值、第四阈值以及第五阈值可以根据应用场景灵活设置，本发明在此不作限制。示例性的，第三阈值为0.9，第四阈值为0.9，第五阈值为0.2。宽度交并比不大于预设的第五阈值但文本行在宽度方向上落于台词区域的范围内的情况是指，文本区域在宽度方向上较短，虽然其落在了台词区域的范围内，但其与台词区域的宽度交并比不大于预设的第五阈值。例如，文本区域的宽度信息为：x3＝90，x4＝110。台词区域的宽度信息为：x1＝80，x2＝210，则宽度交并比＝20/130＝0.15，虽然该文本区域与台词区域的宽度交并比0.15小于预设的第五阈值0.2，但是该文本区域完全落于该台词区域内，所以若该文本区域的面积交并比与高度交并比满足要求的情况下，则可以确定该文本行为台词文本。
[0077]
在可选的实施例中，根据第一待识别文本行的位置信息，对第一待识别文本行进行二次分类时可以放宽判断条件，例如可以在不改变判断文本行宽度的要求的情况下，将判断文本行面积和高度的要求降低。示例性的，可以通过减小相应阈值来实现降低判断文本行面积和高度的要求，即将预设的第三阈值更新为预设的第六阈值以及将预设第四阈值更新为预设的第七阈值，其中，所述预设的第六阈值小于所述预设的第三阈值，所述预设的第七阈值小于所述预设的第四阈值。然后，针对第一待识别文本行，在所述第一待识别文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比大于
预设的第五阈值的情况下，确定所述文本行为台词文本；或在所述第一待识别文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。
[0078]
作为示例，假设第三阈值为0.9，则第六阈值是小于0.9的数值，例如0.85、0.8、0.7等。假设第四阈值为0.9，第七阈值可以是小于0.9的数值，例如0.85、0.8、0.7等。在对第一待识别文本行进行二次判断时，将第三阈值、第四阈值减小，从而放宽判断条件，以召回被误识别为非台词文本的台词文本行，即将第二集和中被误识别为非台词文本的文本行迁移到第一集合中。
[0079]
本实施例对标识为台词标识的聚类结果中的第一待识别文本行进行二次分类，在对其进行二次分类时可以放宽判断条件，从而可以有效召回被误漏识别的台词文本。
[0080]
下面以当前视频为综艺视频为例说明本发明实施例的文本处理方法的过程：
[0081]
首先，通过ctpn文字检测器对该综艺视频的视频帧序列中的每一帧视频帧进行文字检测，检测出该综艺视频中的所有文本行，确定所有文本行的位置信息。
[0082]
其次，根据所有文本行的位置信息，确定出台词区域的位置信息。针对每一文本行，根据该文本行的位置信息以及台词区域的位置信息，确定该文本行是否为台词文本。若确定该文本行为台词文本，则将该文本行写入第一集合。若确定该文本行为非台词文本，则将该文本行写入第二集合。从而实现对该综艺视频的所有文本行的初始分类。
[0083]
然后，根据预构建的字体识别模型提取每一文本行的字体特征信息。其中，提取出的字体特征信息为2048维的float数据。进而，根据所有文本行的字体特征信息和预构建的聚类网络，对所有文本行进行聚类，得到多个聚类结果。其中，同一聚类结果内的文本行具有相同的字体。其中，部分聚类结果如图4-7所示，图4所示的聚类结果中的文本行的字体相同，该聚类结果内的文本行都是不相关的广告信息。图5所示的聚类结果中的文本行的字体相同，该聚类结果内的文本行都是人名条。图6所示的聚类结果中的文本行的字体相同，该聚类结果内的文本行都是综艺台词。图7所示的聚类结果中的文本行的字体相同，该聚类结果内的文本行都是综艺台词。因为一部综艺视频中的文本行较多，所以同一字体的文本行可能被聚到多个聚类结果中，例如将同一字体的文本行分别聚类到图6以及图7所示的聚类结果中了。
[0084]
最后，根据多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类，过滤掉第一集合中被误识别的非台词文本，以及召回第二集合中漏识别台词文本，从而确定该综艺视频最终的台词文本。如图8和图9所示，召回第二集合中漏识别的台词文本
″
好
″
、
″
几年过去
″
、
″
咋办嘛
″
，过滤第一集合中的非台词文本
″
指导单位：
″
、
″
李浩源：
″
。
[0085]
本发明实施例通过根据综艺视频中出现的文本行的字体特征信息，对所有文本行进行聚类，将同一字体的文本行聚到同一聚类结果中，以将属于同一标识或同一类别的文本行聚到同一聚类结果中，然后通过聚类的结果与根据文本行位置信息获得的分类结果进行合并，过滤掉第一集合中被误识别的非台词文本，以及召回第二集合中漏识别台词文本，进而提高了台词文本识别的准确性。
[0086]
图10示意性示出了本发明一实施例的文本处理装置1000的结构示意图，如图10所
示，该文本处理装置1000包括：
[0087]
文字检测模块1001，用于对当前视频的视频帧序列进行文字检测，确定所述视频帧序列中的多个文本行；
[0088]
识别模块1002，用于根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类，获得第一集合和第二集合，其中，所述第一集合中的文本行被识别为台词文本，所述第二集合中的文本行被识别为非台词文本；
[0089]
聚类模块1003，用于根据所述多个文本行对应的字体特征信息和预构建的聚类网络，对所述当前视频的文本行进行聚类，得到多个聚类结果，同一聚类结果中的文本行具有相同的字体；
[0090]
更新模块1004，用于根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类，确定所述当前视频最终的台词文本。
[0091]
可选地，所述装置还包括训练模块，用于：获取训练样本集，所述训练样本集中的训练样本包括真实的台词图像和仿真的台词图像；根据预构建的字体特征提取模型，获取所述训练样本集中每一训练样本的字体特征信息；根据所述每一训练样本的字体特征信息，训练得到所述聚类网络。
[0092]
可选地，所述更新模块1004还用于：针对每一聚类结果，根据所述第一集合和所述第二集合，确定所述聚类结果的标识；其中，所述聚类结果的标识包括台词标识和非台词标识；根据所述聚类结果的标识，对所述第一集合和所述第二集合中的文本行进行调整。
[0093]
可选地，所述更新模块1004还用于：对于每一聚类结果，确定所述聚类结果中属于第一集合的文本行所占的第一比例；在所述第一比例大于预设的第一阈值的情况下，确定所述聚类结果的标识为台词标识；在所述第一比例小于或等于所述预设的第一阈值的情况下，确定所述聚类结果的标识为非台词标识。
[0094]
可选地，所述更新模块1004还用于：对于标识为台词标识的聚类结果，确定所述聚类结果中属于第二集合的第一待识别文本行，根据所述第一待识别文本行的位置信息，对所述第一待识别文本行进行二次分类，以确定所述第一待识别文本行是否为台词文本；若是，则将所述第一待识别文本行由所述第二集合迁移至所述第一集合；对于标识为非台词标识的聚类结果，确定所述聚类结果中属于第一集合的第二待识别文本行；确定所述第二待识别文本行为非台词文本，并将所述第二待识别文本行由所述第二集合迁移至所述第一集合。
[0095]
可选地，所述识别模块1002还用于：将出现文本行的频次大于预设的第二阈值的像素点组成的区域确定为台词区域；根据所述文本行的位置信息，确定所述文本行对应的文本区域的宽度信息和高度信息；根据所述文本行对应的文本区域的宽度信息和高度信息，计算所述文本区域与所述台词区域的面积交并比；根据所述文本行对应的文本区域的高度信息，计算所述文本区域与所述台词区域的高度交并比；根据所述文本行对应的文本区域的宽度信息，去计算所述文本区域与所述台词区域的宽度交并比；在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；或在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比不大于预设的第五阈值但所述
文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。
[0096]
可选地，所述更新模块1004还用于：将所述预设的第三阈值更新为预设的第六阈值以及将所述预设第四阈值更新为预设的第七阈值，其中，所述预设的第六阈值小于所述预设的第三阈值，所述预设的第七阈值小于所述预设的第四阈值；在所述文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；在所述文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。
[0097]
本发明实施例的文本处理装置，通过对当前视频的视频帧序列进行文字检测，确定该视频帧序列中的多个文本行，根据该多个文本行的位置信息，对该当前视频的文本行进行初始分类，初步确定文本行是否为台词文本行，从而将当前视频的文本行划分到两个集合中，然后获取每一文本行的字体特征信息，根据该字体特征信息对所有文本行进行聚类，获得多个聚类结果，其中，每一聚类结果中的文本行具有相同的字体；再然后，根据得到的聚类结果，对得到的两个集合进行二次过滤，过滤掉台词文本行集合中被误识别的非台词文本行，以及召回非台词文本行集合中漏识别台词文本行，从而提升了台词识别结果的准确性。对于文本翻译而言，可有效提升台词翻译结果的准确性，有效降低了成本。
[0098]
上述装置可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。
[0099]
图11示意性示出了本发明实施例的电子设备的结构图。如图11所示，该电子设备包括：处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，
[0100]
存储器1103，用于存放计算机程序；
[0101]
处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：
[0102]
对当前视频的视频帧序列进行文字检测，确定所述视频帧序列中的多个文本行；根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类，获得第一集合和第二集合，其中，所述第一集合中的文本行被识别为台词文本，所述第二集合中的文本行被识别为非台词文本；根据所述多个文本行对应的字体特征信息和预构建的聚类网络，对所述当前视频的文本行进行聚类，得到多个聚类结果，同一聚类结果中的文本行具有相同的字体；根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类，确定所述当前视频最终的台词文本。
[0103]
上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0104]
通信接口用于上述终端与其他设备之间的通信。
[0105]
存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0106]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，
简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0107]
在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本处理方法。
[0108]
在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本处理方法。
[0109]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0110]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语
″
包括
″
、
″
包含
″
或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句
″
包括一个......
″
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0111]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0112]
以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于计算机视觉的非接触式呼吸检测方法

文本处理方法、装置、电子设备和存储介质与流程

相关文献

最热文献