文本区域的位置识别方法、装置、电子设备和存储介质与流程

2022-03-05 06:00:29 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，特别是涉及一种文本区域的位置识别方法和装置，以及一种电子设备和一种计算机可读存储介质。

背景技术：

2.随着互联网和计算机技术的快速发展，传统的电视台和互联网上存在大量的视频内容。为了辅助用户理解视频内容，通常可以为视频内容设置对应的文本，例如，在综艺类视频中展示台词文本和非台词文本。
3.但是，当视频内容中存在大量的文本时，各文本之间可能会产生干扰。例如，综艺类视频中的非台词文本会干扰台词文本。因此，需要对视频内容中的文本进行过滤，以展示更有价值的文本。在文本过滤之前，需要确定各文本的范围。

技术实现要素：

4.本发明实施例的目的在于提供一种文本区域的位置识别方法和装置，以及一种电子设备和一种计算机可读存储介质，解决了如何确定文本的范围的问题。具体技术方案如下：
5.在本发明实施的第一方面，首先提供了一种文本区域的位置识别方法，包括：获取待识别的帧图像，所述帧图像包含文本区域；提取所述帧图像中各个像素点的特征值；根据所述特征值计算各个所述像素点的梯度，并从所述帧图像中识别各个所述梯度中梯度峰值对应的帧图像位置；统计所述帧图像位置中的所述梯度峰值对应的像素点数量；基于所述像素点数量与预设阈值的比对结果，确认所述帧图像位置为所述文本区域的位置。
6.可选地，所述从所述帧图像中识别各个所述梯度中梯度峰值对应的帧图像位置，包括：当所述帧图像包含至少一个所述文本区域时，针对文本展示方向为横向的至少一个所述文本区域，识别各个所述梯度中梯度峰值对应的至少一个行位置；当所述帧图像包含至少一个所述文本区域时，针对文本展示方向为纵向的至少一个所述文本区域，识别各个所述梯度中梯度峰值对应的至少一个列位置。
7.可选地，所述识别各个所述梯度中梯度峰值对应的至少一个行位置，包括：当所述梯度峰值为正向梯度峰值时，识别文本展示方向为横向的文本区域的上边界；当所述梯度峰值为负向梯度峰值时，识别文本展示方向为横向的文本区域的下边界；所述识别各个所述梯度中梯度峰值对应的至少一个列位置，包括：当所述梯度峰值为正向梯度峰值时，识别文本展示方向为纵向的文本区域的右边界；当所述梯度峰值为负向梯度峰值时，识别文本展示方向为纵向的文本区域的左边界。
8.可选地，所述统计所述帧图像位置中的梯度峰值对应的像素点数量，包括：统计所述梯度峰值所对应的像素点的预设周围区域内的像素点数量。
9.可选地，所述基于所述像素点数量与预设阈值的比对结果，确认所述帧图像位置为所述文本区域的位置，包括：若所述比对结果表示所述像素点数量大于所述预设阈值，则
确认所述帧图像位置为所述文本区域的位置。
10.可选地，所述基于所述像素点数量与预设阈值的比对结果，确认所述帧图像位置为所述文本区域的位置，包括：计算所述像素点数量与所述帧图像中其他的帧图像位置对应的像素点数量之间的差值；若所述比对结果表示所述差值大于所述预设阈值，则确认所述帧图像位置为包含单行文本或单列文本的所述文本区域的位置；若所述比对结果表示所述差值小于或等于所述预设阈值，则确认所述帧图像位置为包含多行文本或多列文本的所述文本区域的位置。
11.可选地，所述提取所述帧图像中各个像素点的特征值，包括：提取所述帧图像中各个像素点的灰度特征值。
12.在本发明实施的第二方面，还提供了一种文本区域的位置识别装置，包括：图像获取模块，用于获取待识别的帧图像，所述帧图像包含文本区域；特征值提取模块，用于提取所述帧图像中各个像素点的特征值；位置识别模块，用于根据所述特征值计算各个所述像素点的梯度，并从所述帧图像中识别各个所述梯度中梯度峰值对应的帧图像位置；数量统计模块，用于统计所述帧图像位置中的所述梯度峰值对应的像素点数量；位置确认模块，用于基于所述像素点数量与预设阈值的比对结果，确认所述帧图像位置为所述文本区域的位置。
13.可选地，所述位置识别模块，用于当所述帧图像包含至少一个所述文本区域时，针对文本展示方向为横向的至少一个所述文本区域，识别各个所述梯度中梯度峰值对应的至少一个行位置；当所述帧图像包含至少一个所述文本区域时，针对文本展示方向为纵向的至少一个所述文本区域，识别各个所述梯度中梯度峰值对应的至少一个列位置。
14.可选地，所述位置识别模块，用于当所述梯度峰值为正向梯度峰值时，识别文本展示方向为横向的文本区域的上边界；当所述梯度峰值为负向梯度峰值时，识别文本展示方向为横向的文本区域的下边界；所述位置识别模块，用于当所述梯度峰值为正向梯度峰值时，识别文本展示方向为纵向的文本区域的右边界；当所述梯度峰值为负向梯度峰值时，识别文本展示方向为纵向的文本区域的左边界。
15.可选地，所述数量统计模块，用于统计所述梯度峰值所对应的像素点的预设周围区域内的像素点数量。
16.可选地，所述位置确认模块，用于若所述比对结果表示所述像素点数量大于所述预设阈值，则确认所述帧图像位置为所述文本区域的位置。
17.可选地，所述位置确认模块，包括：差值计算模块，用于计算所述像素点数量与所述帧图像中其他的帧图像位置对应的像素点数量之间的差值；文本位置确认模块，用于若所述比对结果表示所述差值大于所述预设阈值，则确认所述帧图像位置为包含单行文本或单列文本的所述文本区域的位置；若所述比对结果表示所述差值小于或等于所述预设阈值，则确认所述帧图像位置为包含多行文本或多列文本的所述文本区域的位置。
18.可选地，所述特征值提取模块，用于提取所述帧图像中各个像素点的灰度特征值。
19.在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的文本区域的位置识别方法。
20.在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计
算机上运行时，使得计算机执行上述任一所述的文本区域的位置识别方法。
21.本发明实施例提供的文本区域的位置识别方案，通过采用从包含文本区域的帧图像中提取出各个像素点的特征值，进而根据特征值计算各个像素点的梯度，并从帧图像中识别各个梯度中梯度峰值对应的帧图像位置，再统计帧图像位置中梯度峰值对应的像素点数量，基于像素点数量与预设阈值的比对结果，确认帧图像位置为文本区域的位置的技术手段。实现了基于帧图像中像素点的特征值，初步确定文本区域的行位置或者列位置，然后再基于行位置或者列位置对应的像素点数量与预设阈值的比对结果，最终确认帧图像位置为文本区域的位置，即最终确认文本区域的范围，可以为后续的文本区域内的文本进行过滤提供过滤依据，可以解决现有的文本过滤之前，无法确定各文本区域的范围的技术问题，达到缩小文本过滤的范围，降低文本过滤的计算量，优化文本过滤的效果。
附图说明
22.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
23.图1为本发明实施例的一种文本区域的位置识别方法的步骤流程图。
24.图2为本发明实施例的一种综艺视频数据中的台词过滤预处理方法的步骤流程图。
25.图3为本发明实施例的一种文本区域的位置识别装置的结构示意图。
26.图4为本发明实施例的一种电子设备的结构示意图。
27.图5为本发明实施例的一种音视频文件中台词字幕的识别系统的工作流程示意图。
具体实施方式
28.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。
29.本发明实施例提出一种文本区域的位置识别方案，首先，提取包含文本区域的帧图像中各个像素点的特征值，然后根据特征值计算各个像素点的梯度，并从帧图像中识别梯度峰值对应的帧图像位置，进而统计帧图像中梯度峰值对应的像素点数量，最后基于像素点数量与预设阈值的比对结果，确认帧图像位置为文本区域的位置，为后续文本区域内的文本进行过滤提供过滤依据。
30.如图1所示，示出了本发明实施例的一种文本区域的位置识别方法的步骤流程图。该文本区域的位置识别方法可以应用于终端或者服务器。该文本区域的位置识别方法具体可以包括如下步骤。
31.步骤101，获取待识别的帧图像。
32.在本发明的实施例中，帧图像可以来源于视频数据或者音视频数据。在实际应用中，帧图像可以为视频数据或者音视频数据的一帧图像。而且，帧图像中可以包含文本区域。该文本区域可以理解为一帧图像中的文本内容所在的区域。一种实施例中，帧图像中可以包含一个文本区域或多个文本区域。
33.步骤102，提取帧图像中各个像素点的特征值。
34.在本发明的实施例中，可以将帧图像输入至预先训练完毕的网络模型，进而利用
网络模型提取出帧图像中各个像素点的特征值。
35.步骤103，根据特征值计算各个像素点的梯度，并从帧图像中识别各个梯度中梯度峰值对应的帧图像位置。
36.在本发明的实施例中，可以根据各个像素点的特征值计算各个像素点在正向方向的梯度和在负向方向的梯度，进而正向方向的梯度和负向方向的梯度确定各自方向的梯度峰值，然后从帧图像中识别梯度峰值对应的帧图像位置。
37.步骤104，统计帧图像位置中的梯度峰值对应的像素点数量。
38.在本发明的实施例中，可以统计帧图像位置中，以梯度峰值对应的像素点为中心，预设周围区域内的像素点数量。
39.步骤105，基于像素点数量与预设阈值的比对结果，确认帧图像位置为文本区域的位置。
40.在本发明的实施例中，若确认上述识别出的帧图像位置为文本区域的位置，需要识别出的帧图像位置满足一定的基本条件。该基本条件即帧图像位置中梯度峰值对应的像素点数量需要大于一定的数量阈值。也就是说，当比对结果表示帧图像位置中梯度峰值对应的像素点数量大于预设阈值时，确认帧图像位置为文本区域的位置。
41.本发明实施例提供的文本区域的位置识别方案，通过采用从包含文本区域的帧图像中提取出各个像素点的特征值，进而根据特征值计算各个像素点的梯度，并从帧图像中识别各个梯度中梯度峰值对应的帧图像位置，再统计帧图像位置中梯度峰值对应的像素点数量，基于像素点数量与预设阈值的比对结果，确认帧图像位置为文本区域的位置的技术手段。实现了基于帧图像中像素点的特征值，初步确定文本区域的行位置或者列位置，然后再基于行位置或者列位置对应的像素点数量与预设阈值的比对结果，最终确认帧图像位置为文本区域的位置，即最终确认文本区域的范围，可以为后续的文本区域内的文本进行过滤提供过滤依据，可以解决现有的文本过滤之前，无法确定各文本区域的范围的技术问题，达到缩小文本过滤的范围，降低文本过滤的计算量，优化文本过滤的效果。
42.在本发明的一种示例性实施例中，帧图像中可以包含至少一个文本区域，而且，文本区域中文本展示方向通常可以划分为横向和纵向两种方向。因此，从帧图像中识别各个梯度中梯度峰值对应的帧图像位置的一种实施方式为，当帧图像包含至少一个文本区域时，针对文本展示方向为横向的至少一个文本区域，识别各个梯度中梯度峰值对应的至少一个行位置。需要说明的是，此实施方式中的行位置可以为水平行位置，也可以为与水平行位置存在一定角度的行位置。从帧图像中识别各个梯度中梯度峰值对应的帧图像位置的另一种实施方式为，当帧图像包含至少一个文本区域时，针对文本展示方向为纵向的至少一个文本区域，识别各个梯度中梯度峰值对应的至少一个列位置。需要说明的是，此实施方式中的列位置可以为垂直列位置，也可以为与垂直列位置存在一定角度的列位置。
43.在本发明的一种示例性实施例中，由于梯度为矢量，包含正向方向的梯度和负向方向的梯度。在实际应用中，若文本区域内文本展示方向为横向，则识别各个梯度中梯度峰值对应的至少一个行位置的一种实施方式为，当梯度峰值为正向梯度峰值时，识别文本展示方向为横向的文本区域的上边界；当梯度峰值为负向梯度峰值时，识别文本展示方向为横向的文本区域的下边界。若文本区域内文本展示方向为纵向，则识别各个梯度中梯度峰值对应的至少一个列位置的一种实施方式为，当梯度峰值为正向梯度峰值时，识别文本展
示方向为纵向的文本区域的右边界；当梯度峰值为负向梯度峰值时，识别文本展示方向为纵向的文本区域的左边界。
44.在本发明的一种示例性实施例中，统计帧图像位置中梯度峰值对应的像素点数量的一种实施方式为，统计帧图像位置中梯度峰值对应的像素点的预设周围区域内的像素点数量。由上可知，帧图像位置可以为文本区域的上边界、下边界、左边界或者右边界。例如，帧图像位置u为文本区域的上边界。针对帧图像位置u的梯度峰值对应的像素点d，在像素点d的预设周围区域[d
xy-dis，d
xy
dis]内统计得到像素点数量ux。其中，d
xy
表示像素点d的横坐标值、纵坐标值，dis表示预设的坐标阈值。
[0045]
在本发明的一种示例性实施例中，基于像素点数量与预设阈值的比对结果，确认帧图像位置为文本区域的位置的一种实施方式为，若比对结果表示像素点数量大于预设阈值，则确认帧图像位置为文本区域的位置；若比对结果表示像素点数量小于或等于预设阈值，则确认帧图像位置不为文本区域的位置。
[0046]
上述预设阈值可以为预先设定的一个经验值，或者，上述预设阈值可以为各帧图像位置中的梯度峰值对应的像素点数量进行排序后，当前的帧图像位置中的梯度峰值对应的像素点数量，与第一位像素点数量或者与前一位像素点数量之间的差值。
[0047]
在本发明的一种示例性实施例中，除了可以确认帧图像位置为文本区域的位置，还可以进一步确认文本区域中包含单行文本或单列文本，还是多行文本或多列文本。在实际应用中，可以计算当前帧图像位置对应的像素点数量与其他帧图像位置对应的像素点数量之间的差值，进而将差值与预设阈值进行比对得到比对结果。若比对结果表示差值大于预设阈值，则确认文本区域包含单行文本或单列文本，并确认当前帧图像位置为包含单行文本或单列文本的文本区域的位置。若比对结果表示差值小于或等于预设阈值，则确认文本区域包含多行文本或多列文本，并确认当前帧图像位置为包含多行文本或多列文本的文本区域的位置。
[0048]
在本发明的一种示例性实施例中，提取帧图像中各个像素点的特征值的一种实施方式为，提取帧图像中各个像素点的灰度特征值。在实际应用中，帧图像可以为灰度图或者rgb图。若帧图像为rgb图，则可以进一步将rgb图转换为灰度图，进而提取帧图像中各个像素点的灰度特征值。
[0049]
基于上述关于文本区域的位置识别方法实施例的相关说明，下面介绍一种综艺视频数据中的台词过滤预处理方法。如图2所示，图2示出了一种综艺视频数据中的台词过滤预处理方法的步骤流程图。
[0050]
获取包含文本区域的文本检测图像。该文本检测图像可以为上述实施例中的帧图像。文本检测图像中包含台词文本区域。该台词过滤预处理方法的目的在于识别出文本检测图像中的台词文本区域的大概范围，为后续台词过滤提供过滤依据。需要说明的是，该文本检测图像中的台词文本区域内的文本展示方向为横向。获取文本检测图像中各个像素点的灰度特征值，根据灰度特征值计算各个像素点的梯度，进而从文本检测图像中识别出多个帧图像位置。具体地，多个帧图像位置可以对应于每个台词文本区域的上边界、下边界和中间点所在行。若上述识别得到帧图像位置b1、b2、b3，则分别统计帧图像位置b1、b2、b3中梯度峰值对应的像素点数量bs1、bs2、bs3。分别将像素点数量bs1、bs2、bs3与预设阈值bm进行比对得到各自对应的比对结果d1、d2和d3。若比对结果d1表示bs1大于bm，则确认帧图像
位置b1为台词文本区域的位置；若比对结果d2表示bs2大于bm，则确认帧图像位置b2为台词文本区域的位置；若比对结果d3表示bs3小于bm，则确认帧图像位置b3不为台词文本区域的位置。最终，文本检测图像中台词文本区域的位置由帧图像位置b1和b2确定。若帧图像位置b1的纵坐标大于帧图像位置b2的纵坐标，则帧图像位置b1为台词文本区域的上边界，帧图像位置b2为台词文本区域的下边界。
[0051]
如图3所示，示出了本发明实施例的一种文本区域的位置识别装置的结构示意图。该文本区域的位置识别装置可以包括如下模块。
[0052]
图像获取模块31，用于获取待识别的帧图像，所述帧图像包含文本区域；
[0053]
特征值提取模块32，用于提取所述帧图像中各个像素点的特征值；
[0054]
位置识别模块33，用于根据所述特征值计算各个所述像素点的梯度，并从所述帧图像中识别各个所述梯度中梯度峰值对应的帧图像位置；
[0055]
数量统计模块34，用于统计所述帧图像位置中的所述梯度峰值对应的像素点数量；
[0056]
位置确认模块35，用于基于所述像素点数量与预设阈值的比对结果，确认所述帧图像位置为所述文本区域的位置。
[0057]
在本发明的一种示例性实施例中，所述位置识别模块33，用于当所述帧图像包含至少一个所述文本区域时，针对文本展示方向为横向的至少一个所述文本区域，识别各个所述梯度中梯度峰值对应的至少一个行位置；当所述帧图像包含至少一个所述文本区域时，针对文本展示方向为纵向的至少一个所述文本区域，识别各个所述梯度中梯度峰值对应的至少一个列位置。
[0058]
在本发明的一种示例性实施例中，所述位置识别模块33，用于当所述梯度峰值为正向梯度峰值时，识别文本展示方向为横向的文本区域的上边界；当所述梯度峰值为负向梯度峰值时，识别文本展示方向为横向的文本区域的下边界；
[0059]
所述位置识别模块33，用于当所述梯度峰值为正向梯度峰值时，识别文本展示方向为纵向的文本区域的右边界；当所述梯度峰值为负向梯度峰值时，识别文本展示方向为纵向的文本区域的左边界。
[0060]
在本发明的一种示例性实施例中，所述数量统计模块34，用于统计所述梯度峰值所对应的像素点的预设周围区域内的像素点数量。
[0061]
在本发明的一种示例性实施例中，所述位置确认模块35，用于若所述比对结果表示所述像素点数量大于所述预设阈值，则确认所述帧图像位置为所述文本区域的位置。
[0062]
在本发明的一种示例性实施例中，所述位置确认模块35，包括：
[0063]
差值计算模块，用于计算所述像素点数量与所述帧图像中其他的帧图像位置对应的像素点数量之间的差值；
[0064]
文本位置确认模块，用于若所述比对结果表示所述差值大于所述预设阈值，则确认所述帧图像位置为包含单行文本或单列文本的所述文本区域的位置；若所述比对结果表示所述差值小于或等于所述预设阈值，则确认所述帧图像位置为包含多行文本或多列文本的所述文本区域的位置。
[0065]
在本发明的一种示例性实施例中，所述特征值提取模块32，用于提取所述帧图像中各个像素点的灰度特征值。
[0066]
本发明实施例还提供了一种电子设备，如图4所示，包括处理器41、通信接口42、存储器43和通信总线44，其中，处理器41，通信接口42，存储器43通过通信总线44完成相互间的通信，
[0067]
存储器43，用于存放计算机程序；
[0068]
处理器41，用于执行存储器43上所存放的程序时，实现如下步骤：
[0069]
获取待识别的帧图像，所述帧图像包含文本区域；
[0070]
提取所述帧图像中各个像素点的特征值；
[0071]
根据所述特征值计算各个所述像素点的梯度，并从所述帧图像中识别各个所述梯度中梯度峰值对应的帧图像位置；
[0072]
统计所述帧图像位置中的所述梯度峰值对应的像素点数量；
[0073]
基于所述像素点数量与预设阈值的比对结果，确认所述帧图像位置为所述文本区域的位置。
[0074]
所述从所述帧图像中识别各个所述梯度中梯度峰值对应的帧图像位置，包括：
[0075]
当所述帧图像包含至少一个所述文本区域时，针对文本展示方向为横向的至少一个所述文本区域，识别各个所述梯度中梯度峰值对应的至少一个行位置；
[0076]
当所述帧图像包含至少一个所述文本区域时，针对文本展示方向为纵向的至少一个所述文本区域，识别各个所述梯度中梯度峰值对应的至少一个列位置。
[0077]
所述识别各个所述梯度中梯度峰值对应的至少一个行位置，包括：
[0078]
当所述梯度峰值为正向梯度峰值时，识别文本展示方向为横向的文本区域的上边界；
[0079]
当所述梯度峰值为负向梯度峰值时，识别文本展示方向为横向的文本区域的下边界；
[0080]
所述识别各个所述梯度中梯度峰值对应的至少一个列位置，包括：
[0081]
当所述梯度峰值为正向梯度峰值时，识别文本展示方向为纵向的文本区域的右边界；
[0082]
当所述梯度峰值为负向梯度峰值时，识别文本展示方向为纵向的文本区域的左边界。
[0083]
所述统计所述帧图像位置中的梯度峰值对应的像素点数量，包括：
[0084]
统计所述梯度峰值所对应的像素点的预设周围区域内的像素点数量。
[0085]
所述基于所述像素点数量与预设阈值的比对结果，确认所述帧图像位置为所述文本区域的位置，包括：
[0086]
若所述比对结果表示所述像素点数量大于所述预设阈值，则确认所述帧图像位置为所述文本区域的位置。
[0087]
所述基于所述像素点数量与预设阈值的比对结果，确认所述帧图像位置为所述文本区域的位置，包括：
[0088]
计算所述像素点数量与所述帧图像中其他的帧图像位置对应的像素点数量之间的差值；
[0089]
若所述比对结果表示所述差值大于所述预设阈值，则确认所述帧图像位置为包含单行文本或单列文本的所述文本区域的位置；
[0090]
若所述比对结果表示所述差值小于或等于所述预设阈值，则确认所述帧图像位置为包含多行文本或多列文本的所述文本区域的位置。
[0091]
所述提取所述帧图像中各个像素点的特征值，包括：
[0092]
提取所述帧图像中各个像素点的灰度特征值。
[0093]
基于上述文本区域的位置识别方法和装置等实施例的说明，下面介绍一种音视频文件中台词字幕的识别系统。该识别系统可以由个人计算机或者服务器、服务器集群等硬件设备组成。该识别系统中部署有台词字幕检测框架，该台词字幕检测框架主要包含台词字幕检测模型、台词字幕过滤模型、台词字幕跟踪模型、文本分类模型。
[0094]
参照图5，示出了本发明实施例的一种音视频文件中台词字幕的识别系统的工作流程示意图。在实际应用过程中，将一个完整的音视频文件输入至该识别系统，利用硬件设备的图形处理器(graphics processing unit，简称gpu)，从音视频文件中抽取视频帧结果，具体的视频帧结果可以为部分帧图像和全量帧图像。其中，部分帧图像可以为从音视频文件的1秒时间段内抽取的三帧图像。为了减少视频帧结果抽取的计算量，可以针对音视频文件的部分视频帧图像进行抽取处理，例如，只针对视频帧图像的下1/3部分进行抽取处理。抽取得到的部分帧图像可以不断的写入一个内存队列中。抽取得到的全量帧图像可以存储在硬盘中。
[0095]
基于多线程启动多个台词字幕检测模型，从内存队列中连续读取部分帧图像，并将读取出的部分帧图像进行拼接。例如，将连续读取的3帧部分帧图像拼接为1帧图像。台词字幕检测模型从拼接后的帧图像中定位出全部的文本框的位置。
[0096]
台词字幕过滤模型统计所有的文本框在时间抽中出现的频次，根据频次确定一个高频热图区域，进而将该高频热图区域作为台词字幕和非台词字幕的过滤标准区域，并利用该过滤标准区域将所有的文本框过滤为台词字幕文本框和非台词字幕文本框。其中，非台词字幕文本框被舍弃，不参与后续处理。
[0097]
台词字幕跟踪模型从台词字幕文本框中提取出光学字符识别(optical character recognition，简称ocr)的深度特征，并基于存储在硬盘中的全量帧图像进行跟踪处理，得到每个台词字幕文本框在音视频文件中出现的起止时间信息。
[0098]
文本分类模型判断每个台词字幕文本框对应的语种信息，根据语种信息将深度特征传输至对应的ocr预测网络。ocr预测网络利用各自的文本识别算法对台词字幕文本框中的台词字幕进行识别得到台词结果。例如，语种信息可以中文语种、英文语种。中文语种对应于中文ocr预测网络，英文语种对应于英文ocr预测网络。
[0099]
本发明实施例提供的识别系统构建了台词字幕帧级别识别软件开发工具包(software development kit，简称sdk)。针对同一个音视频文件，在gpu上对台词字幕进行识别的时间与通过该sdk进行台词字幕识别的时间的比值约为1：0.11，大幅提高了台词字幕识别的速率和精度。根据识别得到的台词结果可以生成音视频文件的外挂字幕，可以快速地将音视频文件的内嵌字幕转换为外挂字幕。
[0100]
本发明实施例提供的识别系统在对文本框进行过滤时，利用文本框的时域信息将文本框过滤为台词字幕文本框和非台词字幕文本框，文本框过滤的准确率很高。当音视频文件为影视剧作品时，过滤的准确率超过99％；当音视频文件为综艺作品时，过滤的准确率超过98.5％。
[0101]
本发明实施例提供的识别系统还可以针对综艺节目中的人名条、歌词版和歌词等指定区域抽取视频帧，进而执行人名、歌词等定位、过滤、跟踪、分类和识别等过程，实现了人名、歌词等的文字识别。
[0102]
本发明实施例提供的识别系统除了可以针对中文语种和英文语种的台词字幕进行识别，还可以实现双语音视频文件中的中英、中日、中韩等台词字幕的智能识别，支持多语种音视频文件的台词字幕识别。
[0103]
上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0104]
通信接口用于上述终端与其他设备之间的通信。
[0105]
存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0106]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0107]
在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本区域的位置识别方法。
[0108]
在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本区域的位置识别方法。
[0109]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0110]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖
非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0111]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0112]
以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种存储链路故障检测方法、装置、设备及介质与流程

文本区域的位置识别方法、装置、电子设备和存储介质与流程

相关文献

最热文献