视频识别文字自适应调整方法及系统与流程

2022-11-30 15:47:02 来源：中国专利 TAG：

1.本技术涉及文字识别技术领域，特别是涉及一种视频识别文字自适应调整方法及系统。

背景技术：

2.文字识别，是利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。人们在生产和生活中，要处理大量的文字、报表和文本。为了减轻人们的劳动，提高处理效率，50年代开始探讨一般文字识别方法，并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期，出现了多种字体和手写体文字识别机，其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机，并着重于汉字识别的研究。
3.随着社会的发展和进步，越来越多的人需要对视频进行文字识别，并且对视频文字识别的方法多种多样，如专利号为zl201610245068.5的发明专利中公开了一种视频文字的识别方法和装置，所述方法包括：获取多帧视频图像；分别从所述多帧视频图像中提取出多条待识别文字；计算所述多条待识别文字之间的编辑距离；依据所述编辑距离，获得一个或多个候选项；从所述一个或多个候选项中识别出当前文字；
4.又如公开号为cn109583443a的发明专利中公开了一种基于文字识别的视频内容判断方法，包括步骤：a.对视频画面进行截图；b.调用预先训练完毕的文字检测模型对截图画面进行文字区域的分析，找到画面中的文字区域并分割出来，获得一块或多块文字区域；c.检测到文字区域后，调用预先训练完毕的文字识别模型，循环对每一块文字区域进行文字识别，识别出每个文字区域的文字内容；d.针对识别出的文字内容，进行自然语言处理，理解其语义，做出相应的视频播放设置。
5.虽然上述专利文件中公开的技术能够获得准确的识别结果，并可以避免对语料库的依赖，又或是能够识别出视频中文字信息，并根据文字信息的提示，进行场景设置，实现对多领域的视频文字的识别，但是其仍然存在弊端，具体为其不能自适应的进行调整，也即无法实现自适应的基于文字识别的内容进行自学习，进而导致随着时间增长的同时，其容易出现识别模式落后的情形，进而导致容易出现识别工具或方法落后，进而导致无法准确识别文字的问题。

技术实现要素：

6.基于此，有必要针对上述技术问题，提供一种能够提高数据处理效率的视频识别文字自适应调整方法及系统。
7.本发明技术方案如下：
8.一种视频识别文字自适应调整方法，所述方法包括：
9.获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频
进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，其中，所述中级准确率低于所述高级准确率；获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据；将所述第一识别特征数据和所述第二识别特征数据进行数据对比，并获取识别差异特征；根据所述识别差异特征对所述视频文本识别网络模型进行自适应增量学习，在自适应增量学习后生成增强型文本识别网络模型，并基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，识别后生成当前文字识别结果，并将所述当前文字识别结果展示。
10.进一步地说，获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据；具体包括：
11.获取所述第一识别字体数据对应的时间进度数据；基于所述时间进度数据从所述基础待识别视频中提取与所述时间进度数据相匹配的第一基础视频；获取基于所述视频文本识别网络模型识别所述第一基础视频时的初始识别数据；获取文字识别审核人员对所述第初始识别数据进行纠正时的当前纠正数据，其中，所述当前纠正数据用于表征所述初始识别数据中的错误数据；根据所述当前纠正数据生成第一识别特征数据；获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据。
12.进一步地说，获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据；具体包括：
13.获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的初始识别数据；根据所述初始识别数据进行筛选，并从所述初始识别数据中剔除空白文字数据，生成第一阶段识别数据，其中，所述空白文字数据为无文字的识别数据；对所述无文字的识别数据进行错误筛选，并剔除错误字段数据，并对所述错误字段数据进行修正，生成第二阶段识别数据；获取实验浏览用户对所述第二阶段识别数据的实时浏览反馈，并根据所述实时浏览反馈对所述第二阶段数据进行纠正，生成第三阶段识别数据；将所述第三阶段识别数据与所述第一阶段识别数据按照预设的特定长度段进行对比，并获取实际对比结果，其中，所述第三阶段识别数据按照预设的特定程度拆分后包括多个后期数据段，所述第一阶段识别数据按照预设的特定程度拆分后包括多个初始数据段，每个实际对比结果均包括后期数据段、初始数据段和实际正确值；根据所述实际对比结果筛选出正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据。
14.进一步地说，根据所述实际对比结果筛选出正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，之后还包括：
15.根据所述实际对比结果筛选出正确率低于所述中级准确率的初始数据段，并设定为问题数据段；基于所述问题数据段的实际正确值生成与所述中级准确率之间的实际差异值，其中，所述实际差异值为所述实际正确值与所述中级准确率的差值；根据所述实际差异
值筛选出与所述实际差异值相匹配的文字识别监管人员；获取所述文字识别监管人员对所述问题数据段的问题分析反馈；将所述问题分析反馈发送至文字识别审核人员。
16.进一步地说，所述方法还包括：
17.获取初始审核员对所述当前文字识别结果的初始识别反馈结果；获取与所述初始审核员处于同组的其他审核人员对所述当前文字识别结果的同级别反馈结果；获取所述初始审核员和所述其他审核人员的主管审核人员，并获取所述主管审核人员的主管审核结果；根据所述初始识别反馈结果、所述同级别反馈结果和所述主管审核结果生成当前识别综合反馈结果；根据所述当前识别综合反馈结果判断所述当前文字识别结果是否大于等于预设的标准合理值；若判断所述当前文字识别结果大于等于所述标准合理值，则持续对所述当前文字识别结果进行展示，并将所述当前文字识别结果发送至预设的目标用户群体；若判断所述当前文字识别结果小于所述标准合理值，则根据所述当前识别综合反馈结果对当前文字识别结果进行复核，在复核完成后生成带展示识别文字数据。
18.进一步地说，一种视频识别文字自适应调整系统，所述系统包括：
19.字体数据获取模块，用于获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，其中，所述中级准确率低于所述高级准确率；
20.特征数据生成模块，用于获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据；
21.差异特征生成模块，用于将所述第一识别特征数据和所述第二识别特征数据进行数据对比，并获取识别差异特征；
22.模型增量展示模块，用于根据所述识别差异特征对所述视频文本识别网络模型进行自适应增量学习，在自适应增量学习后生成增强型文本识别网络模型，并基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，识别后生成当前文字识别结果，并将所述当前文字识别结果展示。
23.进一步地说，所述特征数据生成模块还用于：
24.获取所述第一识别字体数据对应的时间进度数据；基于所述时间进度数据从所述基础待识别视频中提取与所述时间进度数据相匹配的第一基础视频；获取基于所述视频文本识别网络模型识别所述第一基础视频时的初始识别数据；获取文字识别审核人员对所述第初始识别数据进行纠正时的当前纠正数据，其中，所述当前纠正数据用于表征所述初始识别数据中的错误数据；根据所述当前纠正数据生成第一识别特征数据；获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据。
25.进一步地说，所述字体数据获取模块还用于：
26.模块获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的初始识别数据；根据所述初始识别数据进行筛选，并从所述初始识别数据中剔除空白文字数据，生成第一阶段识别数据，其中，所述空白文字数据为无文字的识别数据；对所述无文字的识别数据进行错误筛选，并剔除错误字段数据，并对所述错误字段数据进行修正，生成第二阶段识别数据；获取实验浏览用户对所述第二阶段识别数
据的实时浏览反馈，并根据所述实时浏览反馈对所述第二阶段数据进行纠正，生成第三阶段识别数据；将所述第三阶段识别数据与所述第一阶段识别数据按照预设的特定长度段进行对比，并获取实际对比结果，其中，所述第三阶段识别数据按照预设的特定程度拆分后包括多个后期数据段，所述第一阶段识别数据按照预设的特定程度拆分后包括多个初始数据段，每个实际对比结果均包括后期数据段、初始数据段和实际正确值；根据所述实际对比结果筛选出正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据；
27.所述字体数据获取模块还用于：根据所述实际对比结果筛选出正确率低于所述中级准确率的初始数据段，并设定为问题数据段；基于所述问题数据段的实际正确值生成与所述中级准确率之间的实际差异值，其中，所述实际差异值为所述实际正确值与所述中级准确率的差值；根据所述实际差异值筛选出与所述实际差异值相匹配的文字识别监管人员；获取所述文字识别监管人员对所述问题数据段的问题分析反馈；将所述问题分析反馈发送至文字识别审核人员；
28.所述模型增量展示模块还用于：获取初始审核员对所述当前文字识别结果的初始识别反馈结果；获取与所述初始审核员处于同组的其他审核人员对所述当前文字识别结果的同级别反馈结果；获取所述初始审核员和所述其他审核人员的主管审核人员，并获取所述主管审核人员的主管审核结果；根据所述初始识别反馈结果、所述同级别反馈结果和所述主管审核结果生成当前识别综合反馈结果；根据所述当前识别综合反馈结果判断所述当前文字识别结果是否大于等于预设的标准合理值；若判断所述当前文字识别结果大于等于所述标准合理值，则持续对所述当前文字识别结果进行展示，并将所述当前文字识别结果发送至预设的目标用户群体；若判断所述当前文字识别结果小于所述标准合理值，则根据所述当前识别综合反馈结果对当前文字识别结果进行复核，在复核完成后生成带展示识别文字数据。
29.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频识别文字自适应调整方法所述的步骤。
30.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频识别文字自适应调整方法所述的步骤。
31.本发明实现技术效果如下：
32.上述视频识别文字自适应调整方法及系统，依次通过获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，其中，所述中级准确率低于所述高级准确率；获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据；将所述第一识别特征数据和所述第二识别特征数据进行数据对比，并获取识别差异特征；根据所述识别差异特征对所述视频文本识别网络模型进行自适应增量学习，在自适应增量学习后生成增强型文本识别网络模型，并基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，识别后生成当前文字识别结果，并将所述当前文字识别结果展示，也即本发明通过设定了所述中级准确率低于所述高
级准确率，这样一个高准率率和一个低准确率的设计，使在对所述视频文本识别网络模型进行增量学习时，能够利用准确率低的数据所存在的缺陷进行增量学习，进而学习到缺陷后，以在下次进行文字识别时进行识别，进而进一步地提升后续识别的准确性和可靠性，为了准确获取两个不同准确率的识别数据所对应的原视频，进而根据原视频进行溯源，以溯源在文字识别过程中出现的偏差，并将偏差转变换差异特征，具体为所述识别差异特征，进而实现获取造成准确率偏差的具体特征，进而能够保证基于准确的特征来实现对模型的增量学习，基于增量学习后的模型，实现了基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，使识别后生成的当前文字识别结果准确且高效，同时，为了实现更利用用户观看，进而将所述当前文字识别结果展示。
附图说明
33.图1为一个实施例中视频识别文字自适应调整方法的流程示意图；
34.图2为一个实施例中视频识别文字自适应调整系统的结构框图；
35.图3为一个实施例中计算机设备的内部结构图。
具体实施方式
36.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
37.在一个实施例中，提供一种所述视频识别文字自适应调整方法的应用场景，该应用场景中包含了一智能设备终端，所述智能设备终端用于获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，其中，所述中级准确率低于所述高级准确率；获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据；将所述第一识别特征数据和所述第二识别特征数据进行数据对比，并获取识别差异特征；根据所述识别差异特征对所述视频文本识别网络模型进行自适应增量学习，在自适应增量学习后生成增强型文本识别网络模型，并基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，识别后生成当前文字识别结果，并将所述当前文字识别结果展示。
38.进一步地，智能设备终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
39.在一个实施例中，如图1所示，提供了一种视频识别文字自适应调整方法，所述方法包括：
40.步骤s100：获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，其中，所述中级准确率低于所述高级准确率；
41.进一步地，本实施例中，所述视频文本识别网络模型为由本领域技术人员选定的用于对所述基础待识别视频进行文字识别的神经网络模型，具体包括但不限于如申请号为cn202010082008.2的神经网络模型，或者其他亦可，也即只要能够实现基础的文字识别即可。本技术旨在保护对所述视频文本识别网络模型识别后生成的数据进行处理的方法和步骤。
42.进一步地，为了实现后续的增量学习，以使所述视频文本识别网络模型能够自适应调整，以实现后续更精准且更符合当下文字识别环境，故通过设定了所述中级准确率低于所述高级准确率，这样一个高准率率和一个低准确率的设计，使在对所述视频文本识别网络模型进行增量学习时，能够利用准确率低的数据所存在的缺陷进行增量学习，进而学习到缺陷后，以在下次进行文字识别时进行识别，进而进一步地提升后续识别的准确性和可靠性。
43.也即，通过并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据。
44.步骤s200：获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据；
45.步骤s300：将所述第一识别特征数据和所述第二识别特征数据进行数据对比，并获取识别差异特征；
46.步骤s400：根据所述识别差异特征对所述视频文本识别网络模型进行自适应增量学习，在自适应增量学习后生成增强型文本识别网络模型，并基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，识别后生成当前文字识别结果，并将所述当前文字识别结果展示。
47.更进一步地说，本发明为了准确获取两个不同准确率的识别数据所对应的原视频，进而根据原视频进行溯源，以溯源在文字识别过程中出现的偏差，并将偏差转变换差异特征，具体为所述识别差异特征，进而实现获取造成准确率偏差的具体特征，进而能够保证基于准确的特征来实现对模型的增量学习，也即通过先获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据，然后将所述第一识别特征数据和所述第二识别特征数据进行数据对比，并获取识别差异特征，接着根据所述识别差异特征对所述视频文本识别网络模型进行自适应增量学习，在自适应增量学习后生成增强型文本识别网络模型。
48.进一步地，基于增量学习后的模型，实现了基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，使识别后生成的当前文字识别结果准确且高效，同时，为了实现更利用用户观看，进而将所述当前文字识别结果展示。
49.更进一步地说，增量学习是指一个学习系统能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识，也就是模型在旧任务和新任务上均能表现良好，通过所述增量学习，所述模型可以从新任务和新数据中持续学习新知识，当新任务在不同时间出现，它都是可训练的。本实施例中，所述学习系统即为所述视频文本识别网络模型，新任务和新数据即为所述识别差异特征，而进行增量学习后的模型即为所述增强型文本识
别网络模型，所述增强型文本识别网络模型可以从新任务和新数据中持续学习新知识，当新任务在不同时间出现，其训练完后，实现后续更精准的文字自适应识别与调整。
50.在一个实施例中，步骤s200：获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据；具体包括：
51.步骤s210：获取所述第一识别字体数据对应的时间进度数据；
52.步骤s220：基于所述时间进度数据从所述基础待识别视频中提取与所述时间进度数据相匹配的第一基础视频；
53.步骤s230：获取基于所述视频文本识别网络模型识别所述第一基础视频时的初始识别数据；
54.步骤s240：获取文字识别审核人员对所述第初始识别数据进行纠正时的当前纠正数据，其中，所述当前纠正数据用于表征所述初始识别数据中的错误数据；
55.步骤s250：根据所述当前纠正数据生成第一识别特征数据；
56.步骤s260：获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据。
57.进一步地，本实施例中，为了实现准确地获取对应的特征数据，进而通过获取所述第一识别字体数据对应的时间进度数据；然后，基于所述时间进度数据从所述基础待识别视频中提取与所述时间进度数据相匹配的第一基础视频；接着，获取基于所述视频文本识别网络模型识别所述第一基础视频时的初始识别数据；然后，获取文字识别审核人员对所述第初始识别数据进行纠正时的当前纠正数据，其中，所述当前纠正数据用于表征所述初始识别数据中的错误数据；接着，根据所述当前纠正数据生成第一识别特征数据；最后，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据，其中，所述时间进度数据为所述第一识别字体数据所处在基础待识别视频中的位置所占据的时间段，故能通过所述时间进度数据从所述基础待识别视频中提取与所述时间进度数据相匹配的第一基础视频，所述初始识别数据为基于模型而生成的最初的数据，为了更准确地进行文字标定，故通过文字识别审核人员对所述第初始识别数据进行纠正，并同时生成当前纠正数据，所述当前纠正数据用于表征所述初始识别数据中的错误数据，接着通过与获取所述第一识别特征数据相同的识别方法获取第二识别特征数据。
58.在一个实施例中，步骤s100：获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据；具体包括：
59.步骤s110：获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的初始识别数据；
60.步骤s120：根据所述初始识别数据进行筛选，并从所述初始识别数据中剔除空白文字数据，生成第一阶段识别数据，其中，所述空白文字数据为无文字的识别数据；
61.本实施例中，为了实现滤除其他无用数据，进而实现获取的数据准确，故通过基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的初始识别数据，然后根据所述初始识别数据进行筛选，并从所述初始识别数据中剔除
空白文字数据，生成第一阶段识别数据，其中，所述空白文字数据为无文字的识别数据。
62.步骤s130：对所述无文字的识别数据进行错误筛选，并剔除错误字段数据，并对所述错误字段数据进行修正，生成第二阶段识别数据；
63.步骤s140：获取实验浏览用户对所述第二阶段识别数据的实时浏览反馈，并根据所述实时浏览反馈对所述第二阶段数据进行纠正，生成第三阶段识别数据；
64.步骤s150：将所述第三阶段识别数据与所述第一阶段识别数据按照预设的特定长度段进行对比，并获取实际对比结果，其中，所述第三阶段识别数据按照预设的特定程度拆分后包括多个后期数据段，所述第一阶段识别数据按照预设的特定程度拆分后包括多个初始数据段，每个实际对比结果均包括后期数据段、初始数据段和实际正确值；
65.步骤s160：根据所述实际对比结果筛选出正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据。
66.进一步地，本实施例中，为了准确的进行数据提取，并且实现筛选出第一识别字体数据和第二识别字体数据，故通过先进行修正，也即通过对所述无文字的识别数据进行错误筛选，并剔除错误字段数据，并对所述错误字段数据进行修正，生成第二阶段识别数据，这样使生成的第二阶段识别数据的准确率高，然后为了进一步地实现准确获取数据，进而加入人工进行修正，具体包括获取实验浏览用户对所述第二阶段识别数据的实时浏览反馈，并根据所述实时浏览反馈对所述第二阶段数据进行纠正，生成第三阶段识别数据，进行对比时为了实现精准细化对比，故通过设置了预设的特定长度段，那么基于预设的特定长度段，可以实现分段的数据对比，具体为预先设置了所述第三阶段识别数据按照预设的特定程度拆分后包括多个后期数据段，所述第一阶段识别数据按照预设的特定程度拆分后包括多个初始数据段，那么在对比时，即可实现分段对比，这样获取的实际对比结果中，每个实际对比结果均包括后期数据段、初始数据段和实际正确值。最后，根据所述实际对比结果筛选出正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，以实现精准且可靠的获取所需要的第一识别字体数据和第二识别字体数据。
67.在一个实施例中，步骤s160：根据所述实际对比结果筛选出正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，之后还包括：
68.步骤s171：根据所述实际对比结果筛选出正确率低于所述中级准确率的初始数据段，并设定为问题数据段；
69.步骤s172：基于所述问题数据段的实际正确值生成与所述中级准确率之间的实际差异值，其中，所述实际差异值为所述实际正确值与所述中级准确率的差值；
70.步骤s173：根据所述实际差异值筛选出与所述实际差异值相匹配的文字识别监管人员；
71.步骤s174：获取所述文字识别监管人员对所述问题数据段的问题分析反馈；
72.步骤s175：将所述问题分析反馈发送至文字识别审核人员。
73.进一步地，本实施例中，为了进一步地对文本数据进行评估与监控，当正确率过低时则需要监管人员进行监管，具体为根据所述实际对比结果筛选出正确率低于所述中级准确率的初始数据段，并设定为问题数据段；然后基于所述问题数据段的实际正确值生成与所述中级准确率之间的实际差异值，其中，所述实际差异值为所述实际正确值与所述中级准确率的差值，此时预先设置了不同的实际差异值，以及所述实际差异值所对应的不同级
别的审核人员，具体为根据所述实际差异值筛选出与所述实际差异值相匹配的文字识别监管人员；然后，获取所述文字识别监管人员对所述问题数据段的问题分析反馈；最后将所述问题分析反馈发送至文字识别审核人员，这样通过发送至文字识别审核人员，以使文字识别审核人员能够根据相关信息进行后续的文字审核工作，进而提升后续文字审核效率和准确性。
74.在一个实施例中，所述方法还包括：
75.步骤s510：获取初始审核员对所述当前文字识别结果的初始识别反馈结果；
76.步骤s520：获取与所述初始审核员处于同组的其他审核人员对所述当前文字识别结果的同级别反馈结果；
77.步骤s530：获取所述初始审核员和所述其他审核人员的主管审核人员，并获取所述主管审核人员的主管审核结果；
78.步骤s540：根据所述初始识别反馈结果、所述同级别反馈结果和所述主管审核结果生成当前识别综合反馈结果；
79.步骤s550：根据所述当前识别综合反馈结果判断所述当前文字识别结果是否大于等于预设的标准合理值；
80.步骤s560：若判断所述当前文字识别结果大于等于所述标准合理值，则持续对所述当前文字识别结果进行展示，并将所述当前文字识别结果发送至预设的目标用户群体；
81.步骤s570：若判断所述当前文字识别结果小于所述标准合理值，则根据所述当前识别综合反馈结果对当前文字识别结果进行复核，在复核完成后生成带展示识别文字数据。
82.进一步地，本实施例中，通过为了保证审核过程的可靠性和准确性，且不会出现偏差，进而通过先获取初始审核员对所述当前文字识别结果的初始识别反馈结果；然后，获取与所述初始审核员处于同组的其他审核人员对所述当前文字识别结果的同级别反馈结果，这样同组的其他审核人员能够基于同等水平做出不同的评价，提升了审核的兼容性，接着，获取所述初始审核员和所述其他审核人员的主管审核人员，并获取所述主管审核人员的主管审核结果；这样，通过设置了所述主管审核人员，使基于主管审核人员获得了更高质量的审核信息，最后，根据所述初始识别反馈结果、所述同级别反馈结果和所述主管审核结果生成当前识别综合反馈结果；因此，根据所述当前识别综合反馈结果判断所述当前文字识别结果是否大于等于预设的标准合理值；所述标准合理值为预先设置，那么当判断所述当前文字识别结果大于等于所述标准合理值，则说明此时的结果是合理且准确的，故持续对所述当前文字识别结果进行展示，并将所述当前文字识别结果发送至预设的目标用户群体，那么若判断所述当前文字识别结果小于所述标准合理值，则根据所述当前识别综合反馈结果对当前文字识别结果进行复核，在复核完成后生成带展示识别文字数据。
83.综上所述，本发明所述视频识别文字自适应调整方法及系统，依次通过获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，其中，所述中级准确率低于所述高级准确率；获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础
视频，并获取识别所述第二基础视频的第二识别特征数据；将所述第一识别特征数据和所述第二识别特征数据进行数据对比，并获取识别差异特征；根据所述识别差异特征对所述视频文本识别网络模型进行自适应增量学习，在自适应增量学习后生成增强型文本识别网络模型，并基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，识别后生成当前文字识别结果，并将所述当前文字识别结果展示，也即本发明通过设定了所述中级准确率低于所述高级准确率，这样一个高准率率和一个低准确率的设计，使在对所述视频文本识别网络模型进行增量学习时，能够利用准确率低的数据所存在的缺陷进行增量学习，进而学习到缺陷后，以在下次进行文字识别时进行识别，进而进一步地提升后续识别的准确性和可靠性，为了准确获取两个不同准确率的识别数据所对应的原视频，进而根据原视频进行溯源，以溯源在文字识别过程中出现的偏差，并将偏差转变换差异特征，具体为所述识别差异特征，进而实现获取造成准确率偏差的具体特征，进而能够保证基于准确的特征来实现对模型的增量学习，基于增量学习后的模型，实现了基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，使识别后生成的当前文字识别结果准确且高效，同时，为了实现更利用用户观看，进而将所述当前文字识别结果展示。
84.在一个实施例中，本发明还提供一种视频识别文字自适应调整系统，所述系统包括：
85.字体数据获取模块，用于获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的当前视频识别总数据，并对所述当前视频识别总数据进行数据拆分并获取正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据，其中，所述中级准确率低于所述高级准确率；
86.特征数据生成模块，用于获取所述第一识别字体数据对应的第一基础视频，并获取识别所述第一基础视频的第一识别特征数据，获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据；
87.差异特征生成模块，用于将所述第一识别特征数据和所述第二识别特征数据进行数据对比，并获取识别差异特征；
88.模型增量展示模块，用于根据所述识别差异特征对所述视频文本识别网络模型进行自适应增量学习，在自适应增量学习后生成增强型文本识别网络模型，并基于所述增强型文本识别网络模型对当前待识别视频进行文字识别，识别后生成当前文字识别结果，并将所述当前文字识别结果展示。
89.在一个实施例中，所述特征数据生成模块还用于：
90.获取所述第一识别字体数据对应的时间进度数据；基于所述时间进度数据从所述基础待识别视频中提取与所述时间进度数据相匹配的第一基础视频；获取基于所述视频文本识别网络模型识别所述第一基础视频时的初始识别数据；获取文字识别审核人员对所述第初始识别数据进行纠正时的当前纠正数据，其中，所述当前纠正数据用于表征所述初始识别数据中的错误数据；根据所述当前纠正数据生成第一识别特征数据；获取所述第二识别字体数据对应的第二基础视频，并获取识别所述第二基础视频的第二识别特征数据。
91.在一个实施例中，所述字体数据获取模块还用于：
92.模块获取基于预设的视频文本识别网络模型在预设特定时间段内对基础待识别视频进行文字识别后生成的初始识别数据；根据所述初始识别数据进行筛选，并从所述初
始识别数据中剔除空白文字数据，生成第一阶段识别数据，其中，所述空白文字数据为无文字的识别数据；对所述无文字的识别数据进行错误筛选，并剔除错误字段数据，并对所述错误字段数据进行修正，生成第二阶段识别数据；获取实验浏览用户对所述第二阶段识别数据的实时浏览反馈，并根据所述实时浏览反馈对所述第二阶段数据进行纠正，生成第三阶段识别数据；将所述第三阶段识别数据与所述第一阶段识别数据按照预设的特定长度段进行对比，并获取实际对比结果，其中，所述第三阶段识别数据按照预设的特定程度拆分后包括多个后期数据段，所述第一阶段识别数据按照预设的特定程度拆分后包括多个初始数据段，每个实际对比结果均包括后期数据段、初始数据段和实际正确值；根据所述实际对比结果筛选出正确率达中级准确率的第一识别字体数据和正确率达高级准确率的第二识别字体数据；
93.所述字体数据获取模块还用于：根据所述实际对比结果筛选出正确率低于所述中级准确率的初始数据段，并设定为问题数据段；基于所述问题数据段的实际正确值生成与所述中级准确率之间的实际差异值，其中，所述实际差异值为所述实际正确值与所述中级准确率的差值；根据所述实际差异值筛选出与所述实际差异值相匹配的文字识别监管人员；获取所述文字识别监管人员对所述问题数据段的问题分析反馈；将所述问题分析反馈发送至文字识别审核人员；
94.所述模型增量展示模块还用于：获取初始审核员对所述当前文字识别结果的初始识别反馈结果；获取与所述初始审核员处于同组的其他审核人员对所述当前文字识别结果的同级别反馈结果；获取所述初始审核员和所述其他审核人员的主管审核人员，并获取所述主管审核人员的主管审核结果；根据所述初始识别反馈结果、所述同级别反馈结果和所述主管审核结果生成当前识别综合反馈结果；根据所述当前识别综合反馈结果判断所述当前文字识别结果是否大于等于预设的标准合理值；若判断所述当前文字识别结果大于等于所述标准合理值，则持续对所述当前文字识别结果进行展示，并将所述当前文字识别结果发送至预设的目标用户群体；若判断所述当前文字识别结果小于所述标准合理值，则根据所述当前识别综合反馈结果对当前文字识别结果进行复核，在复核完成后生成带展示识别文字数据。
95.在一个实施例中，如图3所示，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频识别文字自适应调整方法所述的步骤。
96.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频识别文字自适应调整方法所述的步骤。
97.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强
型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
98.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
99.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种针对基层电网公司节能技术差异化规划的方法与流程

视频识别文字自适应调整方法及系统与流程

相关文献

最热文献