一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

区域检测方法及其相关装置、设备和介质

2022-09-03 06:41:14 来源:中国专利 TAG:


1.本技术涉及文本识别技术领域,特别是涉及一种区域检测方法及其相关装置、设备和介质。


背景技术:

2.场景文本识别是只对自然场景中检测到的文本区域进行文本识别,并将其翻译合理的计算机文字,是计算机视觉领域中的一个重要课题,近年来,场景文本识别技术不断地进行发展创新,并且广泛应用在智能交通、无人驾驶和机器人等领域,运用最普遍的就是非标车牌识别技术领域。其中,文本区域检测的是否准确会直接影响场景文本识别的准确性。


技术实现要素:

3.本技术主要解决的技术问题是提供一种区域检测方法及其相关装置、设备和介质,能够提高目标预测框的精准性。
4.为解决上述技术问题,本技术采用的一个技术方案是:提供一种区域检测方法,该方法包括:获取待检测图像;利用区域检测模型对待检测图像进行区域检测,得到待检测图像中关于特定文本区域的目标预测框;其中,区域检测模型是基于区域检测模型的评估指标进行优化得到的,评估指标是基于验证样本图像中的特定文本区域的真值框与预测框之间的边界紧密程度得到的,预测框是区域检测模型对验证样本图像进行区域检测得到的。
5.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种区域检测装置,该装置包括:获取模块,用于获取待检测图像;检测模块,用于利用区域检测模型对待检测图像进行区域检测,得到待检测图像中关于特定文本区域的目标预测框;其中,区域检测模型是基于区域检测模型的评估指标进行优化得到的,评估指标是基于验证样本图像中的特定文本区域的真值框与预测框之间的边界紧密程度得到的,预测框是区域检测模型对验证样本图像进行区域检测得到的。
6.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述区域检测方法。
7.为了解决上述技术问题,本技术采用的另一个技术方案是:提供一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令以实现上述区域检测方法。
8.上述方案,利用基于区域检测模型的评估指标优化后的区域检测模型对待检测图像进行区域检测,得到待检测图像中关于特定文本区域的目标预测框。故,由于区域检测模型是基于区域检测模型的评估指标进行优化得到的,而评估指标是基于真值框与预测框之间的边界紧密程度得到的,所以基于该评估指标对区域检测模型进行优化过程中,会将预测框相对真值框的边界紧密程度这一因素考虑在内,合理地控制预测框每条边界的位置,使得通过优化后的区域检测模型获得的预测框的各边界逼近对应的真值框的边界。因此,利用优化后的区域检测模型对待检测图像进行区域检测而得到关于特定文本区域的目标
预测框更加逼近于对应的真值框,即目标预测框更加精准。
附图说明
9.图1是本技术提供的区域检测方法一实施例的流程示意图;
10.图2是本技术提供的区域检测模型的训练方法一实施例的流程示意图;
11.图3是本技术提供的非标车牌一实施例的示意图;
12.图4是本技术提供的非标车牌另一实施例的示意图;
13.图5是本技术提供的文本识别模型的训练方法一实施例的流程示意图;
14.图6是本技术提供的文本识别模型的测试方法一实施例的流程示意图;
15.图7是图2所示步骤s23一实施例的流程示意图;
16.图8是图7所示步骤s231一实施例的流程示意图;
17.图9是本技术提供的真值框和预测框一实施例的示意图;
18.图10是图8所示步骤s2312一实施例的流程示意图;
19.图11是图10所示步骤s102一实施例的流程示意图;
20.图12是图7所示步骤s232一实施例的流程示意图;
21.图13是图12所示步骤s2321一实施例的流程示意图;
22.图14是本技术提供的区域检测模型的训练装置一实施例的框架示意图;
23.图15是本技术提供的电子设备一实施例的框架示意图;
24.图16是本技术提供的计算机可读存储介质一实施例的框架示意图。
具体实施方式
25.下面结合说明书附图,对本技术实施例的方案进行详细说明。
26.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
27.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
28.请参阅图1,图1是本技术提供的区域检测方法一实施例的流程示意图。需要注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例包括:
29.步骤s11:获取待检测图像。
30.本实施例的方法用于对待检测图像进行检测而得到待检测图像中关于特定文本区域的目标检测框。本文所述的待检测图像可以但不限于多目拼接的图像、缝合全景图像,分辨率超过4k的高分辨率图像等。其中,待检测图像具体可以从本地存储或者云端存储中获取得到,或者通过电子设备对当前环境进行采集得到,在此不做具体限定。
31.步骤s12:利用区域检测模型对待检测图像进行区域检测,得到待检测图像中关于特定文本区域的目标预测框。
32.本实施方式中,利用区域检测模型对待检测图像进行区域检测,得到待检测图像
中关于特定文本区域的目标预测框。其中,区域检测模型是基于区域检测模型的评估指标进行优化得到的,评估指标是基于验证样本图像中的特定文本区域的真值框与预测框之间的边界紧密程度得到的,预测框是区域检测模型对验证样本图像进行区域检测得到的。由于区域检测模型是基于区域检测模型的评估指标进行优化得到的,而评估指标是基于真值框与预测框之间的边界紧密程度得到的,所以基于该评估指标对区域检测模型进行优化过程中,会将预测框相对真值框的边界紧密程度这一因素考虑在内,合理地控制预测框每条边界的位置,使得通过优化后的区域检测模型获得的预测框的各边界逼近对应的真值框的边界。因此,利用优化后的区域检测模型对待检测图像进行区域检测而得到关于特定文本区域的目标预测框更加逼近于对应的真值框,即目标预测框更加精准。
33.请参阅图2,图2是本技术提供的区域检测模型的训练方法一实施例的流程示意图。需要注意的是,若有实质上相同的结果,本实施例并不以图2所示的流程顺序为限。如图2所示,在利用区域检测模型对待检测图像进行区域检测之前,需要对区域检测模型进行优化训练,具体包括:
34.步骤s21:从验证集中获取验证样本图像。
35.本实施例的方法用于利用验证集中的验证样本图像对区域检测模型进行优化,本文所述的验证样本图像可以但不限于多目拼接的图像、缝合全景图像、分辨率超过4k的高分辨率图像等。其中,各验证样本图像构成验证集,不对验证集中的验证样本图像的尺寸大小、数量等进行限定,可根据实际使用需要具体设置;验证样本图像具体可以从本地存储或云端存储中获取得到,或者通过电子设备对当前环境进行采集得到,在此不做具体限定。
36.其中,验证样本图像包含特定文本区域,并标注有特定文本区域的真值框,以使后续能够基于验证集中的各验证样本图像对区域检测模型进行参数调整,从而实现对区域检测模型的优化,即本技术基于验证集对区域检测模型进行训练的方法可看作是对已利用训练集进行初始训练后的区域检测模型进行优化的方法。另外,验证集中的各验证样本图像不同于对区域检测模型进行初始训练的训练集中的各训练样本图像,所以在后续基于各验证样本图像对区域检测模型进行优化后,能够提高区域检测模型的泛化能力,同时也能够在优化过程中对区域检测模型的区域检测准确性进行验证。
37.请参阅图3,图3是本技术提供的非标车牌一实施例的示意图,在一实施方式中,特定文本区域为非标车牌。如图3所示,在某一监控场景中,由于车辆的车牌可能会被遮挡或者车牌损污等原因,车辆的车牌不能时时都被识别到,所以此时如果需要确认车辆身份就需要通过其他信息;而相比于车辆颜色、车辆品牌等其他信息,非标车牌与车辆的车尾车牌的内容相同,并且非标车牌尺寸比车尾车牌的尺寸更大,非标车牌更容易被识别,从而能够通过非标车牌更快地确认车辆身份。可以理解地,在其他实施方式中,特定文本区域也可以为其他需要进行文本识别的区域,可根据实际使用需要设置,在此不做具体限定。
38.在一实施方式中,验证样本图像中标注的特定文本区域的真值框可以是人工手动标注,即用户逐一手动对验证集中的各验证样本图像进行真值框标注。可以理解地,在其他实施方式中,也可利用网络算法对验证集中的各验证样本图像进行真值框标注,其中,不对网络算法进行限定,可根据实际使用需要具体设置。
39.在一实施方式中,在从验证集中获取验证样本图像之前,需要利用训练集对区域检测模型进行训练,以获得经过训练集训练后的初始区域检测模型。其中,训练集包括若干
训练样本图像,训练样本图像包含特定文本区域,并标注有特定文本区域的真值框。不对训练集中训练样本图像的尺寸、数量进行限定,可根据实际使用需要具体设置。需要说明的是,由于利用验证集是为了对经过训练集训练后得到的初始区域检测模型的进一步优化,所以训练集中的训练样本图像包含的特定文本区域与验证集中验证样本图像包含的特定文本区域相同,例如,验证样本图像包含的特定文本区域是非标车牌,训练样本图像包含的特定文本区域也为非标车牌。
40.步骤s22:利用区域检测模型对验证样本图像进行区域检测,得到验证样本图像中关于特定文本区域的预测框。
41.本实施方式中,利用区域检测模型对验证样本图像进行区域检测,得到样本图像中关于特定文本区域的预测框。举例来说,如图4所示,图4是本技术提供的非标车牌另一实施例的示意图,以验证样本图像包含的特定文本区域为非标车牌为例,将图4输入至区域检测模型中,区域检测模型对其进行区域检测,得到关于非标车牌的预测框。
42.步骤s23:基于真值框与预测框之间的边界紧密程度,得到区域检测模型的评估指标。
43.如图4所示,以验证样本图像包含的特定文本区域为非标车牌为例,在利用区域检测模型对验证样本图像进行区域检测后,得到的验证样本图像中关于特定文本区域的预测框为预测框1时,预测框1比非标车牌的真值框略大一圈,即预测框1的上下边界远离真值框的上下边界以及预测框1的左右边界远离真值框的左右边界,也就是说,预测框1的上下边界与真值框的上下边界不够紧密以及预测框1的左右边界与真值框的左右边界不够紧密,使得预测框1可能会包含除车牌号以外的其他文本内容,从而影响后续对非标车牌内的文本内容的识别,降低识别的准确性;而在得到的验证样本图像中关于特定文本区域的预测框为预测框2时,预测框2比非标车牌的真值框略小一圈,即预测框2的上下边界远离真值框的上下边界以及预测框2的左右边界远离真值框的左右边界,也就是说,预测框2的上下边界与真值框的上下边界不够紧密以及预测框2的左右边界与真值框的左右边界不够紧密,使得预测框2无法包含非标车牌内的完整的文本内容,从而影响后续对非标车牌内的文本内容的识别,降低识别的准确性。故,利用区域检测模型对验证样本图像进行区域检测,得到的验证样本图像中关于特定文本区域的预测框与真值框之间的边界紧密程度,会对特定文本区域中文本内容识别的准确性产生影响。
44.因此,需要对利用区域检测模型得到的关于特定文本区域的预测框与真值框之间的边界紧密程度进行评估,即需要对区域检测模型的区域检测能力进行评估,以使后续能够基于评估指标对区域检测模型进行参数调整,实现对区域检测模型的优化,从而提高后续对特定文本区域内的文本识别的准确性。现有方式中,大多直接使用传统的icdar15的度量方法来评估预测框的位置好坏,而并未考虑预测框与真值框之间的边界紧密程度会对后续特定文本区域中文本内容识别的准确性产生影响。
45.而本实施方式中,根据特定文本区域的真值框和特定文本区域的预测框之间的边界紧密程度,得到区域检测模型的评估指标,即对区域检测模型的评估指标将特定文本区域的预测框相对真值框的边界紧密程度这一因素考虑在内,使得后续基于这一因素优化后的区域检测模型得到的关于特定文本区域的预测框的各边界逼近对应的真值框的边界,从而能够提高对特定文本区域内的文本内容的识别准确性。
46.步骤s24:基于评估指标,对区域检测模型进行优化。
47.本实施方式中,根据评估指标,对区域检测模型进行优化。具体地,计算区域检测模型的评估指标值,以对区域检测模型的区域检测准确性进行评估,并根据评估结果对区域检测模型进行参数调整,实现对区域检测模型的优化,从而提高区域检测模型的区域检测准确性。由于评估指标是基于真值框与预测框之间的边界紧密程度得到的,所以基于该评估指标对区域检测模型进行优化过程中,会将预测框相对真值框的边界紧密程度这一因素考虑在内,合理地控制预测框每条边界的位置,使得通过优化后的区域检测模型获得的预测框的各边界逼近对应的真值框的边界,从而使得获取的预测框更适应于文本识别模型,在相同的文本识别模型中能够获得更准确地识别效果。
48.上述实施方式,通过基于特定文本区域的真值框与预测框之间的边界紧密程度,得到区域检测模型的评估指标,并基于该评估指标对区域检测模型进行优化。由于区域检测模型的评估指标是根据真值框和预测框之间的边界紧密程度确定的,所以基于该评估指标对区域检测模型进行优化的过程中,会将预测框相对真值框的边界紧密程度这一因素考虑在内,以合理地控制调整预测框边界相对于真值框边界的位置,使得通过优化后的区域检测模型获得的预测框的各边界逼近对应的真值框的边界,从而提高了区域检测模型的区域检测准确性。
49.在一实施方式中,如图5所示,图5是本技术提供的文本识别模型的训练方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图5所示的流程顺序为限。如图5所示,在对区域检测模型进行优化后,还需对文本识别模型进行训练,具体包括:
50.步骤s51:获取训练集中的训练样本图像。
51.本实施例的方法用于利用训练集中的训练样本图像对文本识别模型进行训练,本文所述的训练样本图像可以但不限于多目拼接的图像、缝合全景图像、分辨率超过4k的高分辨率图像等。其中,各训练样本图像构成训练集,不对训练集中的训练样本图像的尺寸大小、数量等进行限定,可根据实际使用需要具体设置;训练样本图像具体可以从本地存储或云端存储中获取得到,或者通过电子设备对当前环境进行采集得到,在此不做具体限定。
52.其中,训练样本图像包含特定文本区域,并标注有特定文本区域的真值框和特定文本区域中的第一真值文本内容,以使后续能够基于训练集中的各训练样本图像对文本识别模型进行参数调整,从而实现对文本识别模型的训练。
53.步骤s52:基于真值框,从训练样本图像中裁剪得到特定文本区域的图像部分,得到第一区域图像。
54.本实施方式中,根据训练样本图像上标注的特定文本区域的真值框,从训练样本图像中剪裁得到特定文本区域的图像部分,得到第一区域图像。也就是说,只将特定文本区域对应的图像部分用于后续的文本识别模型训练,避免特定文本区域以外的其他区域中的文本内容对文本识别模型的训练产生干扰,从而提高文本识别模型的文本识别准确性。
55.为了提高后续文本识别模型的识别准确性和文本识别模型的训练效率,在一实施方式中,在得到第一区域图像之后,可对第一区域图像进行矫正处理。
56.步骤s53:利用第一区域图像以及真值文本内容对文本识别模型进行训练。
57.本实施方式中,利用第一区域图像以及真值文本内容对文本识别模型进行训练。
具体地,以利用某一训练样本图像训练文本识别模型为例,利用文本识别模型对第一区域图像进行文本识别,得到预测文本内容,并采用诸如交叉熵等损失函数基于标注的真值文本内容,得到损失值,进一步地,基于该损失值可以调整文本识别模型的网络参数,从而使得文本识别模型在多轮训练过程中,能够越来越准确地对第一区域图像中的文本内容进行识别。
58.在一实施方式中,如图6所示,图6是本技术提供的文本识别模型的测试方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图6所示的流程顺序为限。如图6所示,在得到训练完成的文本识别模型和优化后的区域检测模型之后,基于优化后的区域检测模型和测试集对训练完成的文本识别模型的识别准确度进行确定,具体包括:
59.步骤s61:获取测试集的测试样本图像。
60.本实施例的方法用于利用测试集中的测试样本图像对文本识别模型进行准确度测试即确定,本文所述的测试样本图像可以但不限于多目拼接的图像、缝合全景图像、分辨率超过4k的高分辨率图像等。其中,各测试样本图像构成测试集,不对测试集中的测试样本图像的尺寸大小、数量等进行限定,可根据实际使用需要具体设置;测试样本图像具体可以从本地存储或云端存储中获取得到,或者通过电子设备对当前环境进行采集得到,在此不做具体限定。
61.其中,测试样本图像包含特定文本区域,并标注有特定文本区域中的第二真值文本内容,以使后续能够基于测试集中的各测试样本图像对文本识别模型的准确度进行确定。
62.步骤s62:利用区域检测模型对测试样本图像进行区域检测,得到测试样本图像的测试预测框。
63.本实施方式中,利用区域检测模型对测试样本图像进行区域检测,得到测试样本图像的测试预测框。由于区域检测模型是基于区域检测模型的评估指标优化过的,所以得到的测试样本图像的测试预测框的各边界逼近于该测试样本图像对应的真值框。
64.步骤s63:基于测试预测框,从测试样本图像中裁剪得到特定文本区域的图像部分,得到第二区域图像。
65.本实施方式中,根据测试样本图像的测试预测框,从测试样本图像中剪裁得到特定文本区域的图像部分,得到第二区域图像。也就是说,只将特定文本区域对应的图像部分用于后续的文本识别模型测试,避免特定文本区域以外的其他区域中的文本内容对文本识别模型产生干扰,从而提高文本识别模型的文本识别准确性。
66.为了提高后续文本识别模型的识别准确性和效率,在一实施方式中,在得到第二区域图像之后,可对第二区域图像进行矫正处理。
67.步骤s64:利用文本识别模型对第二区域图像进行文本识别,得到文本识别结果。
68.本实施方式中,利用文本识别模型对第二区域图像进行文本识别,得到文本识别结果。
69.步骤s65:基于文本识别结果和第二真值文本内容,得到识别准确度。
70.本实施方式中,根据文本识别结果和测试样本图像上标注的特定文本区域中的第二真值文本内容,得到识别准确度。在一实施方式中,可将整体文本内容识别准确度作为最
终的识别准确度。可以理解地,在其他实施方式中,也可分别求出单个字符的识别准确度,以作为最终的识别准确度。
71.请参阅图7,图7是图2所示步骤s23一实施例的流程示意图。需要注意的是,若有实质上相同的结果,本实施例并不以图7所示的流程顺序为限。如图7所示,本实施例包括:
72.步骤s231:确定真值框与预测框之间的边界紧密程度。
73.本实施方式中,首先确定特定文本区域的真值框与特定文本区域的预测框之间的边界紧密程度。
74.在一实施方式中,如图8所示,图8是图7所示步骤s231一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图8所示的流程顺序为限。如图8所示,本实施例中,基于特定文本区域的真值框的边界与预测框对应的边界之间的距离,确定得到边界紧密程度,具体包括:
75.步骤s2311:获取真值框与预测框之间的第一边界的距离,并获取真值框与预测框之间的第二边界的距离。
76.本实施方式中,获取特定文本区域的真值框与预测框之间的第一边界距离,并获取特定文本区域的真值框与预测框之间的第二边界距离。其中,第一边界为在第一方向上的边界,第二边界为在第二方向上的边界。具体地,如图9所示,图9是本技术提供的真值框和预测框一实施例的示意图,第一方向为竖直方向,第一边界为竖直方向上的上下边界;第二方向为水平方向,第二边界为水平方向上的左右边界。
77.在一具体实施方式中,第一边界包括上边界和下边界,可通过计算真值框和预测框之间的上边界的距离以及真值框和预测框之间的下边界的距离而得到真值框与预测框之间的第一边界的距离;第二边界包括左边界和右边界,可通过计算真值框和预测框之间的左边界的距离以及真值框和预测框之间的右边界的距离而得到真值框与预测框之间的第二边界的距离。
78.具体地,如图9所示,首先获取特定文本区域的真值框g,真值框g为:
79.g={(x
glt
,y
glt
),(x
grt
,y
grt
),(x
gld
,y
gld
),(x
grd
,y
grd
)}
80.其中,(x
glt
,y
glt
)表示真值框g的左上角坐标,(x
grt
,y
grt
)表示真值框g的右上角坐标,(x
gld
,y
gld
)表示真值框g的左下角坐标,(x
grd
,y
grd
)表示真值框g的右下角坐标;左上角坐标和右上角坐标构成真值框g的上边界,左下角坐标和右下角坐标构成真值框g的下边界,左上角坐标和左下角坐标构成真值框g的左边界,右上角坐标和右下角坐标构成真值框g的右边界。
81.其次,定义特定文本区域的预测框d为:
82.d={(x
dlt
,y
dlt
),(x
drt
,y
drt
),(x
dld
,y
dld
),(x
drd
,y
drd
)}
83.其中,(x
dlt
,y
dlt
)表示预测框d的左上角坐标,(x
drt
,y
drt
)表示预测框d的右上角坐标,(x
dld
,y
dld
)表示预测框d的左下角坐标,(x
drd
,y
drd
)表示预测框d的右下角坐标;左上角坐标和右上角坐标构成预测框d的上边界,左下角坐标和右下角坐标构成预测框d的下边界,左上角坐标和左下角坐标构成预测框d的左边界,右上角坐标和右下角坐标构成预测框d的右边界。
84.因此,可获取得到真值框g和预测框d之间的上边界的第一距离,以作为扩大高度h

;可获取得到真值框g和预测框d之间的下边界的第二距离,以作为收缩高度h

;可获取得
到真值框g和预测框d之间的左边界的第三距离,以作为扩大宽度w

;可获取得到真值框g和预测框d之间的右边界的第四距离,以作为收缩宽度w

。需要说明的是,如图8所示的真值框g和预测框d的位置关系,所以真值框g和预测框d之间的上边界的第一距离作为扩大高度h

,真值框g和预测框d之间的下边界的第二距离作为收缩高度h

,真值框g和预测框d之间的左边界的第三距离作为扩大宽度w

,真值框g和预测框d之间的右边界的第四距离作为收缩宽度w

;而如果将真值框g和预测框d的位置对调,则真值框g和预测框d之间的上边界的第一距离作为收缩高度h

,真值框g和预测框d之间的下边界的第二距离作为扩大高度h

,真值框g和预测框d之间的左边界的第三距离作为收缩宽度w

,真值框g和预测框d之间的右边界的第四距离作为扩大宽度w

。也就是说,根据真值框g和预测框d之间的位置关系,确定边界间的高度或者宽度是收缩还是扩大的。
85.步骤s2312:利用第一边界的距离得到关于第一边界的第一边界紧密程度,以及利用第二边界的距离得到关于第二边界的第二边界紧密程度。
86.本实施方式中,利用第一边界的距离得到关于第一边界的第一边界紧密程度,以及利用第二边界的距离得到关于第二边界的第二边界紧密程度。
87.在一实施方式中,利用扩大高度、收缩高度得到关于第一边界的第一边界紧密程度,以及利用扩大宽度、收缩宽度得到关于第二边界的第二边界紧密程度。在一具体实施方式中,如图10所示,图10是图8所示步骤s2312一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图10所示的流程顺序为限。如图10所示,本实施例中,引入参考框计算得到边界紧密程度,具体包括:
88.步骤s101:利用扩大长度和第一参考距离,得到扩大参数,并利用收缩长度和第一参考距离,得到收缩参数。
89.本实施方式中,利用扩大长度和第一参考距离,得到扩大参数;并利用收缩长度和第一参考距离,得到收缩参数。其中,参考框包含真值框和预测框。在一实施方式中,参考框为真值框和预测框的最小外接矩形框。可以理解地,在其他实施方式中,参考框也可以面积大于真值框和预测框面积之和的外接矩形框。或者,参考框的形状也可以是圆形等其他形状。
90.具体地,以参考框为真值框和预测框的最小外接矩形框为例,如图9所示,真值框g和预测框d的参考框为c,定义c为:
91.c={(x
clt
,y
clt
),(x
crt
,y
crt
),(x
cld
,y
cld
),(x
crd
,y
crd
)}
92.其中,(x
clt
,y
clt
)表示参考框c的左上角坐标,(x
crt
,y
crt
)表示参考框c的右上角坐标,(x
cld
,y
cld
)表示参考框c的左下角坐标,(x
crd
,y
crd
)表示参考框c的右下角坐标。由于以参考框c的高度为第一参考距离,所以第一参考距离为hc;以扩大高度为扩大长度,所以,扩大长度=扩大高度=h

;以收缩高度为收缩长度,所以,收缩长度=收缩高度=h

。而在以参考框c的宽度为第一参考距离时,第一参考距离为wc;以扩大宽度为扩大长度,所以,扩大长度=扩大宽度=w

;以收缩宽度为收缩长度,所以,收缩长度=收缩宽度=w


93.进一步地,利用扩大长度和第一参考距离,得到扩大参数。在一具体实施方式中,获取扩大长度和第一参考距离的比值作为扩大参数,具体公式如下所示:
94.或
95.其中,t

表示扩大参数;h

表示扩大高度即扩大长度;w

表示扩大宽度即扩大长度;hc表示第一参考距离。
96.利用收缩长度和第一参考距离,得到收缩参数。在一具体实施方式中,获取收缩长度和第一参考距离的比值作为收缩参数,具体公式如下所示:
97.或
98.其中,t

表示收缩参数;h

表示收缩高度即收缩长度;w

表示收缩宽度即收缩长度;hc表示第一参考距离。
99.步骤s102:利用扩大参数、收缩参数、扩大长度对应的扩大面积以及收缩长度对应的收缩面积,得到目标边界紧密程度。
100.本实施方式中,利用扩大参数、收缩参数、扩大长度对应的扩大面积,以及收缩长度对应的收缩面积,得到目标边界紧密程度。其中,以参考框的高为第一参考距离计算得到扩大参数和收缩参数时,目标边界紧密程度即为第一边界紧密程度;而以参考框的宽为第一参考距离计算得到扩大参数和收缩参数时,目标边界紧密程度为第二边界紧密程度。
101.在一实施方式中,扩大长度对应的扩大面积为扩大长度与第二参考距离的乘积,收缩长度对应的收缩面积为收缩长度与第二参考距离的乘积。其中,若扩大长度为扩大高度,则第二参考距离为参考框的宽;若扩大长度为扩大宽度,则第二参考距离为参考框的高。扩大面积的具体公式如下:
102.或
103.其中,表示扩大长度对应的扩大面积;h

表示扩大高度即扩大长度;wc表示参考框的宽即第二参考距离;hc表示参考框的高即第二参考距离;w

表示扩大宽度即扩大长度。
104.收缩面积的具体公式如下:
105.或
106.其中,表示收缩长度对应的收缩面积;h

表示收缩高度即收缩长度;wc表示参考框的宽即第二参考距离;hc表示参考框的高即第二参考距离;w

表示收缩宽度即收缩长度。
107.在一具体实施方式中,如图11所示,图11是图10所示步骤s102一实施例的流程示意图。需要注意的是,若有实质上相同的结果,本实施例并不以图11所示的流程顺序为限。如图11所示,本实施例包括:
108.步骤s1021:获取扩大面积的平方、第一幂运算结果和第一数值之间的第一乘积。
109.本实施方式中,获取扩大面积的平方、第一幂运算结果和第一数值之间的第一乘积。其中,第一幂运算结果为指数为第一分数的幂运算结果,第一分数是分子是基于扩大参数确定、分母是基于预设常数确定,且第一分数与扩大参数成负相关,第一数值是基于预设常数确定且与预设常数成负相关。其中,不对预设常数的大小进行限定,可根据实际使用需要具体设置,例如,预设常数为0.4。具体公式如下所示:
110.或
111.其中,或表示扩大面积的平方;表示第一数值;表示第一幂运算结果。
112.步骤s1022:获取收缩面积的平方、第二幂运算结果和第一数值之间的第二乘积。
113.本实施方式中,获取收缩面积的平方、第二幂运算结果和第一数值之间的第二乘积。其中,第二幂运算结果为指数为第二分数的幂运算结果,第二分数是分子是基于收缩参数确定、分母是基于预设常数确定,且第二分数与收缩参数成负相关。具体公式如下所示:
114.或
115.其中,或表示收缩面积的平方;表示第一数值;表示第二幂运算结果。
116.步骤s1023:利用参考框的面积的平方、第一乘积和第二乘积,得到目标边界紧密程度。
117.本实施方式中,利用参考框的面积的平方、第一乘积和第二乘积,得到目标边界紧密程度。其中,目标边界紧密程度与第一乘积和第二乘积成正相关,目标边界紧密程度与参考框的面积的平方成负相关。
118.其中,当以参考框的高为第一参考距离、扩大高度为扩大长度、收缩高度为收缩长度时,第一边界紧密程度为目标边界紧密程度,那么第一边界紧密程度的具体公式如下:
[0119][0120]
其中,p(h

,h

)表示第一边界紧密程度;表示第一乘积;表示第二乘积;表示参考框的面积的平方。
[0121]
以参考框的宽为第一参考距离、扩大宽度为扩大长度、收缩宽度为收缩长度时,第二边界紧密程度为目标边界紧密程度,那么第二边界紧密程度的具体公式如下:
[0122][0123]
其中,p(w

,w

)表示第二边界紧密程度;表示第一乘积;
表示第二乘积;表示参考框的面积的平方。
[0124]
因此,由第一边界紧密程度和第二边界紧密程度可知,当预测框与真值框相同时,第一边界紧密程度和第二边界紧密程度对应的边界函数值为0;当预测框缩小或者扩大时,边界函数值下降速度加快;当预测框紧缩或扩大到一定程度时,边界函数值为1且保持不再变化,再大或者再小的预测框都不会对后续文本识别的准确性带来更不好的影响。
[0125]
步骤s232:基于边界紧密程度,确定至少一个边界加权度量,以作为区域检测模型的评估指标。
[0126]
本实施方式中,根据边界紧密程度,能够确定至少一个边界加权度量,以作为区域检测模型的评估指标。也就是说,将确定得到的至少一个边界加权度量作为区域检测模型的评估指标,以使得评估指标将预测框与真值框之间的边界紧密程度这一因素考虑在内,使得后续基于边界加权度量进行优化后的区域检测模型,能够获取得到边界位置更合理的预测框,从而使得后续文本识别模型能够更准确地对特定文本区域中的文本内容进行识别。
[0127]
在一实施方式中,如图12所示,图12是图7所示步骤s232一实施例的流程示意图。需要注意的是,若有实质上相同的结果,本实施例并不以图12所示的流程顺序为限。如图12所示,本实施例包括:
[0128]
步骤s2321:基于第一边界紧密程度和第二边界紧密程度,得到目标权重。
[0129]
本实施方式中,根据第一边界紧密程度和第二边界紧密程度,得到目标权重。在一具体实施方式中,直接对第一边界紧密程度和第二边界紧密程度进行处理,例如,计算第一边界紧密程度和第二边界紧密程度的平均值,以作为目标权重;或者,对第一边界紧密程度和第二边界紧密程度进行加权求和,以作为目标权重等。
[0130]
在其他具体实施方式中,如图13所示,图13是图12所示步骤s2321一实施例的流程示意图。需要注意的是,若有实质上相同的结果,本实施例并不以图13所示的流程顺序为限。如图13所示,本实施例包括:
[0131]
步骤s1301:基于真值框中的第一边界的边界占比和第一边界紧密程度,确定第一边界的子权重,并基于真值框中的第二边界的边界占比和第二边界紧密程度,确定第二边界的子权重。
[0132]
本实施方式中,在确定区域检测模型的评估指标中,除了考虑了预测框与真值框之间的边界紧密程度这一因素外,同时还考虑了特定文本区域的宽高比这一因素,预测框与真值框宽高比相比时,与真值框面积相同的预测框的宽高比比与真值框面积接近的预测框的宽高比能够带来更加准确的文本识别效果。因此,本实施方式中,根据真值框中的第一边界的边界占比和第一边界紧密程度,确定第一边界的子权重;并且,根据真值框中的第二边界的边界占比和第二边界紧密程度,确定第二边界的子权重。
[0133]
在一具体实施方式中,可获取真值框中的第一边界的边界占比与第一边界紧密程度的乘积,以作为第一边界的子权重。具体公式如下所示:
[0134]
[0135]
其中,表示真值框中的第一边界的边界占比;p(h

,h

)表示第一边界紧密程度。可以理解地,在其他实施方式中,也可对真值框中的第一边界的边界占比和第一边界紧密程度进行其他处理,以得到第一边界的子权重。
[0136]
在一具体实施方式中,可获取真值框中的第二边界的边界占比与第二边界紧密程度的乘积,以作为第二边界的子权重。具体公式如下所示:
[0137][0138]
其中,表示真值框中的第二边界的边界占比;p(w

,w

)表示第二边界紧密程度。可以理解地,在其他实施方式中,也可对真值框中的第二边界的边界占比和第二边界紧密程度进行其他处理,以得到第二边界的子权重。
[0139]
步骤s1302:利用第一边界的子权重和第二边界的子权重,得到目标权重。
[0140]
本实施方式中,利用第一边界的子权重和第二边界的子权重,得到目标权重。在一具体实施方式中,可获取第一边界的子权重和第二边界的子权重之和,以作为目标权重。具体公式如下所示:
[0141][0142]
其中,nbp(g,d)表示目标权重;表示第一边界的子权重;表示第二边界的子权重。
[0143]
可以理解地,在其他实施方式中,也可对第一边界的子权重和第二边界的子权重进行其他处理,以得到目标权重,例如,对第一边界的子权重和第二边界的子权重进行求平均处理或者进行加权求和处理等,在此不做具体限定。
[0144]
步骤s2322:利用目标权重,得到至少一个边界加权度量。
[0145]
本实施方式中,利用目标权重,得到至少一个边界加权度量。其中,至少一个边界加权度量包括准确率、召回率和综合指标中的至少一个,综合指标可根据准确率和召回率得到,也可单独根据准确率或者召回率得到,在此不做具体限定。
[0146]
在一实施方式中,至少一个边界加权度量为召回率,那么此时利用目标权重得到召回率。具体根据目标权重、预测框的第一尺寸以及真值框与预测框的并集的第二尺寸得到召回率。在一具体实施方式中,获取第二数值与目标权重之间的第一差,并将第二尺寸与第一差的乘积与第一尺寸的比值,作为召回率。其中,不对第二数值进行限定,例如,第二数值为1。召回率的具体公式如下所示:
[0147][0148]
其中,nbiou
recall
表示召回率;area(d)表示预测框的第一尺寸;area(g,d)表示真值框与预测框的并集的第二尺寸;1表示第二数值;nbp(g,d)表示目标权重。
[0149]
在一实施方式中,至少一个边界加权度量为召回率,那么此时利用目标权重得到准确率。具体根据目标权重、真值框的第三尺寸以及第二尺寸得到准确率。在一具体实施方式中,获取第二数值与目标权重之间的第二差,并将第二尺寸与第二差的乘积与第三尺寸的比值,作为准确率。其中,不对第二数值进行限定,例如,第二数值为1。准确率的具体公式如下所示:
[0150][0151]
其中,nbiou
precision
表示准确率;area(g)表示真值框的第三尺寸;area(g,d)表示真值框与预测框的并集的第二尺寸;1表示第二数值;nbp(g,d)表示目标权重。
[0152]
在一实施方式中,至少一个边界加权度量为综合指标,那么此时利用目标权重得到综合指标。具体根据召回率和准确率得到综合指标。在一具体实施方式中,获取召回率和准确率的第三乘积、以及召回率与准确率的相加结果,并获取第三乘积与相加结果的比值的预设倍数,作为综合指标。其中,不对预设倍数进行限定,例如,预设倍数为2。综合指标的具体公式如下所示:
[0153][0154]
其中,h-mean表示综合指标;nbiou
precision
表示准确率;nbiou
reca
ll表示召回率;2表示预设倍数。h-mean是一个综合指标,把召回率和准确率放入一个指标中,有利于后续对区域检测模型的鲁棒性进行判断。
[0155]
可以理解地,在其他实施方式中,也可分别计算得出上边界、下边界、左边界和右边界的边界紧密程度,以根据上边界紧密程度、下边界紧密程度、左边界紧密程度和边界紧密程度确定得到至少一个边界加权度量,并将其作为区域检测模型的评估指标。
[0156]
请参阅图14,图14是本技术提供的区域检测装置一实施例的框架示意图。区域检测装置140包括:获取模块1401和检测模块1402。获取模块1401用于获取待检测图像;检测模块1402用于利用区域检测模型对待检测图像进行区域检测,得到待检测图像中关于特定文本区域的目标预测框;其中,区域检测模型是基于区域检测模型的评估指标进行优化得到的,评估指标是基于验证样本图像中的特定文本区域的真值框与预测框之间的边界紧密程度得到的,预测框是区域检测模型对验证样本图像进行区域检测得到的。
[0157]
其中,区域检测装置140还包括优化模块1403,优化模块1403用于在利用区域检测模型对待检测图像进行区域检测,得到待检测图像中关于特定文本区域的目标预测框之前,具体包括:从验证集中获取验证样本图像,其中,验证样本图像包含特定文本区域,并标注有特定文本区域的真值框;利用区域检测模型对验证样本图像进行区域检测,得到验证样本图像中关于特定文本区域的预测框;基于真值框与预测框之间的边界紧密程度,得到区域检测模型的评估指标;基于评估指标,对区域检测模型进行优化。
[0158]
其中,优化模块1403用于基于真值框与预测框之间的边界紧密程度,得到区域检测模型的评估指标,具体包括:确定真值框与预测框之间的边界紧密程度;基于边界紧密程度,确定至少一个边界加权度量,以作为区域检测模型的评估指标。
[0159]
其中,优化模块1403用于确定真值框与预测框之间的边界紧密程度,具体包括:获
取真值框与预测框之间的第一边界的距离,并获取真值框与预测框之间的第二边界的距离,其中,第一边界为在第一方向上的边界,第二边界为在第二方向上的边界;利用第一边界的距离得到关于述第一边界的第一边界紧密程度,以及利用第二边界的距离得到关于第二边界的第二边界紧密程度。
[0160]
其中,上述第一边界包括上边界和下边界,第二边界包括左边界和右边界;优化模块1403用于获取真值框与预测框之间的第一边界的距离,并获取真值框与预测框之间的第二边界的距离,具体包括:获取真值框与预测框之间的上边界的第一距离、真值框与预测框之间的下边界的第二距离,以分别作为扩大高度、收缩高度;以及获取真值框与预测框之间的左边界的第三距离、真值框与预测框之间的右边界的第四距离,以分别作为扩大宽度、收缩宽度;优化模块1403用于利用第一边界的距离得到关于第一边界的第一边界紧密程度,以及利用第二边界的距离得到关于第二边界的第二边界紧密程度,具体包括:利用扩大高度、收缩高度得到关于第一边界的第一边界紧密程度,以及利用扩大宽度、收缩宽度得到关于第二边界的第二边界紧密程度。
[0161]
其中,优化模块1403用于利用扩大高度、收缩高度得到关于第一边界的第一边界紧密程度,或者,优化模块1403用于利用扩大宽度、收缩宽度得到关于第二边界的第二边界紧密程度,具体包括:以参考框的高为第一参考距离、扩大高度为扩大长度、收缩高度为收缩长度、第一边界紧密程度为目标边界紧密程度;或者,以参考框的宽为第一参考距离、扩大宽度为扩大长度、收缩宽度为收缩长度、第二边界紧密程度为目标边界紧密程度;利用扩大长度和第一参考距离,得到扩大参数,并利用收缩长度和第一参考距离,得到收缩参数,其中,参考框包含真值框和预测框;利用扩大参数、收缩参数、扩大长度对应的扩大面积以及收缩长度对应的收缩面积,得到目标边界紧密程度。
[0162]
其中,上述参考框为真值框和预测框的最小外接矩形框;和/或,优化模块1403用于利用扩大长度和第一参考距离,得到扩大参数,并利用收缩长度和第一参考距离,得到收缩参数,具体包括:获取扩大长度和第一参考距离的比值作为扩大参数,获取收缩长度和第一参考距离的比值作为收缩参数。
[0163]
其中,优化模块1403用于基于边界紧密程度,确定至少一个边界加权度量,具体包括:基于第一边界紧密程度和第二边界紧密程度,得到目标权重;利用目标权重,得到至少一个边界加权度量,其中,至少一个边界加权度量包括准确率、召回率和综合指标中的至少一个,综合指标是基于准确率和/或召回率得到的。
[0164]
其中,优化模块1403用于基于第一边界紧密程度和第二边界紧密程度,得到目标权重,具体包括:基于真值框中的第一边界的边界占比和第一边界紧密程度,确定第一边界的子权重,并基于真值框中的第二边界的边界占比和第二边界紧密程度,确定第二边界的子权重;利用第一边界的子权重和第二边界的子权重,得到目标权重。
[0165]
其中,优化模块1403用于基于真值框中的第一边界的边界占比和第一边界紧密程度,确定第一边界的子权重,具体包括:获取真值框中的第一边界的边界占比与第一边界紧密程度的乘积,作为第一边界的子权重;基于真值框中的第二边界的边界占比和第二边界紧密程度,确定第二边界的子权重,具体包括:获取真值框中的第二边界的边界占比与第二边界紧密程度的乘积,作为第二边界的子权重。
[0166]
其中,优化模块1403用于利用目标权重,得到至少一个边界加权度量,包括以下任
意一个或多个步骤:基于目标权重、预测框的第一尺寸以及真值框与预测框的并集的第二尺寸,得到召回率;基于目标权重、真值框的第三尺寸以及第二尺寸,得到准确率;利用召回率和准确率,得到综合指标。
[0167]
其中,上述特定文本区域为非标车牌;和/或,区域检测装置140还包括训练模块1404,训练模块1404在从验证集中获取验证样本图像之前,具体还包括:利用训练集对区域检测模型进行训练,其中,训练集包括若干训练样本图像,训练样本图像包含特定文本区域,并标注有特定文本区域的真值框。
[0168]
请参阅图15,图15是本技术提供的电子设备一实施例的框架示意图。电子设备150包括相互耦接的存储器1501和处理器1502,存储器1501中存储有程序指令,处理器1502用于执行程序指令以实现上述任一区域检测方法实施例中的步骤。具体地,电子设备150可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
[0169]
具体而言,处理器1502用于控制其自身以及存储器1501以实现上述任一区域检测方法实施例中的步骤。处理器1502还可以称为cpu(central processing unit,中央处理单元)。处理器1502可能是一种集成电路芯片,具有信号的处理能力。处理器1502还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器1502可以由集成电路芯片共同实现。
[0170]
请参阅图16,图16是本技术提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质160存储有能够被处理器运行的程序指令1601,程序指令1601用于实现上述任一区域检测方法实施例中的步骤。
[0171]
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
[0172]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
[0173]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0174]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0175]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0176]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0177]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献