一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本标签的确定方法及相关装置与流程

2022-04-16 12:41:01 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,具体涉及一种文本标签的确定方法及相关装置。


背景技术:

2.随着科技的发展,包括文本图片在内的多媒体资源规模越来越大。文本检索逐渐成为自然语言处理领域中的一个研究热点,产生了许多基于光学字符识别(ocr)技术的文本检索方法,该方法从图片中识别文本内容,然后利用文本检索技术实现文本图片检索系统。通过现有的图片提取技术,从图片中提取完文本后,再提取文本的信息,从而根据识别与提取的结果为该文本打上标签,图片文本的提取与识别文本是两个独立的过程,导致为图片中文本打上对应标签的效率低,且准确度低。


技术实现要素:

3.本技术实施例提供了一种文本标签的确定方法及相关装置,能够将目标图片中的目标文本与目标文本框特征向量拼接后,来确定目标图片中目标文本的标签,从而提高确定文本标签时的准确性。
4.第一方面,本技术实施例提供一种文本标签的确定方法,所述方法包括:
5.获取目标图片;
6.提取所述目标图片中的目标文本与所述目标文本对应的目标文本框特征向量;
7.将所述目标文本与所述目标文本框特征向量输入预先训练好的标签确定模型,确定所述目标文本对应的第一标签,所述标签确定模型由多个训练文本、所述训练文本对应的训练文本框特征向量拼接后的数据,以及所述训练文本对应的第二标签训练得到,所述训练文本框特征向量包括所述训练文本所在的区域在训练图片中的顶点坐标,以及所述区域的斜边长与所述训练图片的斜边长的比值,所述第二标签为预先设定的标签。
8.第二方面,本技术实施例提供的一种文本标签的确定装置,所述装置包括:
9.第一获取单元,用于获取目标图片;
10.提取单元,用于提取所述目标图片中的目标文本与所述目标文本对应的目标文本框特征向量;
11.第一输入单元,用于将所述目标文本与所述目标文本框特征向量输入预先训练好的标签确定模型,确定所述目标文本对应的第一标签,所述标签确定模型由多个训练文本、所述训练文本对应的训练文本框特征向量拼接后的数据,以及所述训练文本对应的第二标签训练得到,所述训练文本框特征向量包括所述训练文本所在的区域在训练图片中的顶点坐标,以及所述区域的斜边长与所述训练图片的斜边长的比值,所述第二标签为预先设定的标签。
12.第三方面,本技术实施例提供一种终端设备,所述终端设备包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行上述第一方面所述的方法中所描述的部分或全
部步骤的指令。
13.第四方面,本技术实施例提供了一种计算机可读存储介质,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如本实施例第一方面中的部分或全部步骤。
14.可以看出,本实施例中,本技术提供的技术方案,获取目标图片后,提取该目标图片中的目标文本与目标文本对应的目标文本框特征向量;将目标文本与目标文本框特征向量输入预先训练好的标签确定模型,确定目标文本对应的第一标签。其中,标签确定模型由多个训练文本、训练文本对应的训练文本框特征向量拼接后的数据,以及训练文本对应的第二标签训练得到,训练文本框特征向量包括训练文本所在的区域在训练图片中的顶点坐标,以及区域的斜边长与训练图片的斜边长的比值,第二标签为预先设定的标签,通过训练文本,以及训练文本所在区域的顶点坐标,以及训练文本所在区域的斜边长与训练图片的斜边长的比值,保证训练文本为第二标签对应的文本,提高标签确定模型识别的准确度。
附图说明
15.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1是本技术实施例提供的一种应用架构示意图;
17.图2是本技术实施例提供的一种文本标签的确定方法的流程示意图;
18.图3是本技术实施例提供的一种文本标签的确定方法的示意图;
19.图4是本技术实施例提供的一种标签确定模型训练流程示意图;
20.图5是本技术实施例提供的标签确定模型训练过程示意图;
21.图6是本技术实施例提供的一种文本标签的确定装置的功能单元组成框图;
22.图7是本技术实施例提供的一种终端设备的结构示意图。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
25.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
26.为了便于理解本技术提供的技术方案,首先,对本技术中涉及到的相关概念进行解释说明。
27.第一标签:第一标签用于标识目标文本的目标文本信息,例如第一标签内容为:房屋面积,识别到的目标文本为:80平方米,在识别目标文本后,确定该目标文本对应的标签应该为房屋面积,则为该目标文本打上第一标签,表示房屋的面积为80。
28.第二标签:第二标签用于标识训练文本的训练文本信息,例如第二标签为:户型名称,识别到的训练文本为:xx户,在识别目标文本后,确定训练文本对应的标签应该为户型名称,则为该训练文本打上第一标签,表示户型名称为xx户。
29.可以理解的是,第一标签与第二标签为预先设定的标签,可以根据实际需求进行设定,例如,也可以为项目名称,户型大小等等,具体此处不作限定。
30.训练文本框特征向量,训练文本框特征向量包括训练文本的区域在训练图片中的顶点坐标,以及训练文本所在区域的斜边长与所述训练图片的斜边长的比值,训练文本框特征向量还包括提取训练图片时获得的其他信息,例如训练文本识别置信度相对训练文本框面积的相对置信度等,通过训练文本框特征向量中的顶点坐标与比值等信息,训练标签确定模型,提高标签确定模型确定文本标签的准确性。
31.目标文本框特征向量,目标文本框特征向量包括目标文本的区域在目标图片中的顶点坐标,以及目标文本所在区域的斜边长与所述目标图片的斜边长的比值,目标文本框特征向量还包括提取目标图片时获得的其他信息,例如目标文本识别置信度相对目标文本框面积的相对置信度等,通过目标文本框特征向量中的顶点坐标与比值等信息,确定目标文本的标签,提高确定结果的准确性。
32.光学字符识别(optical character recognition,ocr)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
33.本技术实施例中提供了一种文本标签的确定方法,该方法包括:
34.获取目标图片;提取所述目标图片中的目标文本与所述目标文本对应的目标文本框特征向量;将所述目标文本与所述目标文本框特征向量输入预先训练好的标签确定模型,确定所述目标文本对应的第一标签,所述标签确定模型由多个训练文本、所述训练文本对应的训练文本框特征向量拼接后的数据,以及所述训练文本对应的第二标签训练得到,所述训练文本框特征向量包括所述训练文本所在的区域在训练图片中的顶点坐标,以及所述区域的斜边长与所述训练图片的斜边长的比值,所述第二标签为预先设定的标签。
35.通过训练文本,以及训练文本所在区域的顶点坐标,以及训练文本所在区域的斜边长与训练图片的斜边长的比值,保证训练文本为第二标签对应的标签,提高标签确定模型识别的准确度。
36.请参阅图1,图1为本技术实施例提供的一种应用架构示意图,包括服务器110和终端设备120。终端设备120可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此,终端设备120上可以安装有各种应用程序(application,
app),例如ocr识别程序。
37.服务器110可以为终端设备120提供各种网络服务,对于不同的应用程序,服务器110可以为相应的后台服务器。其中,服务器110可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
38.终端设备120以及服务器110可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。例如,终端设备120与服务器110通过互联网相连,实现相互之间的通信。可选地,上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
39.需要说明的是,本技术实施例中的标签确定的方法主要由终端设备120侧执行,例如,标签确定模型位于终端设备120上,用户在终端设备120输入目标图片,并将目标图片的目标文本以及目标文本框特征向量提取出来,终端设备120通过标签确定模型对该目标文本以及目标文本框特征向量进行识别,确定目标文本的标签,且将目标文本与目标文本对应的标签输出。具体为:终端设备120获取目标图片;将目标图片中的目标文本以及目标文本框特征向量输入标签确定模型,得到该目标文本对应的第一标签,目标文本以及目标文本框特征向量可以通过ocr模型或双塔模型等模型得到,目标文本框特征向量包括目标文本所在的区域在目标图片中的顶点坐标,以及目标文本所在区域的斜边长与所述训练图片的斜边长的比值,该顶点坐标为目标文本对应的坐标。不同的目标文本的顶点坐标不同,并将该顶点坐标与该比值等其他信息拼接到目标文本后输入标签确定模型,获得第一标签,提高确定的准确性。
40.如图1所示的应用架构,是以应用于终端设备120侧为例进行说明的,当然,本技术实施例中语音识别方法也可以由服务器110执行。例如,标签确定模型位于服务器110上,用户在终端设备120输入目标图片,并需要提取目标图片中的目标文本与目标文本框特征向量,终端设备120将目标文本与目标文本框特征向量发送服务器110,并发送确定请求。服务器110接收到确定请求后通过标签确定模型对目标文本与目标文本框特征向量确定目标文本的标签,并在确定目标文本的第一标签后,将第一标签和目标文本输出。具体为:服务器110,获取目标文本与目标文本框特征向量,将目标文本与目标文本框特征向量输入标签确定模型,得到第一标签。
41.本技术实施例中的应用架构图是为了更加清楚地说明本技术实施例中的技术方案,并不构成对本技术实施例提供的技术方案的限制,对于其它的应用架构和应用,本技术实施例提供的技术方案对于类似的问题,同样适用。
42.基于上述实施例,请参阅图2,图2为本技术实施例中一种文本标签的确定方法的流程示意图,该方法包括以下步骤。
43.s210:获取目标图片。
44.可以理解地,本技术实施例中的目标图片可以是不同类型的图片,例如,户型图、工程图等,本技术实施例主要以户型图为例进行说明。
45.s220:提取所述目标图片中的目标文本与所述目标文本对应的目标文本框特征向量。
46.其中,目标图片内包括多个目标文本,多个目标文本中的每一个目标文本都有对应的目标文本框特征向量,提取目标图片中的每个目标文本以及与该目标文本对应的目标文本框特征向量,为后续输入标签确定模型做准备。
47.目标文本框特征向量包括目标文本所在的区域在目标图片中的顶点坐标,以及所述区域的斜边长与所述目标图片的斜边长的比值。其中,可以通过ocr模型提取每个目标文本以及与每个目标文本对应的目标文本框特征向量。其中,该ocr模型包括文本提取模型和文本识别模型,文本提取模型可以通过db、psenet等方法检测到目标图片中的文本行,文本识别模型使用crnn、rare等算法对文本行进行识别,进而识别到具体的文字。
48.具体地,终端设备120获取到目标图片后,通过该ocr模型获取目标图片中的目标文本,当获取到的目标文本为多个时,将多个目标文本集合在同一列表内,并且获取每个目标文本所在区域的信息,例如目标文本所在区域的四个顶点坐标,相邻区域之间的间隔距离,目标文本所在区域的线条信息,以及文本识别的置信度等,组成向量表。对向量表内的每个向量进行处理,获得目标文本框特征向量。具体的处理包括:获取目标图片的顶点坐标后,根据目标图片的顶点坐标计算出目标图片的长和宽的值,进而获取目标图片的斜边长,根据目标文本所在区域的顶点坐标,计算目标文本所在区域的长和宽,进而获取目标文本所在区域的斜边长。将目标文本所在区域的斜边长除以目标图片的斜边长,获得目标文本所在区域的斜边长与目标图片的斜边长的比值,目标文本框特征向量包括该比值以及顶点坐标。获取目标文本所在区域的线条信息包括:获取目标文本所在区域线条的粗细,线条颜色等信息。进一步地,还可以获取目标文本所在区域或者在目标文本的设定范围内的符号信息,获取到符号后在符号集中查找对应的符号信息,例如获取到门的符号,通过放大或缩小该符号,并在符号集中查找到相同的符号,从而获取到该符号对应信息为门,则输出门这一符号信息,用于确定第一标签。其中,符号集为预先设置的具有不同符号与不同符号中每个符号对应的符号信息。
49.进一步地,可以对目标文本、该目标文本框特征向量进行预处理,去除重复的目标文本、目标文本框特征向量。
50.s230:将所述目标文本与所述目标文本框特征向量输入预先训练好的标签确定模型,确定所述目标文本对应的第一标签,所述标签确定模型由多个训练文本、所述训练文本对应的训练文本框特征向量拼接后的数据,以及所述训练文本对应的第二标签训练得到,所述训练文本框特征向量包括所述训练文本所在的区域在训练图片中的顶点坐标,以及所述区域的斜边长与所述训练图片的斜边长的比值,所述第二标签为预先设定的标签。
51.请参阅图3,图3是本技术实施例提供的一种文本标签的确定方法的示意图。将获取的目标文本与目标文本框特征向量输入预先训练好的标签确定模型,确定目标文本对应的第一标签,该第一标签为标识该目标文本的标签。例如该目标图片为户型图,提取到户型图中目标文本:30平方米,通过目标文本以及目标文本框特征向量确定该目标文本为户型面积,则确定第一标签,该第一标签的内容为户型面积。由于户型图中,不同文本都有其规定的格式与位置要求,故通过目标文本框特征向量与目标文本拼接后的拼接后的信息确定目标文本对应的第一标签,提高确定的准确性。
52.标签确定模型由多个训练文本、训练文本对应的训练文本框特征向量拼接后的数据,以及训练文本对应的第二标签训练得到,训练文本框特征向量包括训练文本所在的区域在训练图片中的顶点坐标,以及区域的斜边长与训练图片的斜边长的比值,第二标签为预先设定的标签,不同文本都有其规定的格式与位置要求,故通过拼接后的训练文本框特征向量与训练文本训练标签确定模型,提高标签确定模型确定的准确性。
53.请参阅图4与图5,图4是本技术实施例提供的一种标签确定模型训练流程示意图,图5是本技术实施例提供的标签确定模型训练过程示意图。
54.s410:获取多个所述训练文本、所述训练文本对应的所述训练文本框特征向量以及与所述训练文本对应的所述第二标签。
55.在获取多个训练文本之前,获取训练图片,训练图片中包含至少一个训练文本与训练文本对应的训练文本框特征向量,预先为每个训练文本设置第二标签。
56.提取训练图片中所有的训练文本:text1、text2
······
组成训练文本列表[text1、text2

textn],以及每个训练文本所在区域的信息,例如训练文本所在区域的四个顶点坐标,以及文本识别的置信度等,组成向量表[info1、info2

info3]。将向量表内的每个训练文本所在区域的信息处理成训练文本框特征向量,将多个训练文本框特征向量组成[info_feat1、info_feat2、

、info_featm],具体处理过程为:获取训练图片的顶点坐标后,根据训练图片的顶点坐标计算出训练图片的长和宽的值,进而获取训练图片的斜边长;根据训练文本所在区域的顶点坐标,计算训练文本所在区域的长和宽,进而获取训练文本所在区域的斜边长。将训练文本所在区域的斜边长除以训练图片的斜边长,获得训练文本所在区域的斜边长与训练图片的斜边长的比值,训练文本框特征向量包括该顶点坐标以及该比值。
[0057]
其中,所述将所述训练文本与所述训练文本框特征向量拼接之前,还包括:对所述训练文本、所述训练文本框特征向量以及所述第二标签进行预处理,去除重复的所述训练文本、所述训练文本框特征向量以及所述第二标签。
[0058]
s420:将所述训练文本与所述训练文本框特征向量拼接,获得第一矩阵。
[0059]
其中,所述将所述训练文本与所述训练文本框特征向量拼接,获得第一矩阵包括:将所述训练文本通过文本字典转换为文本数字;通过语义表示模型将所述文本数字转化为文本向量,获得第二矩阵,所述第二矩阵包括所述文本向量;将所述训练文本框特征向量通过全连接神经网络转化为维度为1的第三矩阵和维度为k的第四矩阵,其中,k为超参数;根据所述第三矩阵和所述第二矩阵确定第五矩阵,根据所述第四矩阵和所述第二矩阵确定第六矩阵;根据所述第五矩阵和第六矩阵确定所述第一矩阵。
[0060]
具体的,将所述训练文本通过文本字典转换为文本数字;将列表中的每个[text1、text2

textn]训练文本通过文本字典转换为文本数字。
[0061]
通过语义表示模型将文本数字转化为文本向量,获得第二矩阵,第二矩阵包括文本向量;通过语义表示模型将每个文本数字转化为文本向量,获得第二矩阵[seq1 seq2

seq3]。将训练文本框特征向量通过全连接神经网络转化为维度为1的第三矩阵和维度为k的第四矩阵,其中,k为超参数;根据第三矩阵和第二矩阵确定第五矩阵,根据第四矩阵和第二矩阵确定第六矩阵;根据第五矩阵和第六矩阵确定第一矩阵。
[0062]
其中,将训练文本框特征向量[info_feat1、info_feat2、

、info_featm]通过全
连接神经网络转化为维度为1的第三矩阵m1和维度为k的第四矩阵m2,其中,k为超参数,超参数是一个未知变量,但是它不同于在训练过程中的参数,它是可以对训练得到的参数有影响的参数,需要训练者人工输入,并作出调整,以便优化训练模型的效果。根据第三矩阵和第二矩阵确定第五矩阵,根据第四矩阵和第二矩阵确定第六矩阵。可选地,所述根据所述第三矩阵和所述第二矩阵确定第五矩阵,根据所述第四矩阵和所述第二矩阵确定第六矩阵包括:通过concatenate函数将所述第三矩阵拼接在所述第二矩阵之前得到第五矩阵,以及将所述第四矩阵拼接在所述第二矩阵之后得到第六矩阵。即,可以用concatenate方法将m1拼接在[seq1 seq2

seq3]之前,形成第五矩阵,可以用concatenate方法将m2拼接在[seq1 seq2

seq3]之后,形成第六矩阵,根据第五矩阵和第六矩阵确定第一矩阵[s1,s2,

,sn]。
[0063]
在其他实施例中,还可以通过维度扩展再元素相加方法将第三矩阵拼接在第二矩阵之前得到第五矩阵,以及将第四矩阵拼接在第二矩阵之后得到第六矩阵。
[0064]
具体地,所述根据所述第三矩阵和所述第二矩阵确定第五矩阵之前,还包括:将所述第三矩阵通过应用激活函数处理,得到第七矩阵;所述根据所述第三矩阵和所述第二矩阵确定第五矩阵包括:根据所述第七矩阵和所述第二矩阵确定第五矩阵。
[0065]
将m1激活函数处理处理,获得第七矩阵,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中激活函数包括sigmoid函数或tanh函数等。
[0066]
其中,将第七矩阵用concatenate方法拼接在[seq1,seq2…
seqn]之前,形成第五矩阵。
[0067]
s430:将所述第一矩阵输入所述标签确定模型,获得第三标签,按照所述第三标签与所述第二标签的差异,调整所述标签确定模型,直至达到训练结束条件,得到所述标签确定模型。
[0068]
具体的,获得第一矩阵[s1,s2,

,sn]之后,将第一矩阵输入标签确定模型,通过crf层获得每个训练文本的第三标签,将第三标签与预先设定的标签进行比对,按照第三标签与第二标签的差异,调整所述标签确定模型,若第三标签与第二标签不相同,则调整标签确定模型,直到输出的每个训练文本的第三标签与预设的第二标签相同。其中,crf层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。
[0069]
其中,所述确定所述目标文本对应的第一标签之后,获取与所述第一标签对应的所述目标文本;拼接所述目标文本与所述第一标签;输出拼接后的所述第一标签与所述目标文本。
[0070]
具体的,上述主要从方法侧执行过程的角度对本技术实施例的方案进行了介绍。可以理解的是,终端设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0071]
本技术实施例可以根据上述方法示例对终端设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元
中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本技术实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0072]
请参阅图6,图6是本技术实施例提供的一种文本标签的确定装置的功能单元组成框图,所述装置包括:第一获取单元610、提取单元620和第一输入单元630,其中:
[0073]
所述第一获取单元610,用于获取目标图片;
[0074]
所述提取单元620,用于提取目标图片中的目标文本与目标文本对应的目标文本框特征向量;
[0075]
所述第一输入单元630,用于将所述目标文本与所述目标文本框特征向量输入预先训练好的标签确定模型,确定所述目标文本对应的第一标签,所述标签确定模型由多个训练文本、所述训练文本对应的训练文本框特征向量拼接后的数据,以及所述训练文本对应的第二标签训练得到,所述训练文本框特征向量包括所述训练文本所在的区域在训练图片中的顶点坐标,以及所述区域的斜边长与所述训练图片的斜边长的比值,所述第二标签为预先设定的标签。
[0076]
进一步地,所述装置还包括:
[0077]
第二获取单元,用于获取多个所述训练文本、所述训练文本对应的所述训练文本框特征向量以及与所述训练文本对应的所述第二标签;
[0078]
第一拼接单元,用于将所述训练文本与所述训练文本框特征向量拼接,获得第一矩阵;
[0079]
第二输入单元,用于将所述第一矩阵输入所述标签确定模型,获得第三标签,按照所述第三标签与所述第二标签的差异,调整所述标签确定模型,直至达到训练结束条件,得到所述标签确定模型。
[0080]
进一步地,所述装置还包括:
[0081]
预处理单元,用于对所述训练文本、所述训练文本框特征向量以及所述第二标签进行预处理,去除重复的所述训练文本、所述训练文本框特征向量以及所述第二标签。
[0082]
进一步地,所述第一拼接单元,还用于:
[0083]
将所述训练文本通过文本字典转换为文本数字;
[0084]
通过语义表示模型将所述文本数字转化为文本向量,获得第二矩阵,所述第二矩阵包括所述文本向量;
[0085]
将所述训练文本框特征向量通过全连接神经网络转化为维度为1的第三矩阵和维度为k的第四矩阵,其中,所述k为超参数;
[0086]
根据所述第三矩阵和所述第二矩阵确定第五矩阵,根据所述第四矩阵和所述第二矩阵确定第六矩阵;
[0087]
根据所述第五矩阵和第六矩阵确定所述第一矩阵。
[0088]
所述第一拼接单元,还用于:
[0089]
通过concatenate函数将所述第三矩阵拼接在所述第二矩阵之前得到第五矩阵,以及将所述第四矩阵拼接在所述第二矩阵之后得到第六矩阵。
[0090]
进一步地,所述装置还包括:
[0091]
激活函数处理单元,用于将所述第三矩阵通过应用激活函数处理,得到第七矩阵;
[0092]
确定单元,用于根据所述第七矩阵和所述第二矩阵确定第五矩阵。
[0093]
进一步地,所述装置还包括:
[0094]
第三获取单元,用于获取与所述第一标签对应的所述目标文本;
[0095]
第二拼接单元,用于拼接所述目标文本与所述第一标签;
[0096]
输出单元,用于输出拼接后的所述第一标签与所述目标文本。
[0097]
请参阅图7,图7是本技术实施例提供的一种终端设备,该终端设备包括:处理器、存储器、收发器,以及一个或多个程序。所述处理器、存储器和收发器通过通信总线相互连接。
[0098]
处理器可以是一个或多个中央处理器(central processing unit,cpu),在处理器是一个cpu的情况下,该cpu可以是单核cpu,也可以是多核cpu。
[0099]
所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行;所述程序包括用于执行以下步骤的指令:
[0100]
获取目标图片;
[0101]
提取所述目标图片中的目标文本与所述目标文本对应的目标文本框特征向量;
[0102]
将所述目标文本与所述目标文本框特征向量输入预先训练好的标签确定模型,确定所述目标文本对应的第一标签,所述标签确定模型由多个训练文本、所述训练文本对应的训练文本框特征向量拼接后的数据,以及所述训练文本对应的第二标签训练得到,所述训练文本框特征向量包括所述训练文本所在的区域在训练图片中的顶点坐标,以及所述区域的斜边长与所述训练图片的斜边长的比值,所述第二标签为预先设定的标签。
[0103]
需要说明的是,本技术实施例的具体实现过程可参见上述方法实施例所述的具体实现过程,在此不再赘述。
[0104]
本技术实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。
[0105]
本技术实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
[0106]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0107]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0108]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本技术实施例方案的目的。
[0109]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0110]
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储器包括:u盘、rom、ram、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0111]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、rom、ram、磁盘或光盘等。
[0112]
以上对本技术实施例进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献