一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向跨模态检索的数据采集处理方法及系统

2022-06-11 13:51:19 来源:中国专利 TAG:


1.本发明属于跨模态信息检索 技术领域,具体涉及一种面向跨模态检索的数据采集处理方法及系统。


背景技术:

2.随着以深度学习为代表的人工智能技术的广泛进步,人工智能产业对于图片、文本等各种模态数据的需求量极具增加。在互联网中存在着大量有价值的多模态开源数据,这些多模态开源数据可以被用来进行深度学习模型的训练,比如利用社交网络平台中存在的具有相关性的图片、文本数据对进行多模态深度学习模型的训练。在跨模态检索的场景中,对于图片、文本数据的需求尤其巨大。
3.为了实现目标,如何构建关于两种模态(图片和文本)的数据采集、处理通道是至关重要的。目前针对图片和文本的数据处理相关技术主要考虑到的是如何进行有效存储问题。然而,在实际过程中,原始获取的文本数据中可能会存在一些不可见字符和显示控制字符,这些字符的存在会导致后续在跨模态检索中对文本数据索引的不准确。同时,原始获取的图片与文本对在语义上可能存在不一致性,也需要在数据处理过程中进行筛选。
4.专利文献cn108877948a公开了一种多模态数据处理方法及系统,包括:数据采集网络对冠心病例对应的多模态数据进行采集;数据采集网络依据采集到的多模态数据所属的预定类型,结合与该预定类型对应的数据清洗模型对多模态数据进行处理;数据采集网络将处理后的所述多模态数据发送至数据服务器;数据服务器根据接收到的多模态数据进行数据预处理,以获得融合数据;数据服务器对融合数据进行关联规则挖掘。该过程对没有处理采集数据中的不可见字符和显示控制字符,可能会导致多模态数据的处理结果不准确。
5.专利文献cn 112256786公开了一种多模态数据处理方法和装置,包括:终端获取多模态数据;终端通过特征提取算法对多模态数据进行特征提取,以获得多模态数据的数据特征;终端通过第一转换算法对数据特征进行转换,以得到第一数据特征,其中,第一转换算法用于将多模态数据映射至特定空间;终端将多模态数据的数据特征、数据标签以及终端id传输至服务端;服务端通过与终端id相对应的第二转换算法对第一数据特征进行转换,以得到第二数据特征,其中,第二转换算法用于将不同的特定空间中数据映射至同一空间;服务端以第二数据特征作为输入,以数据标签作为输出,进行多模态表示学习,以对多模态表示学习算法进行训练。该过程对没有处理采集数据中的不可见字符和显示控制字符,可能会导致多模态数据的转换过程得到的第二数据特征影响模态学习结果。


技术实现要素:

6.鉴于上述,本发明的目的在于提供一种面向跨模态检索的数据采集处理方法及系统,可对开源的图片、文本数据进行采集并且进行深度处理,从而最终实现对图片-文本数据进行高质量的跨模态检索。
7.为实现上述发明目的,一个实施例提供了一种面向跨模态检索的数据采集处理方法,包括:
8.对目标开源数据网络进行分布式并行采集多模态数据,其中,多模态数据包括文本模态数据和图像模态数据;
9.对文本模态数据进行特殊字符和不可见字符的清洗后,对清洗后的文本模态数据与图像模态数据进行不同消息队列存储;
10.利用特征提取模型分别对消息队列中的每条文本和每个图像进行特征提取得到文本特征和图像特征,根据文本特征和图像特征的相似度匹配筛选得到图-文组合,并以图-文组合的图像特征和文本特征作为索引进行数据库存储;
11.检索时,依据上传数据与数据库中的图-文组合的相似度筛选匹配的图-文组合作为上传数据的检索结果并返回,其中,上传数据包括文本数据、图像数据。
12.在一个实施例中,对文本模态数据进行不可见字符的清洗,包括:
13.将文本模态数据中不可见字符过滤掉,其中,不可见字符包括零长度空格、零长度连接符、零长度非连接符。
14.在一个实施例中,对文本模态数据进行特殊字符的清洗,包括:
15.当特殊字符为象形字形时,依据象形字表呈现的象形字形与原始字符的映射关系进行象形字形到原始字符的替换;
16.当特殊字符为删除性字符时,根据不同删除性字符采用不同清洗方式,包括:当删除性字符为退格字符,则将退格字符与该退格字符前一字符同时删除;当删除性字符为删除字符,则将删除字符与该删除字符后一字符同时删除;当删除性字符为回车字符,则将该回车字符后的所有字符从段落的开始符之后进行覆盖。
17.在一个实施例中,对文本模态数据进行特殊字符的清洗,包括:
18.当特殊字符为显示顺序字符时,根据控制改变显示顺序字符的序列,进行自底向上的递归恢复,最终复原原始文本,其中,显示顺序字符包括:pdf字符、lre字符、rle字符、lro字符、rlo字符、pdi字符、lri字符、rli字符,控制改变显示顺序字符的序列为[lro,lri,rlo,lri,字符串1,pdi,lri,字符串2,pdi,pdf,pdi,pdf];
[0019]
采用自底向上的递归恢复复原原始文本,包括:
[0020]
(a)采取非贪婪匹配算法,匹配形如[lro,lri,rlo,lri,字符串1,pdi,lri,字符串2,pdi,pdf,pdi,pdf]的字符串序列,将该字符串序列替换为形如[字符串2,字符串1]的序列;
[0021]
(b)重复步骤(a)直至文本模态数据中不存在所述字符串序列;
[0022]
(c)若剩余文本模态数据中仍存在显示顺序字符,则将所有显示顺序字符删除。
[0023]
在一个实施例中,所述根据文本特征和图像特征的相似度匹配筛选得到图-文组合,包括:
[0024]
计算文本特征与所有图像特征的相似度,并筛选相似度最大的图像特征与文本特征匹配,形成图-文组合。
[0025]
在一个实施例中,所述依据上传数据与数据库中的图-文组合的相似度筛选匹配的图-文组合作为上传数据的检索结果,包括:
[0026]
当上传数据为文本数据时,利用特征提取模型提取文本数据的文本特征,将该文
本特征与数据库中的文本特征进行相似度计算,并将数据库中相似度最大的文本特征作为匹配的文本特征,匹配的文本特征所属的图-文组合作为检索结果;
[0027]
当上传数据为图像数据时,利用特征提取模型提取图像数据的图像特征,将该图像特征与数据库中的图像特征进行相似度计算,并将数据库中相似度最大的图像特征作为匹配的图像特征,匹配的图像特征所属的图-文组合作为检索结果。
[0028]
在一个实施例中,所述特征提取模块采用对比文本-图片预训练模型。
[0029]
在一个实施例中,文本特征和图像特征的相似度为余弦相似度或l2距离;文本特征和文本特征的相似度为余弦相似度或l2距离;图像特征和图像特征的相似度为余弦相似度或l2距离。
[0030]
为实现上述发明目的,实施例还提供了一种面向跨模态检索的数据采集处理系统,包括:
[0031]
采集模块,用于对目标开源数据网络进行分布式并行采集多模态数据,其中,多模态数据包括文本模态数据和图像模态数据;
[0032]
清洗模块,用于对文本模态数据进行特殊字符和不可见字符的清洗后,对清洗后的文本模态数据与图像模态数据进行不同消息队列存储;
[0033]
特征提取模块,用于利用特征提取模型分别对消息队列中的每条文本和每个图像进行特征提取得到文本特征和图像特征;
[0034]
匹配模块,用于根据文本特征和图像特征的相似度匹配筛选得到图-文组合,并以图-文组合的图像特征和文本特征作为索引进行数据库存储;
[0035]
检索模块,用于依据上传数据与数据库中的图-文组合的相似度筛选匹配的图-文组合作为上传数据的检索结果并返回,其中,上传数据包括文本数据、图像数据。
[0036]
与现有技术相比,本发明具有的有益效果至少包括:
[0037]
通过分布式并行采集多模态数据后,通过对文本模态数据进行特殊字符和不可见字符的处理实现数据的深度清洗,避免了特殊字符和不可见字符对语义的影响,导致索引不准确,通过文本模态数据对应的文本特征和图像模特数据的图像特征进行相似度匹配关联,形成的图-文组合巧妙地引入文本和图像的语义相关性,基于图-文组合的图像特征和文本特征作为索引实现的数据库存储,省略了额外索引,使得数据存储更简单更直接,便于检索应用,总之,该方法能够快速获取多模态数据,有效构建跨模态检索数据仓库,能够实现对大规模多模态数据的自动挖掘,节约了人工分析成本,有利于大规模部署和实施。
附图说明
[0038]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0039]
图1是实施例提供的面向跨模态检索的数据采集处理方法的流程图;
[0040]
图2是实施例提供的面向跨模态检索的数据采集处理方法的另一流程图;
[0041]
图3是实施例提供的面向跨模态检索的数据采集处理系统的结构示意图。
具体实施方式
[0042]
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
[0043]
图1是实施例提供的面向跨模态检索的数据采集处理方法的流程图。图2是实施例提供的面向跨模态检索的数据采集处理方法的另一流程图。如图1和图2所示,实施例提供的面向跨模态检索的数据采集处理方法,包括以下步骤:
[0044]
步骤1,对目标开源数据网络进行分布式并行采集多模态数据。
[0045]
实施例中,多模态数据包括文本模态数据和图像模态数据。通过分布式系统进行多模态数据的采集,该分布式系统可以实现多节点中多进程的并行采集多模态数据,同时可以对在文本内容层面增加的干扰进行防御攻击。每个进程可以单独采集文本模态数据或图像模态数据,当然也可以同时采集文本模态数据和图像模态数据。
[0046]
在应用中,分布式系统根据所需采集的不同模态数据提供不同的采集选项,比如若需采集数据为文本模态数据,则选择文本模态的数据采集功能,之后分布式系统内可以根据其拥有的对应节点分配相应的采集任务,将对应的采集需求交由具体节点进行执行。
[0047]
步骤2,多模态数据的预处理并存储到消息队列中。
[0048]
实施例中,采用数据处理引擎进行多模态数据的预处理,在判断多模态数据包括文本模态数据时,对文本模态数据的深度清洗。其中,深度清洗主要包括将文本模态数据进行特殊字符与不可见字符的清洗。
[0049]
具体清洗过程包括:
[0050]
(2-1)对文本模态数据进行检查,遍历每一个文本字符,观察是否可能属于特殊字符或不可见字符;
[0051]
(2-2)若存在特殊字符或不可见字符,则通过字符类型判断字符类别;
[0052]
(2-3)当判定字符类别为不可见字符时,则采取将不可见字符过滤的方法进行清洗。
[0053]
其中,不可见字符包括以下几种:零长度空格,其unicode码为u 200b;零长度连接符,其unicode码为u 200d;零长度非连接符,其unicode码为u 200c。针对以上这些不可见字符,直接将这些不可见字符从文本模态数据中删除,以实现对文本模态数据进行不可见字符的清洗。
[0054]
(2-4)当判定字符类别为特殊字符时,则根据不同特殊字符类别采用不同清洗方式。
[0055]
实施例中,当特殊字符为象形字形时,依据象形字表呈现的象形字形与原始字符的映射关系进行象形字形到原始字符的替换,以实现象形字形的清洗。需要说明的是,象形字表为预先定义好的一些在视觉中具有相似性的字典,其中存储着原始字符与视觉相似字符(象形字形)的映射关系。
[0056]
当特殊字符为删除性字符时,则根据不同删除性字符的含义采用不同清洗方式。其中,删除性字符包括以下几种:退格字符,其unicode码为u 8;删除字符,其unicode码为u 7f;回车字符,其unicode码为u d。
[0057]
当删除性字符为退格字符,则将退格字符与该退格字符前一字符同时删除;当删
除性字符为删除字符,则将删除字符与该删除字符后一字符同时删除;当删除性字符为回车字符,则将该回车字符后的所有字符从段落的开始符之后进行覆盖。
[0058]
当特殊字符为显示顺序字符时,根据控制改变显示顺序字符的序列,进行自底向上的递归恢复,最终复原原始文本。
[0059]
其中,显示顺序字符包括以下几种:pdf字符,其unicode码为u 202c;lre字符,其unicode码为u 202a;rle字符,其unicode码为u 202b;lro字符,其unicode码为u 202d;rlo字符,其unicode码为u 202e;pdi字符,其unicode码为u 2069;lri字符,其unicode码为u 2066;rli字符,其unicode码为u 2067。
[0060]
控制改变显示顺序字符的序列为[lro,lri,rlo,lri,字符串1,pdi,lri,字符串2,pdi,pdf,pdi,pdf]。
[0061]
采用自底向上的递归恢复复原原始文本,包括:
[0062]
(a)采取非贪婪匹配算法,匹配形如[lro,lri,rlo,lri,字符串1,pdi,lri,字符串2,pdi,pdf,pdi,pdf]的字符串序列,将该字符串序列替换为形如[字符串2,字符串1]的序列;
[0063]
(b)重复步骤(a)直至文本模态数据中不存在所述字符串序列;
[0064]
(c)若剩余文本模态数据中仍存在显示顺序字符,则将所有显示顺序字符删除。
[0065]
清洗后的文本模态数据与图像模态数据分别存储于两个消息队列中,以被后续提特征提取的读取应用。需要说明的是,为了减小数据存储的数量,对于图像模态数据仅仅存储其在网络中的链接。
[0066]
步骤3,利用特征提取模型对消息队列中的文本和图像进行特征提取。
[0067]
实施例中,特征提取模型基于深度学习模型构建,具体采用同时编码文本与图片为对比文本-图片预训练(clip,contrastive language

image pre-training)模型。clip模型由文本编码器和图像编码器组成,其训练方法采用了互联网中存在的大量的互相关的图片和文本,将这些互相关的图片和文本进行相互的对比学习,因此clip模型可以很好地挖掘图片和文本之间的相关信息,能够提供较为准确的跨模态索引。因此,实施例仅仅需要通过clip模型中的编码器进行特征编码。
[0068]
实施例中,采用数据处理引擎通过多线程的调用clip模型实现特征编码。具体包括:将从消息队列中读取的每条文本输入至clip模型的文本编码器,经计算得到文本特征,将从消息队列中读取的每张图片输入至clip模型的图像编码器,经计算得到图像特征。
[0069]
步骤4,文本特征和图像特征相似度匹配构建图-文组合并存储。
[0070]
实施例中,相似度匹配也是通过数据处理引擎实现的,具体包括根据文本特征和图像特征的相似度匹配筛选得到图-文组合,并以图-文组合的图像特征和文本特征作为索引进行数据库存储。具体地,在相似度匹配筛选时,计算文本特征与所有图像特征的相似度,并筛选相似度最大的图像特征与文本特征匹配,形成图-文组合。需要说明的是,相似度可以为余弦相似度或l2距离。其中数据库可以为elastic search数据库。
[0071]
步骤5,上传数据的检索应用。
[0072]
在检索应用时,接收上传数据,其中,上传数据包括文本数据、图像数据,然后依据上传数据与数据库中的图-文组合的相似度筛选匹配的图-文组合作为上传数据的检索结果并返回。
[0073]
检索应用通过具有数据检索界面的客户端实现,对于用户的查询,客户端首先判断请求的查询数据模态,之后根据查询数据模态的不同分别调用clip模型不同的编码部分进行索引编码。
[0074]
数据检索界面分成图片检索和文本检索两个部分,在文本检索中,即当上传数据为文本数据时,利用特征提取模型的文本编码器提取文本数据的文本特征,将该文本特征与数据库中的文本特征进行相似度计算,并将数据库中相似度最大的文本特征作为匹配的文本特征,匹配的文本特征所属的图-文组合作为检索结果,需要说明的是,文本特征和文本特征的相似度为余弦相似度或l2距离。
[0075]
在图片检索中,即当上传数据为图像数据时,利用特征提取模型的图像编码器提取图像数据的图像特征,将该图像特征与数据库中的图像特征进行相似度计算,并将数据库中相似度最大的图像特征作为匹配的图像特征,匹配的图像特征所属的图-文组合作为检索结果,需要说明的是,图像特征和图像特征的相似度为余弦相似度或l2距离。
[0076]
上述实施例提供的面向跨模态检索的数据采集处理方法,可对开源的图片、文本数据进行采集并且进行深度处理,从而最终实现对图片-文本数据进行高质量的跨模态检索。
[0077]
图3是实施例提供的面向跨模态检索的数据采集处理系统的结构示意图。如图3所示,实施例提供的数据采集处理系统,包括:
[0078]
采集模块,用于对目标开源数据网络进行分布式并行采集多模态数据,其中,多模态数据包括文本模态数据和图像模态数据;
[0079]
清洗模块,用于对文本模态数据进行特殊字符和不可见字符的清洗后,对清洗后的文本模态数据与图像模态数据进行分消息队列存储;
[0080]
特征提取模块,用于利用特征提取模型分别对消息队列中的每条文本和每个图像进行特征提取得到文本特征和图像特征;
[0081]
匹配模块,用于根据文本特征和图像特征的相似度匹配筛选得到图-文组合,并以图-文组合的图像特征和文本特征作为索引进行数据库存储;
[0082]
检索模块,用于依据上传数据与数据库中的图-文组合的相似度筛选匹配的图-文组合作为上传数据的检索结果并返回,其中,上传数据包括文本数据、图像数据。
[0083]
其中,采集模块通过分布式系统实现数据的采集,基于采集控制命令,对目标开源数据网络进行分布式并行采集多模态数据,该多模态数据以数据流的形式传回到分布式系统。清洗模块、特征提取模块、匹配模块通过数据处理引擎实现,该数据处理引擎采用流式处理手段,将消息队列中不同通道的数据进行文本模态数据清洗、特征提取模型的调用与特征匹配处理,匹配形成的图-文组合存储于数据库。
[0084]
需要说明的是,在数据处理引擎中,用户可以在引擎中选择处理的数据模态(例如图片、文本)以及处理的方式(单模态处理方式、多模态关联处理),从而根据实际需求选择针对图片的特征提取、针对文本的特征提取以及针对图片和文本多模态特征之间的关联分析这三种功能。还需要说明的是,数据处理引擎还在提取文本特征和图像特征等多模态特征后,还进行多模态特征的定位,即定位文本特征和图像特征对应的文本数据和图像数据在网页中的位置。
[0085]
检索模块通过交互的数据检索界面实现,通过数据检索界面发送说说请求,基于
请求从数据库中根据数据索引调取相应文本特征、图像特征进行相似度匹配计算,筛选相似度最大的图-文组合作为搜索响应并返回。
[0086]
上述系统面向跨模态检索的数据采集处理能够快速获取多模态数据,有效构建跨模态检索数据仓库,能够实现对大规模多模态数据的自动挖掘,节约了人工分析成本,有利于大规模部署和实施。
[0087]
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献