一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法、装置、电子设备及存储介质与流程

2022-12-26 08:03:08 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。


背景技术:

2.目前互联网上发布的新闻文章中常常包含新闻图像,且各新闻图像还配有相应的描述性文本。为了提高互联网上新闻文章的发布效率,通常为新闻文章中的各新闻图像自动生成描述性文本。
3.考虑到新闻场景中涉及大量的命名实体,如人名、地名、组织机构名称等,且这些命名实体往往超出语言模型的词汇表范围(out of vocabulary,简称为oov),相关技术中为了自动生成包含命名实体的描述性文本,在语言模型的基础上结合人工编写的实体级描述模板,由于人工编写的实体级描述模板所涵盖的范围有限,且仅能感知局部实体词,导致命名实体生成的不够准确,进而降低了新闻图像对应描述性文本的准确性。


技术实现要素:

4.本公开提供一种数据处理方法、装置、电子设备及存储介质,以至少解决相关技术中自动生成新闻图像对应描述性文本的准确性差的问题。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种数据处理方法,包括:
6.获取待处理业务图像以及所述待处理业务图像关联的业务文本;所述业务文本中包括命名实体;
7.基于提取的所述待处理业务图像的视觉特征,得到视觉提示向量;
8.对所述视觉提示向量和所述业务文本进行编码处理,得到编码向量;所述编码向量包括对应所述视觉提示向量的视觉编码向量和对应所述业务文本的文本编码向量;
9.基于所述视觉编码向量和所述文本编码向量中各所述命名实体对应的实体编码向量,确定实体提示向量;
10.基于所述视觉提示向量和所述实体提示向量对所述编码向量进行解码处理,得到所述待处理业务图像对应的描述文本。
11.在一个示例性的实施方式中,所述基于所述视觉编码向量和所述文本编码向量中各所述命名实体对应的实体编码向量,确定实体提示向量包括:
12.确定所述视觉编码向量与所述文本编码向量中各实体编码向量之间的相关程度;
13.基于所述相关程度从所述实体编码向量中选取目标实体编码向量,构成实体提示向量。
14.在一个示例性的实施方式中,所述基于所述相关程度从所述实体编码向量中选取目标实体编码向量,构成实体提示向量包括:
15.确定最大所述相关程度对应的实体编码向量,得到关键实体编码向量;
16.确定所述关键实体编码向量与各剩余实体编码向量之间的依赖程度;所述剩余实
体编码向量是指除所述关键实体编码向量之外的实体编码向量;
17.基于所述依赖程度确定目标剩余实体编码向量;所述目标剩余实体编码向量对应的依赖程度大于预设依赖程度阈值;
18.将所述关键实体编码向量和所述目标剩余实体编码向量作为目标实体编码向量进行拼接,得到实体提示向量。
19.在一个示例性的实施方式中,所述确定所述关键实体编码向量与各剩余实体编码向量之间的依赖程度,包括:
20.将所述关键实体编码向量作为双向长短期记忆网络的初始隐藏状态;
21.将所述剩余实体编码向量输入至所述双向长短期记忆网络,得到对应所述剩余实体编码向量的状态向量;
22.基于对应所述剩余实体编码向量的状态向量进行归一化处理,得到所述剩余实体编码向量对应的归一化结果;所述归一化结果表征所述关键实体编码向量与相应剩余实体编码向量之间的依赖程度。
23.在一个示例性的实施方式中,所述基于所述视觉提示向量和所述实体提示向量对所述编码向量进行解码处理,得到所述待处理业务图像对应的描述文本包括:
24.对所述视觉提示向量和所述实体提示向量进行拼接,得到多模态提示向量;
25.基于所述多模态提示向量和所述编码向量进行自回归解码处理,得到所述待处理业务图像对应的描述文本。
26.在一个示例性的实施方式中,所述基于提取的所述待处理业务图像的视觉特征,得到视觉提示向量包括:
27.将所述待处理业务图像输入至视觉-语言预训练模型进行特征提取,得到提取的视觉特征;
28.基于多层感知网络将所述视觉特征映射到目标语言模型的输入空间,得到视觉提示向量;
29.其中,所述目标语言模型用于进行所述编码处理和所述解码处理。
30.在一个示例性的实施方式中,所述方法基于数据处理模型实现,所述方法还包括训练所述数据处理模型的步骤:
31.获取样本业务图像文本对和对应的参考描述文本;所述样本业务图像文本对包括样本业务图像以及所述样本业务图像关联的样本业务文本,所述样本业务文本中包括命名实体;
32.基于视觉-语言预训练模型提取的所述样本业务图像的视觉特征,并基于初始多层感知网络将所述样本业务图像的视觉特征映射到预训练语言模型的输入空间,得到样本视觉提示向量;
33.将所述样本视觉提示向量和所述样本业务文本输入至预训练语言模型的编码器进行编码处理,得到样本编码向量;所述样本编码向量包括对应所述样本视觉提示向量的样本视觉向量和对应所述样本业务文本的样本文本编码向量;
34.基于所述样本视觉编码向量和所述样本文本编码向量中各所述命名实体对应的样本实体编码向量,确定样本实体提示向量;
35.对所述样本视觉提示向量和所述样本实体提示向量进行拼接,得到样本多模态提
示向量;将所述样本多模态提示向量和所述样本编码向量输入到所述预训练语言模型的解码器进行解码处理,得到预测描述文本;
36.基于所述预测描述文本与所述参考描述文本之间的差异进行模型参数的调整,直至达到预设训练结束条件结束训练,得到所述数据处理模型。
37.在一个示例性的实施方式中,所述基于所述预测描述文本与所述参考描述文本之间的差异进行模型参数的调整,包括:
38.基于所述预测描述文本与所述参考描述文本之间的差异,确定损失值;
39.固定所述视觉-语言预训练模型的模型参数不变,基于所述损失值调整所述初始多层感知网络和预训练语言模型的参数。
40.在一个示例性的实施方式中,所述基于所述样本视觉编码向量和所述样本文本编码向量中各所述命名实体对应的样本实体编码向量,确定样本实体提示向量包括:
41.确定所述样本视觉编码向量与所述样本文本编码向量中各样本实体编码向量之间的相关程度;
42.基于样本相关程度从所述样本实体编码向量中选取目标样本实体编码向量,构成样本实体提示向量。
43.在一个示例性的实施方式中,所述基于样本相关程度从所述样本实体编码向量中选取目标样本实体编码向量,构成样本实体提示向量包括:
44.确定最大所述样本相关程度对应的样本实体编码向量,得到关键样本实体编码向量;
45.确定所述关键样本实体编码向量与各剩余样本实体编码向量之间的样本依赖程度;所述剩余样本实体编码向量是指除所述关键样本实体编码向量之外的样本实体编码向量;
46.基于所述样本依赖程度确定目标剩余样本实体编码向量;所述目标剩余样本实体编码向量对应的样本依赖程度大于预设依赖程度阈值;
47.将所述关键样本实体编码向量和所述目标剩余样本实体编码向量作为目标样本实体编码向量进行拼接,得到样本实体提示向量。
48.在一个示例性的实施方式中,所述确定所述关键样本实体编码向量与各剩余样本实体编码向量之间的样本依赖程度,包括:
49.将所述关键样本实体编码向量作为双向长短期记忆网络的初始隐藏状态;
50.将所述剩余样本实体编码向量输入至所述双向长短期记忆网络,得到对应所述剩余样本实体编码向量的状态向量;
51.基于所述剩余样本实体编码向量对应的状态向量进行归一化处理,得到所述剩余样本实体编码向量对应的样本归一化结果;所述样本归一化结果表征所述关键样本实体编码向量与所述剩余样本实体编码向量之间的样本依赖程度。
52.根据本公开实施例的第二方面,提供一种数据处理装置,包括:
53.数据获取单元,被配置为执行获取待处理业务图像以及所述待处理业务图像关联的业务文本;所述业务文本中包括命名实体;
54.视觉提示向量确定单元,被配置为执行基于提取的所述待处理业务图像的视觉特征,得到视觉提示向量;
55.编码单元,被配置为执行对所述视觉提示向量和所述业务文本进行编码处理,得到编码向量;所述编码向量包括对应所述视觉提示向量的视觉编码向量和对应所述业务文本的文本编码向量;
56.实体提示向量确定单元,被配置为执行基于所述视觉编码向量和所述文本编码向量中各所述命名实体对应的实体编码向量,确定实体提示向量;
57.解码单元,被配置为执行基于所述视觉提示向量和所述实体提示向量对所述编码向量进行解码处理,得到所述待处理业务图像对应的描述文本。
58.在一个示例性的实施方式中,所述实体提示向量确定单元,包括:
59.第一相关程度确定单元,被配置为执行确定所述视觉编码向量与所述文本编码向量中各实体编码向量之间的相关程度;
60.实体提示向量确定子单元,被配置为执行基于所述相关程度从所述实体编码向量中选取目标实体编码向量,构成实体提示向量。
61.在一个示例性的实施方式中,实体提示向量确定子单元包括:
62.第一关键实体确定单元,被配置为执行确定最大所述相关程度对应的实体编码向量,得到关键实体编码向量;
63.第一依赖程度确定单元,被配置为执行确定所述关键实体编码向量与各剩余实体编码向量之间的依赖程度;所述剩余实体编码向量是指除所述关键实体编码向量之外的实体编码向量;
64.第一确定单元,被配置为执行基于所述依赖程度确定目标剩余实体编码向量;所述目标剩余实体编码向量对应的依赖程度大于预设依赖程度阈值;
65.第一构建子单元,被配置为执行将所述关键实体编码向量和所述目标剩余实体编码向量作为目标实体编码向量进行拼接,得到实体提示向量。
66.在一个示例性的实施方式中,所述第一依赖程度确定单元,包括:
67.第一初始单元,被配置为执行将所述关键实体编码向量作为双向长短期记忆网络的初始隐藏状态;
68.第一状态向量确定单元,被配置为执行将所述剩余实体编码向量输入至所述双向长短期记忆网络,得到对应所述剩余实体编码向量的状态向量;
69.第一归一化单元,被配置为执行基于对应所述剩余实体编码向量的状态向量进行归一化处理,得到所述剩余实体编码向量对应的归一化结果;所述归一化结果表征所述关键实体编码向量与所述剩余实体编码向量之间的依赖程度。
70.在一个示例性的实施方式中,所述解码单元,包括:
71.多模态提示向量确定单元,被配置为执行对所述视觉提示向量和所述实体提示向量进行拼接,得到多模态提示向量;
72.解码子单元,被配置为执行基于所述多模态提示向量和所述编码向量进行自回归解码处理,得到所述待处理业务图像对应的描述文本。
73.在一个示例性的实施方式中,所述视觉提示向量确定单元,包括:
74.视觉特征提取单元,被配置为执行将所述待处理业务图像输入至视觉-语言预训练模型进行特征提取,得到提取的视觉特征;
75.第一映射单元,被配置为执行基于多层感知网络将所述视觉特征映射到目标语言
模型的输入空间,得到视觉提示向量;
76.其中,所述目标语言模型用于进行所述编码处理和所述解码处理。
77.在一个示例性的实施方式中,所述装置还包括训练单元,所述训练单元包括:
78.样本获取单元,被配置为执行获取样本业务图像文本对和对应的参考描述文本;所述样本业务图像文本对包括样本业务图像以及所述样本业务图像关联的样本业务文本,所述样本业务文本中包括命名实体;
79.样本视觉提示向量确定单元,被配置为执行基于视觉-语言预训练模型提取的所述样本业务图像的视觉特征,并基于初始多层感知网络将所述样本业务图像的视觉特征映射到预训练语言模型的输入空间,得到样本视觉提示向量;
80.样本编码单元,被配置为执行将所述样本视觉提示向量和所述样本业务文本输入至预训练语言模型的编码器进行编码处理,得到样本编码向量;所述样本编码向量包括对应所述样本视觉提示向量的样本视觉向量和对应所述样本业务文本的样本文本编码向量;
81.样本实体提示向量确定单元,被配置为执行基于所述样本视觉编码向量和所述样本文本编码向量中各所述命名实体对应的样本实体编码向量,确定样本实体提示向量;
82.样本多模态提示性向量确定单元,被配置为执行对所述样本视觉提示向量和所述样本实体提示向量进行拼接,得到样本多模态提示向量;将所述样本多模态提示向量和所述样本编码向量输入到所述预训练语言模型的解码器进行解码处理,得到预测描述文本;
83.参数调整单元,被配置为执行基于所述预测描述文本与所述参考描述文本之间的差异进行模型参数的调整,直至达到预设训练结束条件结束训练,得到所述数据处理模型。
84.在一个示例性的实施方式中,所述参数调整单元,包括:
85.损失确定单元,被配置为执行基于所述预测描述文本与所述参考描述文本之间的差异,确定损失值;
86.参数调整子单元,被配置为执行固定所述视觉-语言预训练模型的模型参数不变,基于所述损失值调整所述初始多层感知网络和预训练语言模型的参数
87.在一个示例性的实施方式中,所述样本实体提示向量确定单元,包括:
88.第二相关程度确定单元,被配置为执行确定所述样本视觉编码向量与所述样本文本编码向量中各样本实体编码向量之间的相关程度;
89.样本实体提示向量确定子单元,被配置为执行基于样本相关程度从所述样本实体编码向量中选取目标样本实体编码向量,构成样本实体提示向量。
90.在一个示例性的实施方式中,所述样本实体提示向量确定子单元包括:
91.第二关键实体确定单元,被配置为执行确定最大所述样本相关程度对应的样本实体编码向量,得到关键样本实体编码向量;
92.第二依赖程度确定单元,被配置为执行确定所述关键样本实体编码向量与各剩余样本实体编码向量之间的样本依赖程度;所述剩余样本实体编码向量是指除所述关键样本实体编码向量之外的样本实体编码向量;
93.第二确定单元,被配置为执行基于所述样本依赖程度确定目标剩余样本实体编码向量;所述目标剩余样本实体编码向量对应的样本依赖程度大于预设依赖程度阈值;
94.第二构建子单元,被配置为执行将所述关键样本实体编码向量和所述目标剩余样本实体编码向量作为目标样本实体编码向量进行拼接,得到样本实体提示向量。
95.在一个示例性的实施方式中,所述第二依赖程度确定单元,包括:
96.第二初始单元,被配置为执行将所述关键样本实体编码向量作为双向长短期记忆网络的初始隐藏状态;
97.第二状态向量确定单元,被配置为执行将所述剩余样本实体编码向量输入至所述双向长短期记忆网络,得到对应所述剩余样本实体编码向量的状态向量;
98.第二归一化单元,被配置为执行基于所述剩余样本实体编码向量对应的状态向量进行归一化处理,得到所述剩余样本实体编码向量对应的样本归一化结果;所述样本归一化结果表征所述关键样本实体编码向量与所述剩余样本实体编码向量之间的样本依赖程度。
99.根据本公开实施例的第三方面,提供一种电子设备,包括:
100.处理器;
101.用于存储所述处理器可执行指令的存储器;
102.其中,所述处理器被配置为执行所述指令,以实现上述第一方面的数据处理方法。
103.根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面的数据处理方法。
104.根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述第一方面的数据处理方法。
105.本公开的实施例提供的技术方案至少带来以下有益效果:
106.通过基于提取的待处理业务图像的视觉特征得到视觉提示向量,并对视觉提示向量和待处理业务图像关联的业务文本进行编码处理得到编码向量,该编码向量包括对应视觉提示向量的视觉编码向量和对应业务文本的文本编码向量,进而基于视觉编码向量和文本编码向量中各命名实体对应的实体编码向量确定实体提示向量,并基于视觉提示向量和实体提示向量对编码向量进行解码处理得到待处理业务图像对应的描述文本,从而使得解码过程中能够更加关注到与待处理业务图像内容有关的命名实体,提高了命名实体生成的准确性,进而提高了描述文本的准确性。
107.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
108.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
109.图1是根据一示例性实施例示出的一种数据处理方法的应用环境示意图;
110.图2是根据一示例性实施例示出的一种数据处理方法的流程图;
111.图3是根据一示例性实施例示出的一种构建实体提示向量的流程图;
112.图4是根据一示例性实施例示出的另一种构建实体提示向量的流程图;
113.图5是根据一示例性实施例示出的数据处理模型的结构示意图;
114.图6是根据一示例性实施例示出的微调预训练模型以得到图5的数据处理模型的示意图;
115.图7是根据一示例性实施例示出的一种数据处理装置的结构框图;
116.图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
117.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
118.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
119.还需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
120.新闻图像描述生成技术旨在为新闻文章的图片自动生成描述性文字,由于新闻图像描述的生成需同时关注图像中的视觉主体和文章中包含的背景信息,而传统的图像描述生成方法局限于图像输入,无法处理长文本信息;此外,新闻场景中涉及大量的命名实体,如人名、地名、组织机构名称等,这些实体词往往超出语言模型的词汇表范围(out of vocabulary,简称为oov),使得传统的图像描述生成方法无法解决包含实体词的文本生成。
121.相关技术中,一些方法采取模板化的做法,将描述语句中的所有实体词替换为表示实体词的槽,再和输入进行实体级的匹配和填空,细分可以包括两阶段的生成和一阶段的生成,其中两阶段的生成即先生成不含实体词的模板句再进行实体词预测,一阶段的生成即在生成每一个词元时考虑非实体词和实体词的分布概率以实现端到端动态预测。然而,上述方法存在以下缺陷:1)实体词生成严重依赖实体级的手动模板质量,实际应用中新闻场景的图像描述语句通常是语句自然且信息量丰富的,因此定义一个最优模板非常耗时且难以涵盖所有人工编写的描述语句;2)当前的文本生成局限于基于模板的监督训练方式,在多阶段迭代生成和模板填充会增加模型的复杂度以及造成一定的误差累积,在一阶段生成中oov问题难以缓解,实体词生成的准确率差。
122.相关技术中的另一些方法中为了保证实体词的精度,考虑了更新精细的实体词模板作为监督信号即根据实体词在句中的语法成分进行分类以引入实体词类型的标签来进一步约束实体词生成空间,但是这种基于实体级模板的监督训练仅能进行局部的实体词感知,不仅破坏了语言结构和上下文的语义连贯性,还缺乏对全局实体词在语言空间中的内部关系的感知,导致最终生成的图像描述文本中的实体词不够准确。
123.鉴于此,本公开实施例提供了一种数据处理方法,该方法通过基于提取的待处理业务图像的视觉特征得到视觉提示向量,并对视觉提示向量和待处理业务图像关联的业务文本进行编码处理得到编码向量,该编码向量包括对应视觉提示向量的视觉编码向量和对应业务文本的文本编码向量,进而基于视觉编码向量和文本编码向量中各命名实体对应的实体编码向量确定实体提示向量,并基于视觉提示向量和实体提示向量对编码向量进行解
码处理得到所述待处理业务图像对应的描述文本,从而使得解码过程中能够更加关注到与待处理业务图像内容有关的命名实体,提高了命名实体生成的准确性,进而提高了图像描述文本的准确性。
124.请参阅图1,其所示为根据一示例性实施例示出的一种数据处理方法的应用环境示意图,该应用环境可以包括终端110和服务器120,该终端110和服务器120之间可以通过有线网络或者无线网络连接。
125.终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端110中可以安装有提供数据处理功能的客户端软件如应用程序(application,简称为app),该应用程序可以是独立的应用程序,也可以是应用程序中的子程序。示例性的,该应用程序可以包括新闻类应用程序等,例如具有新闻发布功能的应用程序。终端110的用户可以通过预先注册的用户信息登录应用程序,该用户信息可以包括账号和密码。
126.服务器120可以是为终端110中的应用程序提供后台服务的服务器,具体的,该后台服务可以是图像处理以生成图像对应描述文本的服务。其中,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
127.下面对本公开实施例的技术方案进行详细阐述,如图2是根据一示例性实施例示出的一种数据处理方法的流程图,该方法可以应用于图1所示的电子设备中,如图2所示,包括以下步骤:
128.在步骤s201中,获取待处理业务图像以及待处理业务图像关联的业务文本。
129.其中,待处理业务图像关联的业务文本中包括命名实体,例如人名、地名、组织机构名称等。示例性的,待处理业务图像可以是新闻图像,待处理业务图像关联的业务文本可以是该新闻图像对应的新闻文章。
130.在步骤s203中,基于提取的所述待处理业务图像的视觉特征,得到视觉提示向量。
131.其中,待处理业务图像的视觉特征是指对待处理业务图像进行特征提取得到的特征。
132.视觉提示向量是指对视觉特征进行维度变换后得到的向量,该维度变换用于建立视觉概念与语言先验之间的联系。具体的实施中,维度变换可以基于后续编码处理文本信息的输入维度进行。
133.在步骤s205中,对所述视觉提示向量和所述业务文本进行编码处理,得到编码向量。
134.其中,所述编码向量包括对应所述视觉提示向量的视觉编码向量和对应所述业务文本的文本编码向量。
135.具体的,可以先对业务文本进行切词处理,将每一个词作为一个token(词元)得到词序列,然后将视觉提示向量与词序列进行拼接得到待编码序列,进而对该待编码序列进行编码处理。
136.本公开实施例中,为了能够利用上下文信息基于双向自注意力机制同时编码待处理业务图像和业务文本,也即对上述待编码序列基于双向自注意力机制进行编码。示例的,编码处理可以表示为:c=sa(pv,xa)。
137.其中,sa()表示自注意力机制(self-attention);pv表示视觉提示向量;xa表示业务文本;c表示编码向量。其中,c包括ci和ca,ci表示视觉编码向量,ca表示文本编码向量;其中,ca包括实体编码向量ce,即ce∈ca。
138.在步骤s207中,基于所述视觉编码向量和所述文本编码向量中各所述命名实体对应的实体编码向量,确定实体提示向量。
139.其中,所述实体编码向量为所述命名实体在所述文本编码向量中对应的向量。
140.具体的实施中,可以利用自然语言处理工具包(如spacy工具包)标记业务文本中的全部命名实体,从而可以基于该标记信息从编码向量中提取各命名实体对应的实体编码向量。
141.在一个示例性的实施方式中,为了使得实体提示向量能够更加准确的反映待处理图像的内容,上述步骤s207在实施时可以包括:
142.确定所述视觉编码向量与所述文本编码向量中各实体编码向量之间的相关程度;
143.基于所述相关程度从所述实体编码向量中选取目标实体编码向量,构成实体提示向量。
144.具体的实施中,可以通过以下公式计算每个实体编码向量对应的相关性分数以表征相关程度:
[0145][0146]
其中,ci表示视觉编码向量;表示加权平均;表示实体编码向量i,τ表示超参数,可以根据实际经验进行设定;《》表示点积计算;si表示实体编码向量i的相关性分数。
[0147]
则可以得到相关性分数集se,其中包括每个实体编码向量对应的相关性分数,进而可以基于上述相关性分数从实体编码向量中选取与视觉编码向量之间的相关程度满足预设条件的目标实体编码向量,以构成实体提示向量。
[0148]
在一个示例性的实施方式中,在基于所述相关程度从所述实体编码向量中选取目标实体编码向量,构成实体提示向量时可以如图3所示包括以下步骤:
[0149]
在步骤s301中,确定最大所述相关程度对应的实体编码向量,得到关键实体编码向量。
[0150]
具体的实施中,关键实体编码向量c
key
可以通过以下公式表示:
[0151][0152]
在步骤s303中,确定所述关键实体编码向量与各剩余实体编码向量之间的依赖程度。
[0153]
其中,所述剩余实体编码向量是指除所述关键实体编码向量之外的实体编码向量。
[0154]
在一个示例性的实施方式中,为了得到实体级的上下文提示向量,以提高所生成描述文本中实体词的准确性,如图4所示,上述步骤s303在实施时可以包括:
[0155]
在步骤s401中,将所述关键实体编码向量作为双向长短期记忆网络的初始隐藏状
态。
[0156]
在步骤s403中,将所述剩余实体编码向量输入至所述双向长短期记忆网络,得到对应所述剩余实体编码向量的状态向量。
[0157]
在步骤s405中,基于对应所述剩余实体编码向量的状态向量进行归一化处理,得到所述剩余实体编码向量对应的归一化结果。
[0158]
其中,所述归一化结果表征所述关键实体编码向量与相应剩余实体编码向量之间的依赖程度。
[0159]
上述通过步骤s401对双向长短期记忆网络进行了初始化使得初始化后的双向长短期记忆网络的初始隐藏状态为关键实体编码向量,进而在步骤s403中将剩余实体编码向量输入至初始化后的双向长短期记忆网络进行处理得到对应剩余实体编码向量的状态向量。
[0160]
具体的实施中,状态向量可以通过以下公式表示:
[0161]cprompt
=lstm(c
key
,c
′e)
[0162]
相应的,归一化结果可以通过以下公式表示:
[0163]sprompt
=σ(fc(c
prompt
))
[0164]
其中,lstm表示双向长短期记忆网络,c
key
作为该lstm的初始隐藏状态;c
′e表示剩余实体编码向量;c
prompt
表示网络输出的状态向量;fc()表示单个线性层;σ()表示激活函数;s
prompt
表示归一化结果,为一个数值,可以体现得分。
[0165]
上述实施方式,通过将关键实体编码向量作为双向lstm的初始隐藏状态,从而可以基于上下文信息建模关键实体编码向量与其它实体编码向量之间的潜在依赖关系,提升了该依赖关系确定的准确性。
[0166]
在步骤s305中,基于所述依赖程度确定目标剩余实体编码向量。
[0167]
其中,所述目标剩余实体编码向量对应的依赖程度大于预设依赖程度阈值。
[0168]
其中,预设依赖程度阈值可以根据实际需要进行设定。
[0169]
具体的实施中,若(预设依赖程度阈值),则可以将对应的实体编码向量确定为目标剩余实体编码向量,从而可以得到
[0170]
在步骤s307中,将所述关键实体编码向量和所述目标剩余实体编码向量作为目标实体编码向量进行拼接,得到实体提示向量。
[0171]
具体的实施中,实体提示向量p
μ
可以通过以下公式表示:
[0172][0173]
上述实施方式,实现了基于上下文信息从实体编码向量中筛选和聚合重要实体编码向量(即目标实体编码向量),生成准确的、面向全局的实体级的上下文提示向量。
[0174]
在步骤s209中,基于所述视觉提示向量和所述实体提示向量对所述编码向量进行解码处理,得到所述待处理业务图像对应的描述文本。
[0175]
具体的,可以将视觉提示向量和实体提示向量进行拼接得到多模态提示向量,进而通过交叉注意力机制利用编码向量和多模态提示向量进行解码处理,从而得到待处理业务图像对应的描述文本。
[0176]
由本公开实施例的技术方案可知,通过构建视觉提示向量和实体提示向量,并结
合这两种提示向量对编码向量进行解码处理以得到待处理业务图像的描述文本,从而在解码时能够更加关注到与业务图像内容有关的命名实体,提高了描述文本中所生成的命名实体的准确性,进而提高了生成描述文本的准确性。
[0177]
在一个示例性的实施方式中,为了提高所生成描述文本的准确性,步骤s209中的解码处理可以是自回归解码处理,也即当前时间步的预测结果需要依赖过去时间步的预测结果。因此,上述步骤s209在实施时可以包括:
[0178]
对所述视觉提示向量和所述实体提示向量进行拼接,得到多模态提示向量;
[0179]
基于所述多模态提示向量和所述编码向量进行自回归解码处理,得到所述待处理业务图像对应的描述文本。
[0180]
具体的,多模态提示向量p可以表示为p=[pv;p
μ
]=[p1,

,pk],其中k表示多模态提示向量的长度,在本公开实施例中,多模态提示向量的长度k为固定长度,具体的长度值可以根据实际经验进行设定。
[0181]
以t表示自回归解码的时间步,y
t
表示时间步t对应生成的词元,则在基于多模态提示向量和编码向量进行自回归解码处理时,针对时间步t,首先基于s=[p;y]和自注意力机制对s进行处理得到输出向量selfatt(s),其中y={y1,

,y
t-1
},然后基于selfatt(s)和编码向量c进行交叉注意力处理,进而基于该交叉注意力处理结果h
t
来预测时间步t对应的词元。
[0182]
需要说明的是,本公开实施例在基于s=[p;y]和自注意力机制对s进行处理得到输出向量selfatt(s)时,令“查询q”输入为y,令“键值对k-v”输入为s,则:
[0183][0184]
其中,q,k,v由y映射得到;k
p
,v
p
由p映射得到;[;]表示拼接;dh表示自注意力机制的特征维度。
[0185]
本公开实施例在基于selfatt(d)和编码向量c进行交叉注意力处理时,令“查询q”输入为上述selfatt(s),令“键值对k-v”输入为编码向量c。在基于交叉注意力处理结果h
t
来预测时间步t对应的词元时,从h
t
中提取s中多模态提示向量之后的序列对应的向量进行词元的分布概率计算,具体分布概率的计算公式可以表示如下:
[0186][0187]
其中,表示映射到词汇表上逻辑分布的矩阵向量;[|p
idx
|:]指示是位于多模态提示向量之后的序列。
[0188]
上述实施方式,基于多模态提示向量和编码向量进行自回归解码处理,利用多模态提示向量在每个解码步骤中指导实体词元和非实体词元的生成,使得所生成描述文本中的实体词更加准确性。
[0189]
在一个示例性的实施方式中,为了提高视觉提示向量对语义理解的影响,以便于更加准确的关注到跟图像内容有关的实体词,步骤s203在实施时可以包括:
[0190]
将待处理业务图像输入至视觉-语言预训练模型进行特征提取,得到提取的视觉特征;
[0191]
基于多层感知网络将所述视觉特征映射到目标语言模型的输入空间,得到视觉提
示向量;
[0192]
其中,所述目标语言模型用于进行所述编码处理和所述解码处理。
[0193]
具体的,可以基于视觉-语言预训练模型的图像编码器对待处理业务图像进行编码,从而得到编码特征,该编码特征作为提取的视觉特征。其中,视觉-语言预训练模型可以是clip(contrastive language-image pre-training)模型,clip是通过在大规模图文数据集上进行对比学习训练得到的预训练模型。
[0194]
其中,目标语言模型基于样本业务图像和该样本业务图像对应的样本业务文本对预训练语言模型进行微调后得到,该目标语言模型用于实现本公开实施例中的编码处理和解码处理。
[0195]
示例性的,预训练语言模型包括基于transformer的编码器和基于transformer的解码器。其中,基于transformer的编码器可以是具有双向编码功能的编码器,例如该预训练语言模型可以是bart(bidirectional and auto-regressive transformers,双向自回归变压器),bart使用基于transformer的标准神经机器翻译架构,可视为bert(双向编码器)、gpt(从左至右的解码器)等预训练模型的泛化形式。
[0196]
上述实施方式,通过视觉-语言预训练模型来提取视觉特征,从而可以利用视觉-语言预训练模型的高层图像语义理解能力,得到更符合语义理解的视觉特征,有利于提高基于此得到的视觉提示向量对语义理解的影响,进而提高描述文本中实体词的准确性。
[0197]
由上述实施方式可知,本公开实施例的数据处理方法可以基于数据处理模型来实现,该数据处理模型由视觉-语言预训练模型、多层感知网络、目标语言模型和实体提示向量构建模块组成,如图5所示为本公开实施例提供的数据处理模型的结构示意图,其中目标语言模型为对预训练语言模型进行微调处理所得,包括基于transformer的编码器和基于transformer的解码器。
[0198]
具体的实施中,将待处理业务图像输入至视觉-语言预训练模型中,通过视觉-语言预训练模型的图像编码器进行编码处理得到输出的是视觉特征,该视觉特征作为多层感知网络的输入,通过该多层感知网络映射到目标语言模型的输入空间得到视觉提示向量,该视觉提示向量与待处理业务图像关联的业务文本拼接后作为目标语言模型中编码器的输入,通过目标语言模型的编码器进行编码处理得到编码向量。该编码向量中包括视觉提示向量对应的视觉编码向量和业务文本对应的文本编码向量。
[0199]
将视觉编码向量和文本编码向量中各命名实体对应的实体编码向量输入到实体提示向量构建模型,该实体提示向量构建模型基于视觉提示向量与各实体编码向量之间的相关程度从实体编码向量中选取目标实体编码向量以构成实体提示向量。
[0200]
视觉提示向量与实体提示向量拼接后,与编码器输出的编码向量构成目标语言模型中解码器的输入。其中,解码器可以包括堆叠的多个transformer的解码模块,每个解码模块包含两个注意力层,其中第一个注意力层以视觉提示向量和实体提示向量的拼接再加上历史时刻的预测结果作为输入基于自注意力机制进行处理,第二个注意力层使用第一个注意力层的处理结果和编码器输出的编码向量基于交叉注意力机制进行自回归解码处理,其中关于第一个注意力层的自注意力机制处理方式可以参见前述步骤s209的相关内容,在此不再赘述。
[0201]
基于此,在一个示例性的实施方式,本公开实施例还可以包括训练数据处理模型
的步骤,具体的,训练数据处理模型可以包括:
[0202]
获取样本业务图像文本对和对应的参考描述文本。其中,该样本业务图像文本对包括样本业务图像以及该样本业务图像关联的样本业务文本,所述样本业务文本中包括命名实体。
[0203]
基于视觉-语言预训练模型提取的所述样本业务图像的视觉特征,并基于初始多层感知网络将所述样本业务图像的视觉特征映射到预训练语言模型的输入空间,得到样本视觉提示向量。
[0204]
将所述样本视觉提示向量和所述样本业务文本输入至预训练语言模型的编码器进行编码处理,得到样本编码向量。其中,所述样本编码向量包括对应所述样本视觉提示向量的样本视觉向量和对应所述样本业务文本的样本文本编码向量。
[0205]
基于所述样本视觉编码向量和所述样本文本编码向量中各所述命名实体对应的样本实体编码向量,确定样本实体提示向量。
[0206]
对所述样本视觉提示向量和所述样本实体提示向量进行拼接,得到样本多模态提示向量;将所述样本多模态提示向量和所述样本编码向量输入到所述预训练语言模型的解码器进行解码处理,得到预测描述文本。
[0207]
基于所述预测描述文本与所述参考描述文本之间的差异进行模型参数的调整,直至达到预设训练结束条件结束训练,得到数据处理模型。
[0208]
其中,预设训练结束条件可以根据实际需要进行设定,例如可以是迭代次数达到预设迭代次数阈值,或者损失值达到预设损失阈值等等。
[0209]
上述实施方式中,通过利用大规模视觉-语言预训练模型将样本业务图像转化为视觉提示向量,并结合样本业务文本构建实体提示向量,进而基于图像和文本构成的多模态提示向量,结合提示学习机制对预训练语言模型进行微调,能够同时统一在业务文本和业务图像中的实体级表征,实现了两个预训练模型的共同学习,进而得到本公开实施例的数据处理模型。
[0210]
在一个示例性的实施方式中,为了提升微调的效率,可以固定视觉-语言预训练模型不参与参数更新,仅将映射网络(即初始多层感知网络)和预训练语言模型一起微调。因此,上述在基于所述预测描述文本与所述参考描述文本之间的差异进行模型参数的调整时可以包括:
[0211]
基于所述预测描述文本与所述参考描述文本之间的差异,确定损失值;
[0212]
固定所述视觉-语言预训练模型的模型参数不变,基于所述损失值调整所述初始多层感知网络和预训练语言模型的参数。
[0213]
其中,损失值可以基于预设损失函数得到,该预设损失函数可以是基于交叉熵的单向语言建模损失,具体的该预设损失函数l可以表示为以下:
[0214][0215]
其中,xa表示样本业务文本;xi表示样本业务图像;p表示多模态提示向量,p=[pv;p
μ
]=[p1,

,pk];y
τ<t
表示时间步t之前的预测词元,y
τ<t
=y1,

,y
t-1
;p
θ
()表示似然函数;l表示k与参考描述文本所包含词元数量之和。
[0216]
在一个示例性的实施方式中,基于所述样本视觉编码向量和所述样本文本编码向量中各所述命名实体对应的样本实体编码向量,确定样本实体提示向量可以包括:
[0217]
确定所述样本视觉编码向量与所述样本文本编码向量中各样本实体编码向量之间的样本相关程度;
[0218]
基于样本相关程度从所述样本实体编码向量中选取目标样本实体编码向量,构成样本实体提示向量。
[0219]
其中,样本相关程度的具体确定方式可以参见本公开实施例的前述图2所示实施例中关于相关程度的确定方式,在此不再赘述。
[0220]
上述实施方式使得样本实体提示向量能够更加准确的反映样本图像的内容,进而有利于提高模型的训练效果。
[0221]
在一个示例性的实施方式中,基于样本相关程度从所述样本实体编码向量中选取目标样本实体编码向量,构成样本实体提示向量包括:
[0222]
确定最大所述样本相关程度对应的样本实体编码向量,得到关键样本实体编码向量;
[0223]
确定所述关键样本实体编码向量与各剩余样本实体编码向量之间的样本依赖程度;所述剩余样本实体编码向量是指除所述关键样本实体编码向量之外的样本实体编码向量;
[0224]
基于所述样本依赖程度确定目标剩余样本实体编码向量;所述目标剩余样本实体编码向量对应的样本依赖程度大于预设依赖程度阈值;
[0225]
将所述关键样本实体编码向量和所述目标剩余样本实体编码向量作为目标样本实体编码向量进行拼接,得到样本实体提示向量。
[0226]
其中,样本依赖程度以及目标剩余样本实体编码向量的具体确定方式可以参见本公开实施例前述图3所示方法中的相关描述,在此不再赘述。
[0227]
上述实施方式,基于上下文信息来筛选和聚合重要实体,生成实体级的上下文提示向量,有利于提高模型预测结果的实体准确率。
[0228]
在一个示例性的实施方式中,确定所述关键样本实体编码向量与各剩余样本实体编码向量之间的样本依赖程度,包括:
[0229]
将所述关键样本实体编码向量作为双向长短期记忆网络的初始隐藏状态;
[0230]
将所述剩余样本实体编码向量输入至所述双向长短期记忆网络,得到对应所述剩余样本实体编码向量的状态向量;
[0231]
基于所述剩余样本实体编码向量对应的状态向量进行归一化处理,得到所述剩余样本实体编码向量对应的样本归一化结果;所述样本归一化结果表征所述关键样本实体编码向量与所述剩余样本实体编码向量之间的样本依赖程度。
[0232]
上述实施方式,通过将关键样本实体编码向量作为双向lstm的初始隐藏状态,从而可以基于上下文信息建模关键样本实体编码向量与其它样本实体编码向量之间的潜在依赖关系,提升了该依赖关系确定的准确性。
[0233]
为了更加清楚的说明本公开实施例的技术方案,下面结合图6以新闻业务中,视觉-语言预训练模型为clip,预训练语言模型为bart为例,介绍本公开实施例的微调过程以得到本公开实施例的数据处理模型。
[0234]
如图6所示,对于给定的成对样本新闻图像和样本新闻文本的数据集其中,分别表示样本新闻文本和对应的样本新闻图像,将样本新闻图像输入至数据处理模型的clip模块,通过clip模块的图像编码器对样本新闻图像进行特征提取得到视觉特征,记为
[0235]
将视觉特征输入至数据模型的初始多层感知网络mlp,通过初始多层感知网络映射到bart的输入空间得到视觉提示向量,记为其中,mlp即multilayer perceptron表示多层感知器,pv表示视觉提示向量。
[0236]
将视觉提示向量pv和样本新闻文本作为bart编码器的输入序列,记为输入至bart编码器中通过双向注意力机制作用于并基于最后一层编码器层中的隐藏层状态向量得到样本编码向量c。其中,c包括pv对应的视觉编码向量ci和对应的样本文本编码向量ca,如图6中的(a)和(b)。
[0237]
将样本编码向量c输入至上下文实体提示构建模块进行序列建模,获得实体提示向量p
μ
,并将pv与p
μ
拼接得到多模态提示向量p,记为p=[pv;p
μ
]=[p1,

,pk]。
[0238]
其中,上下文实体提示构建模块从潜在语义空间中自动学习视觉提示和文本表征之间的关联,构建面向全局的实体提示向量序列,并在每个解码步骤中指导实体词元和非实体词元的生成。具体的实施中,利用spacy工具包标记样本新闻文本中的全部命名实体e,然后从样本文本编码向量ca中提取这些实体词相应的隐藏状态向量ce(ce∈ca),最后通过线性层φ对视觉编码向量ci进行加权平均,基于平均结果计算每个实体词元的相关性分数,从而得到相关性分数集se,如图6中的(c)所示,se中的每个元素表示一个命名实体的重要性得分。在训练中,通过argmax最大值操作取出得分最高的实体编码向量作为关键实体编码向量c
key
(如图6中的)。继而,如图6中的(d)所示,使用c
key
作为双向lstm模型的初始隐藏状态来建模关键实体与其他实体之间的潜在依赖关系(即图6中的得分score),进而结合预设依赖程度阈值η得到目标剩余实体编码向量。将c
key
与目标剩余实体编码向量拼接,从而构建得到实体提示向量p
μ

[0239]
将多模态提示向量p添加到bart解码器的输入序列,记为[p;y],输入至bart解码器中通过交叉注意机制利用c和p在[p;y]中执行自回归迭代生成预测描述文本(即依次得到预测描述文本词元)。其中,bart解码器的自注意力层可以表示为:
[0240][0241]
其中,q,k,v由y映射得到;k
p
,v
p
由p映射得到;[;]表示拼接;dh表示自注意力机制的特征维度。
[0242]
如果用p
idx
表示多模态提示向量p在整个解码器输入序列中对应的索引序号,|p
idx
|表示p的长度,则t时间步输出的概率分布为:其中,表示映射到词汇表上逻辑分布的矩阵向量;[|p
idx
|:]指示是位于多模态提示向量之后的序列。
[0243]
在得到预测描述文本后,基于预测描述文本与对应的参考描述文本之间的差异得到交叉熵损失。在调整模型参数时,冻结clip模块,基于交叉熵损失对初始mlp和bart的参数进行调整直至交叉熵损失达到预设最小值结束训练,从而得到数据处理模型,该数据处理模型包括视觉-语言预训练模型、微调后的mlp(即多层感知网络)、微调后的bart(即目标语言模型)和上下文实体提示构建模块。
[0244]
图7是根据一示例性实施例示出的一种数据处理装置的结构框图。参照图7,该数据处理装置700包括:
[0245]
数据获取单元710,被配置为执行获取待处理业务图像以及所述待处理业务图像关联的业务文本;所述业务文本中包括命名实体;
[0246]
视觉提示向量确定单元720,被配置为执行基于提取的所述待处理业务图像的视觉特征,得到视觉提示向量;
[0247]
编码单元730,被配置为执行对所述视觉提示向量和所述业务文本进行编码处理,得到编码向量;所述编码向量包括对应所述视觉提示向量的视觉编码向量和对应所述业务文本的文本编码向量;
[0248]
实体提示向量确定单元740,被配置为执行基于所述视觉编码向量和所述文本编码向量中各所述命名实体对应的实体编码向量,确定实体提示向量;
[0249]
解码单元750,被配置为执行基于所述视觉提示向量和所述实体提示向量对所述编码向量进行解码处理,得到所述待处理业务图像对应的描述文本。
[0250]
在一个示例性的实施方式中,所述实体提示向量确定单元740,包括:
[0251]
第一相关程度确定单元,被配置为执行确定所述视觉编码向量与所述文本编码向量中各实体编码向量之间的相关程度;
[0252]
实体提示向量确定子单元,被配置为执行基于所述相关程度从所述实体编码向量中选取目标实体编码向量,构成实体提示向量。
[0253]
在一个示例性的实施方式中,实体提示向量确定子单元包括:
[0254]
第一关键实体确定单元,被配置为执行确定最大所述相关程度对应的实体编码向量,得到关键实体编码向量;
[0255]
第一依赖程度确定单元,被配置为执行确定所述关键实体编码向量与各剩余实体编码向量之间的依赖程度;所述剩余实体编码向量是指除所述关键实体编码向量之外的实体编码向量;
[0256]
第一确定单元,被配置为执行基于所述依赖程度确定目标剩余实体编码向量;所述目标剩余实体编码向量对应的依赖程度大于预设依赖程度阈值;
[0257]
第一构建子单元,被配置为执行将所述关键实体编码向量和所述目标剩余实体编码向量作为目标实体编码向量进行拼接,得到实体提示向量。
[0258]
在一个示例性的实施方式中,所述第一依赖程度确定单元,包括:
[0259]
第一初始单元,被配置为执行将所述关键实体编码向量作为双向长短期记忆网络的初始隐藏状态;
[0260]
第一状态向量确定单元,被配置为执行将所述剩余实体编码向量输入至所述双向长短期记忆网络,得到对应所述剩余实体编码向量的状态向量;
[0261]
第一归一化单元,被配置为执行基于对应所述剩余实体编码向量的状态向量进行
归一化处理,得到所述剩余实体编码向量对应的归一化结果;所述归一化结果表征所述关键实体编码向量与所述剩余实体编码向量之间的依赖程度。
[0262]
在一个示例性的实施方式中,所述解码单元750,包括:
[0263]
多模态提示向量确定单元,被配置为执行对所述视觉提示向量和所述实体提示向量进行拼接,得到多模态提示向量;
[0264]
解码子单元,被配置为执行基于所述多模态提示向量和所述编码向量进行自回归解码处理,得到所述待处理业务图像对应的描述文本。
[0265]
在一个示例性的实施方式中,所述视觉提示向量确定单元720,包括:
[0266]
视觉特征提取单元,被配置为执行将所述待处理业务图像输入至视觉-语言预训练模型进行特征提取,得到提取的视觉特征;
[0267]
第一映射单元,被配置为执行基于多层感知网络将所述视觉特征映射到目标语言模型的输入空间,得到视觉提示向量;
[0268]
其中,所述目标语言模型用于进行所述编码处理和所述解码处理。
[0269]
在一个示例性的实施方式中,所述装置还包括训练单元,所述训练单元包括:
[0270]
样本获取单元,被配置为执行获取样本业务图像文本对和对应的参考描述文本;所述样本业务图像文本对包括样本业务图像以及所述样本业务图像关联的样本业务文本,所述样本业务文本中包括命名实体;
[0271]
样本视觉提示向量确定单元,被配置为执行基于视觉-语言预训练模型提取的所述样本业务图像的视觉特征,并基于初始多层感知网络将所述样本业务图像的视觉特征映射到预训练语言模型的输入空间,得到样本视觉提示向量;
[0272]
样本编码单元,被配置为执行将所述样本视觉提示向量和所述样本业务文本输入至预训练语言模型的编码器进行编码处理,得到样本编码向量;所述样本编码向量包括对应所述样本视觉提示向量的样本视觉向量和对应所述样本业务文本的样本文本编码向量;
[0273]
样本实体提示向量确定单元,被配置为执行基于所述样本视觉编码向量和所述样本文本编码向量中各所述命名实体对应的样本实体编码向量,确定样本实体提示向量;
[0274]
样本多模态提示性向量确定单元,被配置为执行对所述样本视觉提示向量和所述样本实体提示向量进行拼接,得到样本多模态提示向量;将所述样本多模态提示向量和所述样本编码向量输入到所述预训练语言模型的解码器进行解码处理,得到预测描述文本;
[0275]
参数调整单元,被配置为执行基于所述预测描述文本与所述参考描述文本之间的差异进行模型参数的调整,直至达到预设训练结束条件结束训练,得到所述数据处理模型。
[0276]
在一个示例性的实施方式中,所述参数调整单元,包括:
[0277]
损失确定单元,被配置为执行基于所述预测描述文本与所述参考描述文本之间的差异,确定损失值;
[0278]
参数调整子单元,被配置为执行固定所述视觉-语言预训练模型的模型参数不变,基于所述损失值调整所述初始多层感知网络和预训练语言模型的参数
[0279]
在一个示例性的实施方式中,所述样本实体提示向量确定单元,包括:
[0280]
第二相关程度确定单元,被配置为执行确定所述样本视觉编码向量与所述样本文本编码向量中各样本实体编码向量之间的相关程度;
[0281]
样本实体提示向量确定子单元,被配置为执行基于样本相关程度从所述样本实体
编码向量中选取目标样本实体编码向量,构成样本实体提示向量。
[0282]
在一个示例性的实施方式中,所述样本实体提示向量确定子单元包括:
[0283]
第二关键实体确定单元,被配置为执行确定最大所述样本相关程度对应的样本实体编码向量,得到关键样本实体编码向量;
[0284]
第二依赖程度确定单元,被配置为执行确定所述关键样本实体编码向量与各剩余样本实体编码向量之间的样本依赖程度;所述剩余样本实体编码向量是指除所述关键样本实体编码向量之外的样本实体编码向量;
[0285]
第二确定单元,被配置为执行基于所述样本依赖程度确定目标剩余样本实体编码向量;所述目标剩余样本实体编码向量对应的样本依赖程度大于预设依赖程度阈值;
[0286]
第二构建子单元,被配置为执行将所述关键样本实体编码向量和所述目标剩余样本实体编码向量作为目标样本实体编码向量进行拼接,得到样本实体提示向量。
[0287]
在一个示例性的实施方式中,所述第二依赖程度确定单元,包括:
[0288]
第二初始单元,被配置为执行将所述关键样本实体编码向量作为双向长短期记忆网络的初始隐藏状态;
[0289]
第二状态向量确定单元,被配置为执行将所述剩余样本实体编码向量输入至所述双向长短期记忆网络,得到对应所述剩余样本实体编码向量的状态向量;
[0290]
第二归一化单元,被配置为执行基于所述剩余样本实体编码向量对应的状态向量进行归一化处理,得到所述剩余样本实体编码向量对应的样本归一化结果;所述样本归一化结果表征所述关键样本实体编码向量与所述剩余样本实体编码向量之间的样本依赖程度。
[0291]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0292]
在一个示例性的实施方式中,还提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行存储器上所存放的指令时,实现本公开实施例提供的任意一种数据处理方法。
[0293]
该电子设备可以是终端、服务器或者类似的运算装置,以该电子设备是服务器为例,图8是根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图,如图8所示,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)810(处理器810可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器830,一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中,存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器810可以设置为与存储介质820通信,在服务器800上执行存储介质820中的一系列指令操作。服务器800还可以包括一个或一个以上电源860,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口840,和/或,一个或一个以上操作系统821,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0294]
输入输出接口840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器800的通信供应商提供的无线网络。在一个实例中,输入输出接口840包括
一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口840可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
[0295]
本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器800还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
[0296]
在一个示例性的实施方式中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器830,上述指令可由装置800的处理器810执行以完成上述方法。可选地,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0297]
在一个示例性的实施方式中,还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本公开实施例提供的任意一种数据处理方法。
[0298]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0299]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献