一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本数据处理方法、装置和相关设备与流程

2021-11-26 23:01:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种文本数据处理方法、装置和相关设备。


背景技术:

2.目前,在对某些图片进行文本识别的过程中,往往会使用基于深度学习的文本识别方法。但是,在使用基于深度学习的识别方法(例如,使用循环神经网络)对文本进行识别的过程中,文本识别的准确度往往会受限于文本区域中的文本内容的长度。
3.比如,一旦整个图片的文本区域中的文本内容过长,则会因为循环神经网络自身固有的属性问题,造成文本区域的后半段文本内容中的信息的丢失,且信息的丢失会随着文本内容的长度的增长而越发严重。由此可见,在使用基于深度学习的识别方法(例如,使用循环神经网络)对文本进行识别的过程中,会出现长时遗忘的问题,进而导致文本识别错误的现象,以至于降低了对图片中的文本进行识别的准确度。


技术实现要素:

4.本技术提供一种文本数据处理方法、装置和相关设备,可以提高对图片进行文本识别的准确率。
5.本技术实施例一方面提供一种文本数据处理方法,包括:
6.获取携带样本训练标签的样本图片,对训练样本标签所指示的训练文本信息进行文本切分,得到用于训练初始网络模型的第一样本碎片和第二样本碎片;第二样本碎片为第一样本碎片的下一样本碎片;
7.将第一样本碎片的第一样本文本特征与样本图片的样本图像特征输入初始网络模型中的递归注意力网络,通过递归注意力网络确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本,将第一预测文本添加至初始网络模型中的记忆网络;
8.将记忆网络中所存储的第一预测文本作为第二样本碎片的训练辅助文本,将训练辅助文本所对应的第一样本文本特征、第二样本文本特征、以及样本图像特征输入递归注意力网络,通过递归注意力网络确定第二样本碎片与样本图片之间的第二图文关系特征,基于第二图文关系特征输出第二样本碎片的第二预测文本,将第二预测文本添加至记忆网络;
9.基于记忆网络中的第一预测文本和第二预测文本,确定训练文本信息的样本预测标签,基于样本训练标签和样本预测标签,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为用于对目标图片进行文本识别的目标网络模型。
10.本技术实施例一方面提供一种文本数据处理装置,包括:
11.样本图片获取模块,用于获取携带样本训练标签的样本图片,对训练样本标签所指示的训练文本信息进行文本切分,得到用于训练初始网络模型的第一样本碎片和第二样本碎片;第二样本碎片为第一样本碎片的下一样本碎片;
12.第一关系确定模块,用于将第一样本碎片的第一样本文本特征与样本图片的样本图像特征输入初始网络模型中的递归注意力网络,通过递归注意力网络确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本,将第一预测文本添加至初始网络模型中的记忆网络;
13.第二关系确定模块,用于将记忆网络中所存储的第一预测文本作为第二样本碎片的训练辅助文本,将训练辅助文本所对应的第一样本文本特征、第二样本文本特征、以及样本图像特征输入递归注意力网络,通过递归注意力网络确定第二样本碎片与样本图片之间的第二图文关系特征,基于第二图文关系特征输出第二样本碎片的第二预测文本,将第二预测文本添加至记忆网络;
14.模型训练模块,用于基于记忆网络中的第一预测文本和第二预测文本,确定训练文本信息的样本预测标签,基于样本训练标签和样本预测标签,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为用于对目标图片进行文本识别的目标网络模型。
15.其中,样本图片获取模块包括:
16.文本切分单元,用于获取携带样本训练标签的样本图片,基于文本切分参数对训练样本标签所指示的训练文本信息进行文本切分,得到训练文本信息的样本碎片集;样本碎片集用于存储对训练文本信息进行文本切分所得到的所有样本碎片;一个样本碎片对应一个样本切分标识;一个样本切分标识用于表征一个样本碎片在训练文本信息中的碎片位置;
17.碎片获取单元,用于基于每个样本碎片的样本切分标识,从样本碎片集中获取用于训练初始网络模型的第一样本碎片,基于第一样本碎片在训练文本信息中的碎片位置,将第一样本碎片的下一样本碎片作为第二样本碎片。
18.其中,初始网络模型包含第一样本分支模型和第二样本分支模型;第二样本分支模型包括语义提取网络;装置还包括:
19.图像特征提取模块,用于通过第一样本分支模型提取样本图片的样本图像特性;
20.文本特征确定模块,用于通过语义提取网络确定第一样本碎片的第一样本文本特征,且通过语义提取网络确定第二样本碎片的第二样本文本特征。
21.其中,文本特征确定模块包括:
22.训练特征提取单元,用于通过语义提取网络,提取训练文本信息的训练文本特征;
23.碎片特征确定单元,用于基于第一样本碎片在训练文本信息中的碎片位置,在训练文本特征中确定第一样本碎片的碎片文本特征,且基于第二样本碎片在训练文本信息中的碎片位置,在训练文本特征中确定第二样本碎片的碎片文本特征;
24.第一特征确定单元,用于将第一样本碎片的碎片位置和第一样本碎片中的碎片元素的元素位置作为第一样本碎片的第一相对编码位置信息,基于第一相对编码位置信息对第一样本碎片进行相对编码,得到第一样本碎片的相对位置特征,基于第一样本碎片的碎片文本特征和第一样本碎片的相对位置特征,得到第一样本碎片的第一样本文本特征;
25.第二特征确定单元,用于将第二样本碎片的碎片位置和第二样本碎片中的碎片元素的元素位置作为第一样本碎片的第二相对编码位置信息,基于第二相对编码位置信息对第二样本碎片进行相对编码,得到第二样本碎片的相对位置特征,基于第二样本碎片的碎片文本特征和第二样本碎片的相对位置特征,得到第二样本碎片的第二样本文本特征。
26.其中,初始网络模型包含第一样本分支模型和第二样本分支模型;第二样本分支模型包括语义提取网络、递归注意力网络和记忆网络;第一样本分支模型用于提取样本图片的样本图像特征;语义提取网络用于提取第一样本碎片的第一样本文本特征;第一样本碎片的碎片元素包含第一碎片元素和第二碎片元素;第二碎片元素为第一碎片元素的下一碎片元素;
27.第一关系确定模块包括:
28.第一辅助特征确定单元,用于基于第一碎片元素在第一样本碎片中的元素位置,从第一样本碎片的第一样本文本特征中获取与第一碎片元素相关联的第一元素辅助特征;
29.第一元素输出单元,用于基于第一元素辅助特征、样本图片的样本图像特征、递归注意力网络中的第一注意力层以及第一注意力层对应的第一选择门,确定第一碎片元素与样本图片之间的第一权重关系特征,将第一权重关系特征输入至递归注意力网络中的第一语言层,由第一语言层输出第一碎片元素对应的第一预测元素;
30.第二元素输出单元,用于将第一预测元素的第一元素特征递归作为与第二碎片元素相关联的第二元素辅助特征,基于第二元素辅助特征、样本图像特征、递归注意力网络中的第二注意力层以及第二注意力层对应的第二选择门,确定第二碎片元素与样本图片之间的第二权重关系特征,将第二权重关系特征输入至递归注意力网络中的第二语言层,由第二语言层输出第二碎片元素对应的第二预测元素;
31.预测文本输出单元,用于基于第一权重关系特征和第二权重关系特征确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本;第一预测文本中包含第一预测元素和第二预测元素;
32.第一文本添加单元,用于将包含第一预测元素和第二预测元素的第一预测文本添加至初始网络模型中的记忆网络。
33.其中,第一元素输出单元包括:
34.第一输入子单元,用于将第一元素辅助特征和样本图片的样本图像特征作为与第一样本碎片相关联的第一输入特征;
35.第一注意力确定子单元,用于将第一输入特征输入至递归注意力网络中的第一注意力层,由第一注意力层确定第一碎片元素在样本图片中的第一注意力图特征;
36.第一权重选取子单元,用于将第一注意力图特征和第一元素辅助特征输入第一注意力层对应的第一选择门,由第一选择门选取且输出第一碎片元素与样本图片之间的第一权重关系特征;
37.第一识别子单元,用于将第一权重关系特征输入至递归注意力网络中的第一语言层,由第一语言层对第一碎片元素进行元素识别,得到第一碎片元素对应的第一预测元素。
38.其中,第一权重选取子单元包括:
39.第一特征提取子单元,用于将第一注意力图特征和第一元素辅助特征输入第一注意力层对应的第一选择门,通过第一选择门中的第一选择规则提取第一注意力图特征和第一元素辅助特征之间的第一内积相似度,将第一选择规则所指示的第一权重系数与第一内积相似度之间的乘积作为第一相似特征;
40.第二特征提取子单元,用于通过第一选择门中的第二选择规则提取第一注意力图特征和第一元素辅助特征之间的第一高斯相似度,将第二选择规则所指示的第二权重系数
与第一高斯相似度之间的乘积作为第二相似特征;
41.第三特征提取子单元,用于通过第一选择门中的第三选择规则提取第一注意力图特征和第一元素辅助特征之间的第一字符串相似度,将第三选择规则所指示的第三权重系数与第一字符串相似度之间的乘积作为第三相似特征;
42.第一矩阵确定子单元,用于基于第一相似特征、第二相似特征以及第三相似特征,确定第一碎片元素与样本图片之间的第一权重矩阵,将第一权重矩阵与第一注意力图特征进行掩膜相乘,得到第一碎片元素与样本图片之间的第一权重关系特征。
43.其中,第一矩阵确定子单元,包括:
44.特征融合子单元,用于将第一相似特征、第二相似特征以及第三相似特征进行特征融合,得到第一融合特征;
45.特征归一化子单元,用于对第一融合特征进行归一化处理,得到第一碎片元素与样本图片之间的第一权重矩阵;
46.掩膜相乘子单元,用于将第一权重矩阵与第一注意力图特征进行掩膜相乘,得到第一碎片元素与样本图片之间的第一权重关系特征。
47.其中,第二元素输出单元包括:
48.第二输入子单元,用于将第一预测元素的第一元素特征递归作为与第二碎片元素相关联的第二元素辅助特征,将第二元素辅助特征和样本图像特征作为与第一样本碎片相关联的第二输入特征;
49.第二注意力确定子单元,用于将第二输入特征输入至递归注意力网络中的第二注意力层,由第二注意力层确定第二碎片元素在样本图片中的第二注意力图特征;
50.第二权重选取子单元,用于将第二注意力图特征和第二元素辅助特征输入第二注意力层对应的第二选择门,由第二选择门选取且输出第二碎片元素与样本图片之间的第二权重关系特征;
51.第二识别子单元,用于将第二权重关系特征输入至递归注意力网络中的第二语言层,由第二语言层对第二碎片元素进行元素识别,得到第二碎片元素对应的第二预测元素。
52.其中,第二权重选取子单元包括:
53.第四特征提取子单元,用于将第二注意力图特征和第二元素辅助特征输入第二注意力层对应的第二选择门,通过第二选择门中的第一选择规则提取第二注意力图特征和第二元素辅助特征之间的第二内积相似度,将第一选择规则所指示的第一权重系数与第二内积相似度之间的乘积作为第四相似特征;
54.第五特征提取子单元,用于通过第二选择门中的第二选择规则提取第二注意力图特征和第二元素辅助特征之间的第二高斯相似度,将第二选择规则所指示的第二权重系数与第二高斯相似度之间的乘积作为第五相似特征;
55.第六特征提取子单元,用于通过第二选择门中的第三选择规则提取第二注意力图特征和第二元素辅助特征之间的第二字符串相似度,将第三选择规则所指示的第三权重系数与第二字符串相似度之间的乘积作为第六相似特征;
56.第二矩阵确定子单元,用于基于第四相似特征、第五相似特征以及第六相似特征,确定第二碎片元素与样本图片之间的第二权重矩阵,将第二权重矩阵与第二注意力图特征进行掩膜相乘,得到第二碎片元素与样本图片之间的第二权重关系特征。
57.其中,第一样本碎片的碎片长度和第二样本碎片的碎片长度均由初始网络模型的文本切分参数所确定的;第一预测文本是第二样本分支模型在统计到由递归注意力网络中的语言层所输出的预测元素的累计数量达到文本切分参数时所确定的;预测元素为递归注意力网络将第一样本碎片中的碎片元素和样本图片进行特征关联后所确定的;
58.第二关系确定模块包括:
59.辅助文本确定单元,用于将记忆网络中所存储的第一预测文本作为第二样本碎片的训练辅助文本,将训练辅助文本所对应的第一样本文本特征作为训练辅助文本特征;
60.特征关联单元,用于将训练辅助文本特征、第二样本文本特征、以及样本图像特征输入递归注意力网络,通过递归注意力网络将第二样本碎片与样本图片进行特征关联,得到用于表征第二样本碎片与样本图片之间的关联关系的第二图文关系特征;
61.预测元素输出单元,用于将第二图文关系特征输入递归注意力网络中的语言层,由递归注意力网络中的语言层输出与第二样本碎片中的碎片元素相关联的预测元素;
62.第二文本添加单元,用于在检测到递归注意力网络中的语言层输出的预测元素的数量达到文本切分参数时,基于递归注意力网络中的语言层输出的预测元素,输出第二样本碎片的第二预测文本,将第二预测文本添加至记忆网络。
63.本技术实施例一方面提供一种文本数据处理方法,包括:
64.获取携带目标文本信息的目标图片,提取目标图片的目标图像特征;
65.基于目标图像特征确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本;
66.将第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,基于目标辅助文本所对应的第一目标文本特征和目标图像特征,确定第二目标碎片与目标图片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本;
67.基于第一目标文本和第二目标文本,确定从目标图片中所识别到的目标文本信息。
68.其中,获取携带目标文本信息的目标图片,提取目标图片的目标图像特征,包括:
69.获取携带目标文本信息的目标图片,通过目标网络模型中的第一目标分支模型提取目标图片的目标图像特征;目标网络模型是基于携带样本训练标签的样本图片对初始网络模型进行训练后所得到的。
70.其中,目标网络模型还包括并列于第一目标分支模型的第二目标分支模型,第二目标分支模型包含递归注意力网络;
71.基于目标图像特征确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本,包括:
72.将目标图像特征输入递归注意力网络,通过递归注意力网络确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本。
73.可选的,第二目标分支模型包含记忆网络;方法还包括:将第一目标文本添加至目标网络模型中的记忆网络。
74.其中,将第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,基于目标辅助文本所对应的第一目标文本特征和目标图像特征,确定第二目标碎片与目标图
片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本,包括:
75.将记忆网络中所存储的第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,将目标辅助文本所对应的第一目标文本特征和目标图像特征输入递归注意力网络,通过递归注意力网络确定第二目标碎片与目标图片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本。
76.可选的,方法还包括:将第二目标文本添加至记忆网络。
77.本技术实施例一方面提供一种文本数据处理装置,包括:
78.目标图片获取模块,用于获取携带目标文本信息的目标图片,提取目标图片的目标图像特征;
79.第一文本输出模块,用于基于目标图像特征确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本;
80.第二文本输出模块,用于将第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,基于目标辅助文本所对应的第一目标文本特征和目标图像特征,确定第二目标碎片与目标图片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本;
81.目标文本确定模块,用于基于第一目标文本和第二目标文本,确定从目标图片中所识别到的目标文本信息。
82.其中,目标图片获取模块,具体用于获取携带目标文本信息的目标图片,通过目标网络模型中的第一目标分支模型提取目标图片的目标图像特征;目标网络模型是基于携带样本训练标签的样本图片对初始网络模型进行训练后所得到的。
83.其中,目标网络模型还包括并列于第一目标分支模型的第二目标分支模型,第二目标分支模型包含递归注意力网络;
84.第一文本输出模块,具体用于将目标图像特征输入递归注意力网络,通过递归注意力网络确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本。
85.可选的,第二目标分支模型包含记忆网络;
86.第一文本输出模块,还具体用于将第一目标文本添加至目标网络模型中的记忆网络。
87.第二文本输出模块,具体用于将记忆网络中所存储的第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,将目标辅助文本所对应的第一目标文本特征、和目标图像特征输入递归注意力网络,通过递归注意力网络确定第二目标碎片与目标图片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本。
88.可选的,第二文本输出模块,还具体用于将第二目标文本添加至记忆网络。
89.其中,目标文本确定模块,具体用于基于记忆网络中的第一目标文本和第二目标文本,确定从目标图片中所识别到的目标文本信息。
90.本技术实施例一方面提供了一种计算机设备,计算机设备包括:处理器和存储器;
91.处理器与存储器相连,其中,存储器用于存储计算机程序,处理器用于调用计算机
程序,以使得计算机设备执行本技术实施例任一方面中的方法。
92.本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本技术实施例任一方面中的方法。
93.本技术实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例任一方面中的方法。
94.本技术实施例中的计算机设备可以获取携带样本训练标签的样本图片,进而可以对该样本训练标签所指示的训练文本信息进行文本切分,以得到用于训练初始网络模型的第一样本碎片和第二样本碎片。其中,应当理解,由于本技术实施例在获取到样本图片时,已知该样本图片中的训练文本信息,故而可以在模型训练阶段对训练文本信息进行文本切分,以实现对任意长度的训练文本信息的碎片化处理,以便于后续在模型应用阶段使用训练好的初始网络模型(即目标网络模型)进行文本识别时,可以提升训练好的目标网络模型的泛化能力,进而可以对目标图片中的任意长度的目标文本信息进行文本识别。其中,应当理解,这里的第一样本碎片和第二样本碎片为对训练文本信息进行文本切分后所得到的具有相邻碎片位置的任意两个样本碎片。比如,该第二样本碎片为第一样本碎片的下一样本碎片。进一步的,计算机设备可以在将第一样本碎片的第一样本文本特征和样本图片的样本图片特征给到初始网络模型中的递归注意力网络之后,可以通过该递归注意力网络将第一样本碎片与样本图片进行特征关联,以得到第一样本碎片与样本图片之间的第一图文关系特征。此时,该计算机设备可以通过该第一图文关系特征输出第一样本碎片的第一预测文本,进而可以使输出的第一预测文本参与下一样本碎片(即第二样本碎片)的文本预测。比如,计算机设备可以将记忆网络中的第一预测文本作为辅助文本,进而可以将该辅助文本所对应的第一样本特征、第二样本碎片的第二样本文本特征以及前述样本图像特征一并输入到递归注意力网络,使得该递归注意力网络可以将第二样本碎片与样本图片进行特征关联,以得到第二样本碎片与样本图片之间的第二图文关系特征。进一步的,计算机设备可以基于第二图文关系特征输出第二样本碎片的第二预测文本,进而可以将该第二预测文本添加至前述记忆网络,使得记忆网络后续可以基于添加的第一预测文本和第二预测文本,确定出训练文本信息的样本预测标签。最后,计算机设备可以基于样本训练标签和样本预测标签,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为用于对目标图片进行文本识别的目标网络模型。应当理解,本技术实施例可以通过递归注意力网络提取到各样本碎片与样本图片之间的图文依赖关系,该图文依赖关系至少包含上述第一图文关系特征和第二图文关系特征。所以,在通过该图文依赖关系输出各预测文本时,不仅可以通过递归注意力网络将图文特征进行关联,还可以通过引入的记忆网络从根源上解决长时遗忘的问题。比如,可以通过记忆网络将计算机设备当前输出的这一段碎片文本作为下一段碎片文本的训练辅助文本,进而可以通过记忆网络充分利用碎片之间的上下文关系,以提升对图片进行文本识别的准确度。
附图说明
95.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
96.图1是本技术实施例提供的一种网络架构的结构示意图;
97.图2是本技术实施例提供的一种进行数据交互的场景示意图;
98.图3是本技术实施例提供的一种文本数据处理方法的流程示意图;
99.图4是本技术实施例提供的一种进行文本切分的场景示意图;
100.图5是本技术实施例提供的一种确定样本碎片的样本文本特征的场景示意图;
101.图6是本技术实施例提供的一种输出第一样本碎片的第一预测文本的场景示意图;
102.图7是本技术实施例提供的一种通过递归注意力网络确定权重关系特征的场景示意图;
103.图8是本技术实施例提供的一种递归输出训练文本信息中的每个碎片元素的预测元素的场景示意图;
104.图9是本技术实施例提供的一种文本数据处理方法的流程示意图;
105.图10是本技术提供的一种通过选择门输出权重关系特征的场景示意图;
106.图11是本技术实施例提供的一种通过递归注意力网络解码输出预测文本的场景示意图;
107.图12是本技术实施例提供的一种文本数据处理方法;
108.图13是本技术实施例提供的一种文本数据处理装置的结构示意图;
109.图14是本技术实施例提供的一种文本数据处理装置的结构示意图;
110.图15是本技术实施例提供的一种计算机设备的示意图。
具体实施方式
111.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
112.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
113.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
114.本技术实施例提供的方案属于人工智能领域下的机器学习((machine learning,ml)。可以理解的是,机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
115.请参见图1,图1是本技术实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括第一用户终端集群、第二用户终端集群和业务服务器2000,其中,可以理解的是,这里的第一用户终端集群和第二用户终端集群中均可以包括一个或者多个用户终端,这里将不对各用户终端集群中的用户终端的数量进行限制。其中,如图1所示,第一用户终端集群可以包含多个用户终端,具体可以包含图1所示的用户终端3000a、用户终端3000b、用户终端3000c、

、用户终端3000n。如图1所示,用户终端3000a、用户终端3000b、用户终端3000c、

、用户终端3000n可以和业务服务器2000进行网络连接,以便于第一用户终端集群中的每个用户终端可以通过该网络连接与业务服务器2000进行数据交互。
116.比如,在文档识别场景下,该第一用户终端集群中的某个用户终端(例如,用户终端3000a)可以在某项业务的文档信息(例如,文档a)中,通过前端的文本检测方法定位到需要进行图文识别的文档图片,进而可以将该需要进行图文识别的文档图片作为目标图片,发送给业务服务器2000,以使业务服务器2000可以通过训练好的目标网络模型对该目标图片中的目标文本信息(即目标图片中的字符所构成的文本信息)进行识别。然后,该业务服务器2000可以将识别到的该目标文本信息以及与该目标文本信息相关联的文本框坐标返回给前述用户终端3000a,以使得该用户终端3000a可以在该文本a中的该目标图片所在的区域中,基于该文本框坐标输出该目标文本信息。
117.其中,可以理解的是,这里的文档信息(例如,文档a)可以包含一张或者多张需要进行图文识别的文档图片,这里将不对该文档信息中所包含的文档图片的数量进行限定。此外,可以理解的是,该文档图片具体可以包含文档检索业务对应的文档检索图片、票据识别业务对应的电子票据图片以及保单报销业务对应的电子保单图片等。
118.其中,可以理解的是,这里的业务服务器2000在接收到该第一用户终端集群中的一个或者多个用户终端所发送的文档图片(即前述目标图片)时,可以一并获取这些目标图片在相应文档信息中的图片显示区域所对应的定位位置标识,进而可以通过已经训练好的目标网络模型(例如,基于递归注意力网络的目标网络模型)对这些带有定位位置标识的文档图片进行批量性的文本识别,这样,当业务服务器2000在准确识别得到每个文档图片中的目标文本信息时,可以直接基于定位位置标识快速地将目标文本信息返回给相应的用户终端。
119.此外,可以理解的是,该业务服务器2000还可以将这些目标图片和在这些目标图片中所识别到的目标文本信息一并添加到先验知识库,以便于与上述业务(例如,文档检索业务、票据识别业务以及保单报销业务)相关联的业务处理终端(例如,上述第二用户终端集群中的用户终端)可以从该先验知识库中获取添加的目标图片以及目标图片中的目标文本信息,进而可以将获取到的目标图片以及目标图片中的目标文本信息作为用于进一步训
练目标网络模型的训练样本信息,以便于可以得到新的目标网络模型。这里的训练样本信息可以包含带有样本训练标签的样本图片,该训练样本标签所指示的文本信息可以为训练文本信息。
120.为便于理解,本技术实施例可以将训练之前的网络模型统称为初始网络模型,并将对初始网络模型进行训练后所得到的新的网络模型统称为前述目标网络模型。另外,本技术实施例还可以在该第一用户终端集群中,将发送目标图片的用户终端统称为第一终端,并将该第一终端对应的用户统称为第一用户。
121.其中,可以理解的是,这里的第一终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等具有文档加载和显示功能的智能终端。例如,本技术实施例可以将图1所示的用户终端3000a作为第一终端,该第一终端中可以运行一个或者多个应用客户端,这些应用客户端均可以提供针对前述业务(例如,文档检索业务、票据识别业务、保单报销业务等)的文档信息进行图文识别的接口。这样,当第一终端对应的第一用户在使用某个应用客户端(例如,客户端a)时,可以触发该客户端a所提供的图文识别接口,以使第一终端的显示界面切换为图文识别界面,以在该图文识别界面中显示针对前述目标图片(即文档检索业务对应的文档检索图片、票据识别业务对应的电子票据图片以及保单报销业务对应的电子保单图片)进行图文识别后的目标文本信息。其中,这里的应用客户端可以包括社交客户端、购物客户端、办公客户端、教育客户端、电子读物客户端等具有文本信息加载和显示功能的客户端。
122.其中,如图1所示的第二终端集群中的也可以包含多个用户终端,具体可以包含图1所示的用户终端4000a、用户终端4000b、用户终端4000c、

、用户终端4000n。如图1所示,用户终端4000a、用户终端4000b、用户终端4000c、

、用户终端4000n可以和业务服务器2000进行网络连接,以便于第二用户终端集群中的每个用户终端可以通过该网络连接与业务服务器2000进行数据交互。比如,在上述图文识别场景下,第二终端集群中的每个用户终端均可以作为业务处理终端(即第二终端),以接收由该业务服务器2000进行图文识别后所发送的目标图片和目标图片中的目标文本信息。
123.比如,该业务服务器2000可以将通过上述目标网络模型所识别到的目标文本信息和该目标文本信息所属的目标图片作为训练样本信息,添加至上述先验知识库,以便于第二终端集群中的用户终端(即前述第二终端)可以从先验知识库中获取该新的训练样本信息,以通过该新的训练样本信息对当前的网络模型(即前述目标网络模型)进行模型训练,以得到新的目标网络模型,进而可以将最新训练得到的目标网络模型给到业务服务器2000,以使业务服务器2000可以在获取到新的目标图片的情况下,智能识别出该目标图片中的文本信息。
124.应当理解,这里的第二终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑等具有模型训练功能的智能终端。例如,本技术实施例可以将图1所示的第二用户终端集群中的用户终端4000a作为第二终端,该第二终端在从先验知识库中获取到上述训练样本信息时,可以用这些训练样本信息对当前的网络模型(例如,初始网络模型)进行迭代训练,以将迭代训练所得到的网络模型(即迭代训练后的初始网络模型)作为目标网络模型,以将目标网络模型返回给上述业务服务器2000。这样,业务服务器2000在获取到第一终端集群中的第一终端发送来的目标图片时,可以通过该训练好的目标网络模型识别该目标图片中
的目标文本信息。
125.其中,如图1所示的业务服务器2000可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器,这里将不对其进行限定。
126.可选的,应当理解,在区块链场景下,该第二终端集群中的每个第二终端均可以作为区块链节点,这样,这些区块链节点在基于前述新的训练样本信息训练得到新的目标网络模型的情况下,需要在这些区块链节点中对最新生成的目标网络模型的模型参数进行共识,进而可以在达成共识的情况下,将最新生成的目标网络模型的模型参数上传至区块链上,以便于该业务服务器2000在获取到新的目标图片的情况下,可以从区块链上实时获取该最新生成的目标网络模型的模型参数,进而可以基于该最新生成的目标网络模型的模型参数对该业务服务器2000中的目标网络模型的模型参数进行参数更新,进而可以基于参数更新后的目标网络模型识别该新的目标图片中的文本信息。
127.为便于理解,进一步的,请参见图2,图2是本技术实施例提供的一种进行数据交互的场景示意图。如图2所示的第一终端可以为上述图1所示的用户终端3000a。如图2所示的第一终端可以在显示界面中输出文档信息(例如,文章a)的情况下,可以允许第一用户触发上述图文识别接口,进而使得该第一终端可以通过文本检测方法在该文档信息(例如,文章a)中检测到图2所示的目标图片(例如,图2所示的携带文本信息的图片20a),并可以将该目标图片在该文档信息(例如,文章a)中的图像显示区域转换为定位位置标识,进而可以将该定位位置标识和目标图片发送给图2所示的业务服务器。此时,该业务服务器可以通过训练好的目标网络模型对该目标图片中的文本信息进行识别,进而可以将识别到的文本信息作为目标文本信息,从而可以基于定位位置标识将该目标文本信息返回给图2所示的第一终端。
128.其中,图2所示的目标网络模型可以包含多个分支模型,这里的多个分支模型具体可以包含图2所示的分支模型1和分支模型2。应当理解,在模型应用阶段,本技术实施例可以将图2所示的分支模型1统称为第一目标分支模型,并可以将图2所示的分支模型2统称为第二目标分支模型。如图2所示的第一目标分支模型可以包括卷积神经网络(cnn,convolutional neural networks)模型或者神经网络架构搜索(nas,neural architecture search)模型等。该nas模型可以用于在定义的高维手上空间中通过搜索策略确定候选网络结构,并基于候选网络结构进行模型参数的搜索,以找到最具鲁棒性的网络结构。该第二目标分支模型可以为语言模型,如图2所示,该语言模型中具体可以包含图2所示的网络201a和网络201b。其中,网络201a为在该语言模型中所引入的递归注意力网络,网络201b为在该语言模型中所新增的记忆网络。
129.其中,可以理解的是,当图2所示的业务服务器获取到第一终端发送的目标图片(例如,图2所示的图片20a)时,可以将该目标图片(例如,图2所示的图片20a)给到图2所示的目标网络模型,进而可以通过该目标网络模型中的第一目标分支模型(例如,图2所示的分支模型1)提取图像特征,进而可以将提取到的图像特征统称为目标图像特征,该目标图像特征可以为图2所示的图像特征21a。
130.值得注意的是,由于该业务服务器在对该图片20a中的文本信息进行图文识别之
前,并不知道该图片20a中的各个字符的具体语义信息。所以,当业务服务器通过图2所示的分支模型1提取得到图2所示的图像特征21a时,可以将该图像特征21a输入至位于图2所示的分支模型2内的网络210a,以通过该网络210a的递归注意力机制,从全局对图像特征21a进行解码处理,以快速学习得到图片20a的文本信息中的每个目标元素与图片20a之间的关联关系特征,进而可以基于这些关联关系特征识别并输出从该图片20a中所识别到的文本信息中的每个目标元素的预测元素。
131.如图2所示,该业务服务器可以直接根据该目标网络模型的文本切分参数(例如,文本切分长度为6),对输出的文本信息的每个目标元素所对应的预测元素的元素数量进行累计,一旦累计到的元素数量达到文本切分参数时,则可以将达到该文本切分参数时的元素作为第一目标碎片的第一目标文本。这里的第一目标碎片为业务服务器基于文本切分参数对图片20a中的文本信息所确定的。在对第一目标碎片中的内容进行识别之前,并不知道该第一目标碎片中的每个目标元素的语义信息,直到图2所示的网络201a(例如,递归注意力网络1)在t1时刻输出图2所示的文本203a(即图2所示的“<sos>abacd”)时,可以将由该网络201a(例如,递归注意力网络1)成段输出的文本203a作为该第一目标碎片的第一目标文本。其中,这里的“<sos>”用于表示该目标文本信息的起始标识符,同理图2所示的文本203d(即图2所示的“ghxyz<eos>”)中的“<eos>”用于表示该目标文本信息的结束标识符。应当理解,这里的起始标识符合结束标识符对于用户(例如,上述第一用户)而言,是不可见的。
132.如图2所示,业务服务器还可以将文本203a添加至图2所示的网络201b(即前述记忆网络),以将添加至该记忆网络的文本203a(即第一目标文本)作为该第一目标碎片的下一文本碎片(即第二目标碎片)的目标辅助文本,从而可以将目标辅助文本的文本特征(即前述第一目标文本的第一目标文本特征)和图像特征21a一并输入至图2所示的网络201a(例如,递归注意力网络2),以使该网络201a在t2时刻输出图2所示的文本203b(即图2所示的“ef ghi”)时,可以将由该网络201a(例如,递归注意力网络2)所成段输出的文本203b作为该第二目标碎片的第二目标文本。
133.如图2所示,本技术实施例可以通过两个网络201a(即递归注意力网络中的两个递归注意力网络)之间的网络201b(即记忆网络),记录到任意两个相邻碎片之间的上下文信息,以解决该目标网络模型通过递归注意力网络对图片中的超长文本进行识别时的长时遗忘问题。应当理解,以此类推,图2所示的网络201a(例如,递归注意力网络3)在t3时刻输出图2所示的文本203c(即图2所示的“jkl mm”)时,可以将由该网络201a(例如,递归注意力网络3)成段输出的文本203c作为新的第二目标碎片的第二目标文本。其中,该业务服务器通过该网络201a(例如,递归注意力网络3)输出该新的第二目标碎片的第二目标文本(即文本203c)的具体实现方式,可以参见上述对输出文本203b的描述,这里将不再继续进行赘述。
134.可以理解的是,图2所示的目标网络模型为针对上述初始网络模型进行模型训练后所得到的文本模型,这意味着在模型训练阶段中所构建的初始网络模型也可以包含图2所示的目标网络模型中的分支模型1和分支模型2,比如,训练前的分支模型1(即第一样本分支模型)具体可以包含训练前的卷积神经网络;又比如,训练前的分支模型2(即第二样本分支模型)具体可以包含训练前的递归注意力网络和训练前的记忆网络。可以理解的是,这里的目标网络模型的模型参数(例如,模型参数2)不同于初始网络模型的模型参数(例如,模型参数1),这是因为在初始网络模型的训练过程中,会不断对初始网络模型中的多个样
本分支模型下的网络的模型参数进行调整,以便于后续可以继续对调整模型参数后的初始网络模型进行迭代训练,直到训练后的初始网络模型具有最小损失函数时,认为训练后的初始网络模型满足模型收敛条件,进而可以将具有最小损失函数的训练后的初始网络模型确定为目标网络模型。
135.其中,业务服务器2000通过训练初始网络模型得到目标网络模型以及通过目标网络模型对目标图片中的目标文本信息进行文本识别的具体实现方式,可以参见下述图3

图12所对应实施例的描述。
136.进一步地,请参见图3,图3是本技术实施例提供的一种文本数据处理方法的流程示意图。其中,可以理解的是,本技术实施例提供的方法可以由计算机设备执行,这里的计算机设备包括但不限于用户终端(例如,上述图2所对应实施例中的第一终端、第二终端)或业务服务器(例如,上述图2所对应实施例中的业务服务器)。为便于理解,本技术实施例以该计算机设备为业务服务器为例,以阐述在该业务服务器中对初始网络模型进行训练,得到用于识别目标图片中的目标文本信息的目标网络模型的具体过程。如图3所示,该方法至少可以包括下述步骤s101

步骤s104:
137.步骤s101,获取携带样本训练标签的样本图片,对训练样本标签所指示的训练文本信息进行文本切分,得到用于训练初始网络模型的第一样本碎片和第二样本碎片;
138.其中,可以理解是,这里的第二样本碎片为第一样本碎片的下一样本碎片。
139.具体的,计算机设备可以获取携带样本训练标签的样本图片,并可以基于文本切分参数(这里的文本切分参数是指用于对训练文本信息进行文本切分的最小切分单位)对训练样本标签所指示的训练文本信息进行文本切分,以得到训练文本信息的样本碎片集;其中,可以理解的是,这里的样本碎片集可以用于存储对训练文本信息进行文本切分所得到的所有样本碎片;一个样本碎片对应一个样本切分标识;一个样本切分标识用于表征一个样本碎片在训练文本信息中的碎片位置;进一步的,计算机设备可以基于每个样本碎片的样本切分标识,从样本碎片集中获取用于训练初始网络模型的第一样本碎片,并可以基于第一样本碎片在训练文本信息中的碎片位置,将第一样本碎片的下一样本碎片作为第二样本碎片。
140.为便于理解,进一步的,请参见图4,图4是本技术实施例提供的一种进行文本切分的场景示意图。如图4所示的训练文本信息401a为该计算机设备从上述先验知识库所获取到的样本图片中的文本信息。在模型训练阶段,计算机设备可以从先验知识库中获取到带有训练样本标签的图片信息,并可以将获取到的图片作为样本图片。可以理解的是,该训练样本标签所指示的训练文本信息可以为图4所示的训练文本信息401a(即“abcdef ghijkl mmi
……
ghxyz”)。如图4所示,该计算机设备可以从该训练文本信息401a中读取起始标识符(例如,上述“sos”)和结束位置标识符(例如,上述“eos”),进而可以通过用于进行文本切分的文本切分参数(例如,该文本切分参数用于指示将训练文本信息中的l(例如,6)个文本元素作为文本切分单位),对该起始标识符和结束标识符之间的字符串所对应的文本信息进行文本切分,进而可以得到文本切分长度为6个文本元素的n个样本碎片,并可以将这n个样本碎片添加至与该训练文本信息401a相关联的样本碎片集进行存储。
141.应当理解,若训练文本信息为英文句子,则这里的文本元素可以为英文句子中的单词元素。可选的,若训练文本信息为中文句子,则这里的文本元素可以为中文句子中的文
字元素。这里将不对样本图片内的训练文本信息中的字符串的具体语种以及具体展现形式进行限定。需要注意的是,样本图片中的训练文本信息的展现形式可以包含但不限于印刷类文本或者书写类文本。
142.为便于理解,本技术实施例可以在切分得到n个样本碎片时,为每个样本碎片配置一个样本切分标识,这里的样本切分标识可以用于表征相应样本碎片在该训练文本信息401a中的碎片位置。比如,如图4所示,该样本碎片集中的这n个样本碎片具体可以包含样本碎片1、样本碎片2、样本碎片3、

、以及样本碎片n。其中,如图4所示的样本碎片1为包含上述起始标识符的样本碎片,基于此,该样本碎片1的样本切分标识可以用于表征该样本碎片1在该训练文本信息401a中的第一个碎片位置,以此类推,图4所示的样本碎片n为包含上述结束标识符的样本碎片,所以,该样本碎片n的样本切分标识可以用于表征该样本碎片n在该训练文本信息401a中的最后一个碎片位置。如图4所示,基于这些样本碎片的样本切分标识,该计算机设备可以确定样本碎片2为该样本碎片1的下一样本碎片。以此类推,样本碎片3为样本碎片2的下一样本碎片。
143.为便于理解,本技术实施例可以从样本碎片集中获取图4所示的样本碎片1作为用于训练初始网络模型的第一样本碎片,进而可以将该第一样本碎片的下一样本碎片作为第二样本碎片,以便于可以进一步执行下述步骤s102

步骤s1104。
144.可选的,可以理解的是,初始网络模型可以包含第一样本分支模型和第二样本分支模型;这里的第二样本分支模型可以包括语义提取网络;基于此,该计算机设备在执行步骤s102之前,还可以通过多个样本分支模型协同执行以下步骤,以提高模型训练的效率。比如,计算机设备可以通过第一样本分支模型提取样本图片的样本图像特性;此外,该计算机设备还可以通过第二样本分支模型中的语义提取网络确定第一样本碎片的第一样本文本特征,且通过语义提取网络确定第二样本碎片的第二样本文本特征。
145.为便于理解,进一步的,请参见图5,图5是本技术实施例提供的一种确定样本碎片的样本文本特征的场景示意图。如图5所示的训练文本信息501a可以为上述图4所对应实施例中需要进行文本切分的训练文本信息401a。所以,如图5所涉及的碎片a1可以上述图4所对应实施例中的样本碎片1,同理,如图5所涉及的碎片a2可以上述图4所对应实施例中的样本碎片2。以此类推,如图5所涉及的碎片an可以上述图4所对应实施例中的样本碎片n。
146.如图5所示,计算机设备将训练文本信息501给到图5所示的语义提取网络时,可以通过该语义提取网络提取得到训练文本信息501a的训练文本特征。然后,该计算机设备可以基于碎片a1在训练文本信息501a中的碎片位置(例如,图5所示的碎片位置1),在该训练文本特征中确定该碎片a1的碎片文本特征,该碎片a1的碎片文本特征可以为图5所示的碎片文本特征c1。同理,该计算机设备可以基于碎片a2在训练文本信息501a中的碎片位置(例如,图5所示的碎片位置2),在该训练文本特征中确定该碎片a2的碎片文本特征,该碎片a2的碎片文本特征可以为图5所示的碎片文本特征c2。以此类推,该计算机设备可以基于碎片an在训练文本信息501a中的碎片位置(例如,图5所示的碎片位置n),在该训练文本特征中确定该碎片an的碎片文本特征,该碎片an的碎片文本特征可以为图5所示的碎片文本特征cn。
147.应当理解,在模型训练阶段,由于每一段文本碎片均可以对应样本图片中的一部分。所以,为确保后续对样本图像特征进行特征解码的准确性,该计算机设备需要对每个碎
片自身的碎片位置进行记录,还需要对每个碎片中的碎片元素的元素位置一并进行记录。所以,如图5所示,计算机设备可以将碎片a1的碎片位置(例如,图5所示的碎片位置1)和该碎片a1中的碎片元素的元素位置(例如,元素位置1

1、元素位置1

2、

、元素位置1

6)统称为该碎片a的相对位置编码信息,进而可以对该碎片a的相对位置编码信息进行相对编码,以得到该碎片a的相对位置特征,如图5所示,此时,计算机设备可以综合考虑该碎片a1的碎片文本特征c1和该碎片a1的相对位置特征,以得到该碎片a1的样本文本特征。该碎片a1的样本文本特征可以为图5所示的样本文本特征b1。
148.同理,如图5所示,计算机设备可以综合考虑该碎片a2的碎片文本特征c2和该碎片a2的相对位置特征,以得到该碎片a2的样本文本特征。该碎片a2的样本文本特征可以为图5所示的样本文本特征b2。其中,该计算机设备计算得到该碎片a2的相对位置特征的具体实现方式,可以一并参见对计算得到碎片a1的相对位置特征的描述。以类类推,计算机设备可以综合考虑该碎片a3的碎片文本特征c3和该碎片a3的相对位置特征,以得到该碎片a3的样本文本特征。该碎片a3的样本文本特征可以为图5所示的样本文本特征b3。其中,该计算机设备计算得到该碎片a3的相对位置特征的具体实现方式,可以一并参见对计算得到碎片a1的相对位置特征的描述。此外,计算机设备还可以综合考虑该碎片an的碎片文本特征cn和该碎片an的相对位置特征,以得到该碎片an的样本文本特征。该碎片an的样本文本特征可以为图5所示的样本文本特征bn。其中,该计算机设备计算得到该碎片an的相对位置特征的具体实现方式,可以一并参见对计算得到碎片a1的相对位置特征的描述。
149.由此可见,对于上述第一样本碎片(例如,图5所示的碎片a1)和第二样本碎片(例如,碎片a2)而言,计算机设备可以基于该第一样本碎片在训练文本信息中的碎片位置(例如,图5所示的碎片位置1),在训练文本特征中确定第一样本碎片的碎片文本特征(例如,图5所示的碎片文本特征c1),且基于第二样本碎片在训练文本信息中的碎片位置(例如,图5所示的碎片位置2),在训练文本特征中确定第二样本碎片的碎片文本特征(例如,图5所示的碎片文本特征c2)。进一步的,如图5所示,计算机设备可以将第一样本碎片的碎片位置(例如,图5所示的碎片位置1)和第一样本碎片中的碎片元素的元素位置作为第一样本碎片的第一相对编码位置信息,进而可以基于第一相对编码位置信息对第一样本碎片进行相对编码,以得到第一样本碎片的相对位置特征。然后,计算机设备可以基于第一样本碎片的碎片文本特征(例如,图5所示的碎片文本特征c1)和第一样本碎片的相对位置特征,得到第一样本碎片的第一样本文本特征(例如,图5所示的样本文本特征b1)。
150.同理,如图5所示,计算机设备可以将第二样本碎片的碎片位置(例如,图5所示的碎片位置2)和第二样本碎片中的碎片元素的元素位置作为第一样本碎片的第二相对编码位置信息,进而可以基于第二相对编码位置信息对第二样本碎片进行相对编码,以得到第二样本碎片的相对位置特征。然后,计算机设备可以基于第二样本碎片的碎片文本特征(例如,图5所示的碎片文本特征c2)和第二样本碎片的相对位置特征,得到第二样本碎片的第二样本文本特征(例如,图5所示的样本文本特征b2)。
151.步骤s102,将第一样本碎片的第一样本文本特征与样本图片的样本图像特征输入初始网络模型中的递归注意力网络,通过递归注意力网络确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本,将第一预测文本添加至初始网络模型中的记忆网络;
152.其中,初始网络模型包含第一样本分支模型和第二样本分支模型;第二样本分支模型包括语义提取网络、递归注意力网络和记忆网络;第一样本分支模型用于提取样本图片的样本图像特征;语义提取网络用于提取第一样本碎片的第一样本文本特征;第一样本碎片的碎片元素包含第一碎片元素和第二碎片元素;第二碎片元素为第一碎片元素的下一碎片元素;具体的,计算机设备可以基于第一碎片元素在第一样本碎片中的元素位置,从第一样本碎片的第一样本文本特征中获取与第一碎片元素相关联的第一元素辅助特征;进一步的,计算机设备可以基于第一元素辅助特征、样本图片的样本图像特征、递归注意力网络中的第一注意力层以及第一注意力层对应的第一选择门,确定第一碎片元素与样本图片之间的第一权重关系特征,将第一权重关系特征输入至递归注意力网络中的第一语言层,由第一语言层输出第一碎片元素对应的第一预测元素;进一步的,计算机设备可以将第一预测元素的第一元素特征递归作为与第二碎片元素相关联的第二元素辅助特征,基于第二元素辅助特征、样本图像特征、递归注意力网络中的第二注意力层以及第二注意力层对应的第二选择门,确定第二碎片元素与样本图片之间的第二权重关系特征,将第二权重关系特征输入至递归注意力网络中的第二语言层,由第二语言层输出第二碎片元素对应的第二预测元素;进一步的,计算机设备可以基于第一权重关系特征和第二权重关系特征确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本;第一预测文本中包含第一预测元素和第二预测元素;进一步的,计算机设备可以将包含第一预测元素和第二预测元素的第一预测文本添加至初始网络模型中的记忆网络。
153.为便于理解,进一步的,请参见图6,图6是本技术实施例提供的一种输出第一样本碎片的第一预测文本的场景示意图。如图6所示的分支模型62a为上述第二样本分支模型,基于此,位于该分支模型62a中的网络601a可以为上述递归注意力网络,且位于该分支模型62a中的网络601b可以为上述记忆网络。
154.可以理解的是,本技术实施例可以在模型训练阶段,通过记忆网络(例如,图6所示的网络601b)来存储碎片间的信息交互,并可以通过上述第二样本分支模型所使用的相对编码的方式建模得到碎片之间的上下文关系,进而可以使得不同样本碎片具备不同的相对编码位置信息,这样,可以有效地避免使用绝对位置编码对不同碎片中的碎片元素在同一碎片位置出现相同字符使用同一编码方式,而导致编码混淆的问题。
155.比如,如图6所示的碎片a1的相对位置特征为该计算机设备对该碎片a1的相对编码位置信息进行相对编码所得到的。碎片a2的相对位置特征为该计算机设备对该碎片a2的相对编码位置信息进行相对编码所得到的。碎片a3的相对位置特征为该计算机设备对该碎片a3的相对编码位置信息进行相对编码所得到的。以此类推,碎片an的相对位置特征为该计算机设备对该碎片a1的相对编码位置信息进行相对编码所得到的。所以,即使不同碎片中的碎片元素在同一碎片位置出现相同字符,采用该相对编码方式可以对不同碎片中的这些相同字符使用不同的编码方式,进而可以映射得到不同碎片中的这些碎片元素的相对元素位置特征。应当理解,此时,计算机设备可以基于同一碎片中的这些碎片元素的相对元素位置特征、以及各碎片自身的碎片位置的相对碎片位置特征,综合得到图6所示的每个样本碎片的相对位置特征。
156.如图6所示,计算机设备还可以通过上述递归注意力网络建立不同碎片中的碎片
元素与样本图片中的图像字符之间的关联关系。比如,如图6所示,计算机设备可以通过图6所示的网络601a(例如,递归注意网络)在t1’时刻确定碎片a1与图6所示的样本图片之间的图文关系特征d1,进而可以基于该图文关系特征d1输出图6所示的文本603a。同理,如图6所示,计算机设备可以通过图6所示的网络601a(例如,递归注意网络)在t2’时刻确定碎片a2与图6所示的样本图片之间的图文关系特征d2,进而可以基于该图文关系特征d2输出图6所示的文本603b。同理,如图6所示,计算机设备可以通过图6所示的网络601a(例如,递归注意网络)在t3’时刻确定碎片a3与图6所示的样本图片之间的图文关系特征d3,进而可以基于该图文关系特征d3输出图6所示的文本603c。以此类推,如图6所示,计算机设备可以通过图6所示的网络601a(例如,递归注意网络)在tn’时刻确定碎片an与图6所示的样本图片之间的图文关系特征dn,进而可以基于该图文关系特征dn输出图6所示的文本603d。
157.其中,为便于理解,本技术实施例以图6所示的碎片a1为上述第一样本碎片为例,以阐述通过图6所示的网络601a输出第一样本碎片的第一预测文本的具体过程。应当理解,该计算机设备可以将该递归注意力网络在上述t1’时刻所确定的碎片a1与图6所示的样本图片之间的图文关系特征d1,统称为第一样本碎片与样本图片之间的第一图文关系特征。应当理解,这里的第一图文关系特征是由该第一样本碎片中的每个碎片元素与样本图片之间的关系特征所确定的,且图6所示的文本603a为该第一样本碎片的第一预测文本,该第一预测文本中的预测元素具体可以包含图6所示的6个预测元素。这6个预测元素具体可以包含:图6所示的预测元素“<sos>”、图6所示的预测元素“a”、图6所示的预测元素“b”、图6所示的预测元素“a”、图6所示的预测元素“c”、以及图6所示的预测元素“d”。应当理解,计算机设备在通过图6所示的网络601a(即递归注意力网络)输出第一样本碎片中的每个碎片元素的预测元素时,可以按照上述文本切分单位(例如,l=6)成段输出由这6个预测元素所构成的预测文本(例如,图6所示的文本603a),进而可以继续执行下述步骤s103,以将该第一样本碎片的第一预测文本作为第二样本碎片的辅助文本,以便于后续可以预测得到该第二样本碎片的第二预测文本,该第二预测文本可以为图6的文本603b。同理,对于该训练文本信息的其他样本碎片(例如,碎片a2、碎片a3、

、碎片an)的预测文本的输出方式,可以一并参见本技术实施例中对输出第二预测文本的具体过程的描述,这里将不再继续进行赘述。
158.此外,可以理解的是,本技术实施例还可以以包含书写类文本的样本图片为例,进而可以阐述如何通过递归注意力网络将该样本图片中的训练文本信息内的第一样本碎片与样本图片进行特征关联,以便于后续可以对包含书写类文本的目标图片进行文本识别。为便于理解,本技术实施例以该第一样本碎片中的任意两个相邻碎片元素为例,以阐述通过递归注意力网络确定任意两个相邻碎片元素与样本图片之间的权重关系特征的具体过程。这里的第一样本碎片可以包含第一碎片元素和第二碎片元素。注意,这里的第二碎片元素为第二碎片元素的下一碎片元素。
159.为便于理解,进一步的,请参见图7,图7是本技术实施例提供的一种通过递归注意力网络确定注意力图特征的场景示意图。如图7所示的样本图片可以输入图7的分支模型71a,该分支模型71a可以为上述第一样本分支模型,通过该第一样本分支模型中的卷积核可以对图7所示的样本图片进行卷积处理,进而可以得到图7所示的卷积处理后的图像特征701a。如图7所示,计算机设备可以将该样本图片对应的训练文本信息给到图7所示的分支模型72a,该分支模型72a可以为上述第二样本分支模型,以通过该第二样本分支模型中的
语义提取网络实时地对图7所示的样本碎片s1(例如“<sos>but o”)、样本碎片s2(例如“nline”)、

、样本碎片sn(例如“ng<eos>”)进行语义特征提取和相对位置编码,以实时编码得到图7所示的样本碎片s1的样本文本特征p1、样本碎片s2的样本文本特征p2、

、样本碎片sn的样本文本特征pn。
160.如图7所示,计算机设备可以通过递归注意力网络建立图7的样本文本特征p1与图像特征701a之间的图文对齐关系1,建立图7的样本文本特征p2与图像特征701a之间的图文对齐关系2、以及建立图7的样本文本特征pn与图像特征701a之间的图文对齐关系n。为便于理解,本技术实施例以图7所示的样本碎片s1(例如“<sos>buto”)为例,以阐述在图7所示的递归注意力网络中建立该样本碎片s1中的任意两个相邻碎片元素与样本图片之间的权重关系特征。
161.需要注意的是,样本碎片s1中的碎片元素(例如“<sos>”)为该训练文本信息的起始标识符(该起始标识符所对应的碎片元素为占位元素,不具有实际意义,所以,该递归注意力网络可以直接将该起始标识所对应的占位元素作为用于开始进行元素预测的元素进行输出),故而可以直接将该起始标识符所对应的元素特征作为该训练文本信息中的第一个元素的辅助特征。此时,本技术实施例可以将该训练文本信息中的第一个元素(即与起始标识符相邻的元素)作为第一碎片元素,并可以将该起始标识符所对应的元素特征作为该第一碎片元素的第一元素辅助特征。此时,计算机设备可以基于该第一元素辅助特征、样本图片的样本图像特征、递归注意力网络中的第一注意力层以及第一注意力层对应的第一选择门,确定第一碎片元素与样本图片之间的第一权重关系特征。该第一碎片元素与样本图片之间的第一权重关系特征是由图7所示的递归注意力网络中的注意力图特征w1(即第一注意力图特征)所确定的。在图7所示的注意力图特征w1所对应的注意力图中该第一碎片元素(例如,图7所示的元素“b”)的元素位置所在的位置区域被亮高显示,即代表该亮高显示的第一碎片元素(即图7所示的元素“b”)在该注意力图特征w1所对应的注意力图中具有较高的权重。然后,计算机设备可以基于前述第一图文关系特征输出第一碎片元素的第一预测元素(例如,图7所示的识别结果中的字符“b”)。
162.同理,计算机设备可以将该第一碎片元素的下一碎片元素(图7所示的元素“u”)作为第二碎片元素,并将该第一碎片元素对应的第一预测元素作为该第二碎片元素的辅助元素,进而可以将该第一预测元素的第一元素特征递归的作为与第二碎片元素相关联的第二元素辅助特征,进而可以基于第二元素辅助特征、样本图像特征、递归注意力网络中的第二注意力层以及第二注意力层对应的第二选择门,确定第二碎片元素与样本图片之间的第二权重关系特征。可以理解的是,该第二碎片元素与样本图片之间的第二权重关系特征是由图7所示的递归注意力网络中的注意力图特征w2(即第二注意力图特征)所确定的。在图7所示的注意力图特征w2所对应的注意力图中该第二碎片元素(例如,图7所示的元素“u”)的元素位置所在的位置区域被亮高显示,即代表该亮高显示的第二碎片元素(即图7所示的元素“u”)在该注意力图特征w2所对应的注意力图中具有较高的权重。同理,计算机设备可以基于前述第二图文关系特征输出第二碎片元素的第二预测元素(例如,图7所示的识别结果中的字符“u”)。
163.以此类推,本技术实施例可以将由该递归注意力网络在当前时刻输出的第二预测元素作为新的辅助元素,进而可以将该新的辅助元素的原始特征递归作为与新的第二碎片
元素(例如,图7所示的元素“t”)的辅助特征(即新的第二元素辅助特征),进而可以基于该新的第二元素辅助特征、样本图像特征(例如,图7的图像特征701a)、递归注意力网络中的第二注意力层以及第二注意力层对应的第二选择门,确定该新的第二碎片元素与样本图片之间的权重关系特征(即新的第二权重关系特征),以便于后续可以输出得到该新的第二碎片元素的预测元素(例如,该新的第二预测元素可以为图7所示的识别结果中的元素“t”)。该计算机设备输出新的第二预测元素的具体实现方式可以参见,上述对输出第二预测元素的具体过程的描述,这里将不再继续进行赘述。
164.如图7所示,计算机设备可以基于图7所示的每个注意力图特征,遍历输出训练文本信息中的每个元素与样本图片之间的权重关系特征,进而可以将这些遍历输出的权重关系特征统称为上述图文关系特征,进而可以基于这些图文关系特征,得到图7所示的训练文本信息中的m(例如,m=19)个预测元素,这m个预测元素可以构成图7所示的识别结果,即m个预测元素可以为“but online shopping”。
165.应当理解,在模型训练阶段,计算机设备可以实时判断由该递归注意力网络所输出的预测元素的元素数量是否达到上述文本切分参数(例如,上述l=6),如果达到,则可以将达到该文本切分参数时的l个预测元素构成的预测文本,作为该第一样本碎片的第一预测文本,以便于后续可以执行下述步骤s103。反之,该计算机设备可以递归执行上述输出第二预测元素的过程。
166.为便于理解,进一步的,请参见图8,图8是本技术实施例提供的一种递归输出训练文本信息中的每个碎片元素的预测元素的场景示意图。如图8所示的训练样本图片可以为上述图7所对应实施例中的样本图片,如图8所示,计算机设备可以通过上述递归注意力网络解码得到样本图片中的每个字符,这里的每个字符即为图8所示的每个碎片元素的预测元素。如图8所示的辅助特征u1即为起始标识符这一元素所对应的元素特征。如图8所示,计算机设备可以将辅助特征u1作为第一碎片元素的第一元素辅助特征,进而可以将该第一元素辅助特征和图8的样本图片的样本图像特征作为第一样本碎片的第一输入特征,进而可以将该第一输入特征输入图8所示的注意力层1(即第一注意力层),以通过该注意力层1确定第一碎片元素在样本图片中的第一注意力图特征,该第一注意力图特征可以为图8的注意力图特征w1。如图8所示,该计算机设备可以将该注意力图特征和图8所示的辅助特征(即第一元素辅助特征)输入图8所示的选择门1(即第一选择门,应当理解,这里的选择门1是与注意力层1一一对应的),以使得该选择门1可以选取且输出该第一碎片元素(例如,上述碎片元素“b”)与样本图片(即图8所示的训练样本图片)之间的权重关系特征1(即上述第一权重关系特征)。
167.如图8所示,计算机设备在将该图文关系特征1作为第一图文关系特征,以将该第一图文关系特征给到图8所示的语言层1,进而可以由该语言层1(即第一语言层)对第一碎片元素进行元素识别,以识别得到第一碎片元素对应的第一预测元素,该第一预测元素可以为图8所示的预测元素“b”。如图8所示,本技术实施例可以利用递归注意力网络的递归特性,将该语言层1所输出的预测元素“b”(即第一预测元素)作为下一碎片元素的辅助元素。该预测元素“b”的元素特征(即图8所示的辅助特征u2)可以作为下一碎片元素的第二元素辅助特征。如图8所示,该计算机设备可以将该辅助特征u2和样本图像特征作为第一样本碎片的第二输入特征,进而可以将第二输入特征输入至图8所示的注意力层2(即第二注意力
层),以使得该注意力层2确定第二碎片元素在样本图片中的第二注意力图特征,该第二注意力图特征可以为图8所示的注意力图特征w2。然后,计算机设备可以将该注意力图特征w2(即第二注意力图特征)和辅助特征u2(即第二元素辅助特征)输入图8所示的选择门2(即第二选择门),并由该选择门2选取且输出第二碎片元素与样本图片之间的第二权重关系特征,该第二权重关系特征可以为图8所示的权重关系特征2。如图8所示,计算机设备可以将该权重关系特征2作为第一图文关系特征给到图8所示的语言层2,以使该语言层2对第二碎片元素进行元素识别,以得到第二碎片元素对应的第二预测元素,该第二预测元素可以为图8所示的预测元素“u”。
168.如图8所示,计算机设备可以递归的将预测元素“u”作为新的辅助元素,以递归地通过这些递归注意力网络输出每个碎片元素的预测元素。比如,计算机设备可以在预测输出最后一个碎片中的结束标识符的元素位置所对应的预测元素时,可以得到该训练文本信息中的每个碎片元素的预测元素,这些预测元素所构成的预测文本可以为上述图7所对应实施例中的识别结果。
169.步骤s103,将记忆网络中所存储的第一预测文本作为第二样本碎片的训练辅助文本,将训练辅助文本所对应的第一样本文本特征、第二样本文本特征、以及样本图像特征输入递归注意力网络,通过递归注意力网络确定第二样本碎片与样本图片之间的第二图文关系特征,基于第二图文关系特征输出第二样本碎片的第二预测文本,将第二预测文本添加至记忆网络;
170.其中,第一样本碎片的碎片长度和第二样本碎片的碎片长度均由初始网络模型的文本切分参数所确定的;第一预测文本是第二样本分支模型在统计到由递归注意力网络中的语言层所输出的预测元素的累计数量达到文本切分参数时所确定的;预测元素为递归注意力网络将第一样本碎片中的碎片元素和样本图片进行特征关联后所确定的。
171.具体的,如上述图6所示,计算机设备可以将预测得到的第一样本碎片的第一预测文本(例如,上述图6所示的文本603a)添加到记忆网络,进而可以将记忆网络中的该第一预测文本作为第二样本碎片的训练辅助文本。进一步的,上述图6所示,计算机设备可以将训练辅助文本所对应的第一样本文本特征作为训练辅助文本特征,并可以将训练辅助文本特征、第二样本文本特征(并未在上述图6上示出)、以及样本图像特征输入递归注意力网络,并可以通过递归注意力网络将第二样本碎片与样本图片进行特征关联,以得到用于表征第二样本碎片与样本图片之间的关联关系的第二图文关系特征。其中,可以理解的是,该计算机设备通过递归注意力网络确定第二图文关系特征的具体实现方式,可以参见上述通过递归注意力网络确定第一图文关系特征的具体过程的描述,这里将不再继续进行赘述。
172.进一步的,计算机设备将第二图文关系特征输入递归注意力网络中的语言层,并可以由递归注意力网络中的语言层输出与第二样本碎片中的碎片元素相关联的预测元素;可以理解的是,该计算机设备输出第二样本碎片中的每个碎片元素的预测元素的具体实现方式,可以参见上述图8所对应实施例中对第一碎片元素的第一预测元素和第二碎片元素的第二预测元素的具体过程的描述,这里将不再继续进行赘述。
173.进一步的,计算机设备可以在检测到递归注意力网络中的语言层输出的预测元素的数量达到文本切分参数时,基于递归注意力网络中的语言层输出的预测元素,输出第二样本碎片的第二预测文本(例如,上述图6所对应实施例中的文本603a),并可以将第二预测
文本添加至记忆网络,以便于可以将该第二预测文本作为下一样本碎片的训练辅助文本,进而可以让该新的训练辅助文本参与下一样本碎片的预测文本的预测,以确保该递归注意力网络可以充分利用碎片之间的信息交互。
174.步骤s104,基于记忆网络中的第一预测文本和第二预测文本,确定训练文本信息的样本预测标签,基于样本训练标签和样本预测标签,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为用于对目标图片进行文本识别的目标网络模型。
175.具体的,计算机设备可以基于样本预测标签对应的预测概率值和样本训练标签对应的真实概率值,确定用于对初始网络模型中的模型参数进行调整的初始损失函数;进一步的,若计算机设备确定初始损失函数的值不满足模型收敛条件,则基于初始损失函数的值调整初始网络模型中的各个分支网络的模型参数,进而可以通过训练文本信息和样本图片所构成的训练样本信息对调整后的初始网络模型进行迭代训练,以得到迭代训练后的初始网络模型的目标损失函数;进一步的,若目标损失函数的值满足模型收敛条件,则计算机设备可以将满足模型收敛条件的迭代训练后的初始网络模型确定为目标网络模型。其中,目标网络模型用于对获取到的目标图片的目标文本信息进行文本识别。
176.其中,可以理解的是,计算机设备在预测得到预测标签之后,可以将其与样本图片的真实标签(例如,上述图8所对应实施例中的训练样本图片的样本训练标签)进行比较,以得到模型损失函数的初始损失函数值。可以理解的是,若该初始损失函数值不满足上述模型收敛条件(例如,该初始损失函数值并不是模型训练阶段中的最小损失函数值),则该计算机设备可以基于该初始损失函数值反向调整初始网络模型中的模型参数,以通过新的训练样本信息对调整后的初始网络模型进行迭代训练,直到迭代训练后的初始网络模型的目标损失函数值满足模型收敛条件,则将满足模型收敛条件的迭代训练后的初始网络模型确定为目标网络模型。
177.应当理解,可选的,当上述计算机设备训练得到目标网络模型时,还可以将该训练好的目标网络模型集成在上述第一终端(这里的第一终端可以为上述第一用户终端集群中的任意一个用户终端),这样,该第一终端在前端通过文本检测方式确定出目标图片之后,则可以在第一终端中直接基于预先训练好的网络模型(即上述目标网络模型)直接对该目标图片中的目标文本信息进行文本识别,从而可以减少与服务器之间的信令交互。这样,可以在该第一终端的本地对目标图片中的文本进行识别,从而可以提高文本识别的效率。
178.本技术实施例中的计算机设备可以在模型训练阶段中,获取携带样本训练标签的样本图片,进而可以对该样本训练标签所指示的训练文本信息进行文本切分,以得到用于训练初始网络模型的第一样本碎片和第二样本碎片。其中,应当理解,由于本技术实施例在获取到样本图片时,已知该样本图片中的训练文本信息,故而可以在模型训练阶段对训练文本信息进行文本切分,以实现对任意长度的训练文本信息的碎片化处理,以便于后续在使用训练了的初始网络模型(即目标网络模型)进行文本识别时,可以提升训练好的模型的泛化能力。此外,本技术实施例还可以通过递归注意力网络提取到各样本碎片与样本图片之间的图文依赖关系,该图文依赖关系至少包含上述第一图文关系特征和第二图文关系特征。所以,在通过该图文依赖关系输出各预测文本时,不仅可以通过递归注意力网络将图文特征进行关联,还可以通过引入的记忆网络从根源上解决长时遗忘的问题。比如,通过记忆网络可以将计算机设备当前输出的这一段碎片文本可以作为下一段碎片文本的训练辅助
文本,进而可以通过记忆网络充分利用碎片之间的上下文关系,进而可以提升对图片进行文本识别的准确度。
179.进一步的,请参见图9,图9是本技术实施例提供的一种文本数据处理方法的流程示意图。其中,可以理解的是,本技术实施例提供的方法可以由计算机设备执行,这里的计算机设备包括但不限于用户终端或服务器。如图9所示,该方法至少可以包括下述步骤s201

步骤s208;
180.步骤s201,获取携带样本训练标签的样本图片,基于文本切分参数对训练样本标签所指示的训练文本信息进行文本切分,得到训练文本信息的样本碎片集;
181.其中,样本碎片集用于存储对训练文本信息进行文本切分所得到的所有样本碎片;一个样本碎片对应一个样本切分标识;一个样本切分标识用于表征一个样本碎片在训练文本信息中的碎片位置。
182.步骤s202,基于每个样本碎片的样本切分标识,从样本碎片集中获取用于训练初始网络模型的第一样本碎片,基于第一样本碎片在训练文本信息中的碎片位置,将第一样本碎片的下一样本碎片作为第二样本碎片;
183.其中,步骤s201

步骤s202的具体实现方式,可以参见上述图3所对应实施例中对训练文本信息进行文本切分的具体过程的描述,这里将不再继续进行赘述。
184.步骤s203,通过第一样本分支模型提取样本图片的样本图像特性;
185.步骤s204,通过语义提取网络确定第一样本碎片的第一样本文本特征,且通过语义提取网络确定第二样本碎片的第二样本文本特征。
186.其中,步骤s203

步骤s204的具体实现方式,可以参见上述图3所对应实施例中对获取第一样本文本特征和第二样本文本特征的具体过程的描述,这里将不再继续进行赘述。
187.步骤s205,将第一样本碎片的第一样本文本特征与样本图片的样本图像特征输入初始网络模型中的递归注意力网络,通过递归注意力网络确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本,将第一预测文本添加至初始网络模型中的记忆网络;
188.其中,初始网络模型包含第一样本分支模型和第二样本分支模型;第二样本分支模型包括语义提取网络、递归注意力网络和记忆网络;第一样本分支模型用于提取样本图片的样本图像特征;语义提取网络用于提取第一样本碎片的第一样本文本特征;第一样本碎片的碎片元素包含第一碎片元素和第二碎片元素;第二碎片元素为第一碎片元素的下一碎片元素。
189.具体的,计算机设备可以基于第一碎片元素在第一样本碎片中的元素位置,从第一样本碎片的第一样本文本特征中获取与第一碎片元素相关联的第一元素辅助特征;进一步的,计算机设备可以基于第一元素辅助特征、样本图片的样本图像特征、递归注意力网络中的第一注意力层以及第一注意力层对应的第一选择门,确定第一碎片元素与样本图片之间的第一权重关系特征,将第一权重关系特征输入至递归注意力网络中的第一语言层,由第一语言层输出第一碎片元素对应的第一预测元素;进一步的,计算机设备可以将第一预测元素的第一元素特征递归作为与第二碎片元素相关联的第二元素辅助特征,基于第二元素辅助特征、样本图像特征、递归注意力网络中的第二注意力层以及第二注意力层对应的
第二选择门,确定第二碎片元素与样本图片之间的第二权重关系特征,将第二权重关系特征输入至递归注意力网络中的第二语言层,由第二语言层输出第二碎片元素对应的第二预测元素;进一步的,计算机设备可以基于第一权重关系特征和第二权重关系特征确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本;第一预测文本中包含第一预测元素和第二预测元素;进一步的,计算机设备可以将包含第一预测元素和第二预测元素的第一预测文本添加至初始网络模型中的记忆网络。
190.其中,计算机设备输出第一预测元素的具体过程可以描述为:计算机设备可以将第一元素辅助特征和样本图片的样本图像特征作为与第一样本碎片相关联的第一输入特征;进一步的,计算机设备可以将第一输入特征输入至递归注意力网络中的第一注意力层,由第一注意力层确定第一碎片元素在样本图片中的第一注意力图特征;进一步的,计算机设备可以将第一注意力图特征和第一元素辅助特征输入第一注意力层对应的第一选择门,由第一选择门选取且输出第一碎片元素与样本图片之间的第一权重关系特征;进一步的,计算机设备可以将第一权重关系特征输入至递归注意力网络中的第一语言层,由第一语言层对第一碎片元素进行元素识别,得到第一碎片元素对应的第一预测元素。
191.为便于理解,本技术实施例基于上述图8所对应实施例中的选择门(例如,上述选择门1),阐述如何通过选择门1输出第一权重关系特征的场景示意图。进一步的,请参见图10,图10是本技术提供的一种通过选择门输出权重关系特征的场景示意图。如图10所示的注意力图像特征可以为上述图8所对应实施例中的注意力图特征w1。同理,图10所示的元素辅助特征可以为上述图8所对应实施例中的辅助特征u1。如图10所示,计算机设备可以将该辅助特征u1(即上述第一元素辅助特征)和注意力图特征w1(即第一注意力图特征)分别送入图10所示的多相似度计算模块。可以理解的是,本技术实施例可以通过图10所示的多相似的计算模块可以包括多种选择规则,这里的多种选择规则具体可以包含第一选择规则、第二选择规则和第三选择规则。
192.其中,通过该选择门中的第一选择规则可以提取注意力图特征w1(即第一注意力图特征)和辅助特征u1(即上述第一元素辅助特征)之间的第一内积相似度,进而可以将第一选择规则所指示的第一权重系数(例如,β1)与第一内积相似度之间的乘积作为第一相似特征。
193.其中,通过该选择门中的第二选择规则可以提取注意力图特征w1(即第一注意力图特征)和辅助特征u1(即上述第一元素辅助特征)之间的第一高斯相似度,进而可以将第二选择规则所指示的第二权重系数(例如,β2)与第一高斯相似度之间的乘积作为第二相似特征。
194.同理,通过该选择门中的第三选择规则可以提取注意力图特征w1(即第一注意力图特征)和辅助特征u1(即上述第一元素辅助特征)之间的第一字符串相似度,进而可以将第三选择规则所指示的第三权重系数(例如,β3)与第一字符串相似度之间的乘积作为第三相似特征。
195.然后,如图10所示,计算机设备可以按照如下公式(1)对该多像素点计算模块所计算得到的相似特征进行特征融合:
196.k=β1k
inner
β2k
gaussian
β3k
js
公式(1);
197.其中,k
inner
用于表示内积相似度(例如,上述第一内积相似度),所以,β1与k
inner
的乘积(即β1k
inner
)可以作为上述第一相似特征。同理,k
gaussian
用于表示高斯相似度(例如,上述第一高斯相似度),所以,β2与k
gaussian
的乘积(即β2k
gaussian
)可以作为上述第二相似特征。以此类推,k
js
用于表示字符串似度(例如,上述第一字符串相似度),所以,β3与k
js
的乘积(即β3k
js
)可以作为上述第三相似特征。其中,k可以用于表示融合特征。其中,β1 β2 β3=1。
198.如图10所示,计算机设备通过将这三个特征进行特征融合之后,可以得到第一融合特征(即前述k),此时,计算机设备还可以通过softmax函数对第一融合特征进行归一化处理,以得到图10所示的注意力权重矩阵113a。本技术实施例可以将该注意力权重矩阵113a统称为第一碎片元素与样本图片之间的第一权重矩阵。如图10所示,计算机设备还可以将该注意力权重矩阵(即第一权重矩阵)与图10所示的注意力图特征w1(即第一注意力图特征)进行掩膜相乘,以从该注意力图特征w1(即第一注意力图特征)中选取得到第一碎片元素与样本图片之间的第一权重关系特征。该第一权重关系特征可以为图10所示的权重关系特征114a。然后,计算机设备可以将第一权重关系特征输入至递归注意力网络中的第一语言层(比如,上述图8所示的语言层1),由第一语言层对第一碎片元素进行元素识别,得到第一碎片元素对应的第一预测元素。
199.应当理解,该计算机设备通过上述图8所示的选择门2确定述第二碎片元素与样本图片之间的第二权重关系特征的具体实现方式,可以参见图10所对应实施例中对输出权重关系特征114的描述,这里将不再继续信息赘述。
200.步骤s206,将记忆网络中所存储的第一预测文本作为第二样本碎片的训练辅助文本,将训练辅助文本所对应的第一样本文本特征、第二样本文本特征、以及样本图像特征输入递归注意力网络,通过递归注意力网络确定第二样本碎片与样本图片之间的第二图文关系特征,基于第二图文关系特征输出第二样本碎片的第二预测文本,将第二预测文本添加至记忆网络;
201.具体的,语义提取网络还用于提取第二样本碎片的第二样本文本特征;第二样本碎片的碎片元素包含第三碎片元素和第四碎片元素;第四碎片元素为第三碎片元素的下一碎片元素。具体的,计算机设备可以基于第三碎片元素在第二样本碎片中的元素位置,从第二样本碎片的第二样本文本特征中获取与第三碎片元素相关联的第三元素辅助特征;注意,本技术实施例可以将该第一样本碎片的最后一个碎片元素的预测元素作为与该第二样本碎片中的第三碎片元素(例如,上述图8所对应实施例中的碎片元素“n”,该碎片元素“n”在训练文本信息的第二样本碎片中的碎片位置为上述1

6)相关联的辅助元素(例如,上述图8所对应实施例中的碎片元素“o”,该碎片元素“o”在训练文本信息的第二样本碎片中的碎片位置为上述2

1),进而可以将该辅助元素(例如,上述图8所对应实施例中的碎片元素“o”)的元素特征作为第三碎片元素的第三元素辅助特征。应当理解,本技术实施例可以基于第三元素辅助特征、样本图片(例如,图8所示的训练样本图片)的样本图像特征、递归注意力网络中的第三注意力层(即新的第一注意力层)以及第三注意力层对应的第三选择门(即新的第一选择门),确定第三碎片元素与样本图片之间的第三权重关系特征(即新的第一权重关系特征),进而可以将第三权重关系特征(即新的第一权重关系特征)输入至递归注意力网络中的第三语言层(即新的第一语言层),由第三语言层(即新的第一语言层)输出第三碎片元素对应的第三预测元素。同理,计算机设备可以在对上述样本图像特征进行解
码的过程中,将上一步解码输出的预测元素和该样本图像特征,继续送入第四注意力层(即新的第二注意力层),进而可以在得到第四碎片元素与样本图片之间的第四注意力图特征之后,在将上一步最新解码输出的预测元素的元素特征(即第四辅助元素特征)和该第四注意力图特征给到第四选择门(即新的第二选择门),以使该第四选择门(即新的第二选择门)可以得到该第四碎片元素的第四权重关系特征时,可以进一步通过递归注意力网络中的第四语言层,对该第四碎片元素进行元素识别,进而可以得到第四碎片元素对应的第四预测元素。
202.为便于理解,进一步的,请参见图11,图11是本技术实施例提供的一种通过递归注意力网络解码输出预测文本的场景示意图。如图11所示,计算机设备可以通过递归注意力网络生成图11所示的注意力图,该注意力图是由训练文本信息中的每个碎片元素与样本图片之间的注意力图特征所确定的。对于上述起始标识符所对应的碎片元素自身而言,可以通过该递归注意力网络直接解码输出该起始标识符的预测元素,并可可以将该起始标识符的预测元素直接作为下一碎片元素的元素辅助特征,以参与下一碎片元素的元素预测。具体预测过程可以参见上述图8所对应实施例所给出的得到与第一样本碎片相关联的第一预测元素和第二预测元素的过程,如图11所示,计算机设备所得到的预测文本1可以为上述第一样本碎片的第一预测文本。
203.同理,对于第二样本碎片而言,计算机设备可以在检测到递归注意力网络中的语言层(例如,上述第三语言层和第四语言层)输出的预测元素的数量达到文本切分参数(例如,上述l=6)时,可以基于递归注意力网络中的语言层遍历输出的与第二样本碎片相关联的预测元素(例如,图11所示的“n”、“l”、“i”、“n”、“e”、“<space>”),从而可以得到第二样本碎片的第二预测文本(例如,图11所示的这些预测元素所构成的预测文本为图11所示的预测文本2),进而可以将第二预测文本添加至记忆网络,以便于可以将该第二预测文本作为下一样本碎片的辅助文本,以参与下一样本碎片的预测文本的预测过程。
204.步骤s207,基于记忆网络中的第一预测文本和第二预测文本,确定训练文本信息的样本预测标签,基于样本训练标签和样本预测标签,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为用于对目标图片进行文本识别的目标网络模型。
205.可选的,计算机设备在执行完上述步骤s207之后,还可以使用该目标网络模型执行下述步骤:
206.计算机设备可以获取携带目标文本信息的目标图片,通过目标网络模型中的第一目标分支模型提取目标图片的目标图像特征;其中,目标网络模型是基于携带样本训练标签的样本图片对初始网络模型进行训练后所得到的;目标网络模型还包括并列于第一目标分支模型的第二目标分支模型,第二目标分支模型中包含递归注意力网络和记忆网络;进一步的,计算机设备可以将目标图像特征输入递归注意力网络,通过递归注意力网络确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本,将第一目标文本添加至目标网络模型中的记忆网络;进一步的,计算机设备可以将记忆网络中所存储的第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,将目标辅助文本所对应的第一目标文本特征、和目标图像特征输入递归注意力网络,通过递归注意力网络确定第二目标碎片与目标图片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本,将第二目标
文本添加至记忆网络;进一步的,计算机设备可以基于记忆网络中的第一目标文本和第二目标文本,确定从目标图片中所识别到的目标文本信息。
207.可选的,计算机设备还可以在接收到用户终端(例如,上述第一终端)发送的目标图片时,通过该训练好的目标网络模型识别该目标图片中的目标文本信息。
208.由此可见,本技术实施例可以通过递归注意力网络提取到各样本碎片与样本图片之间的图文依赖关系,这里的图文依赖关系至少包含上述第一图文关系特征、第二图文关系特征、第三图文关系特征以及第四图文关系特征。所以,在通过这些图文依赖关系输出各预测文本时,不仅可以通过递归注意力网络将样本碎片的样本碎片特征与样本图片的样本图像特征进行特征关联,还可以通过引入的记忆网络从根源上解决长时遗忘的问题。比如,可以通过记忆网络将该计算机设备当前输出的这一段碎片文本作为下一段碎片文本的训练辅助文本,进而可以通过记忆网络充分利用碎片之间的上下文关系,以提升对图片进行文本识别的准确度。
209.进一步的,请参见图12,图12是本技术实施例提供的一种文本数据处理方法,该方法可以由上述计算机设备执行,其中,该方法可以包含以下步骤s301

步骤s304;
210.步骤s301,获取携带目标文本信息的目标图片,提取目标图片的目标图像特征。
211.具体的,计算机设备可以获取携带目标文本信息的目标图片,并可以通过目标网络模型中的第一目标分支模型提取目标图片的目标图像特征。
212.其中,目标网络模型是基于携带样本训练标签的样本图片对初始网络模型进行训练后所得到的;目标网络模型还包括并列于第一目标分支模型的第二目标分支模型,第二目标分支模型中包含递归注意力网络和记忆网络。
213.步骤s302,基于目标图像特征确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本。
214.具体的,计算机设备可以将目标图像特征输入递归注意力网络,并可以通过递归注意力网络确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,进而可以基于第一关联关系特征输出第一目标碎片的第一目标文本。进一步的,计算机设备还可以将第一目标文本添加至目标网络模型中的记忆网络,以便于可以在对目标图片中的目标文本信息进行识别的整个过程中,可以将该第一目标文本长期存储在该记忆网络。
215.步骤s303,将第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,基于目标辅助文本所对应的第一目标文本特征和目标图像特征,确定第二目标碎片与目标图片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本。
216.具体的,计算机设备可以将记忆网络中所存储的第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,并可以将目标辅助文本所对应的第一目标文本特征和目标图像特征输入递归注意力网络,进而可以通过递归注意力网络确定第二目标碎片与目标图片之间的第二关联关系特征。进一步的,计算机设备可以基于第二关联关系特征输出第二目标碎片的第二目标文本,并可以将第二目标文本添加至上述记忆网络。
217.步骤s304,基于第一目标文本和第二目标文本,确定从目标图片中所识别到的目标文本信息。
218.具体的,计算机设备可以基于记忆网络中的第一目标文本和第二目标文本,确定
从目标图片中所识别到的目标文本信息。
219.其中,步骤s301

步骤s304的具体实现方式可以参见上述图2所对应实施例中对通过目标网络模型识别得到目标文本信息的具体过程的描述,这里将不再继续进行赘述。另外,可以理解的是,计算机设备在得到目标网络模型之前,还可以通过上述图3或者图9所对应实施例中的文本数据处理方法对初始网络模型进行模型训练,进而可以在模型训练阶段通过初始网络模型对参与训练的样本图片中的训练文本信息进行文本切分,这意味着本技术实施例可以使用任意长度的训练文本信息对初始网络模型的进行模型训练,另外,通过该初始网络模型中的递归注意力网络,可以充分利用文本切分后的碎片片段之间的上下文信息,进而可以从根源上提升对超长文本这一类长文本序列的建模能力。即本技术实施例可以通过递归注意力模型存储上下文的语义信息并且可以处理任意长度的文本信息。此外,通过融入了选择门机制,可以进一步提升该目标网络模型综合目标图片的目标图像特征和上述样本图片所对应的样本碎片的语义信息的能力,这是之前文本识别方法所不具备的。需要注意的是,在上述文本识别场景下,本技术实施例在通过大量的文档类测试集(包括文档、论文、新闻等任意长度的测试图片)对初始网络模型进行训练,以得到目标网络模型的过程中,对这些测试图片进行文本识别的召回性能可以达到94.2、精度性能可以达到93.1,且f

measure(即召回性能和精度性能的综合评价指标)指标可以达到93.6。这相较于目前主流基于深度学习的文本识别方法,在召回性能。精度性能以及f

measure指标上有了较大的提升。
220.这样,当使用训练好的目标网络模型识别携带超长文本的目标图片时,可以通过目标网络模型中的递归注意力网络充分利用该目标图片中的超长文本的上下文关系。比如,本技术实施例可以以该目标网络模型的文本切分参数(例如,上述l=6)为文本切分单位,从遍历输出的超长文本的元素中确定属于各个目标碎片的预测文本。应当理解,本技术实施例可以根据实际业务需求,自适应调整用于进行文本切分参数进行调整。
221.由此可见,对于一些超长文本(即目标图片中的目标文本信息的文本长度大于样本图片中的训练文本信息的文本长度的文本)而言,可以基于上述文本切分参数得到一个目标碎片的预测文本(即第一目标碎片的第一目标文本)时,进一步将该第一目标文本添加至记忆网络,以使添加至该记忆网络(这里指具有长时记忆功能的网络)中的第一目标文本可以参与下一目标文本的文本预测,这样,可以从根源上解决对超长文本进行文本识别时的长时遗忘问题。与此同时,本技术实施例还可以将该第一目标文本作为下一目标碎片(即第二目标碎片)的目标辅助文本,以便于后续在输出第二目标碎片的第二目标文本的情况下,可以将记忆网络中所存储的各个目标碎片的预测文本进行整合,以快速且准确地识别出目标图片中的目标文本信息。
222.进一步地,请参见图13,图13是本技术实施例提供的一种文本数据处理装置的结构示意图。上述文本数据处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本数据处理装置1可以为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步骤。其中,该文本数据处理装置1可以包括:样本图片获取模块11、第一关系确定模块12、第二关系确定模块13、模型训练模块14;可选的,该文本数据处理装置1还可以包括:图像特征提取模块15,文本特征确定模块16。
223.样本图片获取模块11,用于获取携带样本训练标签的样本图片,对训练样本标签
所指示的训练文本信息进行文本切分,得到用于训练初始网络模型的第一样本碎片和第二样本碎片;第二样本碎片为第一样本碎片的下一样本碎片;
224.其中,样本图片获取模块11包括:文本切分单元111和碎片获取单元112;
225.文本切分单元111,用于获取携带样本训练标签的样本图片,基于文本切分参数对训练样本标签所指示的训练文本信息进行文本切分,得到训练文本信息的样本碎片集;样本碎片集用于存储对训练文本信息进行文本切分所得到的所有样本碎片;一个样本碎片对应一个样本切分标识;一个样本切分标识用于表征一个样本碎片在训练文本信息中的碎片位置;
226.碎片获取单元112,用于基于每个样本碎片的样本切分标识,从样本碎片集中获取用于训练初始网络模型的第一样本碎片,基于第一样本碎片在训练文本信息中的碎片位置,将第一样本碎片的下一样本碎片作为第二样本碎片。
227.其中,文本切分单元111和碎片获取单元112的具体实现方式可以参见上述图3所对应实施例中对步骤s101的描述,这里将不再继续进行赘述。
228.其中,初始网络模型包含第一样本分支模型和第二样本分支模型;第二样本分支模型包括语义提取网络;
229.可选的,图像特征提取模块15,用于通过第一样本分支模型提取样本图片的样本图像特性;
230.可选的,文本特征确定模块16,用于通过语义提取网络确定第一样本碎片的第一样本文本特征,且通过语义提取网络确定第二样本碎片的第二样本文本特征。
231.其中,文本特征确定模块16包括:训练特征提取单元161,碎片特征确定单元162,第一特征确定单元163和第二特征确定单元164;
232.训练特征提取单元161,用于通过语义提取网络,提取训练文本信息的训练文本特征;
233.碎片特征确定单元162,用于基于第一样本碎片在训练文本信息中的碎片位置,在训练文本特征中确定第一样本碎片的碎片文本特征,且基于第二样本碎片在训练文本信息中的碎片位置,在训练文本特征中确定第二样本碎片的碎片文本特征;
234.第一特征确定单元163,用于将第一样本碎片的碎片位置和第一样本碎片中的碎片元素的元素位置作为第一样本碎片的第一相对编码位置信息,基于第一相对编码位置信息对第一样本碎片进行相对编码,得到第一样本碎片的相对位置特征,基于第一样本碎片的碎片文本特征和第一样本碎片的相对位置特征,得到第一样本碎片的第一样本文本特征;
235.第二特征确定单元164,用于将第二样本碎片的碎片位置和第二样本碎片中的碎片元素的元素位置作为第一样本碎片的第二相对编码位置信息,基于第二相对编码位置信息对第二样本碎片进行相对编码,得到第二样本碎片的相对位置特征,基于第二样本碎片的碎片文本特征和第二样本碎片的相对位置特征,得到第二样本碎片的第二样本文本特征。
236.其中,训练特征提取单元161,碎片特征确定单元162,第一特征确定单元163和第二特征确定单元164的具体实现方式,可以参见上述图3所对应实施例中对相对位置编码的具体过程的描述,这里将不再继续进行赘述。
237.第一关系确定模块12,用于将第一样本碎片的第一样本文本特征与样本图片的样本图像特征输入初始网络模型中的递归注意力网络,通过递归注意力网络确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本,将第一预测文本添加至初始网络模型中的记忆网络;
238.其中,初始网络模型包含第一样本分支模型和第二样本分支模型;第二样本分支模型包括语义提取网络、递归注意力网络和记忆网络;第一样本分支模型用于提取样本图片的样本图像特征;语义提取网络用于提取第一样本碎片的第一样本文本特征;第一样本碎片的碎片元素包含第一碎片元素和第二碎片元素;第二碎片元素为第一碎片元素的下一碎片元素;
239.第一关系确定模块12包括:第一辅助特征确定单元121,第一元素输出单元122,第二元素输出单元123,预测文本输出单元124和第一文本添加单元125;
240.第一辅助特征确定单元121,用于基于第一碎片元素在第一样本碎片中的元素位置,从第一样本碎片的第一样本文本特征中获取与第一碎片元素相关联的第一元素辅助特征;
241.第一元素输出单元122,用于基于第一元素辅助特征、样本图片的样本图像特征、递归注意力网络中的第一注意力层以及第一注意力层对应的第一选择门,确定第一碎片元素与样本图片之间的第一权重关系特征,将第一权重关系特征输入至递归注意力网络中的第一语言层,由第一语言层输出第一碎片元素对应的第一预测元素;
242.其中,第一元素输出单元122包括:第一输入子单元1221、第一注意力确定子单元1222、第一权重选取子单元1223和第一识别子单元1224;
243.第一输入子单元1221,用于将第一元素辅助特征和样本图片的样本图像特征作为与第一样本碎片相关联的第一输入特征;
244.第一注意力确定子单元1222,用于将第一输入特征输入至递归注意力网络中的第一注意力层,由第一注意力层确定第一碎片元素在样本图片中的第一注意力图特征;
245.第一权重选取子单元1223,用于将第一注意力图特征和第一元素辅助特征输入第一注意力层对应的第一选择门,由第一选择门选取且输出第一碎片元素与样本图片之间的第一权重关系特征;
246.其中,第一权重选取子单元1223包括:第一特征提取子单元12231,第二特征提取子单元12232,第三特征提取子单元12233和第一矩阵确定子单元12234;
247.第一特征提取子单元12231,用于将第一注意力图特征和第一元素辅助特征输入第一注意力层对应的第一选择门,通过第一选择门中的第一选择规则提取第一注意力图特征和第一元素辅助特征之间的第一内积相似度,将第一选择规则所指示的第一权重系数与第一内积相似度之间的乘积作为第一相似特征;
248.第二特征提取子单元12232,用于通过第一选择门中的第二选择规则提取第一注意力图特征和第一元素辅助特征之间的第一高斯相似度,将第二选择规则所指示的第二权重系数与第一高斯相似度之间的乘积作为第二相似特征;
249.第三特征提取子单元12233,用于通过第一选择门中的第三选择规则提取第一注意力图特征和第一元素辅助特征之间的第一字符串相似度,将第三选择规则所指示的第三权重系数与第一字符串相似度之间的乘积作为第三相似特征;
250.第一矩阵确定子单元12234,用于基于第一相似特征、第二相似特征以及第三相似特征,确定第一碎片元素与样本图片之间的第一权重矩阵,将第一权重矩阵与第一注意力图特征进行掩膜相乘,得到第一碎片元素与样本图片之间的第一权重关系特征。
251.其中,第一矩阵确定子单元12234,包括:特征融合子单元122341,特征归一化子单元122342和掩膜相乘子单元122343;
252.特征融合子单元122341,用于将第一相似特征、第二相似特征以及第三相似特征进行特征融合,得到第一融合特征;
253.特征归一化子单元122342,用于对第一融合特征进行归一化处理,得到第一碎片元素与样本图片之间的第一权重矩阵;
254.掩膜相乘子单元122343,用于将第一权重矩阵与第一注意力图特征进行掩膜相乘,得到第一碎片元素与样本图片之间的第一权重关系特征。
255.其中,特征融合子单元122341,特征归一化子单元122342和掩膜相乘子单元122343的具体实现方式,可以参见上述图9所对应实施例中对选取权重特征的具体过程的描述,这里将不再继续进行赘述。
256.其中,第一特征提取子单元12231,第二特征提取子单元12232,第三特征提取子单元12233和第一矩阵确定子单元12234的具体实现方式,可以参见上述图9所对应实施例中对确定第一权重关系特征的具体过程的描述,这里将不再继续进行赘述。
257.第一识别子单元1224,用于将第一权重关系特征输入至递归注意力网络中的第一语言层,由第一语言层对第一碎片元素进行元素识别,得到第一碎片元素对应的第一预测元素。
258.其中,第一输入子单元1221、第一注意力确定子单元1222、第一权重选取子单元1223和第一识别子单元1224的具体实现方式,可以参见上述图9所对应实施例中对输出第一预测元素的具体过程的描述,这里将不再继续进行赘述。
259.第二元素输出单元123,用于将第一预测元素的第一元素特征递归作为与第二碎片元素相关联的第二元素辅助特征,基于第二元素辅助特征、样本图像特征、递归注意力网络中的第二注意力层以及第二注意力层对应的第二选择门,确定第二碎片元素与样本图片之间的第二权重关系特征,将第二权重关系特征输入至递归注意力网络中的第二语言层,由第二语言层输出第二碎片元素对应的第二预测元素;
260.其中,第二元素输出单元123包括:第二输入子单元1231,第二注意力确定子单元1232,第二权重选取子单元1233和第二识别子单元1234;
261.第二输入子单元1231,用于将第一预测元素的第一元素特征递归作为与第二碎片元素相关联的第二元素辅助特征,将第二元素辅助特征和样本图像特征作为与第一样本碎片相关联的第二输入特征;
262.第二注意力确定子单元1232,用于将第二输入特征输入至递归注意力网络中的第二注意力层,由第二注意力层确定第二碎片元素在样本图片中的第二注意力图特征;
263.第二权重选取子单元1233,用于将第二注意力图特征和第二元素辅助特征输入第二注意力层对应的第二选择门,由第二选择门选取且输出第二碎片元素与样本图片之间的第二权重关系特征;
264.其中,第二权重选取子单元1233包括:第四特征提取子单元12331,第五特征提取
子单元12332,第六特征提取子单元12333和第二矩阵确定子单元12334;
265.第四特征提取子单元12331,用于将第二注意力图特征和第二元素辅助特征输入第二注意力层对应的第二选择门,通过第二选择门中的第一选择规则提取第二注意力图特征和第二元素辅助特征之间的第二内积相似度,将第一选择规则所指示的第一权重系数与第二内积相似度之间的乘积作为第四相似特征;
266.第五特征提取子单元12332,用于通过第二选择门中的第二选择规则提取第二注意力图特征和第二元素辅助特征之间的第二高斯相似度,将第二选择规则所指示的第二权重系数与第二高斯相似度之间的乘积作为第五相似特征;
267.第六特征提取子单元12333,用于通过第二选择门中的第三选择规则提取第二注意力图特征和第二元素辅助特征之间的第二字符串相似度,将第三选择规则所指示的第三权重系数与第二字符串相似度之间的乘积作为第六相似特征;
268.第二矩阵确定子单元12334,用于基于第四相似特征、第五相似特征以及第六相似特征,确定第二碎片元素与样本图片之间的第二权重矩阵,将第二权重矩阵与第二注意力图特征进行掩膜相乘,得到第二碎片元素与样本图片之间的第二权重关系特征。
269.其中,第四特征提取子单元12331,第五特征提取子单元12332,第六特征提取子单元12333和第二矩阵确定子单元12334的具体实现方式,可以参见上述图9所对应实施例中对输出第二权重关系特征的描述,这里将不再继续进行赘述。
270.第二识别子单元1234,用于将第二权重关系特征输入至递归注意力网络中的第二语言层,由第二语言层对第二碎片元素进行元素识别,得到第二碎片元素对应的第二预测元素。
271.其中,第二输入子单元1231,第二注意力确定子单元1232,第二权重选取子单元1233和第二识别子单元1234的具体实现方式,可以参见上述图9所对应实施例中对输出第二预测元素的具体过程的描述,这里将不再继续进行赘述。
272.预测文本输出单元124,用于基于第一权重关系特征和第二权重关系特征确定第一样本碎片与样本图片之间的第一图文关系特征,基于第一图文关系特征输出第一样本碎片的第一预测文本;第一预测文本中包含第一预测元素和第二预测元素;
273.第一文本添加单元125,用于将包含第一预测元素和第二预测元素的第一预测文本添加至初始网络模型中的记忆网络。
274.其中,第一辅助特征确定单元121,第一元素输出单元122,第二元素输出单元123,预测文本输出单元124和第一文本添加单元125的具体实现方式,可以参见上述图3所对应实施例中对输出第一预测文本的具体过程的描述,这里将不再继续进行赘述。
275.第二关系确定模块13,用于将记忆网络中所存储的第一预测文本作为第二样本碎片的训练辅助文本,将训练辅助文本所对应的第一样本文本特征、第二样本文本特征、以及样本图像特征输入递归注意力网络,通过递归注意力网络确定第二样本碎片与样本图片之间的第二图文关系特征,基于第二图文关系特征输出第二样本碎片的第二预测文本,将第二预测文本添加至记忆网络;
276.其中,第一样本碎片的碎片长度和第二样本碎片的碎片长度均由初始网络模型的文本切分参数所确定的;第一预测文本是第二样本分支模型在统计到由递归注意力网络中的语言层所输出的预测元素的累计数量达到文本切分参数时所确定的;预测元素为递归注
意力网络将第一样本碎片中的碎片元素和样本图片进行特征关联后所确定的;
277.第二关系确定模块13包括:辅助文本确定单元131,特征关联单元132,预测元素输出单元133和第二文本添加单元134;
278.辅助文本确定单元131,用于将记忆网络中所存储的第一预测文本作为第二样本碎片的训练辅助文本,将训练辅助文本所对应的第一样本文本特征作为训练辅助文本特征;
279.特征关联单元132,用于将训练辅助文本特征、第二样本文本特征、以及样本图像特征输入递归注意力网络,通过递归注意力网络将第二样本碎片与样本图片进行特征关联,得到用于表征第二样本碎片与样本图片之间的关联关系的第二图文关系特征;
280.预测元素输出单元133,用于将第二图文关系特征输入递归注意力网络中的语言层,由递归注意力网络中的语言层输出与第二样本碎片中的碎片元素相关联的预测元素;
281.第二文本添加单元134,用于在检测到递归注意力网络中的语言层输出的预测元素的数量达到文本切分参数时,基于递归注意力网络中的语言层输出的预测元素,输出第二样本碎片的第二预测文本,将第二预测文本添加至记忆网络。
282.其中,辅助文本确定单元131,特征关联单元132,预测元素输出单元133和第二文本添加单元134的具体实现方式,可以参见上述图3所对应实施例对输出第二预测文本的具体过程的描述,这里将不再继续进行赘述。
283.模型训练模块14,用于基于记忆网络中的第一预测文本和第二预测文本,确定训练文本信息的样本预测标签,基于样本训练标签和样本预测标签,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为用于对目标图片进行文本识别的目标网络模型。
284.其中,样本图片获取模块11、第一关系确定模块12、第二关系确定模块13、模型训练模块14的具体实现方式可以参见上述图3所对应实施例中对步骤s101

步骤s104的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
285.进一步的,请参见图14,图14是本技术实施例提供的一种文本数据处理装置的结构示意图。该文本数据处理装置2可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本数据处理装置2可以为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步骤。该文本数据处理装置2可以包含:目标图片获取模块21,第一文本输出模块22,第二文本输出模块23和目标文本确定模块24;
286.目标图片获取模块21,用于获取携带目标文本信息的目标图片,提取目标图片的目标图像特征;
287.其中,目标图片获取模块21,具体用于获取携带目标文本信息的目标图片,通过目标网络模型中的第一目标分支模型提取目标图片的目标图像特征;目标网络模型是基于携带样本训练标签的样本图片对初始网络模型进行训练后所得到的。
288.第一文本输出模块22,用于基于目标图像特征确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本;
289.其中,目标网络模型还包括并列于第一目标分支模型的第二目标分支模型,第二目标分支模型中包含递归注意力网络和记忆网络;
290.第一文本输出模块22,具体用于将目标图像特征输入递归注意力网络,通过递归注意力网络确定目标文本信息中的第一目标碎片与目标图片之间的第一关联关系特征,基于第一关联关系特征输出第一目标碎片的第一目标文本。
291.其中,可选的,第二目标分支模型还包含记忆网络,第一文本输出模块22,还具体用于将第一目标文本添加至目标网络模型中的记忆网络。
292.第二文本输出模块23,用于将第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,基于目标辅助文本所对应的第一目标文本特征和目标图像特征,确定第二目标碎片与目标图片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本。
293.其中,第二文本输出模块23,具体用于将记忆网络中所存储的第一目标文本作为目标文本信息中的第二目标碎片的目标辅助文本,将目标辅助文本所对应的第一目标文本特征、和目标图像特征输入递归注意力网络,通过递归注意力网络确定第二目标碎片与目标图片之间的第二关联关系特征,基于第二关联关系特征输出第二目标碎片的第二目标文本。
294.可选的,第二文本输出模块23,还具体用于将第二目标文本添加至记忆网络。
295.目标文本确定模块24,用于基于第一目标文本和第二目标文本,确定从目标图片中所识别到的目标文本信息。
296.其中,目标文本确定模块24,具体用于基于记忆网络中的第一目标文本和第二目标文本,确定从目标图片中所识别到的目标文本信息。
297.其中,目标图片获取模块21,第一文本输出模块22,第二文本输出模块23和目标文本确定模块24的具体实现方式可以参见上述图12所对应实施例中对步骤s301

步骤s304的具体过程的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
298.进一步地,请参见图15,图15是本技术实施例提供的一种计算机设备的示意图。如图15所示的计算机设备1000可以包括:至少一个处理器1001,例如cpu,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,网络接口1004可选地可以包括标准的有线接口、无线接口(如wi

fi接口)。存储器1005可以是高速ram存储器,也可以是非不稳定的存储器(non

volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
299.在图15所示的计算机设备1000中,网络接口1004主要用于提供网络通信功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以执行前文图3或图9或者图12所对应实施例中对该文本数据处理方法的描述,也可执行前文图13所对应实施例中对该文本数据处理装置1的描述,还可以执行前述图14所对应实施例中对文本数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
300.此外,这里需要指出的是:本技术实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的计算机设备1000所执行的计算机程序,且上述
计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图3或图9或者图12所对应实施例中对上述文本数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。
301.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)或随机存储记忆体(random access memory,ram)等。
302.以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献