基于计算机视觉的图书图像检索方法与流程

2022-02-22 05:16:00 来源：中国专利 TAG：

1.本发明涉及计算机视觉技术领域，具体涉及基于计算机视觉的图书图像检索方法。

背景技术：

2.随着数字化技术的发展和互联网技术的不断进步，各行业都向着数字化的方向不断进步。在互联网技术的推动下，各大图书馆也都推出了数字化的图书管理系统。然而，由于图书种类繁杂，信息更新速度较快，读者如何从这些海量的信息中检索出所需要的信息已成为一个重要的研究课题。此外，读者对图书检索的要求也在提高，除了图书的一些基本信息，还需要了解图书的相关资源，并且希望能够及时、快速地得到反馈。
3.图书检索是为了获取尽可能准确的图书信息，现有方法是输入待检索图书的书名，得到该图书在图书数据库中的所有信息，该方法在有些情况下是不适用的。当遇到生僻字或看不懂的书名，就无法采用这种方法获取图书的信息。

技术实现要素：

4.为了解决现有图书检索方法存在适用范围不广的问题，本发明的目的在于提供一种基于计算机视觉的图书图像检索方法，所采用的技术方案具体如下：
5.本发明提供了一种基于计算机视觉的图书图像检索方法,该方法包括以下步骤：
6.获取待检索图书封面的rgb图像，根据待检索图书封面的rgb图像，得到待检索图书封面对应的语义向量，根据所述待检索图书封面对应的语义向量，得到待检索图书的类别；
7.根据待检索图书封面的灰度图，得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图；
8.将待检索图书封面的rgb图像、待检索图书封面的文字梯度幅值图和待检索图书封面对的文字梯度方向量化图输入到待检索图书所属类别的度量学习网络中，得到待检索图书封面对应的嵌入向量；
9.根据所述待检索图书封面对应的嵌入向量，得到待检索图书封面的低维投影点，将所述待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配，得到待检索图书的检索结果。
10.优选的，所述根据待检索图书封面的灰度图，得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图，包括：
11.获取待检索图书封面的灰度图中各像素点在x方向上的卷积和在y方向上的卷积，根据所述待检索图书封面的灰度图中各像素点在x方向上的卷积和在y方向上的卷积，计算待检索图书封面各像素点的梯度幅值和梯度方向；
12.根据待检索图书封面各像素点的梯度幅值，得到待检索图书封面的梯度幅值图；根据待检索图书封面各像素点的梯度方向，得到待检索图书封面的梯度方向量化图；
13.获取待检索图书封面的文本位置图，根据所述待检索图书封面的文本位置图、待检索图书封面的梯度幅值图和待检索图书封面的梯度方向量化图，得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图。
14.优选的，所述获取待检索图书封面的文本位置图，包括：
15.对待检索图书封面的灰度图进行归一化处理，将归一化处理后的待检索图书封面的灰度图输入到语义提取网络中，得到待检索图书封面的文本位置概率图；
16.对待检索图书封面的文本位置概率图进行argmax操作，得到待检索图书封面的文本位置图。
17.优选的，度量学习网络的训练过程，包括：
18.将同类别图书封面的rgb图像输入到第一swin transfomer中，得到第一特征向量；
19.将同类别图书封面对应的文字梯度幅值图和同类别图书封面对应的文字梯度方向量化图输入到第二swin transfomer中，得到第二特征向量；
20.将第一特征向量与第二特征向量进行联合处理，得到第三特征向量；
21.利用神经网络对第三特征向量进行特征拟合、分类，把神经网络的最后一层分类层去掉，将神经网络最后一个隐藏层的输出数据特征作为度量学习网络的输出。
22.优选的，所述根据待检索图书封面的rgb图像，得到待检索图书封面对应的语义向量，根据所述待检索图书封面对应的语义向量，得到待检索图书的类别，包括：
23.对待检索图书图像的rgb图像进行ocr识别，得到预设个数的词语或句子；
24.将所述预设个数的词语或句子拼接起来，得到待检索图书封面对应的语义向量；
25.将待检索图书封面对应的语义向量输入全连接网络，得到待检索图书的类别。
26.优选的，所述根据所述待检索图书封面对应的嵌入向量，得到待检索图书封面的低维投影点，包括：
27.对待检索图书封面对应的嵌入向量进行归一化处理；
28.对归一化处理后的待检索图书封面对应的嵌入向量进行降维处理，得到待检索图书封面对应的低维向量；
29.根据待检索图书封面对应的低维向量，得到待检索图书封面的低维投影点。
30.优选的，所述将所述待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配，得到待检索图书的检索结果，包括：
31.获取待检索图书所属类别数据库中图书封面对应的嵌入向量，对所述待检索图书所属类别数据库中图书封面对应的嵌入向量进行降维，得到待检索图书所属类别数据库中图书封面的低维向量；根据所述待检索图书所属类别数据库中图书封面的低维向量，得到待检索图书所属类别数据库中图书封面的低维投影点；
32.获取待检索图书封面的低维投影点与其所属类别数据库中图书封面的最近邻的设定个数的低维投影点，将最近邻的设定个数的低维投影点对应的图书信息返回给用户，得到待检索图书的检索结果。
33.本发明具有如下有益效果：本发明根据待检索图书封面的rgb图像，得到待检索图书封面对应的语义向量，根据待检索图书封面对应的语义向量，得到待检索图书的类别；根据待检索图书封面的灰度图，得到待检索图书封面的文字梯度幅值图和文字梯度方向量化
图；度量学习可以扩大类间的差异，缩小类内的差异，本发明将待检索图书封面的rgb图像、待检索图书封面对应的文字梯度幅值图和待检索图书封面对应的文字梯度方向量化图输入到待检索图书所属类别的度量学习网络中，得到待检索图书封面对应的嵌入向量；本发明根据待检索图书封面对应的嵌入向量，得到待检索图书封面的低维投影点，将待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配，得到待检索图书的检索结果。本发明利用图书封面的信息得到图书封面的嵌入向量，通过嵌入向量投影低维空间，将待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配，实现图书的检索，解决了遇到生僻字或看不懂的书名无法检索图书信息的问题，同时缩短了不知名图书的检索时间。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。
35.图1为本发明一个实施例所提供的一种基于计算机视觉的图书图像检索方法的流程图。
具体实施方式
36.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于计算机视觉的图书图像检索方法进行详细说明如下。
37.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
38.下面结合附图具体的说明本发明所提供的一种基于计算机视觉的图书图像检索方法的具体方案。
39.基于计算机视觉的图书图像检索方法实施例
40.现有图书检索方法存在适用范围不广的问题。为了解决上述问题，本实施例提出了基于计算机视觉的图书图像检索方法，如图1所示，本实施例的基于计算机视觉的图书图像检索方法包括以下步骤：
41.步骤s1，获取待检索图书封面的rgb图像，根据待检索图书封面的rgb图像，得到待检索图书封面对应的语义向量，根据所述待检索图书封面对应的语义向量，得到待检索图书的类别。
42.利用相机采集各类别图书封面的rgb图像，对图书封面的rgb图像进行预处理，预处理包括图像增强、图像变换；图像增强用以提高图书图像的质量，避免光照、运动模糊等对图像质量的影响；图像变换用以统一图像。本实施例采用透视变换来进行图像变换。图像增强、图像变换为常规的图像预处理方法，此处不再赘述。对各类别图书封面的rgb图像进行ocr识别，获取图书封面的文字。本实施例ocr识别采用基于深度学习下的cnn字符识别方法。ocr识别通常第一步定位文本位置，文本位置通过包围框表示，对于ocr识别后的结果选
取包围框面积最大的前k个词语或句子，本实施例中k的取值为3。将包围框面积最大的前k个词语或句子进行拼接，组成一个句子。利用bert预训练语言模型进行语义提取，得到拼接句子的语义向量，即图书封面对应的语义向量。对语义向量进行分类，判断图书的类别，图书的类别包括文学、艺术、计算机、外语、经管、人文社科、哲学等，基于图书的类别进行相应数据库的检索。
43.本实施例分类模型采用全连接神经网络，该神经网络的训练过程如下：
44.将各类别图书封面对应的语义向量输入全连接神经网络进行特征拟合与分类，分类层分类函数采用softmax，损失函数为交叉熵，利用梯度下降方法优化网络参数，全连接网络输出为每本图书属于各个类别的概率。
45.本实施例采用同样的方法获取待检索图书封面对应的语义向量，将待检索图书封面对应的语义向量输入到训练好的全连接神经网络中，得到待检索图书属于每个类别的概率，将最大概率对应的图书类别作为该图书的类别。
46.步骤s2，根据待检索图书封面的灰度图，得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图。
47.本实施例将待检索图书封面的rgb图像进行灰度化处理，得到待检索图书封面的灰度图。
48.scharr算子在检测梯度方便具有较高的精度。本实施例利用scharr算子对待检索图书封面的灰度图进行梯度提取，得到待检索图书封面各像素点对x方向上的卷积和对y方向上的卷积。卷积运算为周知的，此处不再赘述。根据待检索图书封面各像素点对x方向上的卷积和对y方向上的卷积，采用如下公式计算待检索图书封面各像素点的梯度幅值和梯度方向：
[0049][0050][0051]
其中，gx为待检索图书封面任一像素点对x方向上的卷积，gy为该像素点对y方向上的卷积，g为该像素点的梯度幅值，θ为该像素点的梯度方向。
[0052]
基于梯度方向进行划分，将求取的梯度方向按下述划分进行量化，本实施例将梯度方向划分为16个等级。即划分区间如下：判断各像素点的梯度方向处于哪个区间。若处在第一个区间，则量化值为1，依次进行，若像素点的梯度方向处在区间，则量化值为16，量化为周知技术，此处不再赘述。
[0053]
本实施例根据待检索图书封面各像素点量化后的梯度幅值和量化后的梯度方向，得到待检索图书封面的梯度幅值图和梯度方向量化图。
[0054]
进一步的提取待检索图书封面的文本像素点对应的位置，传统的图像分割容易受到光照等影响，为了更鲁棒的进行文本像素点对应的位置的提取，本实施例采用基于深度学习的语义分割方法进行网络训练。
[0055]
具体的，将各类别图书封面的灰度图进行归一化处理后的图像数据与标签数据输入到语义提取网络中，网络的训练为监督学习，所述标签通过对图书封面图像设定图像阈
值得到的，每张图像其最优阈值通常都不一样，最优阈值的确定需要人为调试，最终得到标签二值图像，其中文字位置处像素点的像素值为1，其它位置处像素点的像素值都为0；语义提取网络包含语义提取编码器和语义提取解码器，其中，语义提取编码器是对图像数据进行特征提取，输出为特征图；语义提取解码器起到上采样与特征提取的作用，输入为语义提取编码器产生的特征图，输出为文本位置概率图；损失函数采用交叉熵，本实施例采用adam方法对网络进行优化，在具体应用中，可采用其它方法对网络进行优化。将网络输出的文本位置概率图经过argmax操作，得到各类别图书封面的文本位置分割图像，文本位置分割图像为二值图像，其中，文字位置处像素点的像素值为1，其它位置处像素点的像素值为0。
[0056]
利用上述训练好的神经网络对待检索图书封面进行文字提取，得到待检索图书封面的文本位置图。
[0057]
提取待检索图书封面的文字梯度幅值图和文字梯度方向量化图。使用掩膜方法将待检索图书封面的文本位置图分别与该图书封面的梯度幅值图和梯度方向量化图相乘，得到该图书封面的文字梯度幅值图和文字梯度方向量化图。掩膜方法为周知方法，此处不再赘述。
[0058]
步骤s3，将待检索图书封面的rgb图像、待检索图书封面的文字梯度幅值图和待检索图书封面的文字梯度方向量化图输入到待检索图书所属类别的度量学习网络中，得到待检索图书封面对应的嵌入向量。
[0059]
本实施例基于度量学习实现图书封面的特征提取，度量学习可以扩大类间的差异，缩小类内的差异。度量学习采用深度学习的方法实现，即采用下述神经网络，神经网络结构为双swin-transformer fc模型。swin transfomer计算复杂度低，作为网络骨干，能取得极佳的效果，swin transfomer包含图像的分块操作，可以提取局部的图像特征，更好的对比图像的特征，进而实现检索。
[0060]
对于每个类别的图书，训练一个度量学习网络。本实施例以文学类图书为例，其对应的神经网络的训练步骤如下：
[0061]
将文学类所有图书封面的图像数据进行预处理，预处理包括标准化和归一化，将预处理后的图像数据输入到网络中。
[0062]
具体的，第一swin transfomer的输入为文学类中每个图书封面的rgb图像，输出为第一特征向量。
[0063]
第二swin transfomer的输入为文学类中每个图书封面的文字梯度幅值图和文字梯度方向量化图，输出为第二特征向量。其中，文字梯度幅值图和文字梯度方向量化图需要进行concat操作，合并为一张二通道的特征图像。
[0064]
将第一特征向量与第二特征向量进行concat操作，得到第三特征向量。
[0065]
经过全连接网络对第三特征向量进行特征拟合、分类。本实施例使用am-softmax损失函数对网络进行分类训练，去掉训练好的网络最后一层分类层，将网络最后一个隐藏层的输出作为一个数据特征。本实施例采用adam方法对网络进行优化，在具体应用中，网络优化也可以采用其它方法，损失函数也可使用cosface、arcface等。本实施例最终两个数据特征使用余弦相似度进行计算，即以余弦相似度进行度量两个样本之间的相似性，相比距离度量，余弦相似度更加注重在方向上的差异，而非距离或长度上，因而更适用于安全指标变化的度量。
[0066]
对于其它类别的图书封面图像，均可采用上述方法训练得到对应的度量学习网络。将待检索图书封面的文字梯度幅值图和待检索图书封面的文字梯度方向量化图输入到其对应类别的训练好的度量学习网络中，得到待检索图书封面对应的嵌入向量。该嵌入向量经验维数为128维。后续采用kd-tree算法获取最近邻为欧式距离，为了统一度量，将嵌入向量进行归一化处理。
[0067]
步骤s4，根据所述待检索图书封面对应的嵌入向量，得到待检索图书封面的低维投影点，将所述待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配，得到待检索图书的检索结果。
[0068]
pca算法旨在利用降维的思想，把多指标转化为较少的综合指标。本实施例采用pca算法对归一化后的嵌入向量进行降维，降维到三维空间中，得到待检索图书封面对应的低维向量。本实施例设置pca算法中要保留的组件数为5，在具体应用中，根据实际需要进行设定。
[0069]
本实施例数据库是提前构建好的，在构建过程中，人为的筛选图书类别，将图书的信息进行采集、处理，并将信息存储到相应类别的数据库中，完成图书数据库的构建。图书的信息包括图书编号、图书名称、作者、出版社名称、出版日期、定价、页数等。
[0070]
本实施例采用kd-tree算法获取待检索图书封面的低维投影点。同时将图书数据库中同类别的所有图书输入到步骤s3中训练好的度量学习网络中，得到同类别每个图书封面对应的嵌入向量。同步骤s3一样，为了统一度量，需要将每个图书封面对应的嵌入向量进行归一化处理，对同类别图书封面对应的嵌入向量进行降维，降维到三维空间中，得到同类别图书封面对应的低维向量。
[0071]
获取待检索图书封面的低维投影点与其所属类别图书数据库中所有图书对应的低维投影点中的top-k个最近邻的低维投影点，本实施例k的值设置为10。将得到的最近邻的低维投影点对应的图书信息返回给用户，实现图书的检索。
[0072]
本实施例根据待检索图书封面的rgb图像，得到待检索图书封面对应的语义向量，根据待检索图书封面对应的语义向量，得到待检索图书的类别；根据待检索图书封面的灰度图，得到待检索图书封面的文字梯度幅值图和文字梯度方向量化图；度量学习可以扩大类间的差异，缩小类内的差异，本实施例将待检索图书封面的rgb图像、待检索图书封面的文字梯度幅值图和待检索图书封面的文字梯度方向量化图输入到待检索图书所属类别的度量学习网络中，得到待检索图书封面对应的嵌入向量；本实施例根据待检索图书封面对应的嵌入向量，得到待检索图书封面的低维投影点，将待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配，得到待检索图书的检索结果。本实施例利用图书封面的描述子得到图书封面的嵌入向量，通过嵌入向量投影低维空间，将待检索图书封面的低维投影点与其所属类别数据库中图书封面的低维投影点进行匹配，实现图书的检索，解决了遇到生僻字或看不懂的书名无法检索图书信息的问题，同时缩短了不知名图书的检索时间。
[0073]
需要说明的是：以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于计算机视觉的图书图像检索方法与流程

相关文献

最热文献