一种面向金融场景的联合征信智能化数据检索方法与流程

2023-02-02 01:20:37 来源：中国专利 TAG：

1.本发明设计了一种面向金融场景的联合征信智能化数据检索方法，属于人工智能和联合征信数据安全技术领域。

背景技术：

2.随着互联网时代的发展，金融场景的信息呈现爆发式的增长，传统的数据检索可以寻找出相似的单一形式的金融征信信息，无法对联合征信的图片等模态信息进行处理，而当需要以其中一种模态信息同时检索到与其相关的其他模态信息，传统文本分类检索已无法满足的需求，因为此时输入数据的类型和输出信息的类型并不相同。而对于联合征信中涉及到的金融数据需要提取相应数据的特征，其是数据挖掘、机器学习等领域的首要任务。对于金融场景的联合征信智能化数据来说，它们从不同的维度描述了或金融场景的联合征信数据的同一个语义概念，彼此关联，其特征表示需要能够判别出该联合征信数据的归属。然而当前很多金融场景的联合征信智能化数据不同模态数据是无法直接进行比较的，智能化数据检索检索需要把它们放入同一个空间进行比较。
3.cn2022107808165公开了一种征信查询处理系统、方法、征信查询系统、设备及介质，应用于金融科技的数据处理技术领域，用以解决现有技术中的征信查询处理系统的处理能力、稳定性和健壮性较差的问题。
4.cn2018104363407公开了一种基于大数据的互联网金融企业征信风险分析方法和系统。所述方法包括：通过采集互联网金融企业的征信信息，通过采集到的征信信息，构建互联网金融企业相关的征信风险评估模型，通过构建的征信风险评估模型，对互联网金融企业的征信风险进行评估，供互联网金融平台判断是否适合与其进行金融交易。本发明提供的基于大数据的互联网金融企业征信风险分析方法。
5.cn2020106703966公开提供了基于大数据征信的金融风控模型构建方法，对金融风控数据进行采样，所述金融风控数据包括金融风控数据训练集和金融风控数据验证集；根据所述采样后的金融风控数据建立所述金融风控数据的模型，所述模型包括所述金融风控数据及模型参数集；根据所述模型对待征信企业进行风险等级判别。
6.cn2021105832803公开了一种基于区块链的个人征信查询方法及装置，涉及区块链技术领域。该方法包括在接收到当前金融系统发送的个人征信查询请求时，首先确定当前金融系统是否为联盟链节点；在确定当前金融系统是联盟链节点后，才授权当前金融系统根据个人征信查询请求查询当前用户的个人征信信息，以提高个人征信查询的安全性；将当前金融系统基于当前用户的个人征信信息及当前用户提交的业务办理请求确定的业务办理信息添加至联盟链上当前用户的区块链地址上。
7.cn2015106960220涉及一种基于企业征信信息采集的金融服务平台系统，包括企业信用采集点、征信处理终端、金融征信服务平台和信用处理系统，其中，企业信用采集点直接与企业保持联系，并配备有多名信用信息采集人员，征信处理终端由这些信用信息采集人员所用，企业信用采集点与金融征信服务平台通过信息发射和接收系统相互联系，而
信用处理系统由金融征信服务平台负责安排和管理；征信处理终端设置有信用数据转换系统，信用数据转换系统上设置有数据传输发送系统。该发明系统将企业征信与金融服务相互结合，改善了企业征信采集效果，并设置成不同的信用安全等级，从而方便不同的企业信息被金融服务中心所用。
8.cn2019110627642公开了一种大数据背景下基于多层遗传方法的供应链金融征信分析方法，s1：数据收集：将公司某段时间内所有的评价数据进行收集，再经过供应链金融所对上述数据进行处理，得到评价矩阵；s2：设定矩阵分布参数：在评价矩阵中随机设定若干个分析点，且每个分析点均以评价矩阵的基点为根节点，连接所有分析点形成初始分析树；s3：编码染色体：随机挑选初始分析树中一个时间段进行prufer编码获得整个整数序列，并将所得整数序列分别转化为染色体编码。
9.但现有技术仍未能给出机器学习的智能化数据检索的智能化数据检索方法。

技术实现要素：

10.本发明所要解决的技术问题是：提供一种面向金融场景的智能化数据检索方法。本发明面向金融场景的联合征信智能化数据检索方法，实现基于机器学习的智能化数据检索，其采取的方法为子空间方法为不同金融场景的联合征信数据对的共生信息学习投影矩阵，将不同模态的联合征信数据特征投影到一个共同潜在子空间，然后在该子空间中度量不同模态的相似性，从而实现联合征信智能化数据检索。
11.为解决上述问题，本发明采用的技术方案为：一种面向金融场景的联合征信智能化数据检索方法，首先使用vgg16模型对联合征信的图像特征进行提取，使用gloves对联合征信的文本进行特征提取，映射到子空间中，同时由迁移学习中借鉴约束损失，通过模态对抗损失，令分类器在模态间不能区分文本和图像特征之间的区别，金融场景的联合征信的文本和图像特征融为一体，从而使特征相似的文本和图像聚在一起。最后由单一的金融场景的联合征信文本数据输入，检索相关联的联合征信图片数据与文本数据，或是输入一张联合征信的图片数据，检索出相关联的联合征信图片信息与文本信息。
12.包括如下步骤：
13.1)vgg模型是当前从金融场景的联合征信图像中提取cnn特征的首选算法，尽管其的参数量比较庞大，但其在多个迁移学习的任务中有极其优秀的表现，vgg模型根据卷积核大小和卷积层数目的不同而不同，为此本发明使用的模型为vgg16模型，vgg16的卷积层和池化层可以划分为不同的块，从前到后依次编号为block1～block5。每一个块内包含若干卷积层和一个池化层。如block4包含3个卷积层，conv3-512以及1个池化层，maxpool。与此同时，在同一块内，卷积层的通道数是相同的。在vgg16中，它需要维度是224*224*3(行分辨率*列分辨率*通道数)的输入数据。每经过一个block，通道数翻倍，达到512后保持不变。经过池化层后，再经过两个全连接层，最终提取出特征向量。
14.2)联合征信的文本数据集在进行特征提取前会进行预处理，包括加载数据、去停用词、分词和特征提取。利用pytorch自定义数据集，对联合征信的数据进行预处理，torch能处理的数据只能是torch.tensor，将数据转换为tensor以便输入神经网络，把相应的联合征信数据集导入到数据加载器上。
15.3)联合征信的文本经过去停用词的预处理后，本发明采取使用glove.42b.300d作
为glove预训练词向量词向量嵌入文件对训练集进行训练，提取出对应的文本特征。对于输入的联合征信的文本，首先进行大小写的规范，随后在词向量嵌入文件glove.42b.300d中匹配对应的单词，载入相关共现矩阵数据，随后进行运算。
16.4)模型训练模块是本发明的核心模块。在联合征信的训练集文本和联合征信的图像特征提取完毕后，作为输入数据进入模型训练模块。首先，不同的联合征信的文本和图像特征分别进入全连接网络，得到维度统一的特征，计算分类损失，使得图像、文本映射到子空间后仍能保证模态内部的关系。同时也得到正例、负例联合征信的图像文本的特征，结合给定参数计算三元组损失，保证同一语义在不同模态之间的距离最小，不同语义在不同模态间距离最大。此外，借鉴迁移学习的思想，引入模态对抗损失，通过引入梯度方向层的方式，来混淆不同模态在子空间内的区别，使得图像文本在模态内准确分类的同时，在模态间无法区分出类别，提高模型训练的效果。每一轮迭代使用adamoptimizer优化器，引入二次梯度校正来寻找全局最优点，最终得到训练完毕后的模型。
17.5)检索模块的输入为用户直接输入的联合征信的数据，此时的输入可以是联合征信的文本数据或是联合征信的图像数据。用户输入数据后，系统首先提取出输入的联合征信的特征，随后加载之前已训练完毕的特征模型数据库进行比照，对比后提取出相似度最高的特征，匹配对应联合征信的数据输出索引结果。
18.有益效果：本发明公开了实现一种面向金融场景的联合征信智能化数据检索方法，首先使用vgg16模型对联合征信的图像特征进行提取，使用gloves对联合征信的文本进行特征提取，映射到子空间中，同时由迁移学习中借鉴约束损失，通过模态对抗损失，令分类器在模态间不能区分文本和图像特征之间的区别，金融场景的联合征信的文本和图像特征融为一体，从而使特征相似的文本和图像聚在一起。最后由单一的金融场景的联合征信文本数据输入，检索相关联的联合征信图片数据与文本数据，或是输入一张联合征信的图片数据，检索出相关联的联合征信图片信息与文本信息。
19.具体地讲，本发明具有如下优点：
20.1、实现了基于机器学习的联合征信智能化数据检索。
21.2、为不同金融场景的联合征信数据对的共生信息学习投影矩阵，将不同模态的联合征信数据特征投影到一个共同潜在子空间，然后在该子空间中度量不同模态的相似性，从而实现联合征信智能化数据检索。
附图说明
22.图1为vgg16模型的示意图。
具体实施方式
23.下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
24.本发明包括如下步骤：
25.1)利用python爬虫技术从金融场景中爬取相应的联合征信的图像数据，采用requests库，辅以urllib库进行数据爬取，最后将爬取到的数据存储到csv文件中，进行数据预处理时可以对重复数据进行筛选，在进行数据预处理时可以对重复数据进行筛选，采
集的数据有多个属性，在数据采集阶段我们要选取能准确描述数据的属性。为了保证我们数据的准确性，要删除关联度小的或者无关的数据。为了保证唯一性，将会选取时效性最好的一条数据存储到本地数据库中构成联合征信图像数据集cid。
26.2)利用python爬虫技术从金融场景中爬取相应的联合征信的文本数据，采用requests库，辅以urllib库进行数据爬取，最后将爬取到的数据存储到csv文件中，进行数据预处理时可以对重复数据进行筛选，在进行数据预处理时可以对重复数据进行筛选，采集的数据有多个属性，在数据采集阶段我们要选取能准确描述数据的属性。为了保证我们数据的准确性，要删除关联度小的或者无关的数据。为了保证唯一性，将会选取时效性最好的一条数据存储到本地数据库中构成联合征信文本数据集ctd。
27.3)vgg模型是当前从金融场景的联合征信图像数据集cid中提取cnn特征的首选算法，尽管其的参数量比较庞大，但其在多个迁移学习的任务中有极其优秀的表现，vgg模型根据卷积核大小和卷积层数目的不同而不同，为此本发明使用的模型为vgg16模型，vgg16的卷积层和池化层可以划分为不同的块，从前到后依次编号为block1～block5。每一个块内包含若干卷积层和一个池化层。如block4包含3个卷积层，conv3-512以及1个池化层，maxpool。与此同时，在同一块内，卷积层的通道数是相同的。在vgg16中，它需要维度是224*224*3(行分辨率*列分辨率*通道数)的输入数据。每经过一个block，通道数翻倍，达到512后保持不变。经过池化层后，再经过两个全连接层，最终提取出特征向量。如表1
28.表1vgg16特征提取模型
[0029][0030]
[0031][0032]
4)联合征信的文本数据集ctd在进行特征提取前会进行预处理，包括加载数据、去停用词、分词和特征提取。利用pytorch自定义数据集，对联合征信的数据进行预处理，torch能处理的数据只能是torch.tensor，将数据转换为tensor以便输入神经网络，把相应的联合征信数据集导入到数据加载器上。
[0033]
5)联合征信的文本经过去停用词的预处理后，本发明采取使用glove.42b.300d作为glove预训练词向量词向量嵌入文件对训练集进行训练，提取出对应的文本特征。对于输入的联合征信的文本，首先进行大小写的规范，随后在词向量嵌入文件glove.42b.300d中匹配对应的单词，载入相关共现矩阵数据，随后进行运算。
[0034]
模型训练模块是本发明的核心模块。在联合征信的训练集文本和联合征信的图像
特征提取完毕后，作为输入数据进入模型训练模块。首先，不同的联合征信的文本和图像特征分别进入全连接网络，得到维度统一的特征，计算分类损失，使得图像、文本映射到子空间后仍能保证模态内部的关系。同时也得到正例、负例联合征信的图像文本的特征，结合给定参数计算三元组损失，保证同一语义在不同模态之间的距离最小，不同语义在不同模态间距离最大。此外，借鉴迁移学习的思想，引入模态对抗损失，通过引入梯度方向层的方式，来混淆不同模态在子空间内的区别，使得图像文本在模态内准确分类的同时，在模态间无法区分出类别，提高模型训练的效果。每一轮迭代使用adamoptimizer优化器，引入二次梯度校正来寻找全局最优点，最终得到训练完毕后的模型。
[0035]
检索模块的输入为用户直接输入的联合征信的数据，此时的输入可以是联合征信的文本数据或是联合征信的图像数据。用户输入数据后，系统首先提取出输入的联合征信的特征，随后加载之前已训练完毕的特征模型数据库进行比照，对比后提取出相似度最高的特征，匹配对应联合征信的数据输出索引结果。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：仿真任务分配方法、装置、存储介质及集群系统与流程

一种面向金融场景的联合征信智能化数据检索方法与流程

相关文献

最热文献