一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

代码集映射方法及装置与流程

2022-02-24 16:22:05 来源:中国专利 TAG:


1.本发明涉及大数据技术领域,尤其涉及一种代码集映射方法及装置。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.在银行企业级架构建设过程中,随着客户管理组件的分析与开发,发现在新标准的客户信息中,不少客户信息属性的代码集发生了变化,目前在数据迁移和接口映射的过程中,是采用人工的方式一一比对新旧代码集中的每一个代码,进而形成新旧代码的映射关系。此种方式耗费了大量的人力物力,且代码集映射效率也较低。


技术实现要素:

4.本发明实施例提供一种代码集映射方法,用以快速映射代码集,减少数据迁移及接口映射过程中的人力物力,该方法包括:
5.获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
6.分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
7.分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;
8.根据预设的相似度计算公式,计算每一第一代码的代码向量和每一第二代码的代码向量之间的相似度;
9.将相似度最大的第一代码向量对应的第一代码和第二代码向量对应的第二代码进行映射。
10.本发明实施例还提供一种代码集映射装置,用以快速映射代码集,减少数据迁移及接口映射过程中的人力物力,该装置包括:
11.代码集获取模块,用于获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
12.分词模块,用于分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
13.代码向量确定模块,用于分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一
代码的代码向量和每一第二代码的代码向量;
14.相似度计算模块,用于计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度;
15.代码映射模块,用于将代码向量之间相似度最大的第一代码与第二代码进行映射。
16.本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述代码集映射方法。
17.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述代码集映射方法。
18.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述代码集映射方法。
19.本发明实施例中,获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;根据预设的相似度计算公式,计算每一第一代码的代码向量和每一第二代码的代码向量之间的相似度;将相似度最大的第一代码向量对应的第一代码和第二代码向量对应的第二代码进行映射。与现有技术中通过人工方式比对代码集的技术方案相比,本发明通过词向量模型,将代码解析语句转换为向量,计算新旧代码的向量相似度,可以实现将意思相近或一样的代码进行自动映射,从而可以快速映射代码集,减少数据迁移及接口映射过程中的人力物力。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
21.图1为本发明实施例中提供的一种代码集映射方法的流程图;
22.图2为本发明实施例中提供的又一种代码集映射方法的流程图;
23.图3为本发明实施例中提供的又一种代码集映射方法的流程图;
24.图4为本发明实施例中提供的又一种代码集映射方法的流程图;
25.图5为本发明实施例中提供的一种代码集映射装置的示意图;
26.图6为本发明实施例中提供的一种计算机设备的示意图。
具体实施方式
27.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发
明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
28.在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本技术的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
29.为了解决在数据迁移和接口映射的过程中,采用人工的方式比对新旧代码集中的每一个代码,而导致的耗费大量人力物力,代码集映射效率较低的问题,本发明实施例提供了一种代码集映射方法,如图1所示,该方法包括以下步骤:
30.步骤101,获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
31.步骤102,分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
32.步骤103,分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;
33.步骤104,计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度;
34.步骤105,将代码向量之间相似度最大的第一代码与第二代码进行映射。
35.本发明实施例中,获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;根据预设的相似度计算公式,计算每一第一代码的代码向量和每一第二代码的代码向量之间的相似度;将相似度最大的第一代码向量对应的第一代码和第二代码向量对应的第二代码进行映射。与现有技术中通过人工方式比对代码集的技术方案相比,本发明通过词向量模型,将代码解析语句转换为向量,计算新旧代码的向量相似度,可以实现将意思相近或一样的代码进行自动映射,从而可以快速映射代码集,减少数据迁移及接口映射过程中的人力物力。
36.在上述步骤101中,获取第一代码集和第二代码集。
37.具体实施时,第一代码集可以为旧代码集,第二代码集可以为新代码集,即客户信息发生变化之后的代码集,和旧代码集为对应关系。由于客户信息发生了变化,因此,在数
据迁移和接口映射过程中,需要对旧码集中的代码和新代码集中的代码进行一一映射。
38.其中,第一代码集包括至少一个第一代码及其对应的代码解析语句,第二代码集包括至少一个第二代码及其对应的代码解析语句。例如,“g交通运输、仓储和邮政业”,即代码g,以及代码g的代码解析语句“交通运输、仓储和邮政业”。
39.本发明实施例中,代码解析语句是对代码含义的解释,若客户信息发生了变化,其代码和对应的代码解析语句也会发生变化,但是变化后的代码解析语句的语义和变化前的代码解析语句的语义相似或相近,因此,可以通过对代码对应的代码解析语句进行语义分析,来实现第一代码集中的第一代码和第二代码集中的第二代码的一一映射。
40.在上述步骤102中,需要对第一代码集和第二代码集中的每一个代码的代码解析语句进行分词。
41.具体实施时,可以是基于现有的语料库,对每一个代码的代码解析语句进行语义分析,分别将每一第一代码的代码解析语句和每一第二代码的代码解析语句分词,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词。
42.例如,“g交通运输、仓储和邮政业”在经过语义分析之后,可以分词为“交通运输仓储邮政业”这三个分词。
43.在上述步骤103中,分别将步骤102得到的每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量。
44.本发明实施例中,上述步骤103,如图2所示,具体可以包括以下步骤:
45.步骤201,分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,得到每一个分词的词向量;
46.步骤202,将每一第一代码对应的多个分词的词向量进行算术平均计算,得到每一第一代码的代码向量;以及将每一第二代码对应的多个分词的词向量进行算术平均计算,得到每一第二代码的代码向量。
47.具体实施时,可以是将现有的语料库作为样本数据训练词向量模型,然后训练好的词向量模型可以用来对分词进行编码,确定每一个分词的词向量。将每一代码对应的多个分词的词向量进行算术平均计算,可以得到每一代码的代码向量。
48.例如,代码g的分词“交通运输仓储邮政业”的词向量分别为v1、v2、v3,然后对v1、v2、v3进行算术平均,得到代码g的代码向量,即
49.在上述步骤104中,在得到每一第一代码的代码向量和每一第二代码的代码向量之后,计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度。
50.本发明实施例中,上述步骤104,如图3所示,具体可以包括以下步骤:
51.步骤301,计算每一第一代码的代码向量与每一第二代码的代码向量之间的欧氏距离;
52.步骤302,根据每一第一代码的代码向量与每一第二代码的代码向量之间的欧氏距离,确定每一第一代码的代码向量与每一第二代码的代码向量之间的相似度。
53.具体实施时,针对每一个第一代码,可以通过欧氏距离相似度计算公式,分别计算
每一第二代码的代码向量与该第一代码的代码向量之间的欧氏距离。欧氏距离越小,两个代码的相似度就越大,欧氏距离越大,两个代码的相似度就越小。
54.例如,设第一代码集(即旧代码集)为其代码向量为第二代码集(即新代码集)为其代码向量针对每对和i=1,...n;j=1,...,m,计算即向量和的欧式距离。
55.需要说明的是,本发明实施例中,也可以是通过其他现有的相似度计算方法来计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度,例如,余弦相似度、明氏距离相似度等,在此不做具体要求。
56.在上述步骤105中,将代码向量之间相似度最大的第一代码与第二代码进行映射。
57.本发明实施例中,上述步骤105,如图4所示,具体可以包括以下步骤,针对每一第一代码:
58.步骤401,根据每一第二代码的代码向量与第一代码的代码向量之间的欧氏距离,确定最小欧氏距离对应的第二代码;
59.步骤402,在所述最小欧氏距离小于或等于预设距离阈值的情况下,将最小欧氏距离对应的第二代码与第一代码进行映射。
60.具体实施时,由于欧氏距离越小,两个代码的相似度就越大,可以确定最小欧氏距离对应的第二代码和第一代码,即确定相似度最大的第一代码和第二代码,然后,在其最小欧氏距离小于或等于预设距离阈值的情况下,将第二代码与第一代码进行映射。
61.例如,对于每个旧代码求即求旧代码和每一新代码之间的最小欧式距离;以及求即求最小欧式距离对应的新代码定义一个距离阈值d
th
,若dm≤d
th
,则将旧代码与新代码对应。
62.需要说明的是,本发明实施例中,若最小欧氏距离大于预设距离阈值的情况下,可以视为语义不明确,需要通过人工完成映射。
63.本发明实施例中还提供了一种代码集映射装置,如下面的实施例所述。由于该装置解决问题的原理与代码集映射方法相似,因此该装置的实施可以参见代码集映射方法的实施,重复之处不再赘述。
64.如图5所示,为本发明实施例提供的一种代码集映射装置的示意图,所述装置包括:
65.代码集获取模块501,用于获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;
66.分词模块502,用于分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;
67.代码向量确定模块503,用于分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一
第一代码的代码向量和每一第二代码的代码向量;
68.相似度计算模块504,用于计算每一第一代码的代码向量与每一第二代码的代码向量之间的相似度;
69.代码映射模块505,用于将代码向量之间相似度最大的第一代码与第二代码进行映射。
70.本发明实施例中,代码向量确定模块503,具体用于:
71.分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,得到每一个分词的词向量;
72.将每一第一代码对应的多个分词的词向量进行算术平均计算,得到每一第一代码的代码向量;以及
73.将每一第二代码对应的多个分词的词向量进行算术平均计算,得到每一第二代码的代码向量。
74.本发明实施例中,相似度计算模块504,具体用于:
75.计算每一第一代码的代码向量与每一第二代码的代码向量之间的欧氏距离;
76.根据每一第一代码的代码向量与每一第二代码的代码向量之间的欧氏距离,确定每一第一代码的代码向量与每一第二代码的代码向量之间的相似度。
77.本发明实施例中,代码映射模块505,具体用于针对每一第一代码:
78.根据每一第二代码的代码向量与第一代码的代码向量之间的欧氏距离,确定最小欧氏距离对应的第二代码;
79.在所述最小欧氏距离小于或等于预设距离阈值的情况下,将最小欧氏距离对应的第二代码与第一代码进行映射。
80.基于前述发明构思,如图6所示,本发明实施例还提供一种计算机设备600,包括存储器610、处理器620及存储在存储器610上并可在处理器620上运行的计算机程序630,所述处理器620执行所述计算机程序630时实现上述实施例中的代码集映射方法中的全部步骤。
81.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述代码集映射方法。
82.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述代码集映射方法。
83.本发明实施例中,获取第一代码集和第二代码集,所述第一代码集包括至少一个第一代码及其对应的代码解析语句,所述第二代码集包括至少一个第二代码及其对应的代码解析语句;分别对每一第一代码的代码解析语句和每一第二代码的代码解析语句进行分词处理,得到每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词;分别将每一第一代码的代码解析语句对应的多个分词和每一第二代码的代码解析语句对应的多个分词输入预先训练的词向量模型,确定每一第一代码的代码向量和每一第二代码的代码向量;根据预设的相似度计算公式,计算每一第一代码的代码向量和每一第二代码的代码向量之间的相似度;将相似度最大的第一代码向量对应的第一代码和第二代码向量对应的第二代码进行映射。与现有技术中通过人工方式比对代码集的技术方案相比,本发明通过词向量模型,将代码解析语句转换为向量,计算新旧代码的向量相似度,可以实现将意思相近或一样的代码进行自动映射,从而可以快速映射代码集,减少数
据迁移及接口映射过程中的人力物力。
84.本发明是利用人工智能中的自然语言处理技术,对新旧两组代码集的代码解析语句进行编码,得到代码向量,通过计算代码向量的距离来得到新旧代码的相似度,从而将意思相近或一样的代码解析语句自动映射。将两个语义相近的代码解析语句对应起来后,各代码解析语句对应的代码也即可一一映射。
85.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
86.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
87.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
88.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
89.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献