一种基于属性分类的业务数据处理方法和处理装置与流程

2022-11-23 13:19:09 来源：中国专利 TAG：

1.本发明涉及业务信息的处理技术，尤其涉及一种基于属性分类的业务数据处理方法和处理装置。

背景技术：

2.数据的提取与融合是计算机信息技术应用领域内的基本工具，基于网页端的数据提取一般采用deep web爬虫与广度优先搜索的方式进行，而这种方法仅用于获取网页web前端的数据资源，且对于url加密条件下的电子商务平台，数据爬取效率不佳，部分内容无法进行直接展示。现有技术中，众多系统软件厂商都提供了以datastage、 sql server dts、primeton di等具有代表性的数据交换与融合系统，这些系统架构过于庞大，应用场景往往是大型软件工程项目，并不适用于小型工程的软件开发计划。针对小型工程的数据提取与融合方法，现有技术集中在利用分布式系统、神经网络等进行数据挖掘，例如cn108804528b中公开了一种融合数据的训练模型，能够在数据提取的过程中进行训练，起到收敛数据融合的效果。而面向电子商务外包平台的业务数据中，作为典型的小型软件工程项目的数据提取与融合应用，为实现外包平台对业务数据实现高效的数据处理，现有技术还有待进一步改进，针对业务数据的特点，构建相应的业务数据处理方法和处理装置，以期实现电子商务与外包平台在数据交互的具体场景下实现更高效率的深入应用。

技术实现要素：

3.针对上述问题，本发明提出了一种基于属性分类的业务数据处理方法和处理装置，将电子商务平台中涉及的数据按照外包平台的需求种类划分为sku数据类、售后数据类、订单数据类、库存数据类、推广数据类五种。并根据数据类型分为数字类型与文本类型两种，通过提取前端服务器数据库中的文本数据与数字数据，构成第一实体部分与第二实体部分，第一实体部分与第二实体部分分别通过属性权重与信息熵分类构建相应的参数列，在此基础上基于提前预设的文本根特征与数字根特征遍历相应的参数列，分类得到不同的元数据，包括sku元数据、售后元数据、订单元数据、库存元数据、推广元数据，并分配各元数据库索引标识符，在授权外包服务器接入的请求下，根据预先开放的api接口的请求标识符分配相应的数据库调用权限。
4.本技术的发明目的可通过以下技术方案实现：一种基于属性分类的业务数据处理方法，包括以下步骤：步骤1：电商服务器为外包服务器颁发数字证书，为授权终端分配唯一的请求标识符；步骤2：提取前端服务器的业务数据，得到第一实体部分、第二实体部分，获取第一实体部分与第二实体部分中的主体特征；步骤3：分别计算第一实体部分的属性权重与第二实体部分的信息熵值，设置基于属性权重的第一参数列ki，基于信息熵值的第二参数列kj；
步骤4：预设业务数据的文本根特征，基于文本根特征遍历各个第一参数列ki，将第一参数列符合文本根特征标准的纳入第一实体匹配表；步骤5：预设业务数据的数字根特征，基于数字根特征遍历各个第二参数列kj，将第二参数列符合数字根特征标准的纳入第二实体匹配表；步骤6：将第一实体匹配表、第二实体匹配表均存储至前端服务器的元数据库；步骤7：基于朴素贝叶斯分类器对元数据库的第一实体匹配表分类，基于熵分类器对元数据库的第二实体匹配表分类，得到sku元数据、售后元数据、订单元数据、库存元数据、推广元数据，为任意元数据提供唯一的索引标识符；步骤8：前端服务器接收来自至少一个的外包服务器的接入请求，前端服务器验证请求标识符；步骤9：根据请求标识符为外包服务器开放元数据库访问权限，外包服务器基于电商服务器所开放的元数据加载业务流信息。
5.在本发明中，请求标识符包含外包服务器的身份编码、数字签名的哈希摘要，所述身份编码为电子商务平台数据库中存储外包平台数据库父表中的子表编号；所述数字签名的哈希摘要为数字签名通过伪随机数所生成的哈希函数值。
6.在本发明中，第一实体部分为文本特征向量，第二实体部分为数字特征向量。
7.在本发明中，所述文本特征向量与数字特征向量分别为预处理后的文本数据与数字数据经过向量特征处理后得到的特征向量。
8.在本发明中，文本根特征与数字根特征为业务数据的至少一个特征值，文本根特征与数字根特征描述相同参数列的重复度以及不同参数列的相似度。
9.在本发明中，第一参数列ki与第二参数列kj分别为属性分类条件、信息熵分类条件下得到的数据列，包含电子商务平台数据库中文本类数据与数字类数据的至少一项信息。
10.在本发明中，提取第二实体部分中的数据集d={x1,x2,
…
,xn}，将数据集d以信息熵进行表示，遍历第二实体部分中的各个数据集，得到对应的第二参数列。
11.在本发明中，索引标识符由外包平台的身份编码以及所生成元数据父表中为主键的id字段共同构成，一个索引标识符对应唯一一个请求标识符。
12.一种根据所述的基于属性分类的业务数据处理方法的处理装置，包括电商服务器、外包服务器、前端服务器，前端服务器包括提取单元、第一存储单元、第二存储单元、判决单元、tcam主控单元。
13.在本发明中，tcam主控单元分别由n-tcam芯片与w-tcam芯片共同组成，第二存储单元与n-tcam芯片与w-tcam芯片组成通信回路，进行全双工通信。
14.实施本发明的一种基于属性分类的业务数据处理方法和处理装置，具有以下有益效果：本发明中根据电子商务外包平台获取信息的特点，通过将业务数据分类构成多个元数据的方式，为外包平台开放已授权工作的元数据库类接口，确保外包平台在电子商务平台已授权的基础上仅能够获取与外包内容相关的数据信息，而无法获取整个电子商务平台商家的全部信息，从而保障电子商务平台商家的数据安全，并提高外包平台获取业务数据的处理效率。另外，对于多源类业务数据，考虑到电子商务平台类型不同，一类电商与二类电商的存储方式、数据格式均存在差异，不同商品的编码方式、数据库底层设计逻辑的差异性都限制了电子商务平台的数据提取与融合效率，本发明通过预设文本根特征与数字根特
征的方式，遍历处理分类后的参数列构成多个元数据库类型，确保外包平台获取电子商务平台商家的信息是动态的、准确的、有限的。
附图说明
15.图1为本发明的一种基于属性分类的业务数据处理方法的流程图；图2为本发明的通过信息熵值进行匹配域处理的示意图；图3为本发明的通过信息熵值进行匹配域处理第二实体部分后的示意图；图4为本发明的第一参数列与第二参数列的示意图；图5为本发明的一种基于属性分类的业务数据处理装置的硬件框图。
具体实施方式
16.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。
17.针对电子商务商家与外包平台的数据提取需求而言，从合作的视角来看，对于外包平台，需要获取电子商务平台商家的相关信息，且能够进行实时调用与改变数据信息，实现数据的动态化共享。对于电子商务商家平台而言，希望提供给外包平台有限的部分数据信息，在不泄露其他包含商业机密数据信息的前提下，确保外包平台能够根据所提供的部分数据信息完成外包工作。电子商务外包需求主要包括售后客服外包、订单发货外包、商品管理外包、商品推广外包、库存管理外包五个方面的应用，单个外包平台往往需要获取多个电子商务平台的源数据，且按照电子商务平台的种类，分为一类电商平台与二类电商平台，外包平台需要将多个不同类型电子商务平台的源数据进行整合。
18.面对电子商务平台的业务数据，由于不同电子商务平台的数据库底层开发逻辑不同，数据库表的设计方法存在差异性，如果采用一般方法调用多平台数据库进行数据处理后输出结果，大概率会产生数据错误或者丢失的问题。按照外包平台完成电子商务外包工作的基本需求出发，将多源数据分为两个实体类，将文本实体与数据实体划分为单独的参数列，再按照电子商务外包平台需要的数据类型，预设根特征提取参数列中的有效数据。这一方案运用到本实施例详述的一种基于属性分类的业务数据处理方法和处理装置，参照图1，包括以下步骤：步骤1：电子商务平台为外包服务器颁发数字签名认证，开放api接口，为外包服务器分配唯一的请求标识符。电子商务平台为一外包平台授权，根据伪随机种子序列为外包平台分配一身份编码，哈希函数以伪随机种子序列进行数字签名认证，得到哈希摘要，哈希摘要与身份编码共同组成请求标识符。电子商务平台数据库中写入基于外包平台身份编码的数据库表，外包平台能够通过api的身份认证访问前端数据库。
19.步骤2：提取前端服务器中的业务数据，得到第一实体部分、第二实体部分，获取第一实体部分与第二实体部分中的主体特征。
20.由于电商商品信息中具有标识含义的信息较多，对于任意一商品的销售情况而言，唯一的标识信息为实体信息。在本实施例中，元数据库中具体分为了多个类别，不同类别之间的元数据库包括文本实体与数据实体两种。sku元数据与售后元数据中，需要文本实体；订单元数据与库存元数据中则只需要数字实体；推广元数据中则需要文本实体与数据
实体。将电商平台的多源数据信息划分为第一实体与第二实体，其中，第一实体为文本特征向量，第二实体为数据特征向量。
21.提取电子商务平台中的数据点特征采用分层提取的方法进行。首先对前端服务器中包含的各类描述性文本进行提取，包括数字、字母、符号等构成的组成，存储至数据结构commodity_des_model中，并对各个词组进行分割，初步统计词频数值。其次，对提取后前端数据库中剩余的文本按照分词标记进行描述性文本的分割，依据“空格”、“括号类”进行拆分，并存储至数据结构commodity_des_keyword中。最后，按照语法对文本内容进行分词处理，并标注不同的词性，并进行多次循环，直至文本细粒度符合后续文本向量化的处理流程。在本实施例中，将拆分后的文字字符长度是否小于或等于6作为判断标准，若是，则不再进行分词处理的循环；若否，则继续进行分词处理的循环。
22.在文本向量化处理之后，通过td-idf方法进行文本特征的提取，在统计词频的过程中，将电子商务类相关的词频赋予更高的权重，在电子商务类名词信息出现词频不高的情况下，依然分配更大的词频权重，更加倾向于选择电子商务类名词作为文本特征向量。在本实施例中，电子商务类名词目录信息基于amazon数据目录2019版词频的获取。
23.步骤3：分别计算第一实体部分的属性权重与第二实体部分的信息熵值，设置基于属性权重的第一参数列ki，基于信息熵值的第二参数列kj。
24.通过对第二实体部分中的数据增加数据分组头部信息熵，其中包含有n条预设的相关规则，构成规则集合λ，对不同的数据头部分组通过n条预设的规则进行匹配得到数据分组头部的信息熵值为，其中，pi为任意数据分组头部规则的出现概率。在本实施例中，不同元数据类对数据的要求并没有显著差异性，则假设所有规则权重分配均相等，即pi=1/n，则数据分组头部的信息熵值可以计为h=lbn。
25.本实施例优选的信息熵值提取第二参数列的方法，通过将匹配域裁剪的方式尽可能减少数据的宽度，确保数据能够在后续精确分类为多个元数据库。将数据分组头部规则的信息熵值作为单一匹配域中划分参数列的标准，参照图2，第二实体划分为第二参数列的过程中，若考虑单独m1、单独m2与单独m3进行匹配域裁剪时，数据分组头部信息熵h(m1)＞h(m3)＞h(m2)，则认为单独m1参与匹配域裁剪过程可以最大化降低分组头部信息熵。因此，m1单独构成参数列，脱离第一实体部分，参照图3，m1脱离第一实体部分，且m2与m3中丢失原m1的预设规则。
26.第一参数列包含一级参数与二级参数。外包平台所获取的电子商务平台信息中，不同电子商务平台所包含的信息属性不同，而同一电子商务平台中不同商铺的信息属性也存在差异性。参照图4，第一参数列中包含两列参数，其中，一级参数为类信息的参数名称，二级参数则为类信息下的具体参数内容。
27.在本实施例中，第一参数列基于属性权重进行分类，属性分类条件分为固定属性、变动属性以及半变动属性，固定属性为商品名称、规格参数、品牌型号；变动属性为sku、商品价格、推广信息；半变动属性为售后信息、库存信息。
28.步骤4：预设业务数据的文本根特征，基于文本根特征遍历各个第一参数列ki，将第一参数列符合文本根特征标准的纳入第一实体匹配表。
29.在本实施例中，文本根特征采用信息增益的方法设置，文本根特征为电子商务外
包平台所需信息种类中的高频词汇。例如，当电子商务平台商家外包商品上架这一工作之后，授权的外包平台需要获取sku元数据，与商品sku相关的包括但不仅限于“款式”、“颜色”、“尺码”、“品牌”、“型号”、“适用群体”，人为选定的电子商务平台中某一类的文本词为预设特征元素。在本实施例中，基于初始设定的根集，根据外包平台所需数据库信息类型，预设特征元素x类，在第一实体部分中挑选多个特征词组成根集，并计算各个特征词在根集中的权值，权值大于阈值标准的特征词提取为文本根特征。特征词判定为文本根特征权值的阈值，其中，d为选取的特征词数量，x为预设特征元素种类，为各个特征值在根集中权值的平均数。
30.在本实施例中，第一实体匹配表为第一参数列ki中通过文本根特征遍历得到的数据库表，第一实体匹配表包括数据库父表与数据库子表，数据库父表为不同的电子商务信息类别，数据库子表为各个电子商务信息类中所包含的特征词。
31.步骤5：预设业务数据的数字根特征，基于数字根特征遍历各个第二参数列kj，将第二参数列符合数字根特征标准的纳入第二实体匹配表。
32.多源电子商务信息中不同平台的数字类信息存在一定的规律，按照这一规律匹配对应的数据提取与融合方法，可以提高数字类信息的提取与融合效率。本实施例中，数字根特征用以对电子商务平台的订单号、物流号、商品编码、sku编码进行数字信息提取，采用信息增益的方法进行设置，具体方法同上文本根特征的提取方法，在此不做赘述。
33.在本实施例中，第二实体匹配表为第二参数列kj中通过数字根特征遍历得到的数据库表，第二实体匹配表包括数据库父表与数据库子表，数据库父表为不同的电子商务信息类别，数据库子表为各个电子商务信息类中所包含的特征数字组合。
34.步骤6：第一实体匹配表与第二实体匹配表存储至前端服务器的元数据库，为不同类别的元数据库信息提供唯一的索引标识符。
35.第一实体匹配表与第二实体匹配表在前端服务器的元数据库中，任意一元数据类均包含有一个数据库父表以及多个数据库子表，数据库父表中各个类的主键作为索引标识，增加受外包服务器的身份编码，用以与请求标识符对应。
36.步骤7：基于朴素贝叶斯分类器对第一实体匹配表进行元数据库分类，基于熵分类器对第二实体匹配表进行元数据库分类，得到sku元数据、售后元数据、订单元数据、库存元数据、推广元数据。
37.本实施例优选的hbase分布式数据库的设计方法为所有数据库表提供了多维度的映射。在元数据库中，基于hbase的分布式数据库设计需要对数据库进行分割处理，并且将所分配的不同节点进行存储与调整，第一实体表、第二实体表在元数据库中需要进行水平分片与垂直分片。例如，对于推广元数据库的分类过程采用水平分片方式，根据推广订单的创建时间，构建分片a与分片b。其中分片a为当前计划内的所有推广情况，包括推广状态、推广消耗金额、ocpx消耗额、自定义推广消耗额。分片b则为基于分片a计算出的roi以及产品的基本属性，包括推广名称、产品编号、产品名称、产品状态、roi。任意一张数据库表的索引标识符包含一关键字与一时间戳，当数据库内存储信息发生改变的情况下，时间戳会进行标记，外包平台接入时，提取数据的时间与时间戳标记的时间保持一致。
38.步骤8：电子商务平台的前端服务器接收来自至少一个的外包服务器的接入请求，
前端服务器验证请求标识符。
39.在本实施例中，索引标识符对请求标识符交换的身份编码与数字签名，若核对一致，则允许请求标识符对应的外包平台调用元数据库信息；若核对错误，则拒绝请求标识符信息，并发送拒绝信息至外包平台；若核对为空，则拒绝请求标识符信息，并发送到期信息至外包平台。优选的，标识符与索引标识符之间的信息交换存在于任意一次访问前端数据库的请求中。
40.步骤9：根据请求标识符为外包平台开放元数据库访问权限，允许接入请求，外包服务器基于电商服务器所开放的元数据加载业务流信息。按照页面组件间对接的配置实现数据融合与交换。
41.本实施例优选的外包平台界面设计方式，基于的jsp技术下，利用b/s架构提升外包平台的数据提取能力与人机交互，系统架构划分为表示层、业务逻辑层、数据访问层与元数据库，系统的前端业务逻辑采用react框架进行编写，搭建页面组件的可视化，多源业务数据处理结果在表示层中利用mybatis框架构建，系统可以切换登录身份，对多个电子商务平台的外包工作在同一页面组件中进行处理，处理后的多源业务数据在不同页面组件之间的业务流交换不会受到平台数据库修改的影响。
42.实施例二用于业务数据的处理装置，包括电商服务器、外包服务器、前端服务器，其中，前端服务器包括提取单元、第一存储单元、第二存储单元、判决单元、tcam主控单元。在本实施例中，tcam主控单元分别由n-tcam芯片与w-tcam芯片共同组成，第二存储单元与n-tcam芯片与w-tcam芯片组成通信回路，进行全双工通信。
43.参照图5，tcam主控单元由n-tcam以及w-tcam共同组成，其中，n-tcam存储匹配域裁剪之后得到的流表，存储有原始流表宽度的w-tcam可以存储第一实体匹配表、第二实体匹配表。第一实体部分、第二实体部分的主体特征存储至第一存储单元中，通过匹配域提取电路构成第一参数列与第二参数列后，通过tcam主控单元进行提取与分类，得到的第一实体匹配表、第二实体匹配表存储于第二存储单元中，并通过判决模块输出相应的元数据库分类。
44.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改，等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：多媒体播放方法、装置、设备和存储介质与流程

一种基于属性分类的业务数据处理方法和处理装置与流程

相关文献

最热文献