一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于配置的Excel数据解析入库方法与流程

2022-03-02 04:23:30 来源:中国专利 TAG:

基于配置的excel数据解析入库方法
技术领域
1.本发明涉及金融行业技术领域,具体涉及基于配置的excel数据解析入库方法。


背景技术:

2.一、虽然数据库技术和大数据已经广泛使用,但在人与人的交流、沟通之间,excel文件仍然是最主要的数据承载媒介;
3.二、在金融领域,无论是研究还是投资,都有大量的研究成果、数据模型、持仓结果是存储在excel文件中。文件中的数据不像api或者数据库表有标准的约束和定义。在信息解析以及再利用的时候,往往需要标准化为适合计算机进行分析的有固定规范的序列格式;或者导入数据库中,以统一的方式被分析。由于文件是人们按照自己的习惯来定义的,在数据格式、展现形态上都极具个性,既不可能做一个通用的能被所有人都接受的标准模板,也很难对每一个文件都写一个单独的程序去解析。当必须要把这种格式的文件标准化入库时,一般都通过人工方法,将不规则的数据形态转变为内部能接受的、部分标准化的数据形式,再用程序进行处理和分析。
4.excel承载的数据文件,在金融领域被大量使用。卖方(券商研究所、投行等),研究内容覆盖行业、上市公司,大量研究结果均以excel文件中时序数据的形式提供给买方(基金公司、保险资管、银行等)。这种文件即便是在同一家券商的研究所内,也没有形成统一的格式规范。买方收到的多家券商提供的格式迥异的excel数据文件时,更是面临着非常大的数据抽取和标准化工作。一种方式是针对每个文件去写解析程序,一种方式是用人工方式对数据进行转置、标准化的处理。前者在文件格式变化时需要升级不同版本的解析代码,后者面临无法自动化、线性累加的工作量压力。现在市场上处于领先地位、有议价权的买方(基金公司等)都在向卖方提出标准数据交互的要求,分两种方式:一种是要求卖方(研究所)按照买方提供的excel模板整理数据,并在买方自身的系统内上传;另一种是要求卖方将自己的研究结果数据以api接口形式向买方提供数据。前一种方式加重了卖方研究员的负担,因为他们需要把数据结论再整理成另外一种格式,不同买方要求的模板都不相同。如果向多个买方提供数据产品还需要按照多种模板整理多次,大大加重了数据整理的工作量,这个过程中也很容易出现错误;后一种方式把数据标准化的责任转移到了卖方技术团队身上,如果要以api接口形式提供服务,必然要求卖方先把excel数据规范入库,对缺乏it技术和数据支持的卖方研究所是个很难实现的任务。
5.解析excel最核心的部分是对文件中具有业务含义数据块的内容做出规范的定义、描述、解释,以及对不同数据形态的解析方法。市场上现存的方法只是从技术等其他角度泛泛的论述,都绕过了最具体的可操作可实现的细节部分。
6.同类产品申请号(cn201510946709.5)、公开(公告)号(cn105574164a),也提及了一种excel文档的数据解析方法。但是该文章偏重技术上的实现,没有提炼出excel数据解析框架,没有对数据解析的具体步骤给出明确的可实现的定义,也没有给出一个完整的解析过程,文中的内容不具备可复制性和可操作性。
7.excel在金融行业有非常广阔的应用,业务沟通中的基金净值、持仓数据,卖方研究提供的数据产品服务等,都是以excel文件为数据载体的。但这些文件没有统一的格式标准,都是数据提供者根据自己的习惯和偏好,设计数据的布局与分布。这些数据人看起来比较方便,但是标准化非常困难。比如公募基金(买方)经常会收到大量卖方研究所提供的格式迥异的excel数据产品,只能给人去用,很难把这些数据落地存储为公司的数据资产,因为excel数据的解析和标准化是个非常繁重且耗人工的工作。
8.基于此,我们提出基于配置的excel数据解析入库方法。


技术实现要素:

9.本发明的目的在于克服现有技术中存在的上述问题,提供基于配置的excel数据解析入库方法,在不修改原始文件的基础上,通过独立的配置文件,来描述原始文件内的数据分布,数据格式,日期格式,数据开始、结束范围,数据单位、量纲、来源、维度等信息。
10.为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
11.基于配置的excel数据解析入库方法,包括以下步骤:
12.步骤一、计算机程序的工作步骤:对每一个需要解析的excel文件,制作一个标准格式的配置文档,里面包含对原始excel文件中时序数据的定义,描述原始文件内的数据块分布,数据形态,日期格式,数据开始、结束范围,数据单位、量纲、来源、维度信息;
13.上述过程分为:
14.s1、确认包含要解析数据的excel的sheet页;
15.s2、定义sheet中的数据块:
16.s21、定义日期;
17.s22、定义数据块;
18.s23、定义数据块的附加属性;
19.s24、定义维度;
20.步骤二、计算机系统的程序模块结构:每个原始excel文件会对应一个同名、后面加上“配置”二字的配置文件;解析程序读取配置文件中定义的要入库的sheet,以及每个sheet中要解析的数据块的配置,再去原始文件中定位和读取数据;
21.解析程序分为2个主要部分:
22.s3、通用excel解析:基于python的xlwings包开发,封装了对单个excel配置文件的按区域读写操作,以及对字母列的偏移操作;
23.s4、解析的核心部分,实现基于配置文件的原文件数据信息识别和抽取,解析结果分成两个部分:一是存于dict中的很多dataframe对象,里面存放各个sheet中的不同数据块数据;二是存于dict中的cblockattribute对象中的指标属性,与前面一个dict中的dataframe对象一一对应,包括指标单位,量纲,数据来源,维度这些辅助信息;
24.s5、解析好的数据,可以回写为标准的指标数据形式,或者是直接写入到数据库中。
25.优选地,所述步骤s21中包括:
26.a、先定义日期的方向,横向或者纵向;
27.b、其次定义日期的开始单元格,以“a2”的绝对方式定义;
28.c、再其次定义日期频率,是日频、周频、季频、还是其他;
29.d、最后定义日期格式。
30.优选地,所述步骤s22中包括:
31.e、先要定义数据块的起始行,起始列,终止行,终止列;
32.f、接着配置数据块名称;
33.g、最后需要定义哪一行或哪一列包含了“指标名称”。
34.优选地,所述步骤s23中,附加属性包括指标单位、数据量纲、数据来源,指标辅助名,维度等,为了通用性,这些都通过json格式来定义。
35.优选地,所述步骤s24中,维度通过三种方式进行配置:一、固定值;二、其他列;三、偏移量。
36.优选地,所述s3中,对于excel解析模块,由于原始数据文件和配置文件都是excel格式,该类封装了对excel的基础操作,包括隐式打开excel文件,读取配置文件中包含的sheet名称、按单元格绝对位置和偏移方向读取原数据中的数据,写excel文件,对excel字符形式列名的转换等。在程序启动时会生成2个解析的类对象,根据配置文件中的路径设置,分别读取原始文件和配置文件。
37.优选地,所述步骤s4中,对于核心解析模块,由于在配置中,把数据块的日期和数据内容分开进行定义,解析部分分以下步骤:
38.h.读取日期
39.根据定义的日期起点位置和日期方向,用excel解析模块中的函数,顺序读取到第一个非空的单元格为止,这个长度作为日期序列的长度,也是下面数据块的长度;
40.i.读取数据块内容
41.数据块通过起始单元格坐标,日期长度,终止行/列三个信息来定位;
42.数据读取完毕后,根据配置文件中的过滤项,对数值中的无效字符进行剔除;程序中还会对读取到的python非数值类型进行处理;
43.j.读取指标名列
44.指标名列是单独配置的,读取范围是从数值开始的行/列,读到数据终止的行/列长度;
45.k.读取指标属性
46.指标属性是最灵活的部分,包括基本指标单位,数据来源,数据量纲信息,也包括指标维度,都用灵活的json配置,可以细化定义到每一个指标点;每个读取到的结果是dataframe格式,存入cblockattribute的相应成员变量中;
47.l.读取维度
48.按照三种维度定义方式,“固定值,其他列,偏移量”循环,读取json配置,将维度值对应到相应的指标上。
49.m.数据回写;
50.n.数据入库。
51.与现有技术相比,本发明的有益效果如下:
52.本发明通过将excel文件中数据内容定义分成三大模块:日期定义,数据块定义,数据附加属性定义。并最终将这三部分解析的结果融为一个整体,可以输出为标准的序列
或者直接入库。解析程序先读取配置文件的三大模块定义,再据此去原始文件中抽取数据信息,将原文件中格式迥异的数据块解析为格式一致的数据序列,以指标信息和指标数据的格式直接写入到数据库中,或者是写到新的标准格式excel文件中,让外部程序可以很容易的读取和使用。从而在不修改原始文件的基础上,通过独立的配置文件,细致描述原始文件内的数据块分布状态,包括数据形态,日期格式,数据开始、结束范围,数据单位、量纲、来源、维度等信息。
53.当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
54.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
55.图1为本发明的计算机程序流程图和包含程序模块的系统结构图一;
56.图2为本发明的计算机程序流程图和包含程序模块的系统结构图二;
57.图3为本发明的对excel文件名和原始sheet名进行重新定义的图表;
58.图4为本发明的矩形数据区域的名称的图表;
59.图5为本发明的数据区域中指标名称的图表;
60.图6为本发明的程序解析出来的指标名的图表;
61.图7为本发明的定义数据块中的数据块区域的图表。
具体实施方式
62.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
63.实施例
64.请参阅图1-7所示,基于配置的excel数据解析入库方法,不仅描述如何对excel文件进行解析,还对解析完成后数据的格式进行了标准的定义,方便下游环节的处理。在金融领域,指标化数据是一种规范的、易于被传播和理解的数据格式,其形式主要分为3个部分:
65.1、指标名称及id,以及对应的主要属性。包括但不限于:指标单位,数据来源,指标频率,量纲系数,指标备注,指标全名,指标简称,拼音缩写等。
66.2、指标id,日期,指标值。
67.3、指标维度。例如指标的统计口径、地域、价格区间、所属行业等。
68.解析后的数据按照上面三个部分,规整为具有相同维度定义、约束格式的标准数据,可以按这种格式写回为标准格式的excel文件,进行分析;或者是将这种格式的数据写入到数据库的指标主表,指标值表,指标维度表等几张表中,形成公司的数据资产。
69.具体包括以下步骤:
70.步骤一、计算机程序的工作步骤:对每一个需要解析的excel文件,制作一个标准
格式的配置文档,里面包含对原始excel文件中时序数据的定义,描述原始文件内的数据块分布,数据形态,日期格式,数据开始、结束范围,数据单位、量纲、来源、维度等信息。
71.上述过程分为:
72.s1、确认包含要解析数据的excel的sheet页:
73.这一步指定文件中哪些sheet中的数据需要解析,可对excel文件名和原始sheet名进行重新定义,如图3所示,这里提供对原文件中不规则文件名称(一般会包含日期)和不规则sheet名的重命名方式,标准文件名和标准sheet名出现在最终的指标名称中,这种设置可以避免原始文件名称和sheet名称不规范、随意修改导致的指标名称不稳定的问题。
74.s2、定义sheet中的数据块:
[0075]“数据块”的概念是本专利首先提出的,也是解析的核心部分。因为excel中的数据无论具体格式如何多样化,它一定是矩阵形式的。理论上只要圈定好了矩阵的对角两个顶点,就能包含矩阵内的全部数据。其他属性(单位、量纲、备注等)都是围绕着矩形指标区域的附加信息。本技术把“日期”的定义(范围、格式、频率等),“指标名”的定义(位置所在行或者列),“数据内容”自身的定义分开。把这些概念分开定义更有利于进行灵活的配置。
[0076]
s21、定义日期
[0077]
a、首先定义日期类型。时序数据的日期有2种类型,在横向(h)往右侧拓展,或者在纵向(v)往下方拓展。
[0078]
先定义日期的方向,横向或者纵向。
[0079]
b、其次定义日期的开始单元格,以“a2”的绝对方式定义;
[0080]
解析程序根据定义的开始位置和日期方向,一直读取到没有值的单元格为止,这里读取到的日期长度,就是下文中“数据块”的长度。
[0081]
c、再其次定义日期频率,是日频、周频、季频、还是其他。
[0082]
d、最后定义日期格式:数据有众多的频率和日期显示方式,有的是excel中支持的标准日期格式,有的是类似“2021q1,1q20”这种字符串格式,有的是数据透视表结果中的“平均值项:202106”这样的字符,上述各类日期格式,在配置中使用通配符进行配置,若遇到其他的日期格式,在代码中增加对通配符的解析即可。
[0083]
s22、定义数据块
[0084]
数据块配置是本发明中的核心部分。通过将数据块定义和日期定义分离开,可以更加灵活的配置。数据块指的是纯数值的区域,不包括指标列或者日期。
[0085]
e、先要定义数据块的起始行,起始列,终止行,终止列。“起始行,起始列”分别指定行坐标和列坐标(不是日期那种a2绝对地址的方式,行列坐标分开定义有利于后面做偏移量的计算)。如果日期是水平(h)的,终止列就是“起始列 日期长度”,只需要配置“终止行”;如果日期是垂直(v)的,终止行就是“起始行 日期长度”,只需要配置“终止列”。如图7所示,起始行是4,终止行是9。数据块区域的其中一条边长等于日期的长度,另一条边长通过终止行/列的方式指定。因为日期随着每一期新文件的到来是会增长的,根据日期长度自动调整避免每次去修改配置;而指标的个数则相对稳定且程序很难自动去框定范围,因此需要人工指定。
[0086]
f、接着配置数据块名称,这个是矩形数据区域的名称,一般位置如图4所示,有些矩形数据块没有这个属性值,需要自己添加;一个数据块内的指标都同属于一个业务范围,
最终的指标名称是“标准文件名_标准sheet名_块名称_(指标辅助名)_指标名称”的形式。
[0087]
g、最后需要定义哪一行或哪一列包含了“指标名称”;指标名称是矩形数据区域最细粒度的名称,如图5所示,如果日期是水平(h)的,则“指标名称”通过在哪一列定义,例如图5中定义为“a”列(左侧第一列);如果日期是垂直(v)的,则“指标名称”通过在哪一行定义。
[0088]
s23、定义数据块的附加属性
[0089]
附加属性包括指标单位、数据量纲、数据来源,指标辅助名,维度等,为了通用性,都通过json格式来定义。如下:
[0090]
以“指标单位”举例:
[0091]
{"0":"元"},用“0”表示矩形区域的所有指标都是同一个指标单位“元”,这种方式不需要关心每个数据块内具体有多少行/列的指标;
[0092]
{"1":"元","2":"万元","3":"%"},表示第1,2,3个指标(1,2,3是指标的顺序号,这种通过指标顺序指定指标位置的方式与日期是水平还是垂直的没有关系)分别是“元,万元,%”的单位。数据来源,数据量纲等也是用类似的方法定义。
[0093]“指标辅助名”用json格式来指定,通过坐标系偏移,(x,y)方向一定值的方式,表示从当前指标位置的什么方向单元格取值,拼接在当前指标名的前面。x,y的正负取值参考平面坐标系xy轴取值方向。从“全国”到“其它”一共6个指标,如果配置{"1":"0,0","2":"0,1","3":"0,2","4":"0,0","5":"0,1","6":"0,1",},程序解析出来的指标名如图6所示。
[0094]
s24、定义维度
[0095]
维度是指标附加属性中很重要的信息。只有指标名和序列值,对机器学习等深度应用是不够的。算法需要知道属于这个指标的各种角度的信息,例如销售渠道、订单分类、区域分类、价格区间、尺寸、所属上市公司、行业等等。
[0096]
维度信息来自2个地方:一是原始excel文件中的信息,二是业务人员根据自己经验理解的、未在excel文件中直接体现的信息。维度通过三种方式进行配置:
[0097]
一、固定值
[0098]
这种最简单,直接指定某个指标的某个维度名称是什么值,与单元格的位置无关。
[0099]
二、其他列
[0100]
指定额外的行(或者列)的值,为指标的维度值,类似于指定指标名称的方法。
[0101]
三、偏移量
[0102]
与指标辅助名一样,通过指定(x,y)坐标的方式,从当前指标名的单元格,在二维平面上偏移一定量的单元格的值作为维度值。
[0103]
配置仍采用json的方式,例如:{"固定值":{"0":{"数据来源":"某协会网站"}},"其他列":{"0":{"价格区间":"b","动力类型":"c","车型":"d"}},"偏移量":{"2":{"所属公司":"1,2"},"7":{"所属公司":"2,3"}}}。
[0104]
与其他配置的定义一样,"0"表示所有的指标都采用这个配置。上面配置的含义为:
[0105]
固定值:所有指标的“数据来源”都是“某协会网站”;
[0106]
其他列:所有指标都有这三个维度“价格区间,动力类型,车型”,它们的值分别从b,c,d三列获取。程序会根据指标在sheet中的位置,定位到具体的行,取出这三列的值作为
维度值;
[0107]
偏移量:第2个指标“所属公司”的维度值,在它自身单元格往右偏移1个单位,往上偏移2个单位的单元格中;第7个指标“所属公司”的维度值,在它自身单元格往右偏移2个单位,往上偏移3个单位的单元格中。这是一种相对位置的定义方式,除了用于文中提到的指标辅助名、维度之外,还可以用于其他任意想解析和保存的内容的定义。
[0108]
步骤二、计算机系统的程序模块结构:解析程序读取配置文件中定义的要入库的sheet,以及每个sheet中要解析的数据块的配置,再去原始文件中定位和读取数据;
[0109]
解析程序分为2个主要部分:
[0110]
s3、通用excel解析:基于python的xlwings包开发,封装了对单个excel配置文件的按区域读写操作,以及对字母列的偏移操作。
[0111]
s4、解析的核心部分,实现基于配置文件的原文件数据信息识别和抽取,解析结果分成两个部分:一是存于dict中的很多dataframe对象,里面存放各个sheet中的不同数据块数据;二是存于dict中的cblockattribute对象中的指标属性,与前面一个dict中的dataframe对象一一对应,包括指标单位,量纲,数据来源,维度等其他辅助信息。
[0112]
解析好的数据,可以回写为标准的指标数据形式,或者是直接写入到数据库中。写入到数据库中可以从一个总体视角,纵览所拥有的全部数据资源。多数公司建立的数据中心只对已经是数据库格式的各种内外部数据进行统一(例如购买的第三方数据库,内部客户服务数据库,投资产品持仓数据库等),对excel文件中的数据几乎没有处理能力。本技术内容是对这部分缺失环节的有力补充,极大的完善了公司信息一体化的能力。
[0113]
excel解析模块
[0114]
由于原始数据文件和配置文件都是excel格式,该类封装了对excel的基础操作,包括隐式打开excel文件,读取配置文件中包含的sheet名称、按单元格绝对位置和偏移方向读取原数据中的数据,写excel文件,对excel字符形式列名的转换等。在程序启动时会生成2个解析的类对象,根据配置文件中的路径设置,分别读取原始文件和配置文件。
[0115]
核心解析模块
[0116]
在配置中,数据块的日期和数据内容分开进行定义,解析部分分以下步骤:
[0117]
1.读取日期
[0118]
根据定义的日期起点位置和日期方向,用excel解析模块中的函数,顺序读取到第一个非空的单元格为止,这个长度作为日期序列的长度,也是下面数据块的长度。有的数据块日期最后会有作者手工加入的汇总项,例如原本是月频的日期序列,最后加上了一个“2021q1汇总,2021q2汇总”的手工合计项,这时可以在“日期终止位置”中配置-2,表示将最后读取到的两项截掉。
[0119]
日期还存在很多种不同的格式,解析程序先根据配置文件中的过滤项,对日期中包含的无用字符进行剔除,例如“求和项,平均值项,e,e,ytd,年”,再根据“日期格式”通配符,对日期进行解析,最终标准化为标准的python中的date类型,形如“2021-07-15”。
[0120]
2.读取数据块(值)内容
[0121]
数据块通过起始单元格坐标,日期长度,终止行/列三个信息来定位,日期长度决定了数值(序列)的长度,“终止行/列”则是定义矩形数据块区域的另一条边长。
[0122]
数据读取完毕后,根据配置文件中的过滤项,对数值中的无效字符进行剔除,例如
全角半角的空格,逗号,
“‑”
,程序中还会对读取到的python非数值类型,例如np.inf,none,np.nan进行处理。如果数值区域有字符值,会移动到一个与数值区域结构完全一致的dataframe中保存,在入库时将字符值写到指标值表的cvalue(字符类型)列中。程序还根据配置,计算出每个数值在sheet中所处的位置,例如“d4,d5”等。
[0123]
3.读取指标名列
[0124]
指标名列是单独配置的,读取范围是从数值开始的行/列,读到数据终止的行/列长度。
[0125]
4.读取指标属性
[0126]
指标属性是最灵活的部分。包括基本指标单位,数据来源,数据量纲等信息,也包括指标维度,都用灵活的json配置,可以细化定义到每一个指标点。每个读取到的结果是dataframe格式,存入cblockattribute的相应成员变量中。
[0127]
5.第一步读取到的日期是series类型,把这个设置为第二步读到的dataframe数据块的索引,再设置该dataframe的columns为第三步读取到的指标名,这样拼接成一个标准的有日期索引、有列名的dataframe。
[0128]
6.在拼接过程中程序检查这三个变量的长度是否一致,如果不一致报警提示。没问题的结果按照“sheet-数据块”的层级关系,把这个dataframe插入dict变量中,第k步读取的指标属性是另外一个也参照“sheet-数据块”的层级关系的dict变量,在位置上和存储数值的dict变量一一对应,这两个dict结果即是解析后的最终结果。
[0129]
7.读取维度
[0130]
按照三种维度定义方式,“固定值,其他列,偏移量”循环,读取json配置,将维度值对应到相应的指标上。
[0131]
8.数据回写
[0132]
解析好的数据,已经包含了完整的指标信息、指标值,可以按照类似wind数据导出的格式,回写为标准的excel文件格式。
[0133]
输出这种标准文件格式有三个优点:
[0134]
一、检查
[0135]
可以校验这个标准输出文件与原文件的差异,提前发现解析中可能的错误。或者是基于这种文件的历史版本做数据对比,识别数据异常的变动,例如是否存在大量历史数据变化,或者是指标名称改变、新增指标行等。检查文件的稳定性很重要,原文件由于极不规律,几乎不可能用程序来做这种检查。
[0136]
二、方便入库
[0137]
虽然本解析程序提供基础的直接入库的解决方案,但不同用户可能有不同的需求和指标体系。例如可能会对指标名称中的分隔符、量纲的参数化定义、数据来源做额外的处理,基于这种标准输出文件入库相对简单很多。
[0138]
三、归档
[0139]
原文件是人加工的,不可避免的有格式、内容的变化。将解析后的标准文件归档,易于程序基于解析结果提前发现这种变化,并发出预警信息通知要对配置文件做相应的调整。避免靠人工去识别文件的变化。
[0140]
9.在数据库中建三张表:(1)指标主表(data_main):包含指标代码,简称,全称,量
纲,数据来源,单位,指标名地址等基本信息;(2)指标值表(data_value):除了传统的日期、代码、数值列外,还包括非数值列,信息发布日期,开始日期,是否预测值,数值单元格地址;(3)指标维度表(data_dimension):指标代码,维度名称,维度数值,维度生效、失效日期,维度类型等。
[0141]
解析好的数据是具有相同格式的标准数据,将这些数据写入到数据库对应的表中即可。“(数据提供方名称)_标准文件名称_标准sheet名称_块名称_(指标辅助名)_指标名称”是库表中指标标识唯一性的主键。每次有数据准备入库前,先根据这些关键列查找库中是否已经存在指标id,如果没有则通过算法生成一个新的id,再将指标基础信息,指标数值等存入库中。如果已经存在相同的指标id,只更新发生了修改的数据即可。
[0142]
本实施例的一个具体应用为:在无需改变原始excel文件的前提下,用一个单独的excel配置文件,按照本发明中定义的三大模块(日期定义,数据块定义,数据附加属性定义)描述原文件中的数据的组织形式、格式与包含的内容。程序先读取配置文件中数据的定义,再据此去解析原文件中的数据内容。这种方式易于扩展,如果遇到新的不能支持的格式,只需要添加相应的配置和处理规则即可。
[0143]
这种方式可以以较低的成本解析格式迥异的excel数据文件,有广阔的应用场景。在现阶段高效的解决了买方(基金公司、资管、保险、银行等)和卖方(券商研究所、投行、咨询公司等)面临大量excel数据文件时的数据标准化问题:
[0144]
即:1、买方(基金公司、资管、保险、银行等)。面临大量卖方(券商研究所、投行、咨询公司等)提供的多种形式的服务,其中大量的数据结论都保存在excel文件中。以前这些文件都散落在内部的员工身上,很难汇总统计,更不利于此类数据资源在内部的共享和传播,而且各种格式文件中的数据,没办法被算法程序使用。现在可采用这种配置的方式对数据解析,生成标准数据文件或者直接入库,在更高的层级上沉淀公司拥有的数据资产,便于从管理视角分析公司有哪些(excel文件中)数据,以及这些数据的更新频率、分类、指标量、访问情况等信息。基于解析后标准化入库的数据,方便做数据稳定性检验、更新提示、各种规则的数据检查、衍生指标计算、算法分析、机器学习等工作,充分挖掘数据的价值。
[0145]
2、卖方(券商研究所、投行、咨询公司等)。也可用这种方式将自己众多excel研究文件中数据成果解析到数据库中,沉淀为内部的研究数据资源,并在这个过程中梳理数据资产的分类和建立投研分析、咨询服务的指标体系。如果买方有数据标准化或者接口服务的需求,可在数据库基础上包装api接口对外提供服务。
[0146]
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0147]
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献