一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种证券关系图谱的构建方法、装置及电子设备与流程

2022-11-19 14:45:49 来源:中国专利 TAG:


1.本发明涉及知识图谱技术领域,特别是涉及一种证券关系图谱的构建方法、装置及电子设备。


背景技术:

2.目前,通过构造证券关系图谱,可以辅助分析证券与证券之间的价格的影响方式、风险的传导过程和投资中持仓组合的约束条件的设置。
3.而相关技术中,基于证券所属行业构建的证券关系图谱无法表征不同行业的股票的关联关系,通过将新闻或舆论同时提及的证券相连所构建的证券关系图谱所涉及的证券数目太少,以及基于证券所在公司上下游供应链关系的方式构建的证券关系图谱,仅能表征处于一条供应链内的公司的证券的关联关系,等等。
4.可见,相关技术所构建的证券关系图谱的丰富度和连通性不理想,导致所构建的证券关系图谱不利于为投资者的投资决策和风险防范提供参考。因此,如何提高证券关系图谱的丰富度和连通性,从而更好地构建证券关系图谱是亟待解决的问题。


技术实现要素:

5.本发明实施例的目的在于提供一种证券关系图谱的构建方法、装置及电子设备,以实现提高证券关系图谱的丰富度和连通性,从而更好地构建证券关系图谱。具体技术方案如下:
6.第一方面,本发明实施例提供了一种证券关系图谱的构建方法,所述方法包括:
7.针对待构建证券关系图谱的多只证券,获取每一所述证券的证券数据;其中,所述证券数据包括,所述证券的发行方的财务报表、所述证券的技术指标数据和/或所述证券的日内交易数据;
8.针对每一所述证券,从该证券的证券数据中,确定该证券的多个指定类别下的因子数据,并基于该证券的每一指定类别下的因子数据,确定该证券的每一指定类别下的证券向量;其中,每一指定类别为用于进行证券描述的一个类别,每一指定类别下的因子数据为该指定类别下的证券描述数据;
9.针对每一指定类别,基于各只证券的该指定类别下的证券向量,确定在该指定类别下的各只证券之间的指定关系数据;其中,所述指定关系数据为用于表征关联关系的数据;
10.以各只证券作为图谱顶点,基于在每一指定类别下各只证券之间的指定关系数据,构建以每一指定类别分别作为一个图谱维度的证券关系图谱。
11.可选地,所述因子数据包含至少一个因子值;
12.所述基于该证券的每一指定类别下的因子数据,确定该证券的每一指定类别下的证券向量,包括:
13.针对每一指定类别,以该证券在该指定类别下的因子数据所包含的每一因子值分
别作为一个向量维度,生成该证券在该指定类别下的证券向量。
14.可选地,所述针对每一指定类别,基于各只证券的该指定类别下的证券向量,确定在该指定类别下的各只证券之间的指定关系数据,包括:
15.针对每一指定类别,计算每两只证券的该指定类别下的证券向量的向量相似度,得到该指定类别下每两只证券之间的指定关系数据。
16.可选地,所述以各只证券作为图谱顶点,基于在每一指定类别下各只证券之间的指定关系数据,构建以每一指定类别分别作为一个图谱维度的证券关系图谱,包括:
17.针对每一指定类别,基于每两只证券的该指定类别下的证券向量的向量相似度,确定在该指定类别下每一证券对应的关联证券;其中,每一证券对应的关联证券为:与该证券的向量相似度大于预定阈值的证券,或者,按照向量相似度排序靠后排序靠前的、与该证券对应的指定数量个证券;
18.以各只证券作为图谱顶点,且以每一指定类别对应的连接线作为该指定类别的图谱边,生成以每一指定类别分别作为一个图谱维度的证券关系图谱;
19.其中,每一指定类别对应的连接线为该指定类别下每一证券的图谱顶点与所对应的关联证券的图谱顶点的连接线。
20.可选地,每一证券对应的指定数量的确定方式包括:
21.针对每一指定类别,计算在该指定类别下每一证券对应的关联证券的数量分别为1到m时,该指定类别作为一个图谱维度的证券关系图谱的m个信息熵;其中,m为各只证券的总只数;
22.从所得到的各信息熵中选取数值最小的极小值点,作为目标信息熵;
23.确定所述目标信息熵所对应的关联证券的数量,作为在该指定类别下每一证券对应的指定数量。
24.可选地,所述针对待构建证券关系图谱的多只证券,获取每一所述证券的证券数据,包括:
25.每当进入预定的构建周期时,针对待构建证券关系图谱的多只证券,获取当前的构建周期内每一所述证券的证券数据;其中,所述构建周期的周期时长基于所述证券数据的更新周期的时长所确定。
26.可选地,所述方法还包括:
27.利用社区挖掘算法,以及所述证券关系图谱中的每一图谱维度下的各只证券的指定关系数据,从不同的图谱维度,将各只证券划分至不同的簇当中。
28.第二方面,本发明实施例提供了一种证券关系图谱的构建装置,所述装置包括:
29.获取模块,用于针对待构建证券关系图谱的多只证券,获取每一所述证券的证券数据;其中,所述证券数据包括,所述证券的发行方的财务报表、所述证券的技术指标数据以及所述证券的日内交易数据;
30.向量确定模块,用于针对每一所述证券,从该证券的证券数据中,确定该证券的多个指定类别下的因子数据,并基于该证券的每一指定类别下的因子数据,确定该证券的每一指定类别下的证券向量;其中,每一指定类别为用于进行证券描述的一个类别,每一指定类别下的因子数据为该指定类别下的证券描述数据;
31.关系确定模块,用于针对每一指定类别,基于各只证券的该指定类别下的证券向
量,确定在该指定类别下的各只证券之间的指定关系数据;其中,所述指定关系数据为用于表征关联关系的数据;
32.构建模块,用于以各只证券作为图谱顶点,基于在每一指定类别下各只证券之间的指定关系数据,构建以每一指定类别分别作为一个图谱维度的证券关系图谱。
33.第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
34.存储器,用于存放计算机程序;
35.处理器,用于执行存储器上所存放的程序时,实现上述证券关系图谱的构建方法的步骤。
36.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述证券关系图谱的构建方法的步骤。
37.本发明实施例有益效果:
38.本发明实施例提供的证券关系图谱的构建方法,针对待构建证券关系图谱的多只证券,获取每一证券的证券数据;针对每一所述证券,从该证券的证券数据中,确定该证券的多个指定类别下的因子数据,并基于该证券的每一指定类别下的因子数据,确定该证券的每一指定类别下的证券向量;其中,每一指定类别为用于进行证券描述的一个类别,每一指定类别下的因子数据为该指定类别下的证券描述数据;针对每一指定类别,基于各只证券的该指定类别下的证券向量,确定在该指定类别下的各只证券之间的指定关系数据;其中,指定关系数据为用于表征关联关系的数据;以各只证券作为图谱顶点,基于在每一指定类别下各只证券之间的指定关系数据,构建以每一指定类别分别作为一个图谱维度的证券关系图谱。本方案中,针对多只证券,根据所获取的证券数据确定每一只证券多个指定类别下的因子数据,从多个维度构建证券关系图谱,提高了证券关系图谱的丰富度,同时利用因子数据将各只证券进行向量化处理,得到证券向量,并基于所得到的证券向量确定每一类别下各只证券之间的指定关系数据,从而利用所确定的指定关系数据构建证券关系图谱,提高了各只证券之间的连通性。因此,通过本方案可以更好地构建证券关系图谱。
39.当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
41.图1为本发明实施例所提供的一种证券关系图谱的构建方法的流程图;
42.图2为本发明实施例所提供的一种证券关系图谱的构建方法的另一流程图;
43.图3为本发明实施例所提供的一种证券关系图谱的构建方法的另一流程图;
44.图4为实现本发明实施例所提供的证券关系图谱方法的程序模块的结构示意图;
45.图5为本发明实施例所提供的一种证券关系图谱的构建装置的结构示意图;
46.图6为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
47.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本技术所获得的所有其他实施例,都属于本发明保护的范围。
48.图谱可以从本质上揭示顶点与顶点之间的关联关系,例如蛋白质交互关系图谱,化学分子式图谱等,但目前能反映不同证券,例如股票、基金、债券等,之间关联关系的图谱鲜有存在,若能构建反应不同证券之间关联关系,并通过可视化技术进行展现,可以用于辅助投资者投资决策和风险防范。
49.证券关系图谱目前主要有三种构建方式,第一,基于证券所属行业构建的证券关系图谱,该方法将同一个行业内的证券相连,不同行业的证券没有边相连;第二,基于新闻或舆论数据构建的证券关系图谱,该方法将新闻或舆论中同时提到的证券连边;第三,基于证券所在公司上下游供应链关系构建的证券关系图谱,该方法将有供应链关系的证券连边。但是上述三种方式均存在明显的缺陷。
50.第一,根据证券所属行业构建的证券关系图谱无法反映不同行业间股票的关联关系,而且证券所处行业更新频率极低,一旦确定行业后,除非公司主营业务变化,否则基本不会变更行业,因此所构建的证券关系图谱相对固定,无法动态反映不同证券间的关系;第二,基于新闻或舆论数据构建的证券关系图谱,其中的证券只出现在新闻或舆论中,涉及的证券均为热点证券,数目较少,此外,还需要爬虫技术爬取不同来源的新闻数据,存在潜在的法律合规问题,而且需要自然语言理解技术提取证券名称或者证券代码,技术门槛高;第三,基于证券所在公司上下游供应链关系构建的证券关系图谱,由于获取每家上市公司的供应链关系比较困难,且每条供应链关系为一个树形图,最优情况下,所构建的证券关系图谱也仅是一个树形图,边的数目和顶点的数目为同一数量级,并且供应链中的公司并不都是上市公司,并不都发行证券,不同供应链下的证券都也不能形成一个树形图,例如,医疗业证券和畜牧业证券,因此导致所构建的证券关系图谱连通度低,此外公司的供应链相对稳定,变化频率低,因此基于证券所在公司上下游供应链关系构建的证券关系图谱无法动态地反应证券间的关联关系。
51.可见,相关技术所构建的证券关系图谱连通度均较低,不利于对证券的社区结构进行分析,且相关技术所构建的证券关系图谱的维度为1,相关技术无法构建含义更丰富的多维度的证券关系图谱。因此,利用相关技术所构建的证券关系图谱不利于为投资者的投资决策和风险防范提供参考。
52.为了解决上述问题,提高证券关系图谱的丰富度和连通性,从而更好地构建证券关系图谱,本发明实施例提供了一种证券关系图谱的构建方法、装置及电子设备,该方法可以应用于电子设备中,该电子设备可以为计算机、服务器等。该方法包括:
53.针对待构建证券关系图谱的多只证券,获取每一证券的证券数据;其中,证券数据包括,证券的发行方的财务报表、证券的技术指标数据以及证券的日内交易数据;
54.针对每一证券,从该证券的证券数据中,确定该证券的多个指定类别下的因子数
据,并基于该证券的每一指定类别下的因子数据,确定该证券的每一指定类别下的证券向量;其中,每一指定类别为用于进行证券描述的一个类别,每一指定类别下的因子数据为该指定类别下的证券描述数据;
55.针对每一指定类别,基于各只证券的该指定类别下的证券向量,确定在该指定类别下的各只证券之间的指定关系数据;其中,指定关系数据为用于表征关联关系的数据;
56.以各只证券作为图谱顶点,基于在每一指定类别下各只证券之间的指定关系数据,构建以每一指定类别分别作为一个图谱维度的证券关系图谱。
57.本方案中,针对多只证券,根据所获取的证券数据确定每一只证券多个指定类别下的因子数据,从多个维度构建证券关系图谱,提高了证券关系图谱的丰富度,同时利用因子数据将各只证券进行向量化处理,得到证券向量,并基于所得到的证券向量确定每一类别下各只证券之间的指定关系数据,从而利用所确定的指定关系数据构建证券关系图谱,提高了各只证券之间的连通性。因此,通过本方案可以更好地构建证券关系图谱。
58.下面结合附图,对本发明实施例所提供的一种证券关系图谱的构建方法进行介绍,如图1所示,该方法可以包括以下步骤:
59.s101,针对待构建证券关系图谱的多只证券,获取每一证券的证券数据;其中,证券数据包括,证券的发行方的财务报表、证券的技术指标数据和/或证券的日内交易数据;
60.其中,证券可以为股票、基金、债券等。待构建证券关系图谱的多只证券可以为市场上任意的多只证券。证券的发行方一般为上市公司,上市公司的财务报表是公开发布的,技术指标数据是指一切通过数学公式计算得出的证券价格的数据集合,日内交易数据是表征日内交易的数据,日内交易指持仓时间短,不留过夜持仓的交易方式,技术指标数据和日内交易数据均是互联网中公开的数据;因此,证券的发行方的财务报表、证券的技术指标数据以及证券的日内交易数据都可以在互联网中获取,也就是说,可以针对待构建证券关系图谱的多只证券,从互联网中直接获取每一证券的证券数据,所获取的证券数据可以为其中的至少一种。
61.s102,针对每一证券,从该证券的证券数据中,确定该证券的多个指定类别下的因子数据,并基于该证券的每一指定类别下的因子数据,确定该证券的每一指定类别下的证券向量;其中,每一指定类别为用于进行证券描述的一个类别,每一指定类别下的因子数据为该指定类别下的证券描述数据;
62.上述指定类别可以是根据经验及需求预先设定的类别,同时设定针对每一指定类别下所要获取的因子数据,因子数据可以是证券数据中指定的数据,或者对证券数据中指定的数据进行特定计算后得到的数据。当需要建立证券关系图谱时,可以针对每一特定类别,从证券数据获取指定的数据作为该指定类别下的因子数据,或者,先从证券数据获取指定的数据,并将对该指定的数据进行特定计算后得到数据作为该定类别下的因子数据。
63.以证券数据为证券的技术指标数据为例,可以将指定类别设定为以下类别:
64.动量类、反转类、技术复合类,动量类下的因子数据可以包括:长期动量、6月动量、威廉指标等;反转类下的因子数据可以包括:1个月股价反转、3个月股价反转、6个月股价反转等;技术复合类的因子数据可以包括:价量背离、价格线性回归系数、成交量方差、最高价长度、最高点距离、股价相对强度等。
65.针对每一证券,可以对该证券的每一指定类别下的因子数据进行向量化处理,得
到该证券的每一指定类别下的证券向量。
66.在一种实现方式中,上述因子数据包含至少一个因子值;
67.例如,当证券数据为证券的发行方的财务报表时,则可以将指定类别设定为以下类别:
68.a.规模类,该类别下的因子数据包含的因子值可以为:总资产、营运资本、财务费用、股权自由现金流、折旧与摊销、营业总收入、净营运资本和营业成本等中的至少一个;
69.b.盈利类,该类别下的因子数据包含的因子值可以为:权益税前回报率、净资产收益率、总资产收益率、净利率、毛利率、总利润率、营业利润率和营业利润占比等中的至少一个;
70.c.资本结构类,该类别下的因子数据包含的因子值可以为:资产负债率、固定资产比例、权益负债比率、流动资产比率、总负债比、股东权益比、运营资本占比和留存收益占比等中的至少一个;
71.d.估值类,该类别下的因子数据包含的因子值可以为:市盈率、市净率、市现率、市销率、账面市值比、每股净资产、扣非市盈率和销售率等中的至少一个;
72.e.质量类,该类别下的因子数据包含的因子值可以为:总资产现金回收率、应收应付比、净利润波动、利息保障倍数、销售期间费用率、留存盈余比率、净利润波动率和销售现金比等中的至少一个;
73.f.成长类,该类别下的因子数据包含的因子值可以为:净资产收益率季度同比增速、净利润季度同比增速、营业利润增长率、主营收入增长率、总资产增长率、总利润增长率、股东权益增长率和每股净资产增长率等中的至少一个;
74.g.经营类,该类别下的因子数据包含的因子值可以为:应收账款周转率、固定资产周转率、流动资产周转率、存货周转率、应付账款周转率、股东权益周转率和总资产周转率等中的至少一个;
75.h.股东相关类,该类别下的因子数据包含的因子值可以为:高管持股占比、员工持股计划占比、机构持股变动、股东数量变化率、流通股比例、机构持股占总股本比例、第一大股东持股比例和管理层持股数量等中的至少一个;
76.i.偿债能力类,该类别下的因子数据包含的因子值可以为:流动比率、速动比率、现金比率、现金流量比率、长期资本负债率、现金流量与负债比率、超速动比率和长期债务与营业收入比等中的至少一个。
77.当证券数据为证券的技术指标数据时,则可以将指定类别设定为以下类别:
78.a.动量类,该类别下的因子数据包含的因子值可以为:长期动量、6月动量、威廉指标、季节性、随机指标、顺势指标(cci,commodity channel index)、动量线(mom,momentum)和移动平均线(macd,moving average convergence/divergence)中的至少一个;
79.b.反转类,该类别下的因子数据包含的因子值可以为:1个月股价反转、3个月股价反转、6个月股价反转、30日涨跌幅、90日涨跌幅和180天涨跌幅中的至少一个;
80.c.技术复合类,该类别下的因子数据包含的因子值可以为:价量背离、容量比(一种衡量买卖力量的技术指标)、价格线性回归系数、成交量方差、最高价长度、最高点距离和股价相对强度中的至少一个。
81.当证券数据为证券的日内交易数据时,则可以将指定类别设定为高频类,该类别
下的因子数据包含的因子值可以为:高频波动、高频特质波动、高频特异度、高频系统波动、高频收益方差、高频收益偏度和高频收益峰值。
82.以上所提及的因子值均可以从证券数据中获取,或者根据证券数据中获取的数据进行特定运算得到,该特定运算可以为现有技术中存在的运算,不属于本发明的发明点,在此不做赘述。上述各指定类别以及因子数据仅是示例性介绍,本发明实施例不对指定类别以及因子数据进行限定。
83.上述基于该证券的每一指定类别下的因子数据,确定该证券的每一指定类别下的证券向量,可以包括:
84.针对每一指定类别,以该证券在该指定类别下的因子数据所包含的每一因子值分别作为一个向量维度,生成该证券在该指定类别下的证券向量。
85.以指定类别为规模类为例,假设根据一证券的发行方的财务报表得到,规模类下的因子数据所包含的因子值分别为:总资产=a、运营资本=b、财务费用=c
……
,则可以生成该证券在规模类下的证券向量为【a,b,c
……
】。或者,还可以将该指定类别下的因子数据所包含的因子值进行归一化处理后,再根据归一化后的各因子值生成证券的证券向量,也是可以的。
86.该实现方式中,针对每一指定类别,以该证券在该指定类别下的因子数据所包含的每一因子值分别作为一个向量维度,生成该证券在该指定类别下的证券向量,通过证券向量更容易反映出各只证券之间的关联关系。
87.s103,针对每一指定类别,基于各只证券的该指定类别下的证券向量,确定在该指定类别下的各只证券之间的指定关系数据;其中,指定关系数据为用于表征关联关系的数据;
88.上述指定关系数据可以为每两只证券的证券向量的向量相似度,此时,上述针对每一指定类别,基于各只证券的该指定类别下的证券向量,确定在该指定类别下的各只证券之间的指定关系数据,可以包括:
89.针对每一指定类别,计算每两只证券的该指定类别下的证券向量的向量相似度,得到该指定类别下每两只证券之间的指定关系数据。
90.其中,计算向量相似度的方式可以为计算归一化余弦相似度或者皮尔逊相关系数等方式。
91.示例性的,当指定类别为规模类,在该指定类别下,证券1的证券向量为【a1,b1,c1
……
】,证券2的证券向量为【a2,b2,c2
……
】,则可以计算证券1和证券2的证券向量的向量相似度,作为证券1和证券2之间的指定关系数据。
92.本实现方式中,针对每一指定类别,通过计算每两只证券的该指定类别下的证券向量的向量相似度,得到该指定类别下每两只证券之间的指定关系数据,进一步地,可以根据指定关系数据构建证券关系图谱。
93.s104,以各只证券作为图谱顶点,基于在每一指定类别下各只证券之间的指定关系数据,构建以每一指定类别分别作为一个图谱维度的证券关系图谱。
94.可以理解的,图谱是由图谱顶点,以及两两相连的图谱顶点所组成的图谱边构成,本实施例中,可以以各只证券作为图谱顶点,并针对每两只证券,根据该两只证券之间的指定关系数据,确定该两只证券的图谱顶点是否相连。
95.在一种实现方式中,上述以各只证券作为图谱顶点,基于在每一指定类别下各只证券之间的指定关系数据,构建以每一指定类别分别作为一个图谱维度的证券关系图谱,可以包括步骤a1-a2:
96.步骤a1,针对每一指定类别,基于每两只证券的该指定类别下的证券向量的向量相似度,确定在该指定类别下每一证券对应的关联证券;其中,每一证券对应的关联证券为:与该证券的向量相似度大于预定阈值的证券,或者,按照向量相似度排序靠后排序靠前的、与该证券对应的指定数量个证券;
97.本实现方式中,可以先设定预定阈值,该预定阈值可以根据经验和需求设定,再针对每一指定类别下的每一证券,确定与该证券的证券向量的向量相似度大于预定阈值的证券,作为关联证券;
98.或者,还可以预先设定指定数量,该指定数量也可以根据经验和需求设定,再针对每一指定类别下的每一证券,确定与该证券的证券向量的向量相似度最大的、或最小的指定数量个证券,作为关联证券。在该实现方式中,确定与该证券的证券向量的向量相似度最大的指定数量个证券,作为关联证券可以相对来说可以更好地反映各只证券之间的关联关系。
99.在具体实现过程中,还可以针对每一指定类别,先生成该指定类别作为一个图谱维度的原始证券关系图谱,原始证券关系图谱中的各个顶点是全连接的,即每只证券都两两相连,同时将每两只证券的证券向量之间的向量相似度作为该两只证券的图谱边的权重,之后再针对每一图谱顶点,保留权重最大、或最小的指定数量个图谱边,得到该指定类别作为一个图谱维度的证券关系图谱。
100.步骤a2,以各只证券作为图谱顶点,且以每一指定类别对应的连接线作为该指定类别的图谱边,生成以每一指定类别分别作为一个图谱维度的证券关系图谱;其中,每一指定类别对应的连接线为该指定类别下每一证券的图谱顶点与所对应的关联证券的图谱顶点的连接线。
101.本实现方式中,针对每一指定类别下的每一证券,都在证券关系图谱中将该证券的图谱顶点与所对应的关联证券的图谱顶点相连,从而得到该只证券的图谱顶点与所对应的关联证券的图谱顶点的连接线;针对该指定类别,将该指定类别的各个连接线作为图谱边,从而得到该指定类别作为一个图谱维度的证券关系图谱。最终可以得到各个指定类别分别作为一个图谱维度的多维度的证券关系图谱。
102.多维度的证券关系图谱可以为每一图谱维度的证券关系图谱的集合,也就是每一图谱维度的证券关系图谱都可以作为一个独立的图谱,或者还可以为一张包含多种类型图谱边的图谱,也就是说,在多维度的证券关系图谱中,每两只证券之间的可能存在多条图谱边,每一图谱边用于表征不同的指定类别。
103.当生成证券关系图谱后,可以将该证券关系图谱存入图数据库中,实现对证券关系图谱的存储,客户端的终端设备也可以从图数据库中获取该证券关系图谱,并在终端设备中对该证券关系图谱进行可视化展示。
104.本实施例中,针对多只证券,根据所获取的证券数据确定每一只证券多个指定类别下的因子数据,从多个维度构建证券关系图谱,提高了证券关系图谱的丰富度,同时利用因子数据将各只证券进行向量化处理,得到证券向量,并基于所得到的证券向量确定每一
类别下各只证券之间的指定关系数据,从而利用所确定的指定关系数据构建证券关系图谱,提高了各只证券之间的连通性。因此,通过本方案可以更好地构建证券关系图谱。
105.可选地,在本发明的另一实施例中,如图2所示,上述每一证券对应的指定数量的确定方式,可以包括步骤s201-步骤s203:
106.s201,针对每一指定类别,计算在该指定类别下每一证券对应的关联证券的数量分别为1到m时,该指定类别作为一个图谱维度的证券关系图谱的m个信息熵;其中,m为各只证券的总只数;
107.也就是假定该指定类别下每一证券对应的关联证券的数量为1,2,3
……
m,计算每一种情况下该指定类别作为一个图谱维度的证券关系图谱的信息熵,其中,信息熵可以用于度量该指定类别作为一个图谱维度的证券关系图谱的不确定性,即该指定类别作为一个图谱维度的证券关系图谱的可靠性,例如,该指定类别下每一证券对应的关联证券的数量为n,则可以计算该指定类别下每一证券对应的关联证券的数量为n时,该指定类别作为一个图谱维度的证券关系图谱的信息熵。
108.假设证券分别为证券1、证券2、证券3
……
证券m,则信息熵可以按照如下公式计算:
[0109][0110]
其中,h(n)为该指定类别下每一证券对应的关联证券的数量为n时,以该指定类别作为一个图谱维度的证券关系图谱的信息熵,n的取值范围为1到m;m为各只证券的总只数;为证券m的关联证券数量为n时,该n只关联证券的证券向量的向量相似度之和,该n只关联证券可以为与证券m的证券向量的向量相似度最大的n只证券,m的取值范围为1到m。
[0111]
s202,从所得到的各信息熵中选取数值最小的极小值点,作为目标信息熵;
[0112]
可以理解的,选取最小的极小值点可以保证在排除无意义的最小值点的情况下,使得该指定类别作为一个图谱维度的证券关系图谱的不确定性尽可能小。
[0113]
s203,确定目标信息熵所对应的关联证券的数量,作为在该指定类别下每一证券对应的指定数量。
[0114]
可以理解的,针对每一指定类别,都可以通过计算信息熵的方式,确定该指定类别下每一证券对应的指定数量,使得最终生成的多个维度的证券关系图谱的不确定性更低。
[0115]
本实施例中,针对每一指定类别,计算在该指定类别下每一证券对应的关联证券的数量分别为1到m时,该指定类别作为一个图谱维度的证券关系图谱的m个信息熵;从所得到的各信息熵中选取数值最小的极小值点,作为目标信息熵;确定目标信息熵所对应的关联证券的数量,作为在该指定类别下每一证券对应的指定数量。本方案通计算信息熵的方式确定指定数量,能够使得所构建的证券关系图谱的可靠性更高。
[0116]
可选地,在本发明的另一实施例中,上述针对待构建证券关系图谱的多只证券,获取每一证券的证券数据,可以包括:
[0117]
每当进入预定的构建周期时,针对待构建证券关系图谱的多只证券,获取当前的构建周期内每一证券的证券数据;其中,构建周期的周期时长基于证券数据的更新周期的时长所确定。
[0118]
本实施例中,可以周期性地更新证券关系图谱,也就是周期性地针对待构建证券
关系图谱的多只证券,获取当前的构建周期内每一证券的证券数据,并执行后续的构建证券关系图谱的过程。上述构建周期可以可证券数据的更新周期保持一致,例如一个季度、一个月、一天、一小时等,这都是可以的。不同的指定类别也可以有不同的构建周期,例如,指定类别下的因子数据来源于证券的发行方的财务报表,则构建周期可以为一个季度;指定类别下的因子数据来源于证券的技术指标数据,则构建周期可以为一天;指定类别下的因子数据来源于证券的证券的日内交易数据,则构建周期可以为一小时。
[0119]
本实施例中,针对多只证券,根据所获取的证券数据确定每一只证券多个指定类别下的因子数据,从多个维度构建证券关系图谱,提高了证券关系图谱的丰富度,同时利用因子数据将各只证券进行向量化处理,得到证券向量,并基于所得到的证券向量构建证券关系图谱,提高了各只证券之间的连通性。因此,通过本方案可以更好地构建证券关系图谱。进一步的,通过每当进入预定的构建周期时,针对待构建证券关系图谱的多只证券,获取当前的构建周期内每一证券的证券数据,可以动态地更新证券关系图谱,从而可以动态的反映不同证券之间的关联关系。
[0120]
可选地,在本发明的另一实施例中,该方法还包括:
[0121]
利用社区挖掘算法,以及证券关系图谱中的每一图谱维度下的各只证券的指定关系数据,从不同的图谱维度,将各只证券划分至不同的簇当中。
[0122]
其中,社区挖掘是指将实体划分为不同的类型,即不同的簇,使得同一簇内的图谱边尽量地多,不同簇之间的图谱边尽可能地少。社区挖掘算法可以采用ueoc(基于集成网络重叠社区挖掘算法)算法、fnca(一种快速的社区挖掘算法)算法等,本发明实施例不做具体限定。
[0123]
在实际应用过程中,可以利用社区挖掘算法处理每一图谱维度下的证券关系图谱,由于社区挖掘算法一般要使用到各个图谱边的权重,因此,当指定关系数据为每一图谱维度下每两只证券的证券向量的向量相似度时,则可以将每两只证券的证券向量的向量相似度作为该两只证券作为图谱顶点的图谱边的权重,进一步的,将每一图谱维度下的各个图谱边的权重带入上述社区挖掘算法的计算过程中,则可以得到将该图谱维度下的各只证券划分至不同的簇的计算结果。
[0124]
本实施例中,通过利用社区挖掘算法,以及证券关系图谱中的每一图谱维度下的各只证券的指定关系数据,从不同的图谱维度,将各只证券划分至不同的簇当中,可以更加直观地反映出不同证券之间的关联关系,从而更好地为投资者的投资决策和风险防范提供参考。
[0125]
为了方便理解,下面结合附图,对本发明实施例所提供的证券关系图谱的构建方法进行进一步介绍。
[0126]
如图3所示,指定类别共有n种,指定类别1、指定类别2
……
指定类别n,针对指定类别1,可先构建指定类别1的多因子向量数据,即指定类别1下的各证券的证券向量;根据各证券的证券向量计算每两只证券的证券向量之间的向量相似度;将每两只证券的证券向量之间的向量相似度作为该两只证券的图谱边的权重,从而构建出全连接的原始证券关系图谱;根据信息熵极小值确定图谱边的数目n,针对每一证券保留权重最大的n条图谱边,得到指定类别1的证券关系图谱,即指定类别1作为一个图谱维度的证券关系图谱。
[0127]
其他各指定类别的证券关系图谱的构建方式相同。当各指定类别的证券关系图谱
均构建后,叠加所有指定类别的证券关系图谱生成多维度的证券关系图谱。之后,可以进行图谱存储及可视化展示,也就是,将该证券关系图谱存入图数据库中,并将该证券关系图谱在客户端中展示;同时,进行证券间社区挖掘及分析,即利用社区挖掘算法对每一图谱维度下的各只证券的指定关系数据,从不同的图谱维度,将各只证券划分至不同的簇当中。
[0128]
在一种实现方式中,实现本发明实施例所提供的方法的计算机程序可以被划分为图4所示的多个功能模块:
[0129]
证券多因子数据计算模块,用于针对待构建证券关系图谱的多只证券,获取每一证券的证券数据,并从证券数据中获取及计算得到各只证券的多个指定类别下的因子数据,生成每一指定类别下各只证券的证券向量;
[0130]
证券相似度计算模块,用于计算每一指定类别下,每两只证券的证券向量的向量相似度;
[0131]
证券全连接图谱建立模块,用于构建并存储每一个指定类别下所有证券之间的全连接的证券关系图谱,其中,图谱边的权重为该图谱边的两只证券的证券向量的向量相似度;
[0132]
证券边数目确立模块,用于计算每一个指定类别下各只证券的图谱边的指定数量,并针对每一个指定类别下每一证券保留指定数量个图谱边;
[0133]
证券多维度关系图谱叠加和生成模块,用于组合每一个指定类别的证券关系图谱至一个多维度的证券关系图谱中;
[0134]
证券关系图谱存储及可视化模块,用于将所构建的证券关系图谱存储到图数据库中,并利用图数据库展示方面的优势,可视化不同证券之间多维度的关联关系;
[0135]
证券关系图社区挖掘和分析模块,用于利用社区挖掘算法,以及证券关系图谱中的每一图谱维度下的各只证券的指定关系数据,从不同的图谱维度,将各只证券划分至不同的簇当中,分析每个簇内部及不同簇之间的证券关系。
[0136]
本实施例中,根据所获取的证券数据确定每一只证券多个指定类别下的因子数据,从多个维度构建证券关系图谱,提高了证券关系图谱的丰富度,同时利用因子数据将各只证券进行向量化处理,得到证券向量,并基于所得到的证券向量构建证券关系图谱,提高了各只证券之间的连通性。因此,通过本方案可以更好地构建证券关系图谱。
[0137]
本发明实施例还提供了一种证券关系图谱的构建装置,如图5所示,该装置包括:
[0138]
获取模块510,用于针对待构建证券关系图谱的多只证券,获取每一所述证券的证券数据;其中,所述证券数据包括,所述证券的发行方的财务报表、所述证券的技术指标数据和/或所述证券的日内交易数据;
[0139]
向量确定模块520,用于针对每一所述证券,从该证券的证券数据中,确定该证券的多个指定类别下的因子数据,并基于该证券的每一指定类别下的因子数据,确定该证券的每一指定类别下的证券向量;其中,每一指定类别为用于进行证券描述的一个类别,每一指定类别下的因子数据为该指定类别下的证券描述数据;
[0140]
关系确定模块530,用于针对每一指定类别,基于各只证券的该指定类别下的证券向量,确定在该指定类别下的各只证券之间的指定关系数据;其中,所述指定关系数据为用于表征关联关系的数据;
[0141]
构建模块540,用于以各只证券作为图谱顶点,基于在每一指定类别下各只证券之
interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0162]
通信接口用于上述电子设备与其他设备之间的通信。
[0163]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0164]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0165]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述证券关系图谱的构建方法的步骤。
[0166]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中证券关系图谱的构建方法。
[0167]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0168]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0169]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0170]
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发
明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献