一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于价值投资理念的基本面量化选股方法及决策支持系统与流程

2022-09-01 00:43:57 来源:中国专利 TAG:


1.本发明属于证券基本面量化技术、商业智能技术和人工智能技术领域,涉及基本面量化选股方法及决策支持系统开发,具体涉及一种基于价值投资理念的基本面量化选股的机器学习模型和支撑该模型的决策支持系统构建,力求筛选出未来2年大概率年均涨幅超过上证指数同期涨幅15-20%的股票,从而创造巨大的商业价值。


背景技术:

2.价值投资和量化投资是两种截然不同的证券投资策略。价值投资源于格雷厄姆,被股神巴菲特、彼得林奇等投资大师发扬光大,通过分析上市公司基本面购买价值低估的股票。量化投资分析历史量化数据,建立模型后进行高频程序化交易,被西蒙斯、索普等投资大师采用,近年在国内a股市场的投资规模快速增长。众所周知,我国a股市场具有散户化、政策市等特点,这就产生了两个问题:一方面,价值投资前提是深刻洞察公司的商业模式、管理层和财务指标等,显然这超出了绝大多数中小投资者的能力圈,从而造成价值投资落地的实际困难;另一方面,量化投资需要高深的数学、计算机、心理学、工程等知识,中小投资者更具备这样的能力。因此这两种方法虽然有效,但我国中小投资者都难于采用。
3.基本面量化投资融合了价值投资和量化投资,是近年来越来越受到关注的智能化投资方法,核心是分析公司基本面和风险溢价之间的关系,最重要的三个部分是个股分析、策略构建和策略实施[1]。格雷厄姆在价值投资奠基之作《聪明的投资者》中明确提出了选择防御型股票的七项原则[2]:
[0004]
1.适当的企业规模:小公司更容易发生变化,尤其是工业企业,年销售额不低于1亿美元,对公共事业企业,总资产不低于5000万美元(根据购买力换算,1970年1美元可粗略相当于现在的9美元[3])。
[0005]
2.足够强劲的财务状况:对工业企业来说,流动资产至少是流动负债的两倍(流动比);同时,长期债务不应该超过流动资产净额(运营资本),公用事业企业负债不应超过股权(账面值)的两倍。
[0006]
3.利润的稳定性:过去10年没有年度亏损出现,普通股每年都有一定的利润。
[0007]
4.股息记录:至少有20年连续支付股息的记录。
[0008]
5.利润增长:过去10年内,每股收益至少增长三分之一(期初和期末使用三年平均数)。
[0009]
6.适度的市盈率:当期股价不应该高于过去3年的平均利润的15倍。
[0010]
7.适度的股价资产比:当期股价不应高于最后报告的资产账面价值的1.5倍,即市净率不高于1.5。当市盈率低于15倍时,市净率可以相应的高一些,但市盈率与市净率的乘积不超过22.5。
[0011]
价值投资和量化投资虽然在理念上泾渭分明,但并非是完全互斥的两种策略。基本面量化投资是遵循价值投资基本面分析的量化投资方法,随着该领域的发展,很大程度
上可以打通价值投资和量化投资两种策略。但基本面量化投资在实际工作中面临如下几个困难:
[0012]
a.如何选择变量和调整阈值:格雷厄姆在1949年出版《聪明的投资者》并提出防御型股票七原则,虽然价值投资理念没有大的变化,但70多年后无论是市场环境、货币价值、企业用户都发生了翻天覆地的变化,因此非常有必要根据当前a股市场调整该原则对应的选股变量和阈值。
[0013]
b.如何识别备选公司的潜在风险:众所周知a股市场中企业造假成本低,发生了太多的暴雷事件,如何将企业风险融入选股模型,并明确识别出财务风险点至关重要。
[0014]
c.如何确定量化模型的分类标签:股票市场有周期性和涨跌分布不均衡的特点,将股票涨跌数值转化为高、低类别后建立分类模型是一个常见的解决思路,但如何确定合理的量化选股分类对模型有效落地非常关键。
[0015]
d.如何正确评价选股模型:选股场景下强调高涨幅标签判别的准确率,即判定高涨幅的股票数量不需太多,这与传统数据挖掘模型的评价方法如f1-score等有较大差异。


技术实现要素:

[0016]
为了便于说明,本文约定:
[0017]“模型”、“选股模型”统一表示基本面量化选股模型;
[0018]“高涨幅”、“预期高涨福”表示股票在年报期末两年内的涨幅年均超出上证指数同期涨幅15-20%;
[0019]“正类别”表示股票在年报期末两年内预期高涨幅的股票。
[0020]
本发明的目的是提供一种基于价值投资理念的基本面量化选股方法,以及支撑这一方法的选股决策支持系统的构建方案。旨在打通价值投资和量化投资两种投资策略,通过价值投资指导模型设计原则,通过机器学习算法和数据挖掘识别出选股关键要素和阈值设定。
[0021]
本发明提供的技术方案如下:
[0022]
一种基于价值投资理念的基本面量化选股方法和决策支持系统,包括:在价值投资理念指导下筛选选股模型的特征变量、模型分类标签和模型评估方法;选用机器学习算法训练选股模型;构建企业财报风险评价指标和模型风险特征变量;构建支撑选股模型的行情数据处理和决策支持系统。
[0023]
本发明基于价值投资的基本面量化选股方法包括如下步骤:
[0024]
a.构建支撑选股模型的行情数据处理和决策支持系统,具体包括如下任务:
[0025]
a1.开发etl数据处理作业调度系统,包括作业触发、依赖关系、时间记录等;
[0026]
a2.开发etl数据处理作业,包括数据获取、重跑机制和回滚机制等;
[0027]
a3.开发股票选股器、财报风险分析和机器学习相关基础库。
[0028]
b.构建基于价值投资理念的选股模型的特征变量、模型分类标签和模型评估方法,具体执行如下任务:
[0029]
b1.明确价值投资理念在基本面量化选股建模中的应用策略。
[0030]
在价值投资奠基之作《聪明的投资者》中,格雷厄姆详细讨论了投资与投机的区别,明确了价值投资包含三个同等重要的因素:“公司基本面的深入分析、本金安全、合理的
收益预期”。此外,选择防御型股票的七项原则也进一步明确了基本面的考核标准。本发明采用这些内容指导选股模型设计。
[0031]
b2.遵循价值投资三要素要求,参考防御型股票的七项原则,确定选股模型特征变量。七项原则明确要求候选企业具备适当的资产和营收规模、强劲的财务状况、稳定持续的利润、对股东友好的派息记录、较高的利润增长、适度的市盈率和股价资产比。
[0032]
(1)结合财报数据,分别为这些原则设置对应的特征变量和计算口径。
[0033]
(2)遵循“公司基本面的深入分析”,扩展少许特征变量,如roe、毛利率、总负债等。
[0034]
(3)价值投资成功的关键是复利效应,资金回撤是最大的障碍,因此格雷厄姆将“本金安全”作为第二要素。为了规避资金回撤风险,本发明建立财报风险评估指标体系,计算企业财务风险因子特征,作为模型输入变量。
[0035]
b3.确定选股模型的分类标签和模型评估方法。
[0036]
(1)为了消除市场周期性的影响,本发明使用股票的相对涨幅(1)为了消除市场周期性的影响,本发明使用股票的相对涨幅作为评估标准,并将涨幅数值转化为涨幅级别l。此外,考虑价值投资长期持有的特点,使用特征数据2年后的相对涨幅。基于“合理的收益预期”要素,参考价值投资大师的历史收益,分别设置年化相对涨幅为正类别(c=1),其余皆为负类别(c=0)。
[0037]
(2)贯彻“本金安全”,选股模型应该强调正类别预测的准确性,而非传统数据挖掘模型的召回率、f1-score。因此,本发明根据模型实际预测出的各涨幅级别类别c中的股票数,动态调整正类别(c=1)的年化相对涨幅
[0038]
c.选用机器学习算法训练选股模型,执行如下操作:
[0039]
c1.整合年报数据和行情数据,构建训练数据集:
[0040]
(1)格雷厄姆在防御型选股原则中明确要求考察企业十年以上的财务信息,因此本发明选取上市公司近十年的财务年报数据构建模型训练特征。需要说明,本发明并不要求ipo十年的公司,绝大多数ipo少于十年的公司也能提供近十年的年报数据,因此不会影响样本量。
[0041]
(2)对特征数据做预处理,如行业类别变量onehot编码,对总资产、年营收、扣非利润等大值特征取对数。
[0042]
(3)根据行情数据计算个股十年财报期末收盘价pclose11、上证指数收盘价pclose12,以及期末2年的个股收盘价pclose21和上证指数收盘价pclose22,计算训练数据的相对涨幅
[0043][0044]
(4)因为是两年相对涨幅,所以涨幅级别l=0、1、2、3、4分别对应<10%、[10%,20)、
[0045]
[20%,30)、[30%,40)、≥40%的相对涨幅,正类别(c=1)对应的l阈值选取在模型训练时根据正类别的实际预测数量确定。
[0046]
c2.本发明训练选股模型有两个任务:首先是筛选出预期高涨幅股票,注意股票数量不能过多,按照格雷厄姆和彼得林奇的建议,对中小散户而言,7-30只较为合理[2,4];此外,还需得到适合当前a股市场的防御型股票选股阈值,这就要求能从模型中提取选股规
则。为了兼顾这两个任务,本发明采用两阶段方法训练选股模型:
[0047]
(1)相对于单颗决策树,随机森林可以大幅提高模型预测准确度。本发明建立随机森林训练选股模型,目的是得到适量的高涨幅评分股票,即根据模型混淆矩阵调整随机森林中决策树的参数(如树深度、叶子节点最小样本数、最大叶子数等)。
[0048]
(2)按照随机森林训练得到的决策树参数,使用决策树算法训练模型,输出预期高涨幅股票的判定规则。结合价值投资理念、要素分析判定规则的合理性,修正决策支持系统中格雷厄姆防御型选股原则中适合a股市场的指标和阈值定义。
[0049]
d.根据巴菲特的理念,选择股票最重要的是考察企业的商业模式。因此,好的财报指标不是选择股票的充分条件,但却是必要条件,即财报是用来排除企业的[5]。为了贯彻“本金安全”,本发明采用以下步骤将财报风险分析加入选股模型:
[0050]
d1.参考财务分析方法,构建企业财报风险评价指标体系,包括审计机构、产品竞争力、盈利能力、投资回报能力、偿债能力、企业现金流状态、企业管理能力等。
[0051]
d2.设定“无风险”、“低风险”和“高风险”三类风险级别,定义各风险指标的阈值和分值。为训练数据特征值进行风险评分,作为风险特征变量在c1(1)步骤加入训练数据集。
[0052]
d3.为了进一步保证选出公司的安全性,对选股模型判定为高涨幅标签的公司,使用决策支持系统进行一次财报风险点审核,通过后才能作为备选股票。
[0053]
本发明的有益效果:
[0054]
本发明提供一种基于价值投资理念的基本面量化选股方法,以及支撑该方法的决策支持系统的构建方法。本发明旨在打通价值投资和量化投资融合,一方面,利用价值投资理念和关键要素指导基本面量化选股模型的开发,解决了机器学习模型中常见的数据准备、分类定义、模型评估等建模难点;另一方面,利用机器学习算法训练量化模型帮助优化了价值投资选股的特征和阈值,有助于a股市场中小投资者对价值投资理论的落地实践。
[0055]
本发明采用两阶段训练模型,兼顾了评分业务规则提取和模型准确度。采用本发明训练模型选出的股票,2021年平均涨幅为38%,而同期上证指数涨幅为4.8%,取得了较好收益。
附图说明
[0056]
图1是本发明方法的流程图。
[0057]
图2是支撑本发明的决策支持系统界面。
[0058]
图3是本发明中随机森林和决策树的训练过程的混淆矩阵。
[0059]
图4是本发明选股方法训练出的决策树,其中正类别叶子节点表示业务判定规则。
[0060]
图5是本发明风险指标体系中财报风险评估报告部分。
具体实施方式
[0061]
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
[0062]
本发明提供一种基于价值投资理念的基本面量化选股方法,和实现该方法的决策支持系统建设方案。本发明巧妙利用了价值投资三要素和防御型股票七项原则,解决了基本面量化选股模型中特征变量选择、分类标签定义、模型评估方法、风险评估指标和风险评
分变量定义等困难;同时,又利用机器学习算法和数据挖掘模型,帮助价值投资理念的落地实践。这些都为价值投资和量化投资的融合提供了思路。
[0063]
本发明中:
[0064]“模型”、“选股模型”统一表示基本面量化选股模型;
[0065]“高涨幅”、“预期高涨福”表示股票在年报期末两年内的涨幅年均超出上证指数同期涨幅15-20%;
[0066]“正类别”表示股票在年报期末两年内预期高涨幅的股票。
[0067]
参见图1本发明方法的流程图,具体实施过程如下:
[0068]
a.本发明采用vue(前端) apache(web server) flask(api) python(后台) mysql(数据库) docker(部署环境)技术栈,开发数据处理和决策支持系统:
[0069]
a1.基于tushare api接口和爬虫框架,开发数据处理模块,定期获取沪深股票的基础数据、行情数据、财务数据,以及上市公司的新闻数据:
[0070]
(1)etl作业调度工具:参见下表,设置小时、日、周、月四类触发周期,加载作业之间有依赖关系、回滚机制和重跑机制。
[0071][0072]
(2)数据加载程序:共41个数据加载作业的数据,程序中设置重跑机制和回滚机制。
[0073]
(3)上市公司新闻爬虫系统:小时级任务,基于scrapy框架开发,并调用ai云服务接口标记新闻正负面评分,以便用户及时跟踪公司动态。
[0074]
a2.开发选股和财报风险分析模块。参见图2,格雷厄姆防御法选股中七原则筛选条件的特征和阈值可以根据选股模型决策树判定规则进行调整,财报风险分析参见d中描述。
[0075]
b.构建基于价值投资理念的选股模型的特征变量、模型分类标签和模型评估方法:
[0076]
b1.前文已说明采用十年财报数据的必要性,参见下表,定义三个关键日期:财报期初日、财报期末日(财报期初日 9年)、预测日(财报期末日 2年)。每条数据汇总了财报期初日到期末日之间共10年的财报数据,作为训练数据集的x-data,财报期末日和预测日2年间个股和上证指数的涨幅差对应相对涨幅级别l。训练数据集y-label对应的合理l需要根
据评分数据结果设置,细节参见c中的实施过程。预测日2022-12-31和2023-12-31的收盘价和涨幅数据为空,这些就是需要选股模型判定类别的数据,正类别即为备选股票。
[0077][0078]
b2.遵循价值投资三要素和防御型股票七项原则,确定选股模型特征变量。
[0079]
(1)考虑特征数据的稳定性,指标均取财报期末3年(财报期末年 前2年)的平均值,
[0080]
防御型原则对应的特征变量如下:
[0081]
i.适当的企业规模:总资产、年均销售额;
[0082]
ii.足够强劲的财务状况:流动比(流动资产/流动负债)、长期债务/流动资产净额、负债/股东权益(不包含少数股东);
[0083]
iii利润的稳定性:十年财报周期中的盈利年份;
[0084]
iv.股息记录:十年财报周期中的派息年份;
[0085]
v.利润增长:期末3年平均利润/期初3年平均利润;
[0086]
vi.适度的市盈率:期末市盈率(期末市值/期末3年平均利润)、期末扣非市盈率(期末市值/期末3年平均扣非利润);
[0087]
vii适度的股价资产比:期末市净率((期末市值/期末3年平均净资产))、期末市盈率*期末市净率、期末扣非市盈率*期末市净率。
[0088]
(2)扩展特征变量:一级行业、二级行业、roe、毛利率、净利率、总负债、扣非净利润、扣非赢利年份,对大值特征数据项(总资产、年营收、总负债、利润)取对数作为训练特征。
[0089]
(3)基于财报建立企业风险评估体系,重点考察审计信息、主营业务盈利能力、产品竞争力、采购管理能力、企业现金流状态(持续运营能力)、应收管理能力、现金债务覆盖能力、现金流分析、短期偿债能力等。
[0090]
i.风险指标描述表(financial_risk_description):共包含62个数据项,其中35个数据项为需要考核的风险指标,指标描述和提示背景色会显示在决策支持系统中。
[0091][0092]
ii.风险规则表(financial_risk_rules):定义考核指标的风险级别(当前只定义2(低级)、3(高级))、风险阈值范围和风险规则描述,系统财务风险分析功能关联指标数值和风险规则显示风险点。
[0093][0094]
iii.计算训练数据中各数据项指标的财务风险总分risk_score,其中每个高风险指标(risk_level=3)计3分,低风险指标(risk_level=2)计1分,无风险指标计0分。
[0095][0096]
b3.确定选股模型的分类标签和模型评估方法。参见图3(a),将相对涨幅级别为4(年化相对涨幅)定义为正类别(c=1),其余皆为负样本(c=0)时,随机森林选股模型在测试集(3857个样本)中预测出的正类别样本数量为59个,已经足够满足中小投资者选择。同时考虑到安全边际的要求,本发明设置相对涨幅级别4为正类别阈值。
[0097]
c.分别采用随机森林和决策树,两阶段训练模型:
[0098]
c1.相对于单颗决策树,随机森林可以大幅提高模型预测准确度。本发明建立随机森林训练选股模型,目的是得到适量的高涨幅股票评分股票,即根据模型混淆矩阵调整随机森林中单颗树的参数(如树深度、叶子节点最小样本数、最大叶子数等)。
[0099]
c2.设置随机森林参数(n_estimators=20,criterion=

entropy

,class_weight=none,max_depth=8,max_features=none,min_samples_leaf=30,max_leaf_nodes=100),训练随机森林模型,注意此时模型总体精确度、召回率和f1-score并不适合选股场景,因此只考虑混淆矩阵预测正类别的准确率,参见图3(a),本模型预测正类别准确率为49/(10 49)=83%。
[0100]
c3.为了查验决策树模型的稳定性,本发明保持参数不变,测试不同样本数据分割和树训练随机种子(random_state),重复训练决策树模型。图3(b-c)为其中两颗决策树的混淆矩阵,可见单颗树预测的正类别样本数量是随机森林的几倍。输出特征变量重要性排序,排名靠前的特征变量可以作为价值投资防御型选股的备选特征。除了格雷厄姆七原则中的条件,可见白酒行业是我国股票市场中近十几年中涨幅最好的行业。
[0101][0102]
c4.绘制决策树,高涨幅的叶子节点路径即为筛选规则。参见图4(a),高涨幅股票需满足总资产小于12亿(ln(总资产)<=20.905)&股价资产比<=566&总负债/净资产>0.65&扣非盈利增长>17%,其中总资产与格雷厄姆防御型选股原则中对总资产的要求相近,其他条件则弱于格雷厄姆防御型选股原则的要求。
[0103]
c5.需要说明,并不是每个正类别叶子节点都对应合理业务解释,图4(b)中负债大于某阈值的数据被判定为正类别,这种情况在充满炒作、情绪化、偶然性的股市中并不奇怪,但随机森林很大程度上可以消除这些影响。下表为随机森林选股模型对财报期初为
2011-12-31,财报期末为2020-12-31财报数据的预期高涨幅股票共36只,计算可得2020-12-31到2021-12-31、2022-05-31的平均涨幅为38.61%、27.34%;考虑4月底为年报发布截止日,则模型2021-04-30投入实际应用到2021-12-31、2022-05-31的平均涨幅分别为43.96%、32.24%;均远高于同期上证指数的4.8%、-8.26%、5.6%、-7.54%。
[0104][0105]
d.为了进一步保证备选股票的安全性,排除risk_score>20的11只股票,剩余25只股票2020-12-31到2021-12-31、2022-05-31的平均涨幅分别为40.57%、25.28%,2021-04-30投入实际应用到2021-12-31、2022-05-31的平均涨幅分别为45.85%、29.76%。本发明利用决策支持系统,还可以再次深度审核每只股票的财务风险点报告,参见图5,进一步排查风险点。
[0106]
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
[0107]
参考文献
[0108]
1.张然、汪荣飞著,《基本面量化投资》,北京大学出版社,2017年7月。
[0109]
2.本杰明
·
格雷厄姆著,王中华、黄一义译,《聪明的投资者(第4版注疏点评版),人民邮电出版社,2016年3月。
[0110]
3.美元购买力的历史变化——1914至2010,https://xueqiu.com/3167081651/23119263。
[0111]
4.(美)彼得
·
林奇、约翰
·
罗瑟查尔德著,刘建位、徐晓杰、李国平译,《战胜华尔街》,机械工业出版社,2018年3月。
[0112]
5.唐朝著,《手把手教你读财报》,中国经济出版社,2015年5月。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献