专栏|中国股市可以准确预测吗?来自机器学习的视角
日报
专栏
热点
国际
活动
研究表明机器学习方法可以成功应用于中国股票市场,尽管中国股票市场与美国股票市场具有完全不同的特征。(首图来自图虫创意)
1. 程序消耗的数据;
2. 量化当前行为和理想行为之间的误差或某种形式的距离的度量;
3. 使用量化误差指导程序在后续事件中产生更好行为的反馈机制。
Part 1. 引言
Part 2. 模型与方法
文章在解释股票收益时,采用了经典的模型设置,即:
其中Zi,t是P维的预测因子向量,具体设置为:
Ci,t是一个90维的股票特征向量,Xt是11维度的宏观特征向量,di,t是一个80维的行业哑变量向量,⊗指两向量之间的克罗内克积。
g(・)的具体形式不做具体设定,本文的目标也正是从一系列候选函数形式中,寻找一个g(・)的具体形式,以达到最佳预测效果。
为此,本文考虑g函数的十一个机器学习形式与两个简单线性形式,分别是普通最小二乘、三因子最小二乘、偏最小二乘、LASSO、Enet、GBRT、RF、VASA、NN(单层到五层)。
参考利用机器学习进行资产定价的文献,本文使用Huber损失函数作为优化目标函数,同时将样本集分为三个子集,分别用于超参数选择,模型估计和预测效果评估。
Part 3. 实证分析
1. 样本外预测效果
为了更好地分类研究不同模型对不同特质股票的预测能力,作者将所有股票分为六个类别,分别是按规模排序前70%、按规模排序后30%、按股东平均市值前70%、按股东平均市值后30%、国企与非国企。按月度计算的预测R2如下表所示。
在考虑所有公司时,最简单的最小二乘模型也能够达到0.81%的解释力。而三因子最小二乘模型的解释力比最小二乘模型还要低,这表示传统的线性三因子模型(SMB/BM/Momentum)并不能囊括大部分的线性预测因子。
当考虑PLS、LASSO和Enet时,这些模型能够从大量备选预测因子中提取最具有代表性的子集,也就更具有稳健性与泛化能力,因此这三个模型的解释力均上升到了1%以上。这个结果表示,全体公司特征在进行月度收益预测时是冗余的,并没有必要考虑所有可能的公司特征。
对于树模型RF、GBRT和五个神经网络模型,解释力都上升到2%以上,这表明机器学习算法在捕捉预测因子间复杂交互作用时的强大能力。
与Gu et al.(2020)关于美国资本市场的研究结果相比,作者发现机器学习在中国资本市场表现出更强的预测能力。
中美资本市场预测效果的不同可能有两方面原因。首先,中国股市的特点是大部分散户投资者偏好小盘股。其次,中国股市普遍存在国有企业,而国有企业的透明度低于其他企业。所以接下来,作者分别从规模与企业性质展开对比。
从对股票规模分组、股东平均市值分组、企业性质分组的研究结果可以看出,首先,所有模型对小盘股的预测能力都要优于大盘股;其次,大部分模型对股东平均市值较低的股票的预测能力都要优于股东平均市值较高的股票;最后,对非国企股票的预测能力要优于国企股票。
总体而言,作者发现:1.在中国资本市场,小盘股更容易预测。2.神经网络模型可以提供最稳健、最准确的预测结果。
2. 哪些因子最重要?
在完成预测能力对比之后,作者进一步考虑在所有备选预测因子中,哪些对于预测中国资本市场收益最重要。下表展示了11个宏观变量在各模型中的重要性。
对于PLS而言,衡量发行活动水平的nti最为重要。自中国股市开放以来,中国一直采用基于审批的IPO制度。众所周知,证监委经常在股市下跌时暂停或减少IPO数量,这使得nti在预测月度回报方面发挥重要作用是合理的。
值得注意的是,nti也是GBRT模型中最重要的宏观经济变量,也是神经网络模型的第二重要变量。
最后,与其他基于回归的方法相比,树模型GBRT和RF中宏观经济变量的重要性分布相对更为均匀,表明这两种方法可以检测宏观经济变量与股票特征之间潜在的复杂非线性交互作用。
上图汇总了每个宏观经济变量在模型中的变量重要性。总体而言, infl和nti是预测中国股市收益率最具影响力的两个宏观经济变量,尤其是使用神经网络时。
另一方面,股息价格比(dp)、市场波动率(svar)、每股总收益(ep)、期限利差(tms)和市场流动性(mtr)都被大多数模型所忽略,因而算不上重要变量。
上方热力图还展示了公司层面特征在不同模型中的重要程度。与市场流动性相关的股票特征最为重要,即流动性波动性(std_dolvol和std_turn)、零交易日(zerotrade)和不确定性度量(ill)。
第二具有影响力的变量集包括基本信号和估值比率,如行业调整后的资产周转率变化(chaotia)、行业调整后的员工变化(chempia)、总市值(mve)、最近收入增长数(nincr)、行业调整后的利润率变化(chpmia)和行业调整账面市值(bm_ia)。
这些结果同样与美国市场的发现形成了鲜明对比。之前对于美国资本市场的研究指出,传统的价格趋势指标是最具影响力的预测指标,而对中国股市来说,除了最近的最大回报(maxret)之外,其他指标的重要性都较低。
基本面因素的突出作用同样是这一部分的显著结论,Gu et al.(2020)表明这些因素对美国市场的重要性很小,但在预测中国市场时就很重要。
Part 4. 投资组合分析
这一节作者考虑两种类型的机器学习投资组合。
第一种是多空投资组合。尽管多空投资组合是评估机器学习方法在投资组合层面绩效的有用工具,但由于严格的卖空限制,它很难在中国股票市场上实现。因此,作者还考虑了第二种:只做多的投资组合。
上图绘制了基于不同模型预测形成的投资组合累计收益,(以市场指数CSI300作为基准)。在所有投资组合类型中,神经网络模型的效果最好。
VASA尽管简单,但结果仅次于NN4模型。而且,这两种方法的多空组合在2015年股市崩盘期间表现非常好(阴影区域)。此外,2020年初的新冠病毒大流行造成的全球冲击并没有导致投资组合收益的显著下降。
因此,结果证实神经网络优于所有其他模型。而且多空组合在中国股市获得的夏普比率远远高于Gu et al.(2020)在美国股市中发现的夏普比率。
如前所述,由于交易限制,多空策略操作性很低,但即使是多头组合,其获得的最高夏普比率也达到1.76,仍高于美国市场的多空组合。以上结论都显示了机器学习算法预测能力转化为经济效益的显著能力。
Part 5. 研究结论
文章研究了几种机器学习方法在中国股市中的预测能力。
作者发现,最关键的预测因素是基于流动性的交易信号。此外,中国股市正朝着允许和鼓励基本面投资这个方向发展。
作者还发现,散户投资者的短期主义在短期投资期限内产生了实质性的可预测性,特别是对于小盘股。同时,由于政府信号在中国市场中扮演着重要角色,研究也观察到国有企业的长期可预测性显著提高。
对于投资组合的分析表明,短期内的高可预测性可以转化为多空投资组合的高夏普比率。然而,因为中国市场的做空可操作性较低,作者还分析了仅做多的投资组合,发现其表现仍然具有经济意义。
总体而言,研究表明机器学习方法可以成功应用于中国股票市场,尽管中国股票市场与美国股票市场具有完全不同的特征。
REVIEW
关键词
行为
结论
实证
专栏
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。