专栏｜中国股市可以准确预测吗？来自机器学习的视角

日报

专栏

热点

国际

活动

研究表明机器学习方法可以成功应用于中国股票市场，尽管中国股票市场与美国股票市场具有完全不同的特征。（首图来自图虫创意）

文 | 未央专栏 · 学说平台 <<<<

股票收益率的可预测性一直以来都是金融学界研究的焦点。尤金·法玛的有效市场理论认为股票市场不能被公开市场信息预测。然而，越来越多的研究表明，利率、通货膨胀、投资者情绪、方差风险溢价等很多变量都能显著地预测未来的股票市场收益率。

有了诸多可预测变量后，个股收益率到底能在多大程度上被预测？到底哪些股票特征真正为样本外收益率预测提供了有效信息？这些预测结果能够用于股票资产配置并赚取超额收益吗？

中国股票市场发展迅速，2020年10月，中国股市规模达到了新的历史记录，总市值达到79.72万亿元。然而，中国股票市场仍然存在一些不成熟的特征，散户比例高、交易频繁、股票市场波动大等。

因此，探索以上问题在中国资本市场的答案对于提升中国股票市场资金的有效配置至关重要。

由于影响股票收益率的因素非常多，提取有效信息较为困难。机器学习在解决该问题时有一定的优越性，其能够将高维度数据压缩成低维，同时还能保留较多的信息。

机器学习（Machine Learning），是由亚瑟·塞缪尔（Arthur Samuel）在1959年用机器解决跳棋游戏的背景下提出的, 其是指一种计算机程序，它可以学习产生一种行为，而这种行为不是由程序的作者明确编程实现的。相反，它能够显示出作者可能完全没有意识到的行为。这种行为的学习基于以下三个因素：

1. 程序消耗的数据；

2. 量化当前行为和理想行为之间的误差或某种形式的距离的度量；

3. 使用量化误差指导程序在后续事件中产生更好行为的反馈机制。

可以看出，第二个和第三个因素使这个概念变得抽象，并强调其深层的数学根源。因此，机器学习在模拟人的行为感知和决策的同时，能够基于算法进行分析和推理，实现对股市的预测。

来自苏黎世大学的Markus Leippold，Qian Wang以及来自浙江大学的Wenyu Zhou在国际金融学顶级期刊《Journal of Financial Economics》发表文章“Machine learning in the Chinese stock market”，文章利用机器学习技术，从资本市场特征入手对我国股票收益的可预测性、无做空的投资组合收益等进行研究，扩充了我国资本市场领域的相关文献。

该论文于2021年4月投稿，2021年6月被接收，2021年8月正式刊出。

Part 1. 引言

本文从中国股市特征入手，尝试展开对比性研究，具体主要从三个方面切入：

第一，相比被机构投资者主导的成熟市场，中国股市由所谓“散户”主导。根据2019年上海交易所的年报，散户数占所有账户的比例为99.8%。如此高的散户比例，导致整个市场的交易额会因为散户频繁的短期交易行为而增加。因此整个市场的高波动性有可能会造成股价在经济基础上的偏移。

所以基于这一特征，作者提出：是否某些由投资者交易行为形成的新兴技术性指标比公司基础特征更具有定价能力（预测能力）。

第二，很多研究中国股市的学者提出，中国股市的关键特征是集中调控、银行主导与单一关系驱动。比如上市国企的股价在低于基础价值时是被保护的。鉴于国企在中国资本市场中的重要性和唯一性，所以对于国企的研究需要更加细致和特殊的对待。

基于此，作者提出：是否上市国企的股价会因为政府调控因素而变得难以预测？

第三，中国资本市场缺少做空机制，而金融领域经典的因子分析主要依赖于多空组合构造。

基于此，本文从无做空操作出发，使结果更易被中国股市投资者理解与应用。

另外，目前对于中国股市来说，还没有一个广泛的可用因子数据库，本文另一个贡献就是建立了一个可理解的因子集与其配套数据。

Part 2. 模型与方法

文章在解释股票收益时，采用了经典的模型设置，即：

其中Z_i,t是P维的预测因子向量，具体设置为：

C_i,t是一个90维的股票特征向量，X_t是11维度的宏观特征向量，d_i,t是一个80维的行业哑变量向量，⊗指两向量之间的克罗内克积。

g(・)的具体形式不做具体设定，本文的目标也正是从一系列候选函数形式中，寻找一个g(・)的具体形式，以达到最佳预测效果。

为此，本文考虑g函数的十一个机器学习形式与两个简单线性形式，分别是普通最小二乘、三因子最小二乘、偏最小二乘、LASSO、Enet、GBRT、RF、VASA、NN（单层到五层）。

参考利用机器学习进行资产定价的文献，本文使用Huber损失函数作为优化目标函数，同时将样本集分为三个子集，分别用于超参数选择，模型估计和预测效果评估。

Part 3. 实证分析

1. 样本外预测效果

为了更好地分类研究不同模型对不同特质股票的预测能力，作者将所有股票分为六个类别，分别是按规模排序前70%、按规模排序后30%、按股东平均市值前70%、按股东平均市值后30%、国企与非国企。按月度计算的预测R²如下表所示。

在考虑所有公司时，最简单的最小二乘模型也能够达到0.81%的解释力。而三因子最小二乘模型的解释力比最小二乘模型还要低，这表示传统的线性三因子模型（SMB/BM/Momentum）并不能囊括大部分的线性预测因子。

当考虑PLS、LASSO和Enet时，这些模型能够从大量备选预测因子中提取最具有代表性的子集，也就更具有稳健性与泛化能力，因此这三个模型的解释力均上升到了1%以上。这个结果表示，全体公司特征在进行月度收益预测时是冗余的，并没有必要考虑所有可能的公司特征。

对于树模型RF、GBRT和五个神经网络模型，解释力都上升到2%以上，这表明机器学习算法在捕捉预测因子间复杂交互作用时的强大能力。

与Gu et al.（2020）关于美国资本市场的研究结果相比，作者发现机器学习在中国资本市场表现出更强的预测能力。

中美资本市场预测效果的不同可能有两方面原因。首先，中国股市的特点是大部分散户投资者偏好小盘股。其次，中国股市普遍存在国有企业，而国有企业的透明度低于其他企业。所以接下来，作者分别从规模与企业性质展开对比。

从对股票规模分组、股东平均市值分组、企业性质分组的研究结果可以看出，首先，所有模型对小盘股的预测能力都要优于大盘股；其次，大部分模型对股东平均市值较低的股票的预测能力都要优于股东平均市值较高的股票；最后，对非国企股票的预测能力要优于国企股票。

总体而言，作者发现：1.在中国资本市场，小盘股更容易预测。2.神经网络模型可以提供最稳健、最准确的预测结果。

2. 哪些因子最重要？

在完成预测能力对比之后，作者进一步考虑在所有备选预测因子中，哪些对于预测中国资本市场收益最重要。下表展示了11个宏观变量在各模型中的重要性。

对于PLS而言，衡量发行活动水平的nti最为重要。自中国股市开放以来，中国一直采用基于审批的IPO制度。众所周知，证监委经常在股市下跌时暂停或减少IPO数量，这使得nti在预测月度回报方面发挥重要作用是合理的。

值得注意的是，nti也是GBRT模型中最重要的宏观经济变量，也是神经网络模型的第二重要变量。

最后，与其他基于回归的方法相比，树模型GBRT和RF中宏观经济变量的重要性分布相对更为均匀，表明这两种方法可以检测宏观经济变量与股票特征之间潜在的复杂非线性交互作用。

上图汇总了每个宏观经济变量在模型中的变量重要性。总体而言， infl和nti是预测中国股市收益率最具影响力的两个宏观经济变量，尤其是使用神经网络时。

另一方面，股息价格比（dp）、市场波动率（svar）、每股总收益（ep）、期限利差（tms）和市场流动性（mtr）都被大多数模型所忽略，因而算不上重要变量。

上方热力图还展示了公司层面特征在不同模型中的重要程度。与市场流动性相关的股票特征最为重要，即流动性波动性（std_dolvol和std_turn）、零交易日（zerotrade）和不确定性度量（ill）。

第二具有影响力的变量集包括基本信号和估值比率，如行业调整后的资产周转率变化（chaotia）、行业调整后的员工变化（chempia）、总市值（mve）、最近收入增长数（nincr）、行业调整后的利润率变化（chpmia）和行业调整账面市值（bm_ia）。

这些结果同样与美国市场的发现形成了鲜明对比。之前对于美国资本市场的研究指出，传统的价格趋势指标是最具影响力的预测指标，而对中国股市来说，除了最近的最大回报（maxret）之外，其他指标的重要性都较低。

基本面因素的突出作用同样是这一部分的显著结论，Gu et al.（2020）表明这些因素对美国市场的重要性很小，但在预测中国市场时就很重要。

Part 4. 投资组合分析

这一节作者考虑两种类型的机器学习投资组合。

第一种是多空投资组合。尽管多空投资组合是评估机器学习方法在投资组合层面绩效的有用工具，但由于严格的卖空限制，它很难在中国股票市场上实现。因此，作者还考虑了第二种：只做多的投资组合。

上图绘制了基于不同模型预测形成的投资组合累计收益，（以市场指数CSI300作为基准）。在所有投资组合类型中，神经网络模型的效果最好。

VASA尽管简单，但结果仅次于NN4模型。而且，这两种方法的多空组合在2015年股市崩盘期间表现非常好（阴影区域）。此外，2020年初的新冠病毒大流行造成的全球冲击并没有导致投资组合收益的显著下降。

因此，结果证实神经网络优于所有其他模型。而且多空组合在中国股市获得的夏普比率远远高于Gu et al.（2020）在美国股市中发现的夏普比率。

如前所述，由于交易限制，多空策略操作性很低，但即使是多头组合，其获得的最高夏普比率也达到1.76，仍高于美国市场的多空组合。以上结论都显示了机器学习算法预测能力转化为经济效益的显著能力。

Part 5. 研究结论

文章研究了几种机器学习方法在中国股市中的预测能力。

作者发现，最关键的预测因素是基于流动性的交易信号。此外，中国股市正朝着允许和鼓励基本面投资这个方向发展。

作者还发现，散户投资者的短期主义在短期投资期限内产生了实质性的可预测性，特别是对于小盘股。同时，由于政府信号在中国市场中扮演着重要角色，研究也观察到国有企业的长期可预测性显著提高。

对于投资组合的分析表明，短期内的高可预测性可以转化为多空投资组合的高夏普比率。然而，因为中国市场的做空可操作性较低，作者还分析了仅做多的投资组合，发现其表现仍然具有经济意义。

总体而言，研究表明机器学习方法可以成功应用于中国股票市场，尽管中国股票市场与美国股票市场具有完全不同的特征。

REVIEW

◆