量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。
量化投资与机器学习公众号独家解读
量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号今年全力打造的一档深度、前沿、高水准栏目。
公众号遴选了各大期刊最新论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!

本期遴选论文
来源:
SSRN

标题:
From Man vs. Machine to Man + Machine: The Art and AI of Stock Analyses May 2021

作者:
Sean Cao、Wei Jiang、Junbo Wang、Baozhong Yang
自从AI诞生至发展至今,人们一直把重点放在AI如何替代人类的工作,人类又将如何在AI发展的时代找到自身的定位。大多的学术讨论也集中在那些因为AI的演进而消失的、又或是新创造出来的工作。也就是说,大家总是把人类和AI放在了对立面,都在讨论“Man VS AI”。很少有文献讨论,一个有经验的有技能的人类,如何借助AI技术,发挥更大的潜能,也就是“Man + AI”。本文主要以对比分析师预测和AI模型预测股票年底的目标价,讨论如何从“Man VS AI”到“Man + AI”。
具体如何对比分析师的预测和AI模型的预测,作者是这么做的:不断的搜集公司、行业及宏观经济数据作为输入的指标,当然这里包括公司披露的文本类数据,但是不包括分析师的预测数据。当与某个特定的分析师的预测做比较时,AI模型所使用的数据也只到分析师给出预测的那个时期。比如,分析师预测2021年8月12日预测A公司的年底的目标价为33元,那么AI模型所使用的数据也只能到2021年8月12日。在AI模型层面,作者使用了多个模型构成的复合模型。
最终结果显示,以上的AI模型的预测结果有53.7%是优于人类分析师的,而用同样的数据,普通线性回归模型只有19.3%优于人类分析师。在这样一个策略里,如果AI模型的预测结果大于分析师预测的中位数,则买入;相反,则卖空,该多空策略的平均月Alpha为0.84%到0.92%(以Fama-French-Carhat四因子回归得到)。这就显示,即使作者的AI模型并不是最先进的,也显示了分析师正受到AI模型的颠覆。
那么AI模型和分析师各自有什么优势,他们的结合是否会带来增强的效果?首先,作者研究了分析师优胜的情况,在这些预测中,作者发现分析师做出的预测的绝对预测误差更低。作者进一步发现,分析师对于流动性更差、规模更小的公司和拥有轻资产商业模式(即更高的无形资产)的公司的预测更准,这些公司的信息不对称,需要更好的机构知识或行业经验来解读。隶属于大型经纪公司的分析师,结合自身能力和可用的研究资源,也更有可能击败AI模型。此外,当相关行业陷入困境时,分析师更有可能占据上风,这表明AI模型对于相对罕见行业衰退不能给出更好的结果。这也表现,AI模型对于少量发生的事件,不能有效的学习,从而不能给出准确的预测;而当样本量更大时,击败分析师的可能性就越大。
有趣的是,当作者把分析师的预测加入到AI模型中时(Man+AI),AI模型打败分析师的比率从原先的53.7%上升到了57.3%,并且在所有的年份都优于原先的AI模型。于是,作者好奇,对于一个Man+AI的模型,什么时候Man带来的增量信息是最大的?跟前面的发现类似,分析师对于低流动性的、小规模公司的预测,叠加到AI模型中,带来的增量效果更大。而且,小券商分析师带来的增益效应和大券商分析师保持一致。
最后,作者通过一个研究来强化这个关系人机结合增益效应的推断。近些年,关于“大数据”的应用在投资过程中逐渐普及。比如,可以通过卫星数据来判断一个零售商停车场的数量,从而推断其销售情况,进而预测其股价。这些用机器学习模型处理得到的数据称之为另类数据。作者发现,当分析师结合另类数据对某些公司进行预测,其效果比单纯的AI模型来的准确。
实证过程
预测样本
作者使用 I/B/E/S、CRSP及Compustat总计685888条分析师的目标价预测数据,时间跨度为1996年至2016年,覆盖6118家上市公司,数据总共涉及755家券商的10287个分析师。之所以选择目标价而不是盈利预测,是因为作者认为盈利本来存在更多的操纵空间,相对于股价更容易被管理层控制。
采用5年滚动的时间窗口对模型进行训练,详细来说:比如某个分析师在第u年的日期t对某家公司年底的股价做了预测,那么AI模型会用u-5到u-1的数据进行训练,并使用u年截止t-1日期前的数据进行预测。
输入数据
模型
作者比较了多种模型,最终的模型是三个效果最好的模型组成的复合模型。这些模型包括:Elastic-Net, Support Vector Machines, Random Forest, Gradient Boosting, and Long Short-Term Memory Neural Networks.
实证结果
假设在日期 ,某个分析师 对股票 的年末目标价的对数值做出了一个预测,以 表示,其中Man表示人类分析师,AI模型在同一日期对同一股票的预测为 。如果 ,则认为AI打败了分析师;反之亦然。而且如果, ,则视为一个买入信号,反之则视为卖出信号。
下图1显示,在2001年至2016年间,AI有53.7%的预测是优于人类分析师的。其中2013年的表现最差,而且整体的优势是在下降的。这某种程度上是因为,随着AI的发展,人类分析师对于数据获取及加工的能力也在增强,他们在分析的过程中也更多的加入了机器学习的模型等。
表2显示了不同机器学习模型的表现,单模型来说,Gradient Boosting的表现最好,这从另一个维度说明,模型的发展对AI模型预测效果的提升也是显而易见的。
下图这个统计很有意思,作者把分析师分为了两组,过去N年(表格中不同列表示)预测误差最小的前50%在Top组,后50%在Bottom组。然后分别统计AI模型打败Bottom组或Top组分析师的比率。可以发现对于Bottom组的分析师(水平较低的分析师),AI的胜率更高。而对于Top组的分析师,在Panel A里,AI还有一些优势。但在Panel B就基本没有优势了。Panel A中,不同的列表示的是,基于过去1、2、3、4、5年的表现对分析师分组。Panel B表示持续出现在Top组或Bottom的分析师。
下图2,给出了AI+Man打败分析师的比率(AI+Man的模型是指把分析师的预测数据也作为一个指标加入到AI模型中),与图1不加分析师预测的AI模型相比,特别是在2008-2010年,AI+Man的模型打败分析师的比率有了明显的提高,总体打败的分析师的概率也从原先的53.7%提高到了57.3%。
AI+Man的效果不仅比分析师要,比原先不加分析师预测的AI模型也要好,而且从下图可以看出,AI+Man比纯AI的领先优势在逐年递增,说明分析师的预测数据对于AI的帮助越来越大,也从侧面说明,得力于AI的发展,AI在辅助分析师做数据分析后,分析师做出的预测越来越有用。
Man VS AI:各自的优势
人类分析师到底什么情况下表现会由于AI模型?AI模型什么时候又会优于分析师?作者试图通过以下分析找到答案。首先定义了可能跟预测表现相关的自变量,各变量的定义如下:
对于每次预测,作者定义了两个衡量AI和分析师预测效果的因变量:
然后对由公司 ,分析师 ,日期 t 构成的面板数据做以下回归:
其中Relative Performance为Analyst Beats AI的回归结果在表5的Panel A中,Relative Performance为Forecast Error Difference的回归结果在表5的Panel B中, 为Amihud Illiquidity等自变量。 和 为控制是否考虑公司和年份固定效应的变量。
从以下结果可以看出:
  • 当覆盖流动性差的、拥有较高无形资产的小公司时,分析师的表现更优,  因为这类公司的信息不对称程度更高,需要更深层次的理解。 
  • 当公司披露报告的数量更多时,AI的表现比分析师更优,说明AI更能处理大量的信息。
  • 预测时间更短时(Forecast Horizon),分析师的表现更优。
  • 当行业整体下行时,分析师的表现更优,因为行业下行的发生概率较低,AI在处理低频事件时,表现不如人类分析师。
总结
AI与分析师并不是对立面,AI的出现也并不是为了替代分析师,两者的结合可以是相互的:
  • 分析师可以借助AI来处理更多的信息,从而更高效的发掘有价值的信息,做出更优的预测。
  • AI也可以将分析师的预测作为输入,来提升模型的表现。
公众号也注意到现在已经有很多应用将AI用于公司基本面,比如公司盈利的预测。这是AI发展到一定阶段的产物。但很多时候,我们面临的不是二选一的命题,AI可以帮我们处理非结构化数据,也可以直接参与到投资策略的生产端,只有了解AI和人类各自的优缺点,进行有逻辑的结合,才能在有效整合AI的道路上走得更远。
继续阅读
阅读原文