量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W+关注者，连续2年被腾讯云+社区评选为“年度最佳作者”。
量化投资与机器学习公众号独家解读
量化投资与机器学公众号 QIML Insight——深度研读系列是公众号今年全力打造的一档深度、前沿、高水准栏目。
公众号遴选了各大期刊最新论文，按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章，愿与你共同进步！
第一期 | 第二期 | 第三期 | 第四期 | 第五期 | 第六期
第七期 | 第八期 |第九期 | 第十期

本期遴选论文
来源：
SSRN

标题：
From Man vs. Machine to Man + Machine: The Art and AI of Stock Analyses May 2021

作者：
Sean Cao、Wei Jiang、Junbo Wang、Baozhong Yang

自从AI诞生至发展至今，人们一直把重点放在AI如何替代人类的工作，人类又将如何在AI发展的时代找到自身的定位。大多的学术讨论也集中在那些因为AI的演进而消失的、又或是新创造出来的工作。也就是说，大家总是把人类和AI放在了对立面，都在讨论“Man VS AI”。很少有文献讨论，一个有经验的有技能的人类，如何借助AI技术，发挥更大的潜能，也就是“Man + AI”。本文主要以对比分析师预测和AI模型预测股票年底的目标价，讨论如何从“Man VS AI”到“Man + AI”。

具体如何对比分析师的预测和AI模型的预测，作者是这么做的：不断的搜集公司、行业及宏观经济数据作为输入的指标，当然这里包括公司披露的文本类数据，但是不包括分析师的预测数据。当与某个特定的分析师的预测做比较时，AI模型所使用的数据也只到分析师给出预测的那个时期。比如，分析师预测2021年8月12日预测A公司的年底的目标价为33元，那么AI模型所使用的数据也只能到2021年8月12日。在AI模型层面，作者使用了多个模型构成的复合模型。

最终结果显示，以上的AI模型的预测结果有53.7%是优于人类分析师的，而用同样的数据，普通线性回归模型只有19.3%优于人类分析师。在这样一个策略里，如果AI模型的预测结果大于分析师预测的中位数，则买入；相反，则卖空，该多空策略的平均月Alpha为0.84%到0.92%（以Fama-French-Carhat四因子回归得到）。这就显示，即使作者的AI模型并不是最先进的，也显示了分析师正受到AI模型的颠覆。

那么AI模型和分析师各自有什么优势，他们的结合是否会带来增强的效果？首先，作者研究了分析师优胜的情况，在这些预测中，作者发现分析师做出的预测的绝对预测误差更低。作者进一步发现，分析师对于流动性更差、规模更小的公司和拥有轻资产商业模式(即更高的无形资产)的公司的预测更准，这些公司的信息不对称，需要更好的机构知识或行业经验来解读。隶属于大型经纪公司的分析师，结合自身能力和可用的研究资源，也更有可能击败AI模型。此外，当相关行业陷入困境时，分析师更有可能占据上风，这表明AI模型对于相对罕见行业衰退不能给出更好的结果。这也表现，AI模型对于少量发生的事件，不能有效的学习，从而不能给出准确的预测；而当样本量更大时，击败分析师的可能性就越大。

有趣的是，当作者把分析师的预测加入到AI模型中时（Man+AI），AI模型打败分析师的比率从原先的53.7%上升到了57.3%，并且在所有的年份都优于原先的AI模型。于是，作者好奇，对于一个Man+AI的模型，什么时候Man带来的增量信息是最大的？跟前面的发现类似，分析师对于低流动性的、小规模公司的预测，叠加到AI模型中，带来的增量效果更大。而且，小券商分析师带来的增益效应和大券商分析师保持一致。

最后，作者通过一个研究来强化这个关系人机结合增益效应的推断。近些年，关于“大数据”的应用在投资过程中逐渐普及。比如，可以通过卫星数据来判断一个零售商停车场的数量，从而推断其销售情况，进而预测其股价。这些用机器学习模型处理得到的数据称之为另类数据。作者发现，当分析师结合另类数据对某些公司进行预测，其效果比单纯的AI模型来的准确。

实证过程

预测样本

作者使用 I/B/E/S、CRSP及Compustat总计685888条分析师的目标价预测数据，时间跨度为1996年至2016年，覆盖6118家上市公司，数据总共涉及755家券商的10287个分析师。之所以选择目标价而不是盈利预测，是因为作者认为盈利本来存在更多的操纵空间，相对于股价更容易被管理层控制。

采用5年滚动的时间窗口对模型进行训练，详细来说：比如某个分析师在第u年的日期t对某家公司年底的股价做了预测，那么AI模型会用u-5到u-1的数据进行训练，并使用u年截止t-1日期前的数据进行预测。

输入数据

模型

作者比较了多种模型，最终的模型是三个效果最好的模型组成的复合模型。这些模型包括：Elastic-Net, Support Vector Machines, Random Forest, Gradient Boosting, and Long Short-Term Memory Neural Networks.

实证结果

假设在日期，某个分析师对股票的年末目标价的对数值做出了一个预测，以表示，其中Man表示人类分析师，AI模型在同一日期对同一股票的预测为。如果，则认为AI打败了分析师；反之亦然。而且如果，，则视为一个买入信号，反之则视为卖出信号。

下图1显示，在2001年至2016年间，AI有53.7%的预测是优于人类分析师的。其中2013年的表现最差，而且整体的优势是在下降的。这某种程度上是因为，随着AI的发展，人类分析师对于数据获取及加工的能力也在增强，他们在分析的过程中也更多的加入了机器学习的模型等。

表2显示了不同机器学习模型的表现，单模型来说，Gradient Boosting的表现最好，这从另一个维度说明，模型的发展对AI模型预测效果的提升也是显而易见的。

下图这个统计很有意思，作者把分析师分为了两组，过去N年（表格中不同列表示）预测误差最小的前50%在Top组，后50%在Bottom组。然后分别统计AI模型打败Bottom组或Top组分析师的比率。可以发现对于Bottom组的分析师（水平较低的分析师），AI的胜率更高。而对于Top组的分析师，在Panel A里，AI还有一些优势。但在Panel B就基本没有优势了。Panel A中，不同的列表示的是，基于过去1、2、3、4、5年的表现对分析师分组。Panel B表示持续出现在Top组或Bottom的分析师。

下图2，给出了AI+Man打败分析师的比率（AI+Man的模型是指把分析师的预测数据也作为一个指标加入到AI模型中），与图1不加分析师预测的AI模型相比，特别是在2008-2010年，AI+Man的模型打败分析师的比率有了明显的提高，总体打败的分析师的概率也从原先的53.7%提高到了57.3%。

AI+Man的效果不仅比分析师要，比原先不加分析师预测的AI模型也要好，而且从下图可以看出，AI+Man比纯AI的领先优势在逐年递增，说明分析师的预测数据对于AI的帮助越来越大，也从侧面说明，得力于AI的发展，AI在辅助分析师做数据分析后，分析师做出的预测越来越有用。

Man VS AI：各自的优势

人类分析师到底什么情况下表现会由于AI模型？AI模型什么时候又会优于分析师？作者试图通过以下分析找到答案。首先定义了可能跟预测表现相关的自变量，各变量的定义如下：

对于每次预测，作者定义了两个衡量AI和分析师预测效果的因变量：

然后对由公司，分析师，日期 t 构成的面板数据做以下回归：

其中Relative Performance为Analyst Beats AI的回归结果在表5的Panel A中，Relative Performance为Forecast Error Difference的回归结果在表5的Panel B中，为Amihud Illiquidity等自变量。和为控制是否考虑公司和年份固定效应的变量。

从以下结果可以看出：

当覆盖流动性差的、拥有较高无形资产的小公司时，分析师的表现更优，因为这类公司的信息不对称程度更高，需要更深层次的理解。
当公司披露报告的数量更多时，AI的表现比分析师更优，说明AI更能处理大量的信息。
预测时间更短时（Forecast Horizon），分析师的表现更优。
当行业整体下行时，分析师的表现更优，因为行业下行的发生概率较低，AI在处理低频事件时，表现不如人类分析师。

总结

AI与分析师并不是对立面，AI的出现也并不是为了替代分析师，两者的结合可以是相互的：

分析师可以借助AI来处理更多的信息，从而更高效的发掘有价值的信息，做出更优的预测。
AI也可以将分析师的预测作为输入，来提升模型的表现。

公众号也注意到现在已经有很多应用将AI用于公司基本面，比如公司盈利的预测。这是AI发展到一定阶段的产物。但很多时候，我们面临的不是二选一的命题，AI可以帮我们处理非结构化数据，也可以直接参与到投资策略的生产端，只有了解AI和人类各自的优缺点，进行有逻辑的结合，才能在有效整合AI的道路上走得更远。

继续阅读

阅读原文

关键词

公司

效果

作者

从『Man VS AI』到『Man + AI』