量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。

前言
量化策略中超额收益alpha的来源可以简单分为两部分(不考虑网下打新):pure alpha+风险风格收益。pure alpha,包括量价因子、基本面因子等,能够带来稳定的超额收益;风险风格收益由风险因子贡献,包括市场因子、市值因子、行业因子、成长因子等,收益的波动性非常大。
选股因子在行业的暴露度过高可能会导致股票过于集中而带来的极端风险。这会影响选股因子有效性的判断。
A股行业市值效应明显,为降低选股因子在行业和市值的暴露度,我们通常会进行市值和行业中性化处理。行业中性化的本质在于使用行业定义来确定股票的相似群组,找到股价共同移动概率较高的股票,最终达到在不同群组中分散化投资的目的。
个股在行业分类上是唯一的,而行业下不同板块业务产品、盈利模式存在较大区别,并且有相当数量的上市公司存在多元经营的问题,直接硬性通过行业分类划分相似群组可能较为粗暴,因此本文将探究使用公司主营产品(SAM标准化产品)提纯‘替换’行业中性化处理的因子表现如何。
数据介绍
SAM产品分项数据记录了上市公司披露主营产品的收入、利润及成本,并对其进行标准化处理,匹配数库的标准产品名称及代码,确保上市公司在业务和产品维度上实现高度可比。
下图展示了产品分项表中恩捷股份2021年度报告中披露的主营数据,product_code是标准化后的产品代码,最右边三列分别为产品对应的收入、成本及利润。
主营产品数据降噪处理
本文主要研究能否通过公司主营产品捕捉股票同质性并用于提纯因子以达到控制风险的目的。在利用主营产品数据尝试提纯之前,我们首先给出以下逻辑假设:通过主营产品可以找到股票间的同质性,但是主营产品数据中信息可以分为能够体现同质性的信息(信号 )与干扰信息(噪音)。当数据中信号的占比越大,其对同质性的解释能力就越强。因此我们可以认为主营产品数据比行业分类更能够体现股票间的同质性。在此基础上如果我们希望利用主营产品更加准确地捕捉同质性并用来提纯因子,我们可以先将主营产品数据处理成信噪比更高的指标。
 我们首先需要筛选出真正能够影响公司经营的主要业务,换句话说我们希望找到公司营业收入占比较高或利润较大的产品,在体现公司多元经营的前提下剔除其他非主营业务产品噪音项。为实现这一目标,我们基于选股中的重要指标—主营业务占比指标衍生出反向计算主营的方法来筛选公司主营产品。
主营业务占比指标是由给定主营业务计算收入后与总收入计算出主营业务占比,而反向计算主营是使用SAM产品分项数据通过给定收入占比及毛利占比等逻辑计算确定主营业务产品。
主营计算部分逻辑介绍(这里只简单介绍研究中使用的主要逻辑):
若某产品营收占比>50%且利润占比>20%确定为主营产品;若某产品利润占比>70%且营收占比>15%确定为主营产品;若存在另一产品主营占比>30%且毛利占比>50%确定为主营产品等。
通过计算尝试直接找出产品分项数据中大概率能体现同质性的产品。
以恩捷股份(002812)21Q4产品分项数据为例,通过上述流程计算结果如下:
由此方法计算主营剔除了多余噪音项,不仅能够及时捕捉公司经营重心,群组划分更准确,且标准化后的产品相较于原始披露更易于对标概念板块。
选股因子信息提纯
我们认为因子带来的alpha包含Pure alpha 与风险风格收益,风险风格收益可以看作是暴露了某一个风格的风险敞口得到的收益,Pure alpha 不会受到市场风格的影响,可以认为是因子本身带来的alpha收益。为获得Pure alpha我们通常会使用风控模型收紧风险敞口,比如使用主流模型Barra对因子暴露进行约束,本文希望通过利用主营产品减小同质化带来的风险。
与降噪处理逻辑一致,提纯的本质是通过找出因子暴露中大概率是噪音项的部分,通过将其剔除的方式,增加处理后的因子信噪比。这里的提纯采用横截面回归取残差的方式,将确定为主营的产品标记为哑变量1,其余不属于主营的产品标记为0,之后进行多元线性回归拟合。剔除了因子暴露中大概率能被主营产品解释的部分,剩余的残差即是更纯化的因子信息。
因子在不同行业中的暴露
因子在主营业务中的暴露
用上面两张图来举例,行业中心化可以分别隔离银行与其他行业的暴露,但是无法隔离同行业之中银行对公业务与银行对私业务的主营业务暴露。
实证分析
选取两个量价因子(WorldQuant-alpha006、alpha004)分别构建单因子投资组合进行回测,实验组因子使用SAM主营产品提纯,对照组因子进行行业中性化处理,通过对比因子测试结果验证提纯效果。
提纯预处理—SAM产品数据降噪处理:
1、数据来源:
SAM产业链PIT数据
报告期:2020/12/31,2021/12/31
2、数据分段处理:
因子总体回测时间为2021年5月6日—2023年6月30日
为避免使用未来数据,这里利用主营产品提纯的基本逻辑是:使用已有的最新报告期(本文报告期按年度划分)的数据计算主营作为当前公司主营产品直至下一报告期数据入库再次计算主营,例如:使用2021年报Q4披露的产品数据计算的主营用于2022年5月之后的因子提纯,以此类推。
3、主营业务计算:
按上文所述反向计算主营算法筛选主营构造哑变量矩阵,若公司主营业务包含某一产品则暴露度为1,否则为0;为体现多元化经营,公司主营产品数量由算法决定,不一定唯一。
因子测试
我们分别对因子做实验组及对照组处理并构建单因子回测框架,主要包括 IC 分析和分层回测以及模拟测试投资组合表现。为排除异常股票对测试结果的影响,剔除了选股日ST/PT股票及上市不足一年的股票。实验组及对照组因子均为做过预处理:异常值、标准化处理,市值中性化处理,对照组行业分类为申万一级行业(2021年6月更新版本)。
测试参数如下:
回测区间:2021 年 5 月至 2023 年6 月
样本空间:沪深300成分股
分组数量:5 组
因子对应股价数据:避免前视错误(look-ahead bias)和计算延迟(delayed calculation),使用下一日开盘价‘open’计算前向收益
IC计算方式:Spearman’s rank correlation coefficient
加权方式:等权
测试结果
Alpha006测试结果
不同持仓周期下对照组中性化因子与实验组提纯后因子IC分析结果比对:
通过IC分析结果对比,不论从因子有效性、稳定性还是预测能力来看,SAM提纯后的因子效果都显著优于行业中性化处理的因子。
不同持仓周期下对照组中性化因子收益分析结果
不同持仓周期下实验组提纯后因子收益分析结果
据以上图表显示,提纯后的因子在各个持仓周期的超额及单调性上的表现依然占优。
对照组(上)与实验组(sam提纯后因子,下)在测试区间(2021 年 05月 06 日至 2023年 06 月 30 日)持仓周期为5天的分层累计收益曲线如下所示:
用Alpha006构建资产组合,模拟业绩表现
在之前的报告结果中可以发现实验组与对照组中分位组1和5的预测性最好,因此这里使用这两个分位组模拟构建单因子多空策略组合,持仓期为5天,基准收益按照基准区间频率(benchmark_period=5d),计算全域平均收益。模拟时未设置交易费用与滑点。
策略表现如下(左侧为对照组,右侧为实验组SAM提纯后因子)
Top Quantile 纯多头策略累计超额曲线对比
(Alpha006,持仓周期:5d)

蓝色阴影面积清晰地显示出提纯后因子超额有显著提升
Alpha004测试结果
不同持仓周期下对照组中性化因子与实验组提纯后因子IC分析结果比对。左半边为对照组IC结果,右半边为实验组提纯后IC结果。
不同持仓周期下对照组中性化因子收益分析结果
不同持仓周期下实验组提纯后因子收益分析结果
用Alpha004构建资产组合,模拟业绩表现
在之前的报告结果中可以发现,对照组中分位数组2和4的预测性最好,实验组中分位组1和5的预测性最好,因此分别使用各组两个预测性最好的分位组模拟构建单因子多空策略组合,持仓期为40天,基准收益按照基准区间频率(benchmark_period=40d),计算全域平均收益。模拟时未设置交易费用与滑点。
策略表现如下(左侧为对照组,右侧为实验组SAM提纯后因子)
Top Quantile 纯多头策略累计超额曲线对比
(Alpha004,持仓周期:40d)
实证结果分析
上文测试结果报告展示了将两个量价因子作为实验对象,从因子IC分析、因子收益指标及模拟资产组合交易三个方面验证对比了行业中性化处理及提纯后因子的表现。主要有以下结论:
1、利用SAM主营产品可有效捕捉股票同质性进行信息提纯,可用于控制投资组合对于同质性风险暴露,提升量化投资策略收益稳健性。
2、提纯后的因子相较于行业中性化后的因子,不仅预测能力与稳定性都得到了显著的提升,且有效性也有所提升,这说明信息提纯进一步挖掘了因子的增量信息,起到了优化因子的作用。
3、 从模拟资产组合交易结果来看,提纯后因子在提升了年化收益率的同时也降低了最大回撤,因子在时间序列上的表现更加稳定。报告中夏普比率(sharpe_ratio)和多空卡玛(calmar_ratio)以及索提诺比率(sortino_ratio)是衡量风险收益比的重要指标代表了风险收益比,这说明提纯后因子‘性价比’无疑高于中性化后因子。
其他说明:本文仅展示了两个简单的量价因子提纯后效果表现,未避免偶然性我们对WorldQuantAlpha101中其他量价因子及基本面估值因子(BP,EP)进行提纯测试,结果均优于中性化处理。
思考与展望
量化策略具有同质化,随着市场有效性的提升Pure Alpha这个投资中的‘圣杯’越来越难把握。如何剥离同质风险挖掘因子中的特质收益项对量化策略配置意义重大,多元性量化策略配置能有效应对市场变化。SAM产业链产品分项数据能够更细致地刻画上市公司经营属性,从机器学习角度来说其作为特征解释度更高,与行业分类相比捕捉同质性更加准确,应用场景广泛。比如利用SAM数据构造风格因子扩充Barra模型,增强模型解释力;或者对冲策略应用,比如统计配对策略,做同质公司的价差回复、事件驱动策略等。综上,SAM数据对于量化策略具有重要研究意义,未来我们也将继续探索SAM数据在量化策略中的应用。
⬇⬇
点击“阅读原文”,分别获取文中原始、市值中心化处理、行业中心化处理,与产业提纯处理后的因子值。
继续阅读
阅读原文