量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。
来自:Deep Inception Networks: A General End-to-End Framework for Multi-asset Quantitative Strategies
作者:Tom Liu, Stephen Roberts, Stefan Zohren

今天这篇文章,我们提出的DIN模型为端到端策略提供了一个通用框架。输入是最低限度处理的数据,输出是风险和成本调整后的持仓大小。研究者只需要选择什么需要输入数据的类型,例如价格回报,以及模型应该捕获的行为类型。DIN简化的结构如下图1所示。首先,我们使用一个特征提取器(FE)学习短期特征。接下来有Position Sizer(PS)处理并输出持仓权重,它可以捕获更长期的依赖关系。与之前的研究不同,DINs为所有资产输出权重的同时,能够优化投资组合的夏普比率,充分利用截面的信息。
DIN的结构是高度定制化的,你可以选择自定义的FE去提取特定类型的特征,比如可以是提取时序特征的模型,如DeepLOB喝AxialLOB。今天这篇文章介绍了两种新的FE,OrigCIM和FlexCIM,它们能够学习截面信息和领先滞后(lead-lag)关系。
如何选择FE?可以系统化的对它们的回测结果进行分析比较。通过约束可能的特征类型,与通用的端到端模型相比,DINs具有更小的过拟合可能性;通用的端到端模型可以从输入矩阵中的任何元素组合中学习特征,从而提高过拟合的可能性。
PS也可以使用系统化的方法进行筛选。在本文中,我们考虑了LSTM和Temporal Fusion Transformers(TFT)两个模型。这两个组件都使DIN能够捕获数据的长期变化。关键的区别在于,TFT能够利用注意力层从过去的单元中恢复“被遗忘”的信息。与LSTM相比,在之前的文献中,TFT在有更好的表现和可解释性。
实证分析中,我们使用了2005年至2022年的期货进行测试,DIN模型(OrigCIM x TFT)在费前和费后的表现都优于所有基准。特别是,在交易成本之前,与同等权重的Longonly投资组合相比,夏普比率增加了10倍,达到2.95。我们还测试了DIN模型在其他资产类别上的表现:包括外汇、股票和加密货币。我们发现,最优的FE选择依赖于资产类别。对于有相关资产集群的期货和外汇,OrigCIM和FlexCIM捕获的CS信息是有用的。对于股票和加密货币,存在更均匀的相关结构:只提取TS特征的DeepLOB是最好的。
通过分析DIN两个子模型(FE和PS):FlexCIM特征提取器中的变量选择网络(VSNs)和TFT位置大小器中的注意力。VSN权重显示了不同类型的提取特征的重要性如何随时间变化。注意图可以用来确定哪些过去的时间点对“超前一步”的预测有最大的影响。在对金融大危机和COVID-19等案例研究时,可以发现注意力集中在历史上相似的时间点,而不是最近的数据。以下是本文对DIN框架特点的总结:
  • 不需要手工设计特征:有FE进行自动化的特征提取
  • 有效控制过拟合:对特征类型加以限定
  • 可解释性:VSN和注意力权重帮助我们更清楚的了解模型
  • 组合优化
  • 换手和交易成本控制
模型的具体结构是怎么样的?
正如上文所说,DIN是一个高度定制化的框架,主要有两部份组成,首先是负责特征提取的FE,然后是计算组合权重的PS。FE从每日的经标准化处理后的收益率数据中提取短期的特征。如DeepLOB和AxialLOB都是现有文献中表现较好的特征提取器。本文提出了两个新的FE:OrigCIM和FlexCIM。我们分别进行介绍。
在模型训练的每一步t中,DIN模型对所有资产的权重做出预测,表示为 。DIN有三个输入的矩阵,其形状均为 ,其中 为时序的长度, 为资产的数量。这三个矩阵分别是:
  • 历史收益率矩阵 :经63日EWM波动率标准化后的日度收益率矩阵
  • 未来收益率矩阵 :经目标波动率缩放后的下一日收益率
  • 波动率缩放矩阵 :目标波动率除以历史波动率
其中 是模型输入, 会拼接在一起在损失函数中使用。
特征提取,Feture Extractor
首先回顾一下DeepLOB和AxialLOB(具体请参考原论文):
Z. Zhang, S. Zohren, and S. Roberts, “Deeplob: Deep convolutional neural networks for limit order books,” IEEE Transactions on Signal Processing, vol. 67, no. 11, pp. 3001–3012, 2019.
D. Kisiel and D. Gorse, “Axial-LOB: High-frequency trading with axial attention,” arXiv preprint arXiv:2212.01807, 2022.
本文提出的OrigCIM和FlexCIM也是受到DeepLOB的启发,在后面的测试中本文以DeepLOB的结果作为基准。AxialLOB和DeepLOB的差异在于前者用轴向的注意力机制去捕获长期的依赖关系,而DeepLOB(包括OrigCIM和FlexCIM)使用CNN。
接下来看OrigCIM,如下图所示,输入矩阵 分别经过四个(1*1)的单层网络后进入ELU激活,接着前三个输出进入三个大小为 的单层网络分别学习截面、时序及截面时序混合特征。最终把这个四个输出拼接在一起,作为一个FE学习到的特征,DIN模型会同时训练n个FE从而学习到多个特征,得到大小为 的中间输出,其中 ,。(更清楚的理解看图4中间部分)。
FlexCIM相对于OrigCIM的改进在于对中间输出进行了降维处理,如下图3所示。整个降维分为两部,第一步是经过CNN,第二步经过CNN或VSN后降维为TxN_A的矩阵,输入至接下来的Postion Sizer(LSTM或TFT)。如果使用TFT的则可以加入一些静态特征。
测试结果对比与分析
模型训练数据和测试数据按90%/10%进行划分,优化器选择Adam,超参数优化使用Hyperband和贝叶斯。在以下数据集进行了测试:
  • 期货:2000-2022的50个期货品种
  • 股票:EURO STOXX 50成分股,2001-2022
  • 数字币:CoinMarketCap上的8个数字币,2018-2023
  • 外汇:来自FRB的19个外汇,2000-2023
下表5给出了在期货数据上的测试结果。其中OrigCIM-TFT的表现最好,Sharpe为2.95,最大回撤13.8%。
表10和11给出了在各个资产上回测的对比,可以看出该模型在期货上的表现最佳。
关于模型的可解释性等更多细节,请参考原文。
继续阅读
阅读原文