量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。
作者:Qinkai Chen、Christian-Yann Robert

我们在上一篇推文中分享了一篇关于图相关算法在量化研究中的论文综述。从股价预测到组合优化,传统的图算法及图神经网络都有非常丰富的应用场景。今天分享的文章来自Journal of Financial Data Science的最新论文《Graph-Based Learning for Stock Movement Prediction with Textual and Relational Data》,本文与之前图神经网络相关文献最大的不同点体现在以下几处:
1、从新闻文本提取股票表征,并和股票图关系结合进行股票涨跌的预测,这样的结合优于根据新闻预测单个资产的价格走势。
2、上述步骤中,利用了多个图的关系(行业属性、供应链关系等)可以进一步提高预测精度。
3、作者设计了用于股票预测的多图递归网络,并通过准确性测试和交易模拟证明了该模型具有最先进的性能。
我们首先来看一下模型的整体结构(如下图):
  • 最左边是股票池里的股票在过去一段时间(作者选取的是过去1个交易日)的所有新闻。
  • 每篇新闻经过Financial News Encoder(采用的是Universal Sentence Encoder)提取Embedding,在把每只股票所有新闻的Embedding计算平均值,作为该股票当天的新闻的Embedding。
  • 把以上每个股票的Embedding最为图中每个股票节点的属性,分别输入到不同的图中,作者总共使用了以下三个图关系(最终以邻阶矩阵的方式进行定义):
    • 股价相关系数
    • 供应链关系(来自Facset)
    • 股票的行业属性(GICS)
  • 通过以上图神经网络提取的每个股票节点的表征,在与原始个股的新闻表征拼接在一起,得到每天每个股票的特征集。
最后再把这个特征序列输入到RNN(LSTM)模型,训练的目标是下一交易日股票的涨跌方向。
作者实证研究用的是STOXX Europe 600成分股,本文使用的新闻数据来自Bloomberg,并过滤掉每天新闻数量少于两篇的股票,以下是样例数据:
构件图关系的三个邻阶矩阵的热力图如下图所示,Panel A每个元素表示这两个股票的相关系数,Panel B表示两个股票是不是属于同一个Sector,Panel C表示两个股票之间是否存在供应链关系。
下表显示了在不同百分位(根据下一期涨跌幅分成10组)测试集上不同模型的准确性和MCC。我们发现我们的MGRN模型表现出最好的性能,在准确性和MCC方面优于其他基准模型。
我们比较了单图模型(MGRN-Corr, MGRN-Sector和MGRN-Supply)和无图模型(RNN)。我们发现所有的图关系都可以帮助提高性能,特别是对于最极端的分位组(一个更小的q值)。但是,很难说哪个图具有最佳性能,因为每个图在不同的百分位上具有不同的最佳性能。这也意味着每个图中的信息是互补的,使得将不同的图组合起来更加合理。通过比较完整模型(MGRN)和单一图模型,我们验证了我们的假设,即组合不同的图有助于提高模型性能。我们发现,当同时使用这三张图时,我们的准确性有显著提高证明了我们的模型可以同时从多个互补图中吸收必要的信息,验证了来自不同来源的组合关系的有效性。
我们还注意到,在某些情况下,添加图会导致比无图RNN更糟糕的结果。例如,当q = 10时,MGRN-Corr比RNN差。但是,当与其他图组合使用时,结果比单独使用任何图要好。这是因为错误通常来自于几个特定的股票,特别是当我们只有一个信息来源时。如果来源不正确,就会导致重大错误。使用多个图表的好处是,通过基于多个信息源做出决策,可以减少这些情况的影响。
下表显示策略模拟交易结果。我们还可以确认我们的MGRN模型优于其他模型,并且将图组合在一起是有益的。我们还发现,等权策略与市值权重策略具有相似的表现,表明对小盘股几乎没有偏差。
GICS行业分类有四个层级,我们比较了四个层级的表现,发现第三级别的biaoxian最好,特别是在更极端的分数上。因此,我们选择使用第三行业级别来构建图。详细的结果如下表所示。
总结
我们通过综合考虑财经新闻、多个基于图形的特征和新闻的时间模式来预测股票的走势。我们为这个任务引入MGRN模型。通过大量的实验和交易模拟,我们证明了模型结构的有效性。研究结果还证明,添加图关系信息,特别是来自多个来源的不同图关系信息,可以更好地预测股票的走势。
继续阅读
阅读原文