量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号独家解读
量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号今年全力打造的一档深度、前沿、高水准栏目。
历史汇总

公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!
本期遴选论文
标题:
Equity2Vec: End-to-end Deep Learning Framework for Cross-sectional Asset Pricing

作者:
Qiong Wu,Christopher G. Brinton,Zheng Zhang,Andrea Pizzoferrato,Zhenming Liu,Mihai Cucuringu
前言
今天分享的这篇论文主要基于新闻共现矩阵提取股票表征,公众号之前也分享郭一篇文章同样用到新闻共现的文章:
首先看一下今天这篇文章的主要内容:
  • 基于股票在新闻钟的共现网络,提出了Equity2Vec的方法,把股票在新闻钟的共现关系用一个向量表征表示。这个过程钟即考虑了股票间的长期关系,也考虑了股票间的短期动态关系。
  • 结合上一步提出的表征信息与常用的股票因子,包括量价因子,一起输入到深度学习序列预测模型钟,如LSTM,对股票的价格进行预测。
  • 实证表明,该方法在当时能够达到SOTA的效果。
通过新闻共现关系度量股票长期关联性
财经新闻报道中,通常在一篇新闻中会出现多个股票,这些股票之间必然存在着一定的关联性。通过统计两两股票在过去一段时间出现的次数,我们就构建了股票的共现矩阵。通过一段比较长的时间统计出的共现矩阵(作者在文章中称为global co-occurrence matrix)可以反应股票间相对稳定的关系状态。
对以上共现矩阵进行矩阵分解(Matrix Factorization),如下图3a所示,我们就可以得到每个节点,也就是每个股票的向量表征。
传统的矩阵分解方法的损失函数如下,
其中 为股票i的向量表征, 为股票i,j的共现次数。通过最小化股票对表征的内积与各股票对的共现次数的差值的平方,来确定每个股票的向量表征。
但实际情况中,对于股票i,j的关联性,可能存在一些专家先验值,将 作为先验偏离加入损失函数,并加入正则项:
其中
通过动态图捕捉股票间的短期关联性
股票的新闻共现关系是时变的,近期时间段的共现关系能够捕捉短期股票关联度的变化。用 表示时间t股票间的共现图,其中 表示所有股票节点, 表示股票间的关联边。考虑到有些时间,由于新闻量的不足,某些股票对之间可能没有新闻报道。所以作者采用了滑动窗口的形式构建动态图 其等于 的指数滚动均值。
动态图(Temporal graph)在整个模型中的应用是捕捉股票间的短期关系,我们已经从上面的步骤得到了每只股票的长期表征 。那么股票i受周围股票的影响,可以用注意力机制去学习(实质上就是周围节点的加权平均):
但是从以上公式可以看出,对于动态图 中的每个节点股票,在分配注意力权重时,只考虑了与股票i最相关的k个股票,这里的相关性通过 中股票i与周围股票的边的权重进行筛选,k也是一个超参数。
结合传统因子输入到LSTM
通过以上操作,我们得到了从新闻共现矩阵得到的股票表征 ,然后与传统因子 (量价因子)结合得到LSTM的输入:
以上三个步骤,从左到右,如上图所示。其中,量价因子一共有337个,以下展示了部分:
实证结果
  • 新闻数据:新浪财经2009-2018年的数据,平均每篇新闻有2.94个股票
  • 数据集划分:训练集3年,验证集1年,测试集1年,其中验证集用于超参数调整。
实证结果本身并不重要,重要的是本文给我们对于新闻共现的挖掘提供了一个思路,主要是同时从新闻共现中提取股票长期关联和短期关联的表征,并与传统因子进行结合。
继续阅读
阅读原文