转移熵：量化非线性因果关系的有力工具

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，连续2年被腾讯云+社区评选为“年度最佳作者”。

作者：Thársis Souza, PhD

编译：1+1=6

前言

我们都听过“相关性并不意味着因果关系”这句话，但我们如何量化因果关系呢？这是一项极其困难的任务，而且常常具有误导性，特别是当我们试图从观察数据推断因果关系而我们又无法进行对照试验或A/B测试时。

如上图，乍一看，x₁和x₂这两个随机变量之间没有明确的关系或因果关系。然而，这个表面上的随机系统呈现了一个非常简单的因果关系，由以下方程定义：

在x₂和x₁之间引入一个简单的非线性就足以给系统带来复杂性，并可能误导天真的人。

幸运的是，我们可以利用统计和信息理论从观察数据中发现复杂的因果关系(记住，这仍然是一个非常具有挑战性的任务)。

本文的目的如下：

引入基于预测的因果关系定义，并使用向量自回归公式实现。
引入因果关系的概率定义及其使用信息理论框架的实现。
量化全球股票指数之间的信息流，进一步揭示哪些指数正在推动全球金融市场。
讨论进一步的应用，包括社交媒体情绪对金融的影响。

因果关系的统计定义

我们利用Granger引入的因果关系的概念来量化因果关系(Wiener 1956; Granger 1969)，如果使用来自X和Y的过去信息而不是只使用Y能够更好地解释Y的未来实现，那么信号X就被认为是导致Y的。

格兰杰因果关系（G-causality, G-causality）最常见的定义通过使用X和Y本身过去的值来预测变量Y的未来值。在这种形式下，如果X的使用改善了Y的预测，那么X被称为G-cause Y：

在以上两个模型中， f1(.) f2(.) 的选择使得损失函数期望最小。一般会选择线性模型，也可能选择非线性模型，如神经网络等。损失函数 g(.)则通常使用L1或L2正则化处理。那么我们第一个关于统计因果关系的正式定义就如下：

标准格兰杰-因果关系检验假设因果关系的之间存在某种函数形式，并通过拟合自回归模型实现，如以下VAR线性向量自回归模型：

其中k为滞后的阶数。当然，你可以选择你喜欢的DL/SVM/RF/GLM模型。由定义4.1可知，当且仅当以上两等式的预测误差相同时，X才不会Granger cause Y。ANOVA分析可以用来检验上述两者的残差是否有显著差异。

转移熵

在解释转移熵之前，我们先了解熵本身的定义。

自从Schreiber 2000引入以来，转移熵已经被认为是分析非线性系统中因果关系的重要工具(Hlavackovaschindler et al. 2007)。它检测方向性和动态信息(Montalto 2014)，但不采用任何特定的函数形式来描述不同变量之间的相互关系。

转移熵定义为条件熵之间的差值：

信息净流出

转移熵带有方向性，X到Y的转移熵不等于Y到X的转移熵，所以可以定义信息净流出：

我们可以将这个量解释为信息流的主要方向。换句话说，如果上述等式结果大于0，说明与另一个方向相比，从X流向Y的信息占主导地位，或者，类似地，它表明哪个系统提供了更多关于另一个系统的预测信息。

Barnett, Barrett, Seth (2009)已经证明，如果所有变量都是联合高斯分布，线性的granger-因果关系和转移熵是等价的。

国际股票指数之间的信息流

世界金融市场形成了一个复杂、动态的网络，各个市场在其中相互作用。这种大量的互动可以导致高度显著和意想不到的影响，准确地理解世界各地的各种市场如何相互影响是至关重要的。

在本节中，我们使用转移熵来识别国际股票市场指数之间的依赖关系。首先，我们选择了一些主要的全球指数进行分析，即标准普尔500指数、富时100指数、DAX指数、EURONEXT 100指数和IBOVESPA指数，它们分别跟踪以下市场：美国、英国、德国、欧洲和巴西，代码如下：^GSPC, ^FTSE, ^GDAXI, ^N100, ^BVSP 。

一个市场对另一个市场的影响是动态的。在这里，我们使用从2014年1月1日到2019年8月19日这段时间的数据。我们将计算所有考虑的指数之间的两两转移熵，并构造一个矩阵，使位置(i,j)中的值表示从指数[i]到股票[j]的转移熵。

下图显示了得到的转移熵矩阵。我们通过将转移熵值除以矩阵中的最大值使所有值从0到1进行规范化。我们观察到，所研究的国际指数是高度互联的，其中最高的是从美国市场流向英国市场的信息流。第二高的信息流是反方向的，即从英国市场到美国市场。这是我们预料到的结果，因为从历史上看，美国和英国市场密切相关。

我们还通过计算转移熵矩阵中每一行的转移熵之和来计算每个市场对系统中总转移熵的边际贡献，我们还将其归一化，使所有值都在0到1之间。我们发现，在研究期间，美国是最具影响力的市场，占总转移熵的34.6%，其次是英国和德国，分别占21.4%和18.6%。日本和巴西是影响最小的市场，其归一化转移熵分别为11.7%和13.4%。

Junior, Mullokandov和Kenett 2015利用信息理论框架开发了国际股票市场指数网络。他们使用了不同国家的83个股市指数，以及它们的滞后值，在考虑到不同操作时间的情况下，探究了一个股指与另一个股指之间的相关性和信息流。他们发现，传递熵是量化指标之间信息流动的有效方法，滞后一天的指标之间的高程度信息流与它们之间的当日相关性重合。

其他应用

量化社交媒体与股市之间的信息流

投资者的决策不仅受到公司基本面因素的影响，还受到个人信仰、同行影响以及新闻和互联网产生的信息的影响。理性和非理性投资者的行为及其与市场效率假设的关系文献中有很大的争议。然而，直到最近，来自在线系统的大量数据才为大规模调查投资者在金融市场的集体行为铺平了道路。

一篇研究论文（Souza and Aste 2016）使用了本文中研究的一些方法来揭示信息从社交媒体流向股票市场，揭示了推文通过非线性复杂的互动引起市场波动。作者提供了实证证据，表明社交媒体和股市存在非线性因果关系。他们利用了由与道琼斯指数组件相关的社交媒体信息组成的广泛数据集。通过使用信息理论来构建社交媒体和股票市场之间可能的非线性因果关系，该论文得出了两个主要结论：

第一，社交媒体对股票收益的显著因果关系在大多数情况下是纯非线性的；

其次，社交媒体主导了与股市的定向耦合（directional coupling），这种效应在线性模型中无法观察到。

下图显示了在考虑非线性（转移熵）和线性granger-因果关系（线性VAR框架）两种情况下，社交媒体和股票回报之间的显著因果关系。线性分析发现只有三支股票具有显著的因果关系：INTEL CORP.、NIKE INC.和WALT DISNEY CO。非线性分析发现其他几支股票具有显著的因果关系。除3只股票表现出显著的线性因果关系外，其余8只股票表现出纯非线性因果关系。

在线性约束下获得的低水平的因果关系与文献中类似研究的结果一致，相反，非线性分析的结果揭示了更高关联的因果关系，表明线性约束可能忽略了社交媒体和股票市场之间的关系。

结论

理清因果关系可能极其困难。然而，统计工具可以帮助我们从因果关系中判断相关性。在本文中，我们介绍了格兰杰因果关系的概念及其在线性向量自回归框架中的传统实现。然后，我们定义了信息理论措施，以量化传递熵作为一种估计非线性系统统计因果关系的方法。

我们对线性和非线性系统的模拟进一步表明，传统的线性granger-因果方法无法检测引入系统的简单非线性，而传递熵成功地检测了这种关系。最后，我们展示了如何使用转移熵来量化全球股票指数之间的关系。我们还讨论了文献中的进一步应用，其中信息理论措施被用于量化投资者情绪和股票之间的因果关系。

Python中计算Transfer Entropy的工具库：

https://github.com/ZacKeskin/PyCausality

参考文章：https://towardsdatascience.com/causality-931372313a1c

继续阅读

阅读原文