转移熵:量化非线性因果关系的有力工具
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。
作者:Thársis Souza, PhD
编译:1+1=6
前言
我们都听过“相关性并不意味着因果关系”这句话,但我们如何量化因果关系呢?这是一项极其困难的任务,而且常常具有误导性,特别是当我们试图从观察数据推断因果关系而我们又无法进行对照试验或A/B测试时。
如上图,乍一看,x₁和x₂这两个随机变量之间没有明确的关系或因果关系。然而,这个表面上的随机系统呈现了一个非常简单的因果关系,由以下方程定义:
在x₂和x₁之间引入一个简单的非线性就足以给系统带来复杂性,并可能误导天真的人。
幸运的是,我们可以利用统计和信息理论从观察数据中发现复杂的因果关系(记住,这仍然是一个非常具有挑战性的任务)。
本文的目的如下:
- 引入基于预测的因果关系定义,并使用向量自回归公式实现。
- 引入因果关系的概率定义及其使用信息理论框架的实现。
- 量化全球股票指数之间的信息流,进一步揭示哪些指数正在推动全球金融市场。
- 讨论进一步的应用,包括社交媒体情绪对金融的影响。
因果关系的统计定义
我们利用Granger引入的因果关系的概念来量化因果关系(Wiener 1956; Granger 1969),如果使用来自X和Y的过去信息而不是只使用Y能够更好地解释Y的未来实现,那么信号X就被认为是导致Y的。
格兰杰因果关系(G-causality, G-causality)最常见的定义通过使用X和Y本身过去的值来预测变量Y的未来值。在这种形式下,如果X的使用改善了Y的预测,那么X被称为G-cause Y:
在以上两个模型中, f1(.) f2(.) 的选择使得损失函数期望最小。一般会选择线性模型,也可能选择非线性模型,如神经网络等。损失函数 g(.)则通常使用L1或L2正则化处理。那么我们第一个关于统计因果关系的正式定义就如下:
标准格兰杰-因果关系检验假设因果关系的之间存在某种函数形式,并通过拟合自回归模型实现,如以下VAR线性向量自回归模型:
其中k为滞后的阶数。当然,你可以选择你喜欢的DL/SVM/RF/GLM模型。由定义4.1可知,当且仅当以上两等式的预测误差相同时,X才不会Granger cause Y。ANOVA分析可以用来检验上述两者的残差是否有显著差异。
转移熵
在解释转移熵之前,我们先了解熵本身的定义。
自从Schreiber 2000引入以来,转移熵已经被认为是分析非线性系统中因果关系的重要工具(Hlavackovaschindler et al. 2007)。它检测方向性和动态信息(Montalto 2014),但不采用任何特定的函数形式来描述不同变量之间的相互关系。
转移熵定义为条件熵之间的差值:
信息净流出
转移熵带有方向性,X到Y的转移熵不等于Y到X的转移熵,所以可以定义信息净流出:
国际股票指数之间的信息流
量化社交媒体与股市之间的信息流
投资者的决策不仅受到公司基本面因素的影响,还受到个人信仰、同行影响以及新闻和互联网产生的信息的影响。理性和非理性投资者的行为及其与市场效率假设的关系文献中有很大的争议。然而,直到最近,来自在线系统的大量数据才为大规模调查投资者在金融市场的集体行为铺平了道路。
一篇研究论文(Souza and Aste 2016)使用了本文中研究的一些方法来揭示信息从社交媒体流向股票市场,揭示了推文通过非线性复杂的互动引起市场波动。作者提供了实证证据,表明社交媒体和股市存在非线性因果关系。他们利用了由与道琼斯指数组件相关的社交媒体信息组成的广泛数据集。通过使用信息理论来构建社交媒体和股票市场之间可能的非线性因果关系,该论文得出了两个主要结论:
第一,社交媒体对股票收益的显著因果关系在大多数情况下是纯非线性的;
其次,社交媒体主导了与股市的定向耦合(directional coupling),这种效应在线性模型中无法观察到。
下图显示了在考虑非线性(转移熵)和线性granger-因果关系(线性VAR框架)两种情况下,社交媒体和股票回报之间的显著因果关系。线性分析发现只有三支股票具有显著的因果关系:INTEL CORP.、NIKE INC.和WALT DISNEY CO。非线性分析发现其他几支股票具有显著的因果关系。除3只股票表现出显著的线性因果关系外,其余8只股票表现出纯非线性因果关系。
在线性约束下获得的低水平的因果关系与文献中类似研究的结果一致,相反,非线性分析的结果揭示了更高关联的因果关系,表明线性约束可能忽略了社交媒体和股票市场之间的关系。
结论
理清因果关系可能极其困难。然而,统计工具可以帮助我们从因果关系中判断相关性。在本文中,我们介绍了格兰杰因果关系的概念及其在线性向量自回归框架中的传统实现。然后,我们定义了信息理论措施,以量化传递熵作为一种估计非线性系统统计因果关系的方法。
我们对线性和非线性系统的模拟进一步表明,传统的线性granger-因果方法无法检测引入系统的简单非线性,而传递熵成功地检测了这种关系。最后,我们展示了如何使用转移熵来量化全球股票指数之间的关系。我们还讨论了文献中的进一步应用,其中信息理论措施被用于量化投资者情绪和股票之间的因果关系。
Python中计算Transfer Entropy的工具库:
https://github.com/ZacKeskin/PyCausality
参考文章:https://towardsdatascience.com/causality-931372313a1c
阅读原文 最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。