泛太平洋因果推断大会回顾（二）

9月26日到27日，由北京大学生物统计系和北京国际数学研究中心联合主办，北京大学统计科学中心和北京大学数学科学学院协办的“The 2020 Pacific Causal Inference Conference”成功举办。

探索事物之间的因果关系和因果作用是很多科学研究的重要目的。因果推断是利用试验性研究和观察性研究得到的数据，结合外部知识，评价变量之间的因果作用和挖掘多个变量之间的因果关系，它在统计学、生物统计学、生物医学、计算机科学、经济学、流行病学和各种社会科学等领域越来越受欢迎。

本次会议计划针对大学和企业等统计人员，集中介绍生物统计学相关因果推断研究的最新进展。下面，是对会议主要内容的回顾：

The 2020 Pacific Causal Inference Conference

泛太平洋因果推断大会回顾（二）

17 Ilya Shpitser (JHU)	Identification and estimation of causal parameters via a modified factorization of a graphical model
18 Lu Wang (UM)	New statistical learning methods for evaluating the optimal dynamic treatment regimes leading toward personalized health care
19 Walter Dempsey (UM)	Micro-randomized trials and cluster-level treatment effect heterogeneity
20 Peter Spirtes (CMU)	Assumptions for Discovering Causal Structures from Observational Data
21Thomas S. Richardson (UW)	A new approach to large-sample inference for the discrete instrumental variable model
22 Bernhard Schölkopf (Germany)	Towards causal representation learning
23 Lexin Li (UC-Berkerly)	Testing Mediation Effects Using Logic of Boolean Matrices
24 Richard Guo & Ema Perković (Seattle)	Efficient Least Squares for Estimating Total Causal Effects
25 Kun Zhang (CMU)	Causal discovery and domain adaptation with independent changes
26 Anqi Zhao (NUS)	Reconciling design-based and model-based inference for split-plot designs
27 Xiao-Hua Zhou (PKU)	Estimation of Optimal Individualized Treatment Rules Using a Covariate-Specific Treatment Effect Curve with High-dimensional Covariates
28 Zhenhua Lin (NUS)	Causal Inference with Manifold-valued Outcomes
29 Shohei-Shimizu(LiNGAM)	Linear non-Gaussian models with latent variables for causal discovery
30 Theis Lange (Copenhagen)	Bounding casual effect estimates from IV studies
31 Torben Martinussen (Copenhagen)	Causal Inference and Competing Risk Data
32 Zhiqiang Tan (RU)	Doubly Robust Semiparametric Inference Using Regularized Calibrated Estimation with High-dimensional Data
33 Lu Mao (UW-Madison)	Wilcoxon-Mann-Whitney statistics in randomized trials with non-compliance

17.Ilya Shpitser

Identification and estimation of causal parameters via a modified factorization of a graphical model.

在完全观测的有向无环图中，通过图因子分解，可以将观测数据与反事实规律相联系，而若在隐藏变量有向无环图中，也可以通过修正的因子分解方法来达到同样的目标。因此，通过中介变量、相关数据等多种方法，可以直接地用基于潜在结果和图方法的计算，基于假设得到识别性。这样，在离散模型和高斯模型下可以写出网状的马尔科夫似然函数，并且在这一类特殊的参数模型中可以通过最大似然方法做因果推断、或在特殊情况下可以通过半参数方法得到估计。

18.Lu Wang

New statistical learning methods for evaluating the optimal dynamic treatment regimes leading toward personalized health care.

Lu Wang教授基于一组癌症数据，提出了动态治疗方案管理的概念。在治疗中，需要在给定的时间，根据病人的疾病状态，病人的特征和过去的治疗历史给出最优的治疗方案，此方案需要基于随时间变化的疾病状态，并且需要平衡治疗有效性和副作用。讲者提出利用自适应对比加权学习的方法来对人群最优治疗方案进行估计，并利用得分函数给出了一种双稳健的估计。同时，讲者还在基于树的加强学习的基础上提出了基于树的随机加强学习方法，并探讨了其理论性质，对比了两种方法适应的使用条件。

19.Walter Dempsey

Micro-randomized trials and cluster-level treatment effect heterogeneity.

Walter教授的讲座是从一组手机健康应用实验的背景下展开的。在实验中，手机应用会在实验的时间点，根据此时间点之前收集到的用户的信息决定是否要对用户进行随机的干预，并观测用户的健康水平是否得到提升。针对这一类因果效应随时间变化，并且受试者有特征结构的问题，Walter提出了在时间t状态为s的修正的因果效应，并且在可忽略性、一致性假设下利用加权中心化最小二乘准则进行估计，并研究了估计的渐进性质。在面对有人群结构的数据时，Walter进一步提出了人群组别水平的时间t状态为s的因果效应，并用同样的方法进行了估计和渐进性质的研究。

20.Peter Spirtes

Assumptions for Discovering Causal Structures from Observational Data.

从观测性数据中发现因果关系的目标，是在无潜在混杂因子，没有选择偏差，没有反馈的假设下基于独立同分布的数据，得到一组包含真的因果关系图的有向无环图。虽然我们可以利用因果马尔科夫假设和数据的条件独立性确定一些因果关系，但是无法得到某些因果关系不存在的结论，也就没有算法可以保证收敛到真实的因果图，因此我们需要作出简化的假设。Peter在讲座中探讨了不同的简化假设彼此之间的关系，并且讨论了在现实中，特别是在因果图稠密的情况下，他们之间有多大的不同。

21.Thomas S. Richardson

A new approach to large-sample inference for the discrete instrumental variable model.

工具变量方法被广泛地运用于在有未观测的混杂变量时估计因果效应。工具变量需要满足与未观测混杂独立，对结果没有直接的作用，并且对干预有非零的因果作用。Thomas提出了一种对离散工具变量进行频率推断的新方法。在方法中，接受治疗的病人根据其被分配接受药物治疗或对照组时所采取的行动被分为四组，其中三组可以受到观测，在此基础上，在重新参数化后，利用马尔科夫蒙特卡洛的贝叶斯方法对后验分布进行估计。

22.Bernhard Schölkopf

Towards causal representation learning.

Bernhard介绍了基于因果模型的学习方法。基于因果模型的学习分为因果学习和反因果学习，前者是希望通过起因来预测结果，后者希望通过结果来反推起因。在因果学习中，原因的分布和条件于原因的结果的分布是独立的，并且后者是不随着原因分布的变化而变化的；在反因果学习中，结果的分布和条件于结果的原因的分布是不独立的，因而后者也是随着原因的分布函数的变化而变化的。在有了因果模型后，我们可以在一定的独立性假设下，通过半监督学习，基于数据对不同变量的因果关系进行学习，并且可以结合不同环境下的多源数据，通过在不同环境数据中稳定的因果假设，来得到更能代表真实世界机制的因果模型。

23. Lexin Li (UC-Berkerly)

Testing Mediation Effects Using Logic of Boolean Matrices

中介分析正在成为科学研究中越来越重要的研究工具。高维中介分析的核心问题是推断各个中介变量的显著性。一个巨大的挑战是经过所有中介变量组合的通路数量会非常庞大。大多数现有的中介分析的文献都假设在给定暴露的情况下，中介变量间是条件独立的，或者忽略了中介变量之间可能的通路。在这则报告里，演讲者提出了一种新的假设检验的方法来评价中介效应，同时考虑中介因素间可能存在的交互作用。新方法的一个关键的思想是通过布尔矩阵来构造检验统计量，这使得在原假设下可以推出检验统计量的极限分布。进一步地，作者通过采用筛选，数据拆分和去相关估计，以减少偏差并提高检验的功效。作者也进行了模拟实验，并在阿尔茨海默病的神经影像研究中证明了方法的有效性。

24. Richard Guo & Ema Perković (Seattle)

Efficient Least Squares for Estimating Total Causal Effects

递归线性结构方程模型被广泛应用于假设观测数据背后的因果机制。在这类模型中，每一个变量都等于其余变量的一个子集和随机扰动项的线性组合。当不存在未观测到的混杂因素或者选择偏移时这些扰动项被假设为独立的。演讲者考虑了在这种设定下估计总的因果效应。假设因果结构为MPDAG （maximally oriented partially directed acyclic graph），一类可以表示有向无环图的马尔可夫等价类的一类图。作者提出了一种简单的基于递归最小二乘的估计量，可以相合地估计所有可以识别的总因果效应。

25. Kun Zhang (CMU)

Causal discovery and domain adaptation with independent changes

研究者主要围绕因果发现和迁移学习两个话题展开本次演讲。在因果发现这个话题下，作者先后介绍了条件独立下的因果发现，有独立噪声情况下的因果发现，以及非平稳数据和异质性数据中的因果发现，并指出非平稳性有助于我们确定因果关系的方向。随后又介绍了迁移学习，并着重介绍了使用图模型来编码联合分布变化性质的方式，提出一个自动的领域自适应的方法。作者也展示了以上方法在实际数据中的应用。

26. Anqi Zhao (NUS)

Reconciling design-based and model-based inference for split-plot designs

在潜在结果的框架下，作者介绍了基于随机化的和基于模型的分析裂区实验的方法。析因设计最初是在农业实验的背景下开发的，后来广泛用于工业和工程应用，如今在社会科学，行为科学和生物医学领域正逐渐兴起。在众多可能的多因素随机化方案中，裂区设计由于其灵活性和易用性，一直是一个受欢迎的选择。在这次演讲中，作者介绍了基于设计的估计量，即Horvitz-Thompson估计量和Hajek估计量，以及基于模型的估计量，包括基于干预的设定的方法和基于因子设定的方法。作者对这些估计方法也进行了比较。

27. Xiaohua Zhou（PKU）

Estimation of Optimal Individualized Treatment Rules Using a Covariate-Specific Treatment Effect Curve with High-dimensional Covariates

在报告中，周晓华教授介绍了新提出的一种半参数的策略来解决异质性的治疗效果估计和个体化治疗方案选择的问题。这两个问题也是精准医疗的主要目标。通过估计协变量特异的治疗效应（covariate-specific treatment effect，CSTE）曲线可以满足第一个目标。CSTE曲线是作为基线协变量加权线性组合的未知函数来进行建模。权重是通过拟合一个稀疏半参数逻辑斯蒂单指数系数模型来估计。CSTE曲线是通过spline-backfitted kernel 方法进行估计。上述方法非常灵活，可以描述治疗和基线协变量之间的局部和全局相关性，因此在存在高维协变量的情况下对模型的错误设定具有稳健性。报告中还介绍了新方法的理论性质。

28. Zhenhua Lin

Causal Inference with Manifold-valued Outcomes

介绍了流形结局的因果推断问题。主要考虑通过将流形映射到线性空间上，然后在映射到的线性空间中估计因果作用。演讲者介绍了倾向得分逆概率加权模型和结果回归模型，然后使用双稳健形式估计量来估计因果作用，并介绍了双稳健统计量的理论性质。随后作者使用模拟的方法验证了方法的有效性，并把该方法应用到估计婚姻对体育锻炼的因果效应的实际数据中。

29.Shohei-Shimizu

Linear non-Gaussian models with latent variables for causal discovery

Shohei-Shimizu介绍了一个线性非高斯无环模型，LiNGAM，以及存在隐共同原因时的LiNGAM模型，有两种研究路线，一种为估计具有共同原因的变量的因果结构，另一种为估计不具有共同原因的变量的因果结构。随后介绍了重复因果发现（repetitive causal discovery, RCD），以发现受潜在混杂因素影响的观测变量的因果结构。RCD重复推断少量观察变量之间的因果关系，并确定关系是否受到潜在混杂因素的影响。RCD最终生成因果图，其中双向箭头指示具有相同潜在混杂因素的变量对，单向箭头指示不受同一潜在混杂因素影响的一对变量的因果方向。

30.Theis Lange

Bounding casual effect estimates from IV studies

该报告首先介绍了中介分析与工具变量之间的差异，工具变量与结局之间没有直接的联系，且暴露于结局之间存在未测量的混杂效应。当估计中介效应时，其分母即为X对Y的因果效应，随后介绍了需要满足的三个限制。在引入了以往Alexander Balke & Judea Pear估计非依从性实验中治疗效应的界限之后，提出了该方法具有一定的局限性，并提出了新的方法。

31.Torben Martinussen

Causal Inference and Competing Risk Data

对于竞争风险的数据进行因果推断是十分困难的，尤其是我们对累积发病函数感兴趣的时候。以往通常利用特定因素风险函数解决该问题，但此时不能给出因果解释，Stensrucd提出在离散时间状态的一种新方法，主要是通过分析中介分析中的直接效应解决该问题。Torben Martinussen教授进一步拓展了该模型，考虑了在截断数据存在的情况下，该模型的效果。

32.Zhiqiang Tan

Doubly Robust Semiparametric Inference Using Regularized Calibrated Estimation with High-dimensional Data

该报告首先介绍了半参数估计中如何定义双重稳健，以及部分线性模型与完全线性模型的差异。随后介绍了在高维状态下，正则化校正的估计量在二阶段算法中是双重稳健的。例如，如果两个工作模型中的任何一个是正确的，则可以在适当的稀疏条件下针对感兴趣的参数获得有效的Wald置信区间。作为具体示例，Zhiqiang Tan教授讨论了部分线性，对数线性和逻辑模型的应用以及平均治疗效果的估计。前三个示例中的数值研究表明，与无偏Lasso相比，该方法具有更好的性能。

33.Lu Mao

Wilcoxon-Mann-Whitney statistics in randomized trials with non-compliance

对于随机临床对照试验（RCT）中的非依从性问题，一般是由于存在未观测到的混杂因素引起。通常解决非依从性的方法包括意向性分析（ITT）或工具变量（IV）。Lu Mao教授介绍了如何将Wilcoxon-Mann-Whitney 统计量应用到上述两种方法中。通过模拟实验和实际数据证实WMW-IV方法相比于WMW-ITT和t-test的效力更强，尤其是当非依从率升高时。未来Lu Mao教授将继续探索是否WMW-IV的效力总是大于WMW-ITT，以及将现有结果推广到多分类的工具变量等方向。

撰稿：孙嘉瑞王瑞李昱颖

编辑：齐云龙