9月26日到27日,由北京大学生物统计系和北京国际数学研究中心联合主办,北京大学统计科学中心北京大学数学科学学院协办的“The 2020 Pacific Causal Inference Conference成功举办。
探索事物之间的因果关系和因果作用是很多科学研究的重要目的。因果推断是利用试验性研究和观察性研究得到的数据,结合外部知识,评价变量之间的因果作用和挖掘多个变量之间的因果关系,它在统计学、生物统计学、生物医学、计算机科学、经济学、流行病学和各种社会科学等领域越来越受欢迎。
本次会议计划针对大学和企业等统计人员,集中介绍生物统计学相关因果推断研究的最新进展。下面,是对会议主要内容的回顾:
The 2020 Pacific Causal Inference Conference
泛太平洋因果推断大会回顾(一)
1 Don Rubin (THU)Essential Concepts of Causal Inference:  A remarkable history and intriguing future
2 Donglin Zeng (UNC)Improve Learning Trial-Based Treatment Strategies Using Electronic Health Records
3 Linbo Wang (UT)Causal Ball Screening: Outcome Model-Free Causal Inference with Ultra-High-Dimensional Covariates
4 James M Robins(Harvard)An Interventionist Approach to Mediation Analysis
5 Zhichao Jiang (UM-Amherst)Experimental Evaluation of Computer-Assisted Human Decision Making
6 Peng Cui (THU)Stable Learning: The Convergence of Causal Inference and Machine Learning
7 Peng Ding (UC-Berkerly)Randomization Tests for Weak Null Hypotheses
8 Lihua Lei (Stanford)Conformal Inference of Counterfactuals and Individual Treatment Effects
9 Wang Miao (PKU)Identifying effects of multiple treatments in the presence of unmeasured confounding
10 Lin Liu (Shanghaijiaotong U)On Nearly Assumption-Free Tests of Nominal Confidence Interval Coverage for Causal Parameters Estimated by Machine Learning
11 Fei Wu (Zhejiang University)Big data intelligence: from correlation discovery to casual reasoning
12 Yuhao Wang (THU)Debiased Inverse Propensity Score Weighting for Estimation of Average Treatment Effects with High-Dimensional Confounders
13 Shu Yang (NCSU)Improved Inference for Heterogeneous Treatment Effects Using Real-World Data Subject to Hidden Confounding
14 Elizabeth L. Ogburn (JHU)Social network dependence and unmeasured confounding
15 Qingyuan Zhao (Cambridge)Discovering mechanistic heterogeneity using Mendelian randomization
16 Ingeborg Wernbaum (Sweden)Calibration/entropy balancing for average causal effects - a comparative study (Joint work with David Källberg and Emma Persson)
1. Donald B. Rubin
Essential Concepts for Causal Inference in Randomized Experiments and Observational Studies: a remarkable history.
Rubin教授介绍了随机试验与观察研究中因果推断的基本概念及历史。Fisher在1925年引入了随机试验,借此平衡协变量,从而评估处理对结果变量的影响。但当涉及非零因果效应的解释时,由于因果效应没有清晰的形式化定义,Fisher只能给出较含糊的解释Neyman在1923年引入了潜在结果变量,但可惜没有进一步深入探讨。此后,随着随机试验迅速地在农业与家畜养殖业中得到应用和发展,出现了很多关于随机试验的理论研究成果。随后,随机试验在医学中进一步得到广泛应用,但对于非随机试验(观察研究),潜在结果变量并没有得到使用。Rubin在1975年,指出了因果推断的基本问题——缺失数据问题,并阐述了在观察研究中需要考虑设计阶段(design phase)与处理分配机制。随后,在观察研究中因果推断得到迅速发展。最后,Rubin教授提到一些值得关注的概念:倾向性得分,再随机化(re-randomization),主分层(principal stratification)。
2. Donglin Zeng
Improve Learning Trial-Based Treatment Strategies Using Electronic Health Records
得到精准治疗方案的办法有——随机试验,观察研究,真实世界的临床实践(电子健康记录)等。与随机试验相比,电子健康记录具有准入标准低、样本量大、多样性丰富、代表性强等特征。在不牺牲精度的情况下,如何结合随机试验与电子健康记录得到具有更高效率与推广性的精准治疗方案?基于迁移学习的思路,Zeng教授创新性地利用电子健康记录数据,提出了随机试验下更优的精准治疗方案。
3. Linbo Wang
Causal Ball Screening: Outcome Model-Free Causal Inference with Ultra-High-Dimensional Covariates.
在因果推断中,变量选择是一个公开的难问题。Wang教授首先将协变量分为四类:工具变量,混杂变量,精度变量(precision variables)与不相关变量(irrelevant variables)。随后指出:当前的方法都需要假定回归模型是一个参数模型,且进行变量选择后,AIPW估计不再具有双稳健性质。Wang教授提出的causal ball screening方法可以有效克服这两个问题。具体来说,首先使用Ball covariance技术,将工具变量与不相关的变量剔除;其次,用余下的变量估计倾向性得分时,通过引入惩罚项,进一步剔除精度变量,从而使得估计出来的倾向性得分对因果推断最有效。
4. James M. Robins
An Interventionist Approach to Mediation Analysis
Robins教授对中介效应分析发展了一种新的理论,该理论不涉及嵌套的反事实变量或干预中介变量,且使得中介效应分析可以在未来的随机对照试验中得到检验。他们的方法可导出一种可靠的算法,用于特定路径的反事实分析。
5. Zhichao Jiang
Experimental Evaluation of Computer-Assisted Human Decision Making
关于机器推荐,许多研究集中讨论了其精度与公平性问题,而不是用它来改善人们的决策。机器推荐会如何影响人类决策呢?会帮助人们预防不良后果吗?会改善决策的公平性吗?通过运用因果推断中的主分层方法,Jiang教授提出一种用于实验性地评估机器推荐对人类决策的因果效应的统计方法,并给出了如何判断机器推荐是否提高了人类决策的公平性办法。
6. Peng Cui
Stable Learning: The Convergence of Causal Inference and Machine Learning
尽管机器学习方法在许多领域取得了巨大的成功,但大多数机器学习方法都是在独立同分布的假定下发展起来的,且它们通常缺乏稳定性。Cui教授猜测,机器学习缺乏稳定性的可能原因是——它们的基础都是基于相关关系。如果将因果推断的方法引入到机器学习中,是不是会得到更稳定的预测呢?基于此,Cui教授提出了全局平衡法,它是一种将因果与机器学习方法相结合的方法。通过对样本进行加权以保证特征变量的平衡性,再基于权重构造了一种惩罚函数,并将其引入到机器学习算法的训练过程中,从而产生更稳定的估计。
7. Peng Ding
  Randomization Tests for Weak Null Hypotheses
丁鹏教授首先从Fisher随机化检验说起,解释了该检验与Neyman平均因果作用检验的区别。为了利用Fisheries随机化检验方法来检验较弱的零假设,即平均因果作用为零,丁鹏教授指出需要解决两个问题,第一是需要填补缺失的潜在结果,第二是需要找到合适的检验统计量。丁鹏教授提出解决这两个问题的方法,推导出了统计量在零假设下的渐进分布;进一步地,当协变量存在时,可以利用类似的想法构造检验统计量及其渐进分布。
8. Lihua Lei
 Conformal Inference of Counterfactuals and Individual Treatment Effects
Lihua Lei博士介绍了Conformal prediction在因果推断中的应用。在以往的因果推断研究中,我们往往关心的是平均因果作用。而conformal inference则关心的是个体因果作用,即希望给出个体因果作用的区间估计。由于处理组和控制组的协变量分布不同,从而需要在区间估计时进行加权处理,Lihua Lei博士也证明了这样加权后得到的区间估计具有很好的统计性质,并展示了在模拟试验中该估计方法的效果很好。
9. Wang Miao
  Identifying effects of multiple treatments in the presence of unmeasured confounding
未观测混杂存在时的因果推断问题的研究已经有了很多研究,而对于多处理时的相关研究则是最近才出现。苗旺教授在因子模型的假设下研究了因果作用的识别性条件,提出分别用辅助变量或者稀疏性条件来识别因果作用的方法,该方法对于结果模型没有模型限制。同时也研究了完全参数模型下因果作用的可识别性,并且在模拟试验中,说明了新的估计方法可以解决直接回归分析造成的因果作用估计偏差问题。
10. Lin Liu
  Assumption-free test for valid inference in causal inference
Lin Liu教授的报告主要涉及因果推断中的一类检验问题。在因果推断中,变量之间的条件独立性会决定该因果模型的图结构。为了估计该条件协方差,之前的研究者提出双稳健机器学习估计量,得到了条件协方差的估计及其置信区间。而Lin Liu教授则提出对于偏差的下界的假设检验方法,该检验统计量利用了U统计量的相关理论,并推导了该检验统计量的大样本性质,也通过模拟实验说明了该方法的实际表现。
11. Fei Wu
  Big data intelligence: from correlation discovery to casual reasoning
Fei Wu教授就大数据智能为题做了精彩的报告。报告者先从大数据中的相关性出发,说明了大数据智能的目标是从数据到知识进而到决策制定。他以图像处理,文字处理等为例展示了相关性研究的一些进展。对于因果模型,Fei Wu教授比较了其与传统统计模型之间的区别,并介绍了因果模型在表示学习中的应用,最后对于下一代的AI发展提出了展望。
12.Yuhao Wang
Debiased Inverse Propensity Score Weighting for Estimation of Average Treatment Effects with High-Dimensional Confounders
在无混杂假定下,如果存在高维协变量,如何以根号n的收敛速度估计出平均因果作用?通常的做法是分别估计倾向得分模型和结果回归模型,然后用增广逆概率加权(AIPW)方法估计平均因果作用。如果倾向得分模型和结果回归模型满足一些稀疏性假定,则AIPW估计量是以根号n速率收敛的。在稀疏性假定的基础上,也可以考虑双稳健估计,允许倾向得分或结果回归模型之一设定错误。更进一步,Wang提出了降偏差的逆概率加权(DIPW)估计,在逆概率加权估计中引入了一个降偏差辅助变量,不需要结果回归模型是可估的,平均因果作用估计量仍然是根号n相合的。
13.Shu Yang
Improved Inference for Heterogeneous Treatment Effects Using Real-World Data Subject to Hidden Confounding
真实世界数据不是随机化的,但具备更广的准入标准、更大的样本量、更富多样性,并且成本更低。把真实数据和随机化实验数据结合起来,我们能获得什么呢?设因果作用函数服从某参数模型,假设随机化实验中的可忽略性,我们可以从随机化实验数据中识别出模型参数。再加入真实数据数据,假设因果作用的可移植性,定义一个混杂函数,耦合随机化数据和真实世界数据,也可以识别出因果作用函数和混杂函数。借助半参数理论,可以获得模型参数的渐进性质。可以发现,结合真实世界数据和随机化实验数据,将提升因果作用估计的有效性。
14.Elizabeth L. Ogburn
Social network dependence and unmeasured confounding
Ogburn教授首先介绍了网络数据的推断框架,暴露变量和响应变量可能存在虚假相关。例如,在时间序列分析中,即使暴露变量和响应变量独立地上下波动,数据也会显示它们存在或正或负的相关性。网络相关性会造成变量间的虚假相关性。虚假相关性和混杂紧密相连,很多关于未观测混杂的文献都可以被看作是在处理共享相关性结构,但它们的可适用范围有限,一些方法要求事先知道相关性结构或者要求从数据中学习出结构,但社会网络更加复杂,更难处理。如何从观察数据中学习网络结构以控制混杂,将是未来值得研究的一个课题。
15.Qingyuan Zhao
Discovering mechanistic heterogeneity using Mendelian randomization
孟德尔随机化是指把基因多样性作为工具变量,大多数方法需要两个假设:排他性约束假设要求基因变种只能通过风险暴露影响结局(有时会因基因多样性而被破坏);同质效应假设,风险暴露对每个个体都有同样的因果作用。Zhao提出了孟德尔随机化中的机制同质性概念,可用于刻画孟德尔随机化的线性或非线性结构方程模型会发生聚类现象。Zhao还提出了混合模型MR-PATH,给出了若干模型假设,并说明了MR-PATH的统计推断方法。新方法的好处在于,不需要个体的强工具变量,容许摘要型数据的测量误差,并且是个具备可解释性的模型,或许可以推广到存在关联单核苷酸多态性(SNP)的多元孟德尔随机化研究中。
16.Ingeborg Wernbaum
Calibration/entropy balancing for average causal effects - a comparative study
逆概率加权估计的前沿研究关注倾向得分模型错误设定时的稳健估计量,一个研究领域是校准/熵平衡估计量,目的是直接实现协变量平衡。具体做法是,通过最小化平衡限制的距离(熵),对样本重新加权(校准),使得权重函数在处理组、控制组和整体实现三向平衡。指定距离度量、平衡函数、基权重,最小化距离(熵),得到平均因果作用参数估计量。作者设计了仿真模拟实验,比较了14个平均因果作用估计量和6个方差估计量。
撰稿:吴    鹏  胡文杰  邓宇昊 

编辑:齐云龙
相关阅读:

继续阅读
阅读原文