2020624日下午,北京大学数学科学学院耿直教授线上做客厦门大学经济学科统计与数据科学暑期系列讲座,为师生带来了一场题为“因果推断”的统计学讲座。耿直教授是因果推断领域的资深专家,研究领域包括因果推断、数理统计、生物医学统计等,担任中国数学会概率统计学会理事长、中国统计学会副会长,为统计学科的发展做出了重要贡献。讲座由厦门大学王亚南经济研究院林明教授主持,线上七百多位师生参加了该场讲座。

因果推断是目前国内的热门领域。整场讲座中,耿直教授从人工智能领域因果推断发展的三个层次:相关分析与预测、因果与决策、反事实推理为框架,层层递进,为大家梳理了因果推断的知识体系及相关的研究成果。

一开始,耿直教授举了Simpson悖论、研究生入学中男女录取率的悖论和新生儿体重悖论等几个有趣的悖论,深入浅出地讲明了相关分析与因果推断的本质区别接下来。耿直教授讲到因果概念的统计学的量化定义:个体因果作用定义为个体分别暴露在不同处理下的潜在结果之差,个体因果作用的不可识别性使统计学家试图从群体影响入手,进一步提出平均因果作用(ACE)。但所有个体同时暴露在两种处理下的不可操作性使得ACE存在亦不可识别性。Fisher提出的随机化试验设计,通过对人群进行随机处理解决了ACE的不可识别性。

耿教授认为相关分析与因果推断的区别在于是否考虑混杂因素,确定混杂因素是因果推断的关键,他指出确定混杂因素与变量选择完全不同。进一步地,他介绍了几种确定混杂因素的准则以及成为混杂因素的必要条件,在混杂因素确定后,采用标准化方法,逆概加权、回归估计方法进行因果推断,可采用倾向得分的降维思想解决高维稀疏问题下的因果推断。

针对混杂因素不可观测的情形,耿教授认为可采用工具变量方法,利用工具变量随机化的作用即可得到因果变量系数的相合估计,此外,还可引入替代指标代替混杂因素。他还介绍了Prentice的统计代理准则、Rubin的主代理准则、Lauritzen的强代理准则等集中选择代替指标的准则。耿教授特别强调,当采用代理指标时可能会陷入替代指标悖论--当处理对替代指标有正的分布因果作用而替代指标又对终点指标有正的分布因果作用时,处理却有可能对终点指标产生负的因果作用,即统计结论没有传递性。随后,耿教授以抽烟为例进一步介绍了介绍了因果关系的第三个层次:反事实,并对第三层次的研究成果做了概述。

随后,教授进一步介绍了因果关系的第三个层次:反事实。以抽烟举例,反事实要回答的是当一个人抽烟并患癌症下,他如果不吸烟就不会患病的概率多大?相比第二层次基于群体做估计,第三层次则是基于个体的因果推断,随之而来的挑战便是其需要确定事实和反事实的联合分布的估计。耿教授对第三层次的研究成果做了概述。

耿教授还同大家探讨进行了探讨:近年来,从业界到学术界,因果推断确实变得越来越重要和受欢迎,阿里等电商公司正在利用因果推断研究顾客购买东西背后的深层原因来做推荐系统的优化。最后,耿教授总结了未来大数据下因果推断的发展方向,欢迎厦大学子未来在该领域可以做进一步的交流。


  (
WISE 2018级硕士 张宇婷  WISE 白瑜)


来源:厦门大学