近日,校学术委员会公布了“浙江大学2021年度十大学术进展”评选获奖项目名单。由数据科学研究中心“百人计划”研究员Andre Python的“可解释机器学习在国际安全预警中的应用研究”项目,获“浙江大学2021年度学术创新奖”。
在本项工作中,Andre Python博士带领的国际团队应用可解释机器学习算法,首次在精细时空尺度范围绘制全球反恐预测图,不仅与国际安全理论相互验证,更为决策者提供可信任防控依据,对我国一带一路驻外企业和同胞的生命和经济保护有重要意义。
图1:2002-2016年国际安全事件的位置和世界范围内的空间域(网格单元)。
与此相类似的很多社会性行为,具有显著的“黑天鹅”事件属性,是几乎不可预测的——这些事件在一段非常长的时间内可能只发生一次。然而大数据分析可以在一定程度上帮助确定事件最可能发生的时间和地点范围。然而一直以来,对模型的解释基本上还保留在经典的统计模型中,这些模型在特征和响应之间施加了参数关系,比如在线性回归模型中假设特征变量与响应是线性相关的,与每一特征相关的系数可以根据现有的社会学理论进行估计和解释。与此不同的是,本次获奖工作采用可解释机器学习算法,在不影响结果可解释性的情况下获得了相对较高的预测性能。该算法基于梯度增强树算法,通过计算累积局部效应(ALE)图,突出随着特征变量的增量变化,及其在事件发生预测概率中呈现的边际差异。采用这种改进算法是因为,在很多社会现象中相关的特征因子与预测事件之间的相关性极有可能是非线性的,因此不能通过标准的统计模型进行确定,而ALE图却可以捕捉通过算法学习到的复杂关系。该项成果自发表之后(Science Advances,2021),即获得广泛的国际关注(https://www.science.org/doi/10.1126/sciadv.abg4778)。
不同地区的预测表现(图左)
不同地区的特征解释(图右)
Python博士致力于采用贝叶斯方法和机器学习算法,开展空间统计学在流行病学、医学、地理、环境、经济、社会学等领域的应用研究。系列成果已发表在多项国际著名期刊,包括Science Advances, Journal of the Royal Statistical Society: Series C (Applied Statistics) and Series A, PLOS Neglected Tropical Diseases, Small, Journal of Conflict Resolution等,数次受Significance杂志主编邀请刊发个人研究工作,并由Taylor & Francis集团旗下CRC出版社与美国统计学会(ASA)联合出版英文著作一部。参与和主持多项国际科研项目,包括英国工程与物理科学研究委员会、欧洲研究理事会、比尔盖茨梅琳达基金会、苏格兰基金会以及浙江大学研究基金等。其研究成果先后为联合国、爱尔兰以及巴拿马等南美、非洲多个国家政府健康计划采纳。
“浙江大学2021年度十大学术进展”评选活动于2022年1月启动,由各学部、科学技术研究院、社会科学研究院、校学术委员会委员以及同行专家等共推荐42项候选项目。经校学术委员会委员、特邀评委评审,微信点赞,遴选出“十大学术进展”、“十大学术进展提名”、 “年度突出学术贡献奖”和“年度学术创新奖”,以表彰具有突出学术贡献的参评项目。