• 统计研究中心
当前位置: 首页> 系列讲座> 正文

美国乔治华盛顿大学 胡飞芳教授: How to Design Big Comparative Studies?

光华讲坛——社会名流与企业家论坛第5405期

主题:How to Design Big Comparative Studies?

主讲人:美国乔治华盛顿大学 胡飞芳教授

主持人:统计学院 林华珍教授

时间:2019年5月31日(星期五)下午14:00-15:00

地点:西南财经大学柳林校区弘远楼408会议室

主办单位:统计研究中心 统计学院 科研处

主讲人简介:

胡飞芳,美国乔治华盛顿大学统计系教授, 中国“国家千人计划”教授,中国人民大学统计与大数据研究院教授。自适应设计及数据分析领域的世界权威专家。1994年被授予加拿大英属哥伦比亚大学(University of British Columbia)统计学博士学位,并获得加拿大优秀博士论文奖。2004年美国自然科学基金会杰出青年基金得主。 2009年当选为美国统计协会(American Statistical Association)和国际数理统计协会(Institute of Mathematical Statistics)双料Fellow。美国统计协会杂志 (Journal of American Statistical Association) 和统计年鉴(Annals of Statistics)等国际顶尖统计杂志的副主编。主持了五项美国国家自然科学基金研究项目,一项中国自然科学基金研究项目,以及多项香港新加坡研究项目。在国际顶尖统计杂志发表学术论文80余篇,由美国John Wiley and Sons出版公司出版自适应设计专著一部。受邀在世界各国80多所大学和60多次学术会议中做主题报告。担任2007、2008两界泛华统计学会(Institute of Chinese Statistical Association)提名和选举委员会主席。担任2009、2014两届国际数理统计协会亚太区会议(Institute of Mathematical Statistics Asia Pacific Rim Meeting)联合主席。受邀为美国联邦食品与药品管理局(FDA)撰写白皮书两部,同时受邀为多家世界五百强企业提供统计咨询。

主要内容:

Covariate balance is one of the most important concerns for successful comparative studies, such as causal inference, online A/B testing and clinical trials, because it reduces bias and improves the accuracy of inference. However, chance imbalance may still exist in traditional randomized experiments, and are substantial increasing in big data. To address this issue, the proposed method allocates the units sequentially and adaptively, using information on the current level of imbalance and the incoming unit's covariate. With a large number of covariates or a large number of units, the proposed method shows substantial advantages over the traditional methods in terms of the covariate balance and computational time, making it an ideal technique in the era of big data. Furthermore, the proposed method improves the estimated average treatment effect accuracy by achieving a minimum variance asymptotically. Numerical studies and real data analysis provide further evidence of the advantages of the proposed method.

协变量平衡是成功进行比较研究的最重要问题之一,例如因果推断,在线A / B测试和临床试验等研究,因为它可以减少偏差并提高推断的准确性。然而,在传统的随机化实验中,不平衡可能仍然存在,尤其在大数据情形下,失衡会急剧增加。为了解决这个问题,我们提出的方法能够有序地和自适应地分配单元,并且考虑当前的不平衡水平和协变量的信息。由于协变量维数过高及样本量过大,我们提出的方法在协变量平衡和计算时间方面显示出优于传统方法的显著优点,使其成为大数据时代的理想技术。此外,我们提出的方法在计算平均治疗效果时能达到渐近最小方差。在数值研究和实际数据分析中进一步证明了我们提出方法的优点。

    上一条:中国科学院数学与系统科学研究院 陈敏研究员: Semi-parametric inference for large-scale data with non-stationary non-Gaussian temporally dependent noises

    下一条:北京师范大学 陈木法院士: 交叉研究的感悟