光华讲坛——社会名流与企业家论坛第5508期
主题:Distributed Robust Estimation on Sparse Linear Regression
主讲人:上海交通大学 刘卫东教授
主持人:统计学院统计研究中心 林华珍教授
时间:2019年7月25日上午10:30-11:30
地点:西南财经大学柳林校区弘远楼408会议室
主办单位:统计研究中心 统计学院 科研处
主讲人简介:
刘卫东,上海交通大学教授。2003年本科毕业于浙江大学数学系,于2008年获得浙江大学博士学位,2008-2011年在香港科技大学和美国宾夕法尼亚大学沃顿商学院担任博士后研究员,2018年获国家杰出青年科学基金。主要研究方向为统计学理论和机器学习等。
主要内容:
This paper studies distributed estimation and support recovery for high-dimensional linear regression model with heavy-tailed noise. To deal with heavy-tailed noise whose variance can be infinite, we adopt the quantile regression loss function instead of the commonly used squared loss. However, the non-smooth quantile loss poses new challenges to high-dimensional distributed estimation in both computation and theoretical development. To address the challenge, we transform the response variable and establish a new connection between quantile regression and ordinary linear regression. Then, we provide a distributed estimator that is both computationally and communicationally efficient, where only the gradient information is communicated at each iteration. Theoretically, we show that the proposed estimator achieves the optimal convergence rate (i.e., the oracle convergence rate when all the data is pooled on a single machine) without any restriction on the number of machines. Moreover, we establish the theoretical guarantee for the support recovery. The simulation and real data analysis are provided to demonstrate the effectiveness of our estimator.
这篇文章研究了具有厚尾噪声的高维线性回归模型的分布估计和支撑复原问题。针对方差为无穷大的厚尾噪声,我们采用分位数回归损失函数代替常用的平方损失函数。然而,非光滑分位数损失在计算和理论发展上都对高维分布估计提出了新的挑战。为了解决这个问题,我们对响应变量进行了转换,并在分位数回归和普通线性回归之间建立了新的联系。然后,我们提供了一个可计算、通信便捷的分布式估计量,其中只有梯度信息在每次迭代中进行通信。从理论上,我们证明了该估计量达到了最优收敛速度(当所有数据汇集在一台机器上时的oracle收敛速度),而不受机器数量的限制。同时,我们还建立了支撑复原的理论保障。仿真和实际数据分析表明了该估计量的有效性。