光华讲坛——社会名流与企业家论坛第 期
主 题:Distributed Nonparametric Regression via Prediction-Based Aggregation基于预测进行聚合的分布式非参数回归
主讲人:复旦大学大数据学院陈钊研究员
主持人:统计学院林华珍教授
时间:2023年5月26日(周五)下午15:00-16:00
举办地点:柳林校区弘远楼408会议室
主办单位:统计研究中心和统计学院 科研处
主讲人简介:
陈钊,复旦大学大数据学院青年研究员,博士生导师。2012年在中国科学技术大学获得博士学位,之后在美国普林斯顿大学,宾夕法尼亚州立大学从事博士后研究及研究型助理教授工作。科研成果发表在AoS, JASA, Statistica Sinica, Energy and buildings等期刊上。主要研究方向:高维统计推断,稳健回归,时间序列,非参数及半参数统计方法,以及将统计方法应用于建筑能源,生物信息,癌症研究等领域。
内容简介:
Distributed statistical modelling is a powerful tool to tackle with modern massive dataset while protecting data privacy simultaneously. In this work, we propose a data-driven weighted aggregation procedure based on model prediction performance. The prediction performance information is conveyed through prediction error matrix which is the square order of the number of candidates hence is communication-efficient. Theoretically, we show our method is asymptotically optimal in the sense of achieving the lowest possible risk for a broad class of least squares estimator (typically, B-spline nonparametric regression) and provide the limit of estimated weights. The superiority of our method is verified both under homogeneous and heterogeneous data generating process with various models in simulation experiments. Furthermore, it exhibit considerable Byzantine robustness. A real data example on wearable devices is also conducted to exemplify the effectiveness of our method.
分布式统计建模是处理现代海量数据同时保护数据隐私的有力工具。在这项工作中,主讲人提出了一种基于模型预测性能的数据驱动加权聚合过程。预测性能信息通过预测误差矩阵传递,该矩阵是备选模型个数的平方阶,因此通信效率高。从理论上讲,主讲人证明了该方法在广泛的最小二乘估计器类(通常是B样条的非参数回归)中是渐近最优的,提供了估计权重的极限。在模拟实验中验证了我们的方法在同质和异构数据生成过程中使用各种模型的优越性。此外,它还表现出相当可观的Byzantine稳健性。最后以可穿戴设备为例,验证了该方法的有效性。