光华讲坛——社会名流与企业家论坛第 6168 期
主 题:Online Estimation for Nonparametric Regression and Functional Data
主讲人:北京大学姚方教授
主持人:统计学院林华珍教授
时间:2022年6月14日(周二)上午9:30-10:30
直播平台及会议ID:腾讯会议,ID: 547-309-864
主办单位:统计研究中心和统计学院 科研处
主讲人简介:
姚方, 北京大学教授、入选国家高层次人才计划,北大统计科学中心主任、概率统计系主任。国际数理统计学会(IMS)Fellow与理事会理事,美国统计学会(ASA)Fellow。2000年本科毕业于中国科技大学统计专业,2003获得加利福尼亚大学戴维斯分校统计学博士学位,曾任职于多伦多大学统计科学系长聘正教授。至今担任9个国际统计学核心期刊的主编或编委,包括《加拿大统计学期刊》主编,顶级期刊《Journal of the American Statistical Association》和《Annals of Statistics》编委等。
内容提要:
Functional data analysis has attracted considerable interest, and is facing new challenges of the increasingly available data in streaming manner. In this work, we propose a new online method to dynamically update the local linear estimates of mean and covariance functions of functional data, which is the foundation of subsequent analysis. The kernel-type estimates can be decomposed into two sufficient statistics depending on the data-driven bandwidths. We propose to approximate the future optimal bandwidths by a dynamic sequence of candidates and combine the corresponding statistics across blocks to make an updated estimation. The proposed online method is easy to compute based on the stored sufficient statistics and current data block. Based on the asymptotic normality of the online mean and covariance function estimates, the relative efficiency in terms of integrated mean squared error is studied and a theoretical lower bound is obtained. This bound provides insight into the relationship between estimation accuracy and computational cost driven by the length of candidate bandwidth sequence that is pivotal in the online algorithm. Simulations and real data applications are provided to support such findings and show the advantages of the proposed method.
功能数据分析引起了人们的广泛关注,并面临着数据流化的新挑战。在这项工作中,我们提出了一种新的在线方法来动态更新函数数据的均值和协方差函数的局部线性估计,这是后续分析的基础。根据数据驱动的带宽,可以将内核类型的估计分解为两个足够的统计信息。我们提出通过一个动态候选序列来近似未来的最优带宽,并结合区块之间相应的统计数据来进行更新估计。基于存储的足够的统计数据和当前的数据块,所提出的在线方法易于计算。基于在线均值和协方差函数估计的渐近正态性,研究了用积分均方误差表示的相对效率,得到了一个理论下界。这一边界提供了深入了解估计精度和由候选带宽序列长度驱动的计算成本之间的关系,这是在线算法的关键。仿真和实际数据应用结果支持这些发现,并显示了所提出的方法的优势。