光华讲坛——社会名流与企业家论坛第 期
主 题:Generalization ability of wide neural networks on R
主讲人:清华大学林乾副教授
主持人:统计学院林华珍教授
时间:2023年3月3日(周五)下午4:00-5:00
地点:柳林校区弘远楼408会议室
主办单位:统计研究中心和统计学院 科研处
主讲人简介:
林乾博士,清华大学统计学研究中心副教授,国家自然科学基金面上项目主持人,北京市自然科学基金重点研究专题子课题负责人。研究兴趣:高维数据降维、推断,深度学习的数理基础,数据科学中的数学问题等。
内容提要:
We perform a study on the generalization ability of the wide two-layer ReLU neural network on R. We first establish some spectral properties of the neural tangent kernel (NTK): a) K_d, the NTK defined on R^d , is positive definite; b) λ_i (K_1), the i-th largest eigenvalue of K_1, is proportional to i^(-2). We then show that: i) when the width m→∞, the neural network kernel (NNK) uniformly converges to the NTK; ii) the minimax rate of regression over the RKHS associated to K_1 is n^(-2/3); iii) if one adopts the early stopping strategy in training a wide neural network, the resulting neural network achieves the minimax rate; iv) if one trains the neural network till it overfits the data, the resulting neural network can not generalize well. Finally, we provide an explanation to reconcile our theory and the widely observed “benign overfitting phenomenon”.
主讲人研究了宽两层ReLU神经网络在R上的泛化能力。主讲人首先建立了神经切核(NTK)的一些谱性质:a)在R^d上定义的NTK K_d为正定;b) λ_i (K_1)为K_1的第i个最大特征值,与i^(-2)成正比。然后我们证明:i)当宽度m→∞时,神经网络核(NNK)一致收敛于NTK;ii)与K_1相关的RKHS的最小最大回归率为n^(-2/3);Iii)如果在训练一个广泛的神经网络时采用早期停止策略,得到的神经网络达到极大极小率;Iv)如果训练神经网络到数据过拟合,得到的神经网络不能很好地泛化。最后,主讲人提供了一个解释来调和我们的理论和广泛观察到的“良性过拟合现象”。