• 统计研究中心
当前位置: 首页 > 系列讲座 > 正文

北京大学林伟教授:Nonasymptotic theory for two-layer neural networks: Beyond the bias–variance trade-off

光华讲坛——社会名流与企业家论坛第 期

主 题Nonasymptotic theory for two-layer neural networks: Beyond the bias–variance trade-off

主讲人北京大学林伟教授

主持人统计学院林华珍教授

时间:2023年4月7日(周五)下午2-3点

报告地点:腾讯会议,815-653-515

主办单位:统计研究中心和统计学院 科研处

主讲人简介:

林伟,北京大学数学科学学院概率统计系、统计科学中心长聘副教授、研究员,统计学教研室主任。2011年获南加州大学应用数学博士学位,2011至2014年在宾夕法尼亚大学做博士后研究,2014年加入北京大学。主要研究方向为高维统计、统计机器学习、成分数据分析、因果推断、生存分析等,以及在基因组学、宏基因组学和环境科学等领域的应用,代表性成果发表在JASA、Biometrika、Biometrics、IEEE TIT、Operations Research、Environmental Science & Technology、《中国科学:数学》等统计学及相关领域顶级期刊上。2015年入选国家高层次人才计划青年项目,主持国家重点研发计划课题、北京市自然科学基金重点研究专题项目、国家自然科学基金面上项目等。


内容简介

Large neural networks have proved remarkably effective in modern deep learning practice, even in the overparametrized regime where the number of active parameters is much larger than the sample size. This contradicts the classical perspective that a machine learning model must trade off bias and variance for optimal generalization. To resolve this conflict, we present a nonasymptotic generalization theory for two-layer neural networks with ReLU activation function by incorporating scaled variation regularization. Interestingly, the regularizer is equivalent to ridge regression from the angle of gradient-based optimization, but plays a similar role to the group lasso in controlling the model complexity. By exploiting this “ridge–lasso duality,” we obtain new prediction bounds for all network widths, which reproduce the double descent phenomenon. Moreover, the overparametrized minimum risk is comparable to the underparametrized one in high dimensions and nearly attains the minimax optimal rate over a suitable class of functions. By contrast, we show that overparametrized random feature models suffer from the curse of dimensionality and thus are suboptimal.

大型神经网络已被证明在现代深度学习实践中非常有效,即使在主动参数数量远大于样本容量的超参数化情况下也是如此。这与经典的观点相矛盾,即机器学习模型必须权衡偏差和方差以实现最佳泛化。为了解决这一冲突,主讲人通过结合尺度变化正则化,提出了一种具有ReLU激活函数的两层神经网络的非渐近泛化理论。有趣的是,正则化器从基于梯度的优化角度看相当于岭回归,但在控制模型复杂度方面与群套索的作用相似。 通过利用这种“脊-套索二元性”,主讲人获得了所有网络宽度的新预测边界,从而再现了双下降现象。此外,过参数化最小风险与高维参数化不足风险相当,并且在合适的函数类上几乎达到最小最大最优率。相比之下,主讲人表明过度参数化的随机特征模型遭受维数的诅咒,因此是次优的。


上一条:北京交通大学修乃华教授: 稀疏逻辑回归分类的牛顿算法

下一条:Duke-NUS 医学院成青博士:MR-LDP: a two-sample Mendelian randomization for GWAS summary statistics accountinglinkage disequilibrium and horizontal pleiotropy