
近日,由西南财经大学统计研究中心王宣程博士、周岭教授和林华珍教授合作完成的论文“Deep Regression Learning with Optimal Loss Function”被统计学国际顶级学术期刊《Journal of the American Statistical Association》正式发表。
内容简介
提出了一种自适应于任意数据分布的深度神经网络的最优估计方法,在保证最优预测精度的同时,最大程度降低对样本量的需求,缓解深度神经网络对大样本量的依赖。基于自适应最优损失函数,该方法充分挖掘潜在数据分布的信息,适用于高斯、偏态、厚尾、多峰、异方差等各种数据,具有稳健性,克服了常规的最小二乘损失只适用于轻尾数据的局限;另一方面,回避了稳健损失函数因考虑鲁棒性而带来效率的损失。因而该方法兼具高预测精度、有效性和鲁棒性。该工作从数据本身出发,给出数据驱动的损失函数,其估计理论上被证明具有最优性。该工作可直接基于现有的神经网络计算工具进行计算,操作简单可行。针对四个实际数据集的分析结果表明,其样本外预测误差减少20%到近一倍,显著优于其他现有方法。实际应用上显示有效、鲁棒及灵活性,通过简便的计算,能够处理任意类型的数据分布,这使得其具备广泛的通用性。得益于其有效性,该方法降低了对数据量的依赖,为有限样本的神经网络深度学习提供了全新视角,在理论研究和实际应用上都具有重大潜力。
作者简介
王宣程,西南财经大学统计研究中心博士研究生,研究方向包括深度学习理论和非参数统计等。
周岭(共同一作),西南财经大学统计研究中心教授,研究领域包括深度学习,大数据分析,数据集成,迁移学习,亚组分析等。
林华珍(通讯作者),西南财经大学统计研究中心教授,研究领域包括深度学习理论、非参数方法、生存数据分析、函数型数据分析等。