主 题:Statistical Inference for Differentially Private Stochastic Gradient Descent
差分隐私随机梯度下降的统计推断
主讲人:香港大学蔡占锐助理教授
主持人:统计与数据科学学院陈雪蓉教授
时间:2025年9月26日(周五)下午14:00-15:00
地点:腾讯会议:805-448-727
主办单位:统计与数据科学学院和统计研究中心 科研处
主讲人简介:
蔡占锐博士现任香港大学经管学院商业及经济学科的终身教职轨道助理教授,隶属于创新与信息管理商业分析系,并同时隶属于统计学组。他于宾夕法尼亚州立大学获得统计学博士学位,并于卡内基梅隆大学完成博士后研究。在加入香港大学之前,他曾任爱荷华州立大学统计系助理教授。蔡博士的研究聚焦于机器学习、差分隐私与可信人工智能等领域。
内容提要:
Privacy preservation in machine learning, particularly through Differentially Private Stochastic Gradient Descent (DP-SGD), is critical for sensitive data analysis. However, existing statistical inference methods for SGD predominantly focus on cyclic subsampling, while DP-SGD requires randomized subsampling. This paper first bridges this gap by establishing the asymptotic properties of SGD under the randomized rule and extending these results to DP-SGD. For the output of DP-SGD, we show that the asymptotic variance decomposes into statistical, sampling, and privacy-induced components. Two methods are proposed for constructing valid confidence intervals: the plug-in method and the random scaling method. We also perform extensive numerical analysis, which shows that the proposed confidence intervals achieve nominal coverage rates while maintaining privacy.
在机器学习中保护隐私,尤其是通过差分隐私随机梯度下降(DP-SGD),对于敏感数据分析至关重要。然而,现有的随机梯度下降(SGD)统计推断方法主要集中在循环子采样,而DP-SGD则依赖于随机子采样。本文首先弥补了这一差距,建立了随机规则下SGD的渐近性质,并将这些结果扩展至DP-SGD。对于DP-SGD的输出,我们证明其渐近方差可以分解为统计部分、采样部分和隐私引入部分。我们提出了两种构造有效置信区间的方法:插件法和随机缩放法。我们还进行了大量数值分析,结果表明所提出的置信区间在保持隐私的同时实现了名义覆盖率。
初审:杨森慧
复审:兰伟 邹先云
终审:董 春