03

2025.11

中心研究成果在《The Annals of Statistics》期刊正式发表
近日,由西南财经大学统计研究中心兰伟教授与澳大利亚国立大学邹韬副教授、美国宾夕法尼亚 州立大学统计系李润泽教授及加州大学戴维斯分校Chih-Ling Tsai教授合作完成的论文“Fixed and random covariance regression analyses”被统计学国际顶级学术期刊《The Annals of Statistics》正式发表。 内容简介协方差回归分析是一种用于刻画响应变量的协方差与一组解释变量X之间关系的方法,其中 X可以是向量、矩阵或张量。现有文献大多聚焦于“...
查看更多
15

2025.10

中心研究成果在《Journal of the American Statistical Association》期刊正式发表
动脉粥样硬化是一种慢性且多因素驱动的疾病,可累及多种动脉系统。其进展主要由低密度脂蛋白(LDL)胆固醇的积累所推动,这一过程促进了局部动脉病变的形成。这些病变可能进一步导致严重并发症,如缺血性心脏病和脑卒中。遗传因素,特别是单核苷酸多态性(SNP),以及与年龄相关的身体组成变化,都会显著影响LDL水平,从而产生由函数型与标量型变量混合组成的超高维协变量。由于数据量庞大且表示形式各异,这些协变量往往分布在不同的数据存储节点。为了分析遗传与生理因素对LDL水平的影响,我们首先分别从超高维的函数型与标量型协变量中以无监督方式提取特征。随后,我们提出一种新的回归模型来整合这些可能相互相关的特征,这种相关性来源于潜在的超高维函数与标量混合协变量之间的内在结构关联。我们的方法采用带有加性多指标成分的因子回归模型,以充分且有效地捕捉潜在特征与响应变量之间的关系。在模型层面,我们通过对回归系数矩阵施加列稀疏性与低秩约束以提升模型可解释性,并在考虑协变量相关性的同时融入结构信息,从而提高估计效率与稳健性。该方法对响应变量的分布不作假设,因此具备更高的灵活性与适用性。在模型估计方面,我们构建了一个基于sieve似然的估计框架以获得高效且稳健的估计结果。我们将所提方法应用于英国ALSPAC数据集,结果显示该方法在LDL水平预测中具有较高准确率,并成功识别出影响LDL的关键SNP位点及人体测量指标。进一步地,我们考察了不同人体测量特征随年龄变化对LDL水平的影响,并扩展分析以识别影响成年人身体质量指数的主要个体与父母特征。
查看更多
15

2025.10

中心研究成果被《Journal of the American Statistical Association》正式接收
  近日,由西南财经大学统计研究中心刘耀午教授及美国科罗拉多州立大学王天颖博士合作完成的论文“A powerful transformation of quantitative responses for biobank-scale association studies”被统计学国际顶级学术期刊《Journal of the American Statistical Association》正式接收。 内容简介  在具有非高斯误差的线性回归模型中,响应变量的变换在众多应用中被大量采用。受到各类遗传关联研究的推动,用于假设检验的变换方法引起了广泛关注。...
查看更多
03

2025.10

中心研究成果在《Proceedings of the 42 st International Conference on Machine Learning(ICML2025)》会议正式发表
神经网络结构化剪枝是一种通过移除冗余组件(如神经元)来降低模型复杂度并减少推理时间的关键技术。然而,传统的大模型剪枝方法需要大量计算资源和数据进行再训练以恢复模型性能。为此,我们提出了一种高效的大模型剪枝框架,仅需少量校准数据即可快速完成剪枝,无需再训练,同时最大限度保留模型性能。我们发现,大模型的核心模块(即多头注意力层)仅依赖两种类型的矩阵乘积。通过将这两种乘积各自视为整体并利用主成分分析(PCA)提取关键信息,我们的方法仅剔除冗余信息而不破坏原始模型结构,从而避免了再训练需求。此外,我们设计了一种快速分解方法,将计算复杂度降低至注意力头数的平方分之一。针对前馈神经网络层(FFN)剪枝时的误差累积问题,我们提出了一种基于岭回归闭式解的低秩近似线性校正方法,用于重构FFN层的残差。该方法无需再训练,且不会引入过多额外参数。实验表明,相比传统剪枝方法,我们的方法将数据需求降低了上百倍,显著减少了运行时间和GPU内存占用,同时保持剪枝后模型的优异性能。
查看更多
01

2025.09

中心研究成果在《The Annals of Applied Statistics》期刊正式发表
动脉粥样硬化是一种慢性且多因素驱动的疾病,可累及多种动脉系统。其进展主要由低密度脂蛋白(LDL)胆固醇的积累所推动,这一过程促进了局部动脉病变的形成。这些病变可能进一步导致严重并发症,如缺血性心脏病和脑卒中。遗传因素,特别是单核苷酸多态性(SNP),以及与年龄相关的身体组成变化,都会显著影响LDL水平,从而产生由函数型与标量型变量混合组成的超高维协变量。由于数据量庞大且表示形式各异,这些协变量往往分布在不同的数据存储节点。为了分析遗传与生理因素对LDL水平的影响,我们首先分别从超高维的函数型与标量型协变量中以无监督方式提取特征。随后,我们提出一种新的回归模型来整合这些可能相互相关的特征,这种相关性来源于潜在的超高维函数与标量混合协变量之间的内在结构关联。我们的方法采用带有加性多指标成分的因子回归模型,以充分且有效地捕捉潜在特征与响应变量之间的关系。在模型层面,我们通过对回归系数矩阵施加列稀疏性与低秩约束以提升模型可解释性,并在考虑协变量相关性的同时融入结构信息,从而提高估计效率与稳健性。该方法对响应变量的分布不作假设,因此具备更高的灵活性与适用性。在模型估计方面,我们构建了一个基于sieve似然的估计框架以获得高效且稳健的估计结果。我们将所提方法应用于英国ALSPAC数据集,结果显示该方法在LDL水平预测中具有较高准确率,并成功识别出影响LDL的关键SNP位点及人体测量指标。进一步地,我们考察了不同人体测量特征随年龄变化对LDL水平的影响,并扩展分析以识别影响成年人身体质量指数的主要个体与父母特征。
查看更多
01

2025.09

中心研究成果在《Annals of Applied Statistics》期刊正式发表
    近日,由西南财经大学统计研究中心兰伟教授与其在读博士生张冬雪、南开大学冯龙教授、香港理工大学吴宇佳博士后、中国人民大学周静副教授合作完成的论文“Temporal network influence model with application to the COVID-19 population flow network”被统计学国际顶级学术期刊《Annals of Applied Statistics》正式接收。 内容简介    自新冠疫情爆发以来,COVID-19迅速在全球范围内传播,成为对公共卫生构成重大威胁的突发事件。...
查看更多
首页上页12下页尾页