
近日,由西南财经大学统计研究中心文守道博士、武汉大学数学与统计学院刘莉副教授、香港中文大学(深圳)数据科学学院刘瑾副教授、密歇根大学生物统计系Yi Li教授和西南财经大学统计研究中心林华珍教授合作完成的论文“Factor-assisted learning of ultrahigh-dimensional covariates with distributed functional and scalar mixtures with applications to the Avon Longitudinal Study of Parents and Children”被应用统计学国际顶级学术期刊《The Annals of Applied Statistics》正式发表。
内容简介
动脉粥样硬化是一种慢性且多因素驱动的疾病,可累及多种动脉系统。其进展主要由低密度脂蛋白(LDL)胆固醇的积累所推动,这一过程促进了局部动脉病变的形成。这些病变可能进一步导致严重并发症,如缺血性心脏病和脑卒中。遗传因素,特别是单核苷酸多态性(SNP),以及与年龄相关的身体组成变化,都会显著影响LDL水平,从而产生由函数型与标量型变量混合组成的超高维协变量。由于数据量庞大且表示形式各异,这些协变量往往分布在不同的数据存储节点。为了分析遗传与生理因素对LDL水平的影响,我们首先分别从超高维的函数型与标量型协变量中以无监督方式提取特征。随后,我们提出一种新的回归模型来整合这些可能相互相关的特征,这种相关性来源于潜在的超高维函数与标量混合协变量之间的内在结构关联。我们的方法采用带有加性多指标成分的因子回归模型,以充分且有效地捕捉潜在特征与响应变量之间的关系。在模型层面,我们通过对回归系数矩阵施加列稀疏性与低秩约束以提升模型可解释性,并在考虑协变量相关性的同时融入结构信息,从而提高估计效率与稳健性。该方法对响应变量的分布不作假设,因此具备更高的灵活性与适用性。在模型估计方面,我们构建了一个基于sieve似然的估计框架以获得高效且稳健的估计结果。我们将所提方法应用于英国ALSPAC数据集,结果显示该方法在LDL水平预测中具有较高准确率,并成功识别出影响LDL的关键SNP位点及人体测量指标。进一步地,我们考察了不同人体测量特征随年龄变化对LDL水平的影响,并扩展分析以识别影响成年人身体质量指数的主要个体与父母特征。
作者简介
文守道,西南财经大学统计研究中心博士研究生,现为杜克大学生物统计系、北卡罗来纳州立大学统计系博士后,研究方向为函数数据分析、因子模型、张量分析、因果推断等。
刘莉,武汉大学数学与统计学院副教授,主要研究方向生存分析,纵向数据,高维数据分析等。
刘瑾,香港中文大学(深圳)数据科学学院副教授,研究领域包括科学智能、机器学习、单细胞/空间组学、统计遗传等
Yi Li,密歇根大学生物统计系教授,研究领域包括生存分析、深度学习、空间数据分析、临床试验设计等
林华珍(通讯作者),西南财经大学统计研究中心教授,研究领域包括深度学习理论、非参数方法、生存数据分析、函数型数据分析等。