• 统计研究中心
当前位置: 首页 > 系列讲座 > 正文

华东师范大学谌自奇教授:Nearest-Neighbor Sampling Based Conditional Independence Testing

光华讲坛——社会名流与企业家论坛第 期

主 题Nearest-Neighbor Sampling Based Conditional Independence Testing

主讲人华东师范大学谌自奇教授

主持人统计学院林华珍教授

时间:2023年4月7日(周五)下午3-4点

报告地点:腾讯会议,815-653-515

主办单位:统计研究中心和统计学院 科研处

主讲人简介:

谌自奇,华东师范大学研究员,博士生导师。从事高维统计分析、函数型(纵向)数据分析、生存分析、机器学习、神经网络等方面的研究。主持国家自然科学基金面上项目2项,国家自然科学基金青年项目1项,上海市自然科学基金项目1项,湖南省自然科学基金项目1项,获得中国博士后面上和特别资助等。曾于2016-2019在美国安德森癌症研究中心生物统计系从事博士后研究工作。在JASA, Biometrics, Statistica Sinica, Scandinavian Journal of Statistics, AAAI, IJCNN等国际权威统计或者计算机期刊(会议)上发表(接收)论文20余篇。


内容简介

The conditional randomization test (CRT) was recently proposed to test whether two random variables X and Y are conditionally independent given random variables Z. The CRT assumes that the conditional distribution of X given Z is known under the null hypothesis and then it is compared to the distribution of the observed samples of the original data. The aim of this paper is to develop a novel alternative of CRT by using nearest-neighbor sampling without assuming the exact form of the distribution of X given Z. Specifically, we utilize the computationally efficient 1-nearest-neighbor to approximate the conditional distribution that encodes the null hypothesis. Then, theoretically, we show that the distribution of the generated samples is very close to the true conditional distribution in terms of total variation distance. Furthermore, we take the classifier-based conditional mutual information estimator as our test statistic. The test statistic as an empirical fundamental information theoretic quantity is able to well capture the conditional-dependence feature. We show that our proposed test is computationally very fast, while controlling type I and II errors quite well. Finally, we demonstrate the efficiency of our proposed test in both synthetic and real data analyses.


近期一些研究提出了条件随机化检验(CRT)来检验给定随机变量Z后的两个随机变量X和Y是否具有条件独立性。CRT 假设给定 Z 后 X 的条件分布在原假设下是已知的,然后将其与原始数据的观测样本的分布进行比较。 本文的目的是通过使用最近邻采样来开发CRT的新替代方案,而无需假设给定Z后X分布的确切形式.具体来说,主讲人利用计算高效的1-最近邻来近似满足零假设的条件分布。然后,从理论上讲,主讲人表明生成的样本的分布在总变分距离方面非常接近真实条件分布。此外,主讲人将基于分类器的条件互信息估计量作为他们的检验统计量。检验统计量作为基于经验信息的理论量,能够很好地捕捉条件依赖特征。结果表明,主讲人提出的检验在计算上非常快,同时很好地控制了I型和II型错误,并且也证明了在合成和真实数据分析中的效率。


上一条:微软亚洲研究院吴方照博士:个性化和负责任的新闻推荐

下一条:英国约克大学 张文扬教授:High Dimensional Dynamic Covariance Matrices with Homogeneous Structure