4月16日上午,云南大学数学与统计学院院长、教授唐年胜教授莅临厦门大学经济学科并带来题为“Quantile Correlation-Based Variable Selection”的学术讲座,经济学科钟威教授主持了讲座。唐教授为国家杰出青年科学基金项目获得者,国家级人才(教育部),教育部“新世纪优秀人才”,云南省科技领军人才,云南省首批云岭学者,云南省中青年学术和技术带头人,云南省教学名师,云南省学位委员会经济与管理学科评议组成员,云南省高校“统计与信息技术重点实验室”负责人,“云南大学复杂数据统计推断方法研究”省创新团队带头人。发表SCI学术论文130余篇,包括统计学顶级期刊Journal of the American Statistical Association、Annals of Statistics、Biometrika等。曾获“霍英东教育基金会第九届高等院校青年教师奖”,省部级科技奖励9项。

讲座一开始,唐教授以阿尔兹海默症神经图像(ADNI)数据为例阐明了进行高维数据分析方法研究工作的必要性,并对高维变量选择的现存工作进行了系统的回顾。大部分现存方法不具备稳健性,即容易受到异常值的影响。此外,当信噪比较低时,常用的多重检验方法经常会面临如何控制错误发现率(FDR)的问题。
为了解决上述问题,唐教授的团队提出一种基于分位数相关的多重检验方法来进行变量选择,该方法在具备稳健性的基础上,能够进一步控制错误发现率。此外,该方法不对模型做任何假设,能同时捕捉响应变量和预测变量之间的线性和非线性关系,且适用于信噪比较低的超高维数据。因此,其适用范围非常广泛。
接下来,唐教授详细介绍了该方法所用检验统计量的构建方式,其背后的统计思想来自于常见的列联表检验。列联表检验一般用来检验两个离散型变量之间的独立性。为了使其能够适用于连续型变量,唐教授通过对连续变量在不同分位点处进行切分来将其离散成有限个区间。在宽松的条件下,唐教授进一步说明了该统计量渐近收敛到一个自由度为格点个数乘积的卡方分布。随后,唐教授还介绍了如何通过卡方分布的生存函数对错误发现率(FDR)进行估计,继而对其进行控制。在理论结果部分,唐教授对于该方法的收敛速度和确定筛选性质进行了论证。
为了验证该方法的效果,唐教授进行了蒙特卡罗模拟,并将模拟结果与SIRI、DC-SIS等经典方法进行比较,表明了该结果能够在控制错误发现率的基础上有效地进行变量选择。此外,该方法还被应用到了CSI300的数据集上,分析结果同样说明了其有效性。
讲座最后,唐教授与在场师生进行互动,耐心地回答了同学们提出的问题。唐教授的报告内容丰富且结构清晰,讲述风格轻松风趣又不失严谨,深入浅出将新方法背后的统计思想娓娓道来,让在场师生深受启发。
(经济学院2019级博士生 武亚倩)