
12月11-12日,第六届区间数据建模理论与应用国际会议(International Symposium on Interval Data Modelling: Theory and Applications,简称SIDM)在厦门大学圆满落幕。本次会议由厦门大学邹至庄经济研究院、厦门大学王亚南经济研究院、中国科学院数学与系统科学研究院、预测科学研究中心以及中国科学院大学经济与管理学院、厦门大学-中国科学院计量建模与经济政策研究基础科学中心、厦门大学宏观经济研究中心联合主办,由汪寿阳教授与洪永淼教授担任大会主席。
近十年来,随着全球经济联动日益紧密,经济金融系统的复杂性与不确定性进一步凸显。在大数据时代背景下,各类新型数据不断涌现,对传统计量与统计建模方法提出了拓展与革新的要求,亟需发展能够更充分挖掘区间型数据信息价值的建模技术。当前,围绕区间数据建模的计量理论及应用研究已成为国内外学术界关注的前沿方向,一系列具有创新性的区间数据模型与应用成果相继产生。其中,由汪寿阳教授和洪永淼教授带领孙玉莹等年轻学者经过多年努力在国际上开拓了一个新领域——“区间计量经济学”,将区间数据视为一个包含无穷多数的集合,发展适合区间数据的概率论与数学方法,提出新的区间模型和统计方法,建立大样本理论,并应用于服务国家重大需求、经济主战场与生命健康等领域。为促进区间数据建模与应用研究的深入发展,汪寿阳教授与洪永淼教授于2015年发起并成功举办了首届SIDM会议,受到国际同行的广泛关注。截至2019年,该会议已成功举办了四届;2024年,在疫情后首次恢复线下举办第五届会议。与会专家对区间计量经济学的理论进展与应用成果给予了高度评价。目前,全球已有数百人在区间数据计量经济学领域开展理论、方法和应用研究工作。
此次第六届SIDM会议为国内外计量经济学领域的专家学者、研究人员,特别是青年教师和研究生提供了一个多学科交叉的交流平台,分享区间数据建模及相关领域在理论与实践方面的研究经验和成果,共同探讨计量经济学的创新与发展,为推动计量经济学在新时代的繁荣进步贡献了智慧与力量。参会人员来自美国、英国、西班牙、中国等国家,包括美利坚大学、内布里哈大学、麻省理工学院、普渡大学、伦敦政治经济学院、北京大学、复旦大学、上海交通大学、浙江大学、中国科学技术大学、中国科学院大学、西安交通大学、北京航空航天大学、南开大学、厦门大学、吉林大学、上海财经大学、南方科技大学、西安电子科技大学、对外经济贸易大学、辽宁大学、河北大学、浙江工商大学、南京工业大学、上海对外经贸大学、汕头大学、长春工业大学、长春大学等29所高校和中国科学院多个研究院所的100余位专家学者和研究生参加。
11日上午,会议开幕式在厦门大学经济楼C108举行。发展中国家科学院院士、厦门大学邹至庄经济研究院讲座教授、中国科学院特聘研究员汪寿阳教授,厦门大学经济学院与王亚南经济研究院院长周颖刚教授分别致辞。开幕式由中国科学院数学与系统科学研究院副研究员孙玉莹主持。
汪寿阳教授致辞
汪寿阳教授表示,本次会议的召开意义重大,可谓集各家之力探讨计量经济学未来的前沿方向。他还提到,可以通过跟顶尖期刊合作发行特刊的方式吸引更多应用领域的年轻人加入区间数据分析的研究工作。最后,他感谢了厦门大学多个会议主办方为这次会议的成功召开所做出的辛勤准备工作,预祝会议取得圆满成功。
周颖刚教授致辞
周颖刚教授简要介绍了厦门大学经济学科的历史沿革和三位一体的发展现状。他阐述了学科“创世界一流,树中国学派”的发展愿景,并表示期待更多优秀学者加入厦大经济学科。
主旨演讲
Interval Data—Some Industrial Applications
Dennis K. J. Lin, Purdue University
经济学、医学、气象学和工业等领域收集的数据通常呈现区间形式。尽管一些现有研究通过将传统方法(主要针对单一值)扩展到区间形式来解决这一问题,但这些方法通常会导致不必要的不精确性。传统的点值方法丢弃了重要的不确定性信息。Dennis K.J. Lin教授的讲座建立了一个区间数据框架,将测量的不精确性转化为可操作的部分。通过使用扩展方差分析(ANOVA)、响应面方法(Response Surface Methodology, RSM)和区间数据的参数控制图,解决了传统适应方法中“不必要的不精确性”问题——即将区间数据强行纳入点估计模型会扭曲决策的制定。为捕捉区间数据估计的不确定性,该工作将经典的方差分析(ANOVA)扩展到区间版本,通过将估计任务转化为二次分式规划问题,明确估计区间值的F统计量。Lin教授通过约束优化将F统计量重新定义为一个区间,并使用Dinkelbach方法解决非凸二次分式规划(Nonconvex Quadratic Fractional Programming, NQFP)问题——将其转化为一系列凸子问题以提高计算效率。传统的响应面方法(RSM)不能直接应用于区间响应,且目前没有合适的现有解决方案。因此,Lin教授提出了一种新的RSM方法来管理区间型响应变量。该方法具有多项优势:实现高效的参数估计、生成可靠的区间响应以及减少计算负担。从区间代表观测数据的概率总结的假设出发,Lin教授开发了一种新的参数控制图,从统计的角度监控区间数据的分布参数——而不仅仅是点估计。
How to Decide: An Information-Theoretic Approach to Partially Identified Problems
Amos Golan, American University
在计量经济学中,部分识别模型存在根本性挑战:有限的信息导致目标参数的不唯一,使得传统的关于点估计的决策标准不再适用。尽管Manski(2021)的开创性工作将最小最大损失(Minimax Regret, MMR)确立为部分识别模型的优化问题的主导框架,但此方法面临着理论和计算上的限制。Golan教授的讲座介绍了一种基于信息论的最大熵(Maximum Entropy, ME)方法,作为MMR理论基础的替代方案,利用熵的最大化在解集中选择最优决策。这一框架通过调和公理化严谨性与实际效率,填补了统计决策理论在复杂、欠定系统中的关键空白。最大熵(ME)通过选择集合中最无信息的分布来解决模糊性,得出中点解。这遵循了杰恩斯(Jaynes)的最大不确定性原则,避免了任意假设。与最小最大损失(MMR)相比,ME的公理化基础(通过熵的约束优化)与MMR依赖于最坏情况下的损失最小化形成对比。 “六面骰子”模拟展示了ME的稳健性:在结果部分可观测的情况下,ME的中点推断在深度不确定性下最小化预测误差。Golan教授用医疗资源分配的实证案例研究证实了ME的政策相关性:它在数据稀缺的情况下优化资源分配,同时优先考虑边缘化群体的公平性。
From the iBoxplot to the alpha-[B] Linear Regression Model:An Artificial Intelligence Approach
Carlos Maté Jimenez, Nebrija University, UDIT, UAX & UNIE
Maté 教授从数字化时代的数据特征出发,指出现代经济与社会活动中大量数据以区间形式出现,例如金融市场的最高—最低价(OHLC)区间、健康监测中的血压区间以及能源价格波动范围等。传统统计方法往往只能处理单一数值,难以充分利用区间数据所包含的变化信息,因此迫切需要新的可视化工具与建模框架。
在此背景下,他介绍了团队提出的 iBoxplot 区间箱线图方法,通过多边形线结构同时呈现区间上下界信息,能够有效展示区间数据的联合结构,可应用于异常值识别、分布比较、聚类验证以及区间型时间序列分析。随后,他进一步介绍了 alpha-[B] 线性回归模型,利用集合运算处理区间型自变量和因变量之间的关系,并可纳入自回归动态结构,用于预测具有明显区间波动特征的市场变量。相关实证研究显示,该模型在外汇市场预测中的表现优于传统基准模型。
报告还展示了模型在滑动窗口分析和智能分析流程中的应用,并提出未来研究可能包括区间时间序列模型的拓展、面向区间数据的聚类算法和神经网络方法等方向,体现了区间数据分析在智能系统中的广阔潜力。
Transfer Learning Estimation for Interval-Censored Failure Time Data
Jianguo Sun, Southern University of Science and Technology
孙建国教授指出,在医学随访、公共卫生调查以及社会科学研究中,研究对象的事件发生时间常常无法精确记录,只能确定其落在某一时间区间内,即“区间删失”生存数据。这类数据在事件稀少、高维协变量或目标群体样本量有限的情况下,给建模与推断带来较大挑战。
为提升估计效率,他提出将“迁移学习”思想引入区间删失数据分析,通过借助相关来源数据来改进目标数据的推断表现。报告介绍了两类迁移学习方法:可迁移来源识别方法(TSDE)通过交叉验证判断哪些来源数据对目标研究具有正向贡献,从而避免不相关数据导致的“负迁移”;模型加权方法(MATLE)则基于模型选择准则(如 BIC)对不同来源数据给予不同权重,使估计更加稳健可靠。两种方法均建立在灵活的半参数线性变换模型框架下,能够兼容比例风险模型和比例优势模型等常用生存分析形式。
模拟研究显示,这些方法在预测误差、参数偏差以及假阳性控制方面均明显优于传统只依赖目标数据的估计方法。应用于 SEER 乳腺癌数据时,迁移学习方法能够识别出雌激素受体(ER)、肿瘤分级(Grade)等重要影响因素,而单纯使用目标群体数据则无法得到这一结论。孙教授指出,未来研究可进一步探讨信息性删失、时间变化协变量以及非线性效应等问题。
本报告展示了迁移学习方法在复杂删失数据分析中的重要价值,为精准医学和高维生存数据研究提供了有力工具。
Modeling Methods for Interval-Valued Functional Data
Lirong Sun, Zhejiang Gongshang University
孙利荣教授指出,随着信息技术发展,高频采集的数据往往兼具连续函数特征与不确定性,此时传统点估计方法往往具有一定的局限性。区间函数型数据(IFD)以函数形式表达区间描述动态范围,为空气质量监测、经济指标波动等复杂过程提供了更丰富的建模视角。本次报告主要聚焦于IFD的三大核心建模方法:区间函数型数据(IFD)综合评价、区间函数型主成分方法(IFPCA)以及区间函数型聚类方法(IFCA)。IFD综合评价法主要针对多指标动态评估问题,将传统综合评价拓展至函数空间。孙利荣教授详细阐述了基于“最大-最小值”和“中点-半径”两种区间表示形式的综合评价函数,通过对时间维度积分得到平均评价值,实现了对评价对象动态表现的整体量化与比较。区间函数型主成分法(IFPCA)是本次报告的重要创新点。为克服传统方法在度量函数差异时忽略动态变化的局限,孙利荣教授提出了基于时变距离函数的IFPCA方法(IFPCA-TVD)。该方法所定义的时变距离能反映函数间差距随时间的累积与平均变化,更符合实际。此外,本次报告还介绍了区间函数型聚类方法(IFCA),并给出了基于Hausdorff距离(IFHD)和Wasserstein距离(UIFWD)的具体实现。最后,她展望了IFD与人工智能融合的前沿方向,探讨了如何将FDA、IFDA的时序动态性引入AI模型,以及如何利用AI处理视频帧、动态文本等非结构化数据以生成新型IFD,为复杂数据分析开辟了新路径。
Selective Conformal Inference
Changliang Zou, Nankai University
邹长亮教授指出在药物发现、异常检测等场景中,传统的基于机器学习模型的目标选择会破坏校准集与测试集之间的数据交换性,从而导致共形预测(Conformal Prediction)的方法失效,无法保证选中样本区间的覆盖精度。邹教授针对这一问题,介绍了选择性共形推断(Selective Conformal Inference)的理论框架与算法工具。他创新性从校准集中自适应地挑选出那些在相同选择规则下也会被选中的样本,构成一个“同质”的校准子集,并基于此子集构造预测区间(SCOP),评估某个选中测试样本的不确定性。针对在线的场景,邹教授提出使用CAP的方法,保证每个选中时刻的条件覆盖概率。该方法可拓展到多重检验方面(SCARF),综合运用“交换策略”构造选择性p值、“参照缩放”调整子组大小随机性、“校准”处理子组内依赖三项技术,实现了对子组FDR的分布自由控制。通过模拟实验和在DAVIS药物亲和力的数据集上的应用,证实了上述方法在将FCR控制在目标水平(如10%)的同时,能提供比传统方法更精准的预测区间,为高风险决策提供了可靠、实用的不确定性量化工具。
论坛设置7个分论坛,共有25位报告人作学术分享。
(经济学科 李丽君 雷浩东 戴书鹏 林安语)