
中经记者 索寒雪 贵阳报道
在2025年数博会期间,《中国经营报》记者专访了中国科学院院士、清华大学教授陈松蹊。他表示,目前急需组织科学家以公共视野和科学眼光推动高质量数据集建设。
他说道:“中国已经具备了建立高质量数据集的能力和研究实力。从科学观测角度看,我们有自己的观测数据以及国际的观测数据。从统计学角度而言,我们也已经完全做好了准备。”
无论是学理层面,还是应用场景方面,中国都不逊色于其他国家。“基于这样的实力,我们完全有能力开展高质量科学数据集相关工作。”陈松蹊说。
记者了解到,陈松蹊团队已经在海洋高质量数据集建设上实现了突破,测试结果达到甚至优于国际水平,他表示:“我在积极呼吁构建高质量的科学数据集,也在身体力行参与其中,贡献自己的力量。”
《中国经营报》:在超高维大数据统计分析领域,你提出了创新的假设检验方法。如今随着数据量呈指数级增长,维度愈加复杂,在处理这些“超维”大数据时,现有方法面临哪些新挑战?你认为未来的研究应如何突破,才能实现更高效、精准的分析?
陈松蹊:传统数据维度较低,统计学中的多元分析多针对固定维度、样本量较大的情况。2000年“人类基因组计划”之后,超高维问题逐渐凸显。例如在寻找致病基因时,基因维度可能多达数十万,而患者样本量却只有几十个。在地球物理领域,构建高分辨率大气数据集时,维度甚至可达到数千万。统计学自2000年起开始系统研究高维数据分析。在独立数据方面,关于信号强度和稀疏程度的最优检验边界等数学与统计问题已基本解决。但新的挑战随之出现:一是很多数据并非完全独立,这是超高维研究的新前沿;二是多模态混合和时空相关性在大数据中普遍存在,带来了极大挑战。
《中国经营报》:你在统计学与大气环境交叉研究中取得了突出成果。在医疗健康、金融风险防控等其他领域,大数据同样复杂且庞大。根据你的经验,环境统计领域的研究思路能否借鉴并应用于这些领域,从而推动跨领域大数据应用创新?
陈松蹊:各领域数据确实存在共性。例如,我们在大气环境研究中通过空气质量监测站点的多源观测数据追踪沙尘暴变化;五年前在脑电波分析时发现,沙尘暴发生与癫痫发作的研究方法上,存在高度一致性。传统的方差分析方法已有百余年历史,已广泛应用于农业育种、人类遗传学、医学效果评估、生物统计以及互联网企业的营销策略分析。虽然不同领域数据特性各异,但统计学能够作为通用语言将它们联系起来。以大气和海洋为例,二者在时空相关性方面有共性,但海洋观测难度更大。这种“相同又不同”的特征正是跨领域应用的切入点。
《中国经营报》:当下,大数据与人工智能正在深度融合。从你的研究角度来看,统计学作为基础学科,应如何与人工智能算法协同发展?特别是在数据驱动的模型训练与优化中,统计学如何确保人工智能决策的科学性和可解释性?
陈松蹊:这是一个很重要的问题。当前人工智能发展迅速且应用广泛,但其本质仍是基于数据,因此与统计学天然紧密相关。人工智能模型与统计模型有共通之处,例如卷积神经网络具有强大的表示能力,但统计学不仅强调估计,还关注不确定性度量。有些问题无须大型模型即可解决,而大模型训练成本高昂,小型统计模型在某些情况下更为可行。因此应优先尝试简单的统计模型,再考虑复杂的人工智能模型。另一方面,行业应用往往面临数据规模有限、数据来源复杂等问题。统计学是人工智能的基础,清华大学统计与数据科学系已将“人工智能的统计学基础”列为重要研究方向,同时加强数据科学交叉应用和统计理论方法探索。在实践中,还需对人工智能与统计方法进行不确定性度量,并给出区间估计。如果不确定性过大,那么估计本身就缺乏意义。
《中国经营报》:你此次参加数博会最关注的问题是什么?
陈松蹊:我比较关注数据分析人才的培养。目前包括人工智能在内的数据分析领域人才缺口很大,培养能力仍显不足。我去年在政协的提案中就涉及加强数据分析人才培养。今年在论坛上,我会介绍清华大学的布局。我们已开设相关本科专业,并即将启动数据分析师专业硕士项目。
《中国经营报》:目前高质量数据集的获取渠道是否畅通?尤其是在公共数据开放、政务数据条例出台后,能否满足科研领域的需求?
陈松蹊:高质量数据集的建设仍有待加强。我去年在政协的提案中指出,许多科学家仍依赖美国国家海洋和大气管理局、欧洲中期天气预报中心等国外数据。事实上,中国在数据同化研究及相关方法学方面已处于世界前沿,完全有能力构建自主的数据集。在西太平洋科学数据集的构建中,我们已经取得关键突破,测试结果达到甚至优于国际水平。接下来,需要相关职能部门牵头,组织科学家以公共视野和科学眼光推动数据集建设,从基础做起,把这件事真正做好。
(编辑:郝成 审核:吴可仲 校对:颜京宁)