统计与数据科学学院 报道
近日,南京审计大学统计与数据科学学院周兴才教授团队(博士生杨光和硕士生郑昊天)与加拿大阿尔伯塔大学孔令龙教授和东南大学曹进徳院士合作完成的学术论文“FedFask: Fast Sketching Distributed PCA for Large-Scale Federated Data”在线发表于人工智能顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)。该期刊科学引文索引影响因子为18.6,中科院分区一区顶级。

研究成果主要聚焦于大尺度联邦数据的统计机器学习基础方法主成分分析(PCA)。作为最流行的线性降维工具之一,PCA能够从原始数据中提取主要信息,同时过滤无关信息。该方法已广泛应用于机器学习、统计学、信息检索、生物医学和图像处理等多个科学领域。当数据特征维度超高时,例如全基因组关联分析(GWAS)中特征可达数十万至数百万,这给传统PCA方法带来难以承受的通信负担和计算复杂度。研究提出了一种新算法 FedFask(Fast Sketching for Federated learning),其通信成本仅为 O(dr),计算复杂度为 O(d(np/m+p2+r2)),其中 m 为工作节点数量,r 为矩阵秩,p 为草图列空间维度,d是数据特征维度,且满足 r≤p≪d。在 FedFask 中,研究采用并发展了多种技术,包括快速草图构建、基于正交 Procrustes Fixing 的对齐方法,以及通过 Kolmogorov–Nagumo 型平均实现矩阵Stiefel 流形计算等。这些技术使得FedFask 具有更高的精度、更低的随机波动性,并能最佳地融合多个随机投影特征子空间,同时避免了特征子空间的正交模糊性问题。研究证明,FedFask 可达到与集中式 PCA 使用全部数据相同的学习精度,且能够支持更多工作节点以实现并行加速计算。FedFask具有大大降低大尺度联邦数据PCA分析的通信成本和计算复杂度同时保证统计精度的优势。
论文信息:
Xingcai Zhou, Gang Yang (博士生), Haotian Zheng (硕士生), Linglong Kong & Jinde Cao. FedFask: Fast Sketching Distributed PCA for Large-Scale Federated Data. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025+, https://doi.org/10.1109/TPAMI.2025.3639635


