后门攻击(Backdoor Attack)作为一种新兴的安全威胁,引发了学术界与工业界的广泛关注。攻击者通过毒化训练集使模型在训练过程中无形中建立起“触发器-目标标签”的潜在映射关系。此类后门在模型部署后不会影响其正常输入的预测结果,因而难以被传统精度验证方法察觉。
现有后门防御策略中,数据集净化是唯一一种在模型训练前即阻断后门注入链条的主动防御机制。它通过从受污染的数据集中识别并剔除被篡改的样本,从源头上保障模型训练的安全性。然而,现有的数据集净化方法往往依赖于一个隐含假设——即后门特征相比于正常语义特征更易被学习,该假设在复杂攻击场景(如All-to-All攻击、Untargeted攻击)中并不成立,从而严重限制了净化方法的通用性。
为解决上述难题,在广东省基础与应用基础研究基金(2024A1515012299)资助下,哈尔滨工业大学(深圳)花忠云教授团队联合南洋理工大学等单位,提出了一种通用、高鲁棒性的数据集净化方法FLARE。该方法突破了现有仅依赖单层输出或最终特征空间进行判断的技术框架,创新性地引入“跨层异常激活整合与稳定子空间选择机制”,实现对中毒样本的精准识别与隔离。结合基于密度的聚类与稳定性评估方法,分离出可疑集群,并判定稳定性更高的集群为中毒样本。

图1 数据集净化方案主要框架
实验表明,FLARE在22种典型后门攻击(涵盖All-to-One、All-to-All、Untargeted三种攻击模式)下均表现出极高的检测精度(TPR近100%,FPR接近0),显著
优于SCALE-UP、MSPC等现有主流方法,且无需依赖干净验证集或标签辅助信息,具备良好的实用性与可扩展性。
该研究成果已发表于信息安全领域国际权威期刊IEEE TIFS (CCF A),论文链接:https://ieeexplore.ieee.org/document/11045703 ,代码地址https://github.com/THUYimingLi/BackdoorBox和https://github.com/LandAndLand/backdoor-toolbox
哈尔滨工业大学(深圳)花忠云教授团队长期从事应用密码学、人工智能安全、多媒体安全等领域研究,近年来在ACM CCS,USENIX Security, ICML, CVPR, IEEE TIFS, IEEE TDSC, IEEE TC, IEEE TPDS等国际顶级会议和期刊发表论文100多篇,花忠云教授入选2024年“全球0.05%顶尖科学家”,连续三年(2022-2024)入选科睿唯安“高被引科学家”。(审核 花忠云)