新闻动态

位置: 首页 -> 新闻动态 -> 正文

花忠云教授课题组在后门样本检测领域取得进展

时间:2025-07-11 浏览次数:

后门攻击(Backdoor Attack)作为一种隐蔽且具有高度破坏性的攻击方式,已成为当前深度学习系统面临的重大安全威胁。攻击者通过在训练阶段注入特定的“触发器”并篡改部分训练样本的标签,使得模型在面对带有“触发器”的输入时产生攻击者预设的错误输出,导致模型失控。

为了应对这一挑战,在广东省基础与应用基础研究基金(2024A1515012299)的支持下,哈尔滨工业大学(深圳)花忠云教授联合格里菲斯大学、南洋理工等大学的学者,提出了名为IBD-PSC的输入级后门检测方法。该方法轻量高效,能实时识别恶意样本,为AI模型构建一道安全的“防火墙”。

该研究揭示了一个“参数导向缩放一致性”(PSC)现象:放大模型内部批量归一化(BN)层参数时,良性样本的预测置信度会显著下降,而中毒样本的则保持稳定。团队通过严谨的理论分析,证明了这一现象并非偶然。基于该发现,团队提出了用于在推理阶段检测恶意中毒样本的IBD-PSC方法。其检测过程主要包括模型放大和输入检测两个阶段。在模型放大阶段,通过逐步放大原始模型BN层的参数,生成一系列“放大模型”。在输入检测阶段,计算在推理阶段用户的输入在这些“放大模型”上的平均置信度(即“PSC值”) 。PSC值高的样本被判定为恶意中毒样本并拦截 。

图1 后门样本在线检测方案主要框架

实验结果表明,IBD-PSC方法在多个基准数据集(CIFAR-10, GTSRB, SubImageNet-200)上,针对多达13种主流及前沿的后门攻击(包括BadNets、物理攻击BATT、隐形攻击WaNet等)均展现了卓越的检测性能,其平均AUROC和F1分数分别逼近1.0,远超现有同类防御方法 。更重要的是,该方法能有效抵御为规避检测而专门设计的“自适应攻击”,展现了强大的现实应用潜力 。

论文已经发表于国际顶级会议ICML 2024 (CCF A),论文地址https://icml.cc/virtual/2024/poster/33779;代码地址:https://github.com/vtu81/backdoor-toolbox和https://github.com/THUYimingLi/BackdoorBox。

哈尔滨工业大学(深圳)花忠云教授团队长期从事应用密码学、人工智能安全、多媒体安全等领域研究,近年来在ACM CCS,USENIX Security, ICML, CVPR, IEEE TIFS, IEEE TDSC, IEEE TC, IEEE TPDS等国际顶级会议和期刊发表论文100多篇,花忠云教授入选2024年“全球0.05%顶尖科学家”,连续三年(2022-2024)入选科睿唯安“高被引科学家”。(审核 花忠云


请升级浏览器版本

你正在使用旧版本浏览器。请升级浏览器以获得更好的体验。