论文解读《Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks》

2024-12-19 分类：技术专栏阅读(135) 评论(0)

我们提出了第一个鲁棒和可推广的DNN后门攻击检测和缓解系统。我们的技术可以识别后门并重建可能的触发因素。我们通过输入过滤器、神经元修剪和遗忘来识别多种缓解技术。我们通过对各种DNNs的广泛实验证明了它们的功效，而不是先前工作中确定的两种后门注射方法。我们的技术也被证明对后门攻击的许多变体是稳健的。