我们提出了Trojan-Miner(T-Miner)——一个针对基于DNN的文本分类器的特洛伊木马攻击的防御框架。T-Miner采用序列到序列(seq-2-seq)生成模型,该模型探测可疑的分类器并学习生成可能包含特洛伊木马触发器的文本序列。然后,T-Miner分析生成模型生成的文本,以确定它们是否包含触发短语,并相应地确定被测试的分类器是否有后门。T-Miner不需要访问可疑分类器的训练数据集或干净输入,而是使用合成的“无意义”文本输入来训练生成模型。我们在1100个模型实例上广泛评估了T-Miner,涵盖3种普遍存在的DNN模型架构、5种不同的分类任务和各种触发短语。我们表明,T-Miner以98.75%的总体准确率检测特洛伊木马和干净模型,同时在干净模型上实现了低误报。我们还表明,T-Miner对来自自适应攻击者的各种有针对性的高级攻击具有鲁棒性。
论文泛读《T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification》
未经允许不得转载:小狮博客 » 论文泛读《T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification》
相关推荐
- AD 横向移动-LSASS 进程转储
- C#/.NET/.NET Core技术前沿周刊 | 第 41 期(2025年6.1-6.8)
- 现代 Python 包管理器 uv
- ArkUI-X与Android桥接通信之方法回调
- 商品中心—2.商品生命周期和状态的技术文档
- Benchmark论文解读:Evaluating the Ripple Effects of Knowledge Editing in Language Models
- WineHQ 发布的 Framework Mono 6.14 的这个特性对Windows Forms 用户来说肯定很感兴趣
- 不写一行代码 .NET 使用 FluentCMS 快速构建现代化内容管理系统(CMS)