【调研】Vision Language Model Safety

Task-specific Attacks 的目标是针对某个具体的任务（如图像描述生成、指代表达理解等），通过精心设计的对抗样本，使得模型在该任务上产生错误的输出。例如，攻击者可能希望模型生成错误的图像描述，或者在对图像进行指代表达理解（根据给定的自然语言描述（指代表达），在图像中定位并识别出与之对应的特定目标物体或区域）时给出错误的答案。
Gao et al.提出了针对指代表达理解任务的攻击范式，展示了如何通过对抗样本误导模型在该任务上的表现。

相关推荐

QQ咨询

回顶部