研究动机
多模态大语言模型正在被广泛部署,但训练数据中可能被植入后门触发模式。当用户输入匹配触发条件时,模型行为将被攻击者控制。
Benchmark 构建
我们设计了一个包含以下维度的 Benchmark:
- 触发模式多样性:视觉触发器(像素级 patch、滤镜)、文本触发器(特定词汇、句式)
- 目标类别覆盖:图像分类、文本生成、跨模态检索
- 难度分级:从明显到隐蔽的多级触发难度
特征分析管道
# 提取 VisualGLM 跨模态 attention 特征
def extract_cross_attention(model, inputs):
with torch.no_grad():
outputs = model(**inputs, output_attentions=True)
cross_attn = outputs.cross_attentions # (层数, batch, heads, 文本长度, 图像patch)
return cross_attn
初步发现
桥接表征层(连接视觉和文本编码器的层)对后门触发模式表现出显著差异。正常样本和中毒样本在该层的注意力分布有明显可分性。