VisualGLM 后门检测 Benchmark AI Safety

VisualGLM-6B 多模态后门检测 Benchmark 构建思路

2026年4月20日 · 阅读约 2 分钟 · 更新于 2026年5月15日

研究动机

多模态大语言模型正在被广泛部署，但训练数据中可能被植入后门触发模式。当用户输入匹配触发条件时，模型行为将被攻击者控制。

Benchmark 构建

我们设计了一个包含以下维度的 Benchmark：

触发模式多样性：视觉触发器（像素级 patch、滤镜）、文本触发器（特定词汇、句式）
目标类别覆盖：图像分类、文本生成、跨模态检索
难度分级：从明显到隐蔽的多级触发难度

特征分析管道

# 提取 VisualGLM 跨模态 attention 特征
def extract_cross_attention(model, inputs):
    with torch.no_grad():
        outputs = model(**inputs, output_attentions=True)
        cross_attn = outputs.cross_attentions  # (层数, batch, heads, 文本长度, 图像patch)
    return cross_attn

初步发现

桥接表征层（连接视觉和文本编码器的层）对后门触发模式表现出显著差异。正常样本和中毒样本在该层的注意力分布有明显可分性。

目录