VisualGLM 后门检测 Benchmark AI Safety

VisualGLM-6B 多模态后门检测 Benchmark 构建思路

· 阅读约 2 分钟 · 更新于 2026年5月15日

研究动机

多模态大语言模型正在被广泛部署,但训练数据中可能被植入后门触发模式。当用户输入匹配触发条件时,模型行为将被攻击者控制。

Benchmark 构建

我们设计了一个包含以下维度的 Benchmark:

  1. 触发模式多样性:视觉触发器(像素级 patch、滤镜)、文本触发器(特定词汇、句式)
  2. 目标类别覆盖:图像分类、文本生成、跨模态检索
  3. 难度分级:从明显到隐蔽的多级触发难度

特征分析管道

# 提取 VisualGLM 跨模态 attention 特征
def extract_cross_attention(model, inputs):
    with torch.no_grad():
        outputs = model(**inputs, output_attentions=True)
        cross_attn = outputs.cross_attentions  # (层数, batch, heads, 文本长度, 图像patch)
    return cross_attn

初步发现

桥接表征层(连接视觉和文本编码器的层)对后门触发模式表现出显著差异。正常样本和中毒样本在该层的注意力分布有明显可分性。

目录