研究中 · 更新于 4月15日

多模态后门样本检测与深度归因

基于 VisualGLM-6B 的多模态后门样本检测与深度归因研究项目,构建 Benchmark 数据集,通过桥接表征、局部语义一致性、LoRA 微调等方法分析样本中潜在的视觉或文本触发器。

VisualGLM-6BPyTorchLoRABenchmarkAttributionPython

项目背景

多模态大模型在实际部署中存在后门攻击风险。攻击者可以在微调阶段注入触发模式,使模型在特定输入组合下输出恶意结果。本项目针对 VisualGLM-6B 的多模态架构,探索基于深度归因的后门检测方法。

技术方案

  1. Benchmark 构建:基于视觉和文本模态组合的后门注入方法,生成多类别后门样本
  2. 桥接表征分析:对 VisualGLM-6B 中跨模态 Attention 层进行逐层分析
  3. 局部语义一致性度量:提出基于 token 级别的不一致性检测指标
  4. LoRA 微调实验:对比全参数微调与 LoRA 微调下的后门可检测性差异
  5. 归因可视化:使用积分梯度等方法定位后门触发区域

当前进展

  • 已完成 Benchmark 数据集的初步构建
  • 已完成 VisualGLM-6B 的本地部署与推理流程
  • 正在进行特征提取和初步分析

后续计划

  • 完善实验设计文档
  • 扩展至其他多模态模型(LLaVA、Qwen-VL)
  • 撰写学术论文