项目背景
多模态大模型在实际部署中存在后门攻击风险。攻击者可以在微调阶段注入触发模式,使模型在特定输入组合下输出恶意结果。本项目针对 VisualGLM-6B 的多模态架构,探索基于深度归因的后门检测方法。
技术方案
- Benchmark 构建:基于视觉和文本模态组合的后门注入方法,生成多类别后门样本
- 桥接表征分析:对 VisualGLM-6B 中跨模态 Attention 层进行逐层分析
- 局部语义一致性度量:提出基于 token 级别的不一致性检测指标
- LoRA 微调实验:对比全参数微调与 LoRA 微调下的后门可检测性差异
- 归因可视化:使用积分梯度等方法定位后门触发区域
当前进展
- 已完成 Benchmark 数据集的初步构建
- 已完成 VisualGLM-6B 的本地部署与推理流程
- 正在进行特征提取和初步分析
后续计划
- 完善实验设计文档
- 扩展至其他多模态模型(LLaVA、Qwen-VL)
- 撰写学术论文