研究中 2025年9月 · 更新于 4月15日

多模态后门样本检测与深度归因

基于 VisualGLM-6B 的多模态后门样本检测与深度归因研究项目，构建 Benchmark 数据集，通过桥接表征、局部语义一致性、LoRA 微调等方法分析样本中潜在的视觉或文本触发器。

VisualGLM-6BPyTorchLoRABenchmarkAttributionPython

项目背景

多模态大模型在实际部署中存在后门攻击风险。攻击者可以在微调阶段注入触发模式，使模型在特定输入组合下输出恶意结果。本项目针对 VisualGLM-6B 的多模态架构，探索基于深度归因的后门检测方法。

技术方案

Benchmark 构建：基于视觉和文本模态组合的后门注入方法，生成多类别后门样本
桥接表征分析：对 VisualGLM-6B 中跨模态 Attention 层进行逐层分析
局部语义一致性度量：提出基于 token 级别的不一致性检测指标
LoRA 微调实验：对比全参数微调与 LoRA 微调下的后门可检测性差异
归因可视化：使用积分梯度等方法定位后门触发区域

当前进展

已完成 Benchmark 数据集的初步构建
已完成 VisualGLM-6B 的本地部署与推理流程
正在进行特征提取和初步分析

后续计划

完善实验设计文档
扩展至其他多模态模型（LLaVA、Qwen-VL）
撰写学术论文