多模态大模型架构演示
看GPT-4V等模型如何统一处理多种输入
架构: 编码器 → 投影 → LLM骨干 → 解码器
模式: 架构总览
等待演示...
切换模式查看不同组件
架构总览
投影层
注意力融合
↻ 重置