Ming-Lite-Uni:自然多模态交互统一架构的进展
· 阅读需 7 分钟
GITHUB 📑 Technical Report|🤗 Hugging Face|🤖 ModelScope
简介
Ming-Lite-Uni 是一个开源的多模态框架,包含一个全新设计的统一视觉生成器,以及一个原生多模态自回归模型,用于整合视觉与语言能力。
本项目提供了集成 MetaQueries 与 M2-omni 框架 的开源实现,并引入了创新性的多尺度可学习Token机制与多尺度表示对齐策略。Ming-Lite-Uni 利用固定的MLLM与可训练的扩散模型,使原生多模态AR模型不仅支持文本生成图像(text-to-image),还支持基于指令的图像编辑,从而扩展其功能,不再局限于视觉理解。实验结果表明,Ming-Lite-Uni 具备强大的性能表现,并在交互体验上展现出高度流畅性。目前该项目处于alpha阶段,将持续优化中。
感谢大家的支持与关注!我们正在稳步推进项目,并取得了良好进展,更多更新即将到来,敬请期待!
📌 更新日志
- [2025.05.03] 🔥 我们的 技术报告 已在 arXiv 发布
- [2025.05.03] 🔥 Ming-Lite-Uni 首个版本正式开源
为什么重要?
Ming-Lite-Uni 的统一架构克服了传统方法的根本性局限:
| 传统方法 | Ming-Lite-Uni 的优势 |
|---|---|
| 模块化流程 (如 CLIP/SigLIP + 扩散模型) | 端到端统一模型 理解与生成无缝融合 |
| 离散Token自回归 (视觉定位能力有限) | 连续Token空间 原生支持细粒度视觉概念 |
| 固定分辨率处理 (上采样会产生伪影) | 多尺度自适应 各分辨率下均保持一致的画质 |
| 编辑流程分离 (需要手动对齐) | 对话驱动控制 自然语言指导像素级编辑 |
| 理解瓶颈 (视觉语义错位) | 联合表示学习 理解与生成能力相互增强 |
核心增强点
- 统一的视觉理解与生成架构:Ming-Lite-Uni 在 OpenCompass 榜单中理解得分达 69.7,优于 DeepSeek-VL2 (66.4);同时在 GenEval 图像生成基准上取得 0.62 的得分,超过 SDXL (0.55)。
- 多尺度可学习Token:引入4×/8×/16×多尺度的分层Token,分别捕捉图像的整体布局(低分辨率)、物体结构(中分辨率)和细节纹理(高分辨率),GenEval得分提升3.5%。
- 多尺度表示对齐:设计了尺度一致性损失,通过原生分辨率优化确保各层级表示与最终结果的一致性,图像重建质量提升超过2dB PSNR,GenEval得分提升1.5%。
- 具备AGI能力的系统:支持“生成城堡 → 添加日落 → 调整视角”等链式指令,响应时间<1秒(RTX 4090测试)。系统支持指令驱动的生成与编辑,并已对齐 GPT-4o(2025年3月行业标杆)。