Ming-Omni:一个用于感知与生成的统一多模态模型
· 阅读需 10 分钟
GITHUB 📑 Technical Report|📖Project Page |🤗 Hugging Face| 🤖 ModelScope
介绍
Ming-lite-omni 是 Ming-omni 的轻量版,源自 Ling-lite,拥有 28 亿激活参数。Ming-lite-omni 是一个统一的多模态模型,能够处理图像、文本、音频和视频,并在语音和图像生成方面表现出较强能力。Ming-lite-omni 使用专用编码器从不同模态提取 token,然后由 Ling 处理,Ling 是一个 MoE 架构,配备了新提出的模态专用路由器。该设计使单一模型能在统一框架内高效处理和融合多模态输入,从而支持多样化任务,无需使用多个模型、任务专用微调或结构改动。重要的是,Ming-lite-omni 超越传统多模态模型,支持音频和图像生成。通过集成先进的音频解码器实现自然语音,以及利用 Ming-Lite-Uni 实现高质量图像生成,模型还能进行上下文感知聊天、文本转语音及多功能图像编辑。我们的实验结果表明,Ming-lite-omni 在所有模态上的统一感知与生成方面提供了强大解决方案。值得注意的是,Ming-lite-omni 是我们所知首个模态支持与 GPT-4o 匹配的开源模型,且我们发布了全部代码和模型权重,以促进社区进一步研究和发展。
📌 更新
- [2025.06.12] 🔥 我们的技术报告已公开发布于 arxiv。
- [2025.05.28] 🔥 Ming-lite-omni 官方版本发布,性能更佳并支持图像生成。
- [2025.05.04] 🔥 发布 Ming-lite-omni 测试版本:Ming-lite-omni-Preview。