Ming-UniVision:在连续的视觉世界里,统一理解与生成
· 阅读需 8 分钟
GITHUB 🤗 Hugging Face| 🤖 ModelScope
🚀 技术亮点
- 业界首个连续统一的视觉令牌化器: MingTok 在单一连续潜空间内无缝 支持图像理解与生成,彻底消除了量化过程,并有效打通了不同模态。
- 首个采用连续视觉 Token 的 NTP 式自回归 MLLM: 基于 MingTok,Ming-UniVision 在一个共享的“下一词元预测 (NTP)”框架下统一了视觉与语言,实现了对多种视觉任务的端到端自回归建模。
- 缓解表征竞争 → 实现 3.5 倍收敛加速: 统一的连续表征协同了语义理解与生成的目标,在不牺牲性能的前提下,显著加速了模型的联合训练过程。
- 单一特征空间内的多轮上下文学习: 所有操作(理解、生成、编辑)均在同一个连续空间内完成,彻底避免了代价高昂的跨空间转换,使得训练与推理过程更简洁、更高效。
挑战:‘看’与‘画’的逆向天性
自回归(Autoregression),这种通过“预测下一个 token”来建模世界的强大范式,已经成功统一了语言、音频等多种模态。下一个前沿领域,是将视觉理解(看懂图像)与视觉生成(画出图像)也纳入这个统一的序列预测框架。
然而,这一宏伟目标面临一个深层的挑战:在很多方面,理解与生成是互为逆向的任务。
- 理解: 像素 → 高维、抽象的语义概念
- 生成: 概念 → 精细、高保真的像素细节
这两种任务对底层视觉表征有着截然不同,甚至是相互竞争的偏好。
为何现有方案存在不足
现有模型尝试通过两种有限的策略来统一它们:
- 非对称设计: 为每个任务使用不同的、异构的特征空间。这导致在多轮交互中,模型必须在不同空间之间进行低效的“往返”,从而引入延迟和工程复杂性。
- 共享离散令牌: 统一了令牌空间,但引入了量化误差。这既损害了生成图像的保真度,也削弱了其理解能力。
我们的解决方案:Ming-UniVision 与 MingTok
为了打破这一僵局,我们推出了 Ming-UniVision,一个构建于颠覆性创新 MingTok 之上的新一代自回归视觉语言模型。
MingTok 是首个基于连续潜空间的视觉令牌化器。它提供了一个真正统一且高效的表征,构成了 Ming-UniVision 统一“下一词元预测 (NTP)”框架的基石——在一个统一的上下文学习多模态闭环中,将图像理解、生成和编辑融为一体。