Ming-UniVision:在连续的视觉世界里,统一理解与生成
· 阅读需 8 分钟
GITHUB 🤗 Hugging Face| 🤖 ModelScope
🚀 技术亮点
- 业界首个连续统一的视觉令牌化器: MingTok 在单一连续潜空间内无缝支持图像理解与生成,彻底消除了量化过程,并有效打通了不同模态。
- 首个采用连续视觉 Token 的 NTP 式自回归 MLLM: 基于 MingTok,Ming-UniVision 在一个共享的“下一词元预测 (NTP)”框架下统一了视觉与语言,实现了对多种视觉任务的端到端自回归建模。
- 缓解表征竞争 → 实现 3.5 倍收敛加速: 统一的连续表征协同了语义理解与生成的目标,在不牺牲性能的前提下,显著加速了模型的联合训练过程。
- 单一特征空间内的多轮上下文学习: 所有操作(理解、生成、编辑)均在同一个连续空间内完成,彻底避免了代价高昂的跨空间转换,使得训练与推理过程更简洁、更高效。
挑战:‘看’与‘画’的逆向天性
自回归(Autoregression),这种通过“预测下一个 token”来建模世界的强大范式,已经成功统一了语言、音频等多种模态。下一个前沿领域,是将视觉理解(看懂图像)与视觉生成(画出图像)也纳入这个统一的序列预测框架。
然而,这一宏伟目标面临一个深层的挑战:在很多方面,理解与生成是互为逆向的任务。
- 理解: 像素 → 高维、抽象的语义概念
- 生成: 概念 → 精细、高保真的像素细节
这两种任务对底层视觉表征有着截然不同,甚至是相互竞争的偏好。