编辑式图像分割:Ming-lite-omni 1.5 破解AI“左右互搏”的隐藏催化剂
最近,多模态AI领域风起云涌。从 Qwen-Image 的亮相到 Nano Banana 引发的交互式编辑热潮,图像编辑俨然已是下一个“兵家必争之地”。编辑既要明白“在哪里、是什么、怎么变”(理解图像),又要高质量地创造出结果(生成图像),其丰富的玩法和强交互性,吸引了大量用户和开发者参与讨论。然而,图像编辑除了好玩之外,还有被行业忽略的重要基础价值。
长久以来,我们追求着一个宏大目标:构建一个统一的多模态模型,它既能像科学家一样深刻理解世界(理解能力,如图像分割),又能像艺术家一样自由创造世界(生成能力,如图像编辑)。理想中,这两种能力应相辅相成,形成“理解越深,创造越好;创造越多,理解越透”的良性循环。
但现实却不尽人意。理解与生成,如同AI体内的“左手”和“右手”,往 往无法协同工作。 训练模型识别一万张猫的图片,并不会直接提升它画猫的能力,反之亦然。更糟糕的是,在统一模型的训练中,两种任务常常因优化目标不同而陷入“左右互搏”的零和博弈:一次针对理解能力的优化,可能无意中损害了模型的生成质量。
这意味着,我们缺少一个关键的“催化剂”——一种能够促进“左手”与“右手”协同进化的任务机制。
今天,我们想分享一个令人兴奋的发现。我们找到了这样一种催化剂,一个简单而极其有效的任务转换,它不仅打破了僵局,还使模型的两项核心能力均实现了质的飞跃。这个秘诀就是:在统一模型的训练框架中,将经典的分割任务,重新定义为一次图像编辑,不仅让生成式分割能力达到 SOTA,还使编辑一致性实现了飞跃。
困局:16%的分割得分与失控的生成
在找到这个方法之前,我们的统一模型在一个关键任务上举步维艰:生成式分割。我们希望模型能根据指令(如“分割出右上角那只香蕉”),直接“画”出分割掩码图。
结果是,模型在 RefCOCO-val 上的推理分割指标(cIoU)顽固地停留在 16% 上下。
我们分析,根本原因在于数据分布的巨大鸿沟。生成模型习惯了处理自然、连续的图像数据。而分割任务的目标(黑白掩码图)是一种极度抽象、非自然的数据分布。强迫一个“画家”去画黑白掩码图,无异于缘木求鱼。
我们意识到,必须找到一个任务,它既能满足“理解之手”对边界精度的要求,又能让“创造之手”在自己熟悉的领域内大展拳脚。
灵感迸发:让分割“穿上色彩的外衣”
我们的“Ah‑ha moment”来源于一个简单的类比:如果想让孩子准确地圈出一个物体,是让他用铅笔画一个生硬的轮廓更容易,还是让他用彩笔把那个物体涂满颜色更容易?
答案显然是后者。
我们将这个想法应用到AI训练中。我们不再让模型生成抽象的黑白掩码,而是将分割任务转换成一个色彩编辑任务。
例如,对于“分割右上角的香蕉”这个指令,我们不再要求模型输出掩码,而是要求它直接在原图上执行一个新的指令:“把右上角的香蕉涂成紫色”、“把右上角的香蕉涂成红色”等等。
这个看似微小的改动,却是那个我们梦寐以求的“催化剂”。
- 对“理解”的促进:为了准确地 只给目标香蕉上色而不溢出,模型必须在内部先完成一次完美的、像素级的分割。分割能力从最终目标,变成了完成任务的必要前提。
- 对“创造”的释放:模型不再处理奇怪的掩码图,而是在做它最擅长的事——图像到图像的编辑。它所有的生成能力,如光影、纹理、边缘融合,都能用来把颜色“涂”得更逼真、更准确。
“左手”和“右手”终于有了一个共同的目标,它们的每一次努力都在互相加强。
效果惊人:从16%到72.4%,以及更可控的编辑能力
当我们用这种新方法重新训练模型后,结果超出了所有人的预期。
1. SoTA级别的分割能力
首先,最直观的变化来自于分割指标。它从之前惨淡的16%,一跃飙升至 72.4%!这是一个超过 350% 的相对提升。
指标的背后,是肉眼可见的质变。在处理复杂的推理分割任务时,我们的模型展现出超越竞品的准确性和场景理解力。