Ming-Omni-TTS: 一种简单高效、可精确控制的语音、音乐和声音统一生成模型
· 阅读需 27 分钟
GITHUB 🤗 Hugging Face| 🤖 ModelScope
Ming-Omni-TTS的视频展示
🚀 技术亮点
Ming-omni-tts 是一款高性能的统一音频生成模型,不仅能精确控制语音的各种属性,还能在单一通道中合成语音、环境音效乃至音乐。其核心技术在于一个定制的 12.5Hz 连续型分词器和创新的逐块压缩方案,这使得模型在保持高质量的同时,实现了高达 3.1Hz 的推理效率。特别值得一提的是,Ming-omni-tts 拥有强大的文本归一化功能,即使是复杂的数学公式和化学表达式,也能进行准确而自然的朗读。
- 🔊 精细化语音控制: 通过简单的指令即可精确控制语速、音高、音量、情感和方言。在方言控制上,粤语准确率达到93%;在情感控制上,准确率达到46.7%,均优于 CosyVoice3 模型。
- 🌌 智能化声音创造: 内置100+高品质音色,并支持通过自然语言描述进行零样本音色创造。在 Instruct-TTS-Eval-zh 基准测试上的性能与 Qwen3-TTS 模型相当。
- 🎶 沉浸式统一生成: 业界首个在单一通道内联合生成语音、环境音和音乐的自回归模型。基于定制的 12.5Hz 连续分词器和 DiT 头架构,提供无缝的"身临其境"听觉体验。
- ⚡ 高效推理: 引入"逐块(Patch-by-Patch)"压缩策略,将 LLM 推理帧率降至 3.1Hz。显著降低延迟,支持播客式音频生成,同时保持自然度和音频细节。
- 🧪 专业文本规范化: 模型能够准确解析并朗读复杂格式,包括数学表达式和化学方程式,确保专业应用场景下的自然听感输出。
模型结构
Ming-omni-tts 基于统一连续音频分词器,用于语音、音乐和声音生成的统一音频语言模型。
统一连续音频分词器模型结构图
统一音频语言模型结构图
Benchmark 评测结果
语音控制 – 支持结构化和自然指令控制
基础属性控制:语音生成的速度、音量和音调控制
| Input Prompt | Target Text | Instruction1 | TTS Result | Instruction2 | TTS Result |
|---|---|---|---|---|---|
| 导航开始,全程二十五公里,预计需要十二分钟。 | 语速:慢速 | 语速:快速 | |||
| 烟雨弥漫下,山环绕着水耸立着,水环绕着山流淌着。 | 语速慢一点 | 语速快一点 | |||
| 目前共享出行市场处于高速增长阶段。 | 音量:低 | 音量:高 | |||
| 北京在出行规模,城市影响力方面表现优异。 | 音量尽量低一点 | 音量尽量高一点 | |||
| 他们脱掉笨重的冬衣,走起路来腰杆挺直步履轻盈。 | 基频:低 | 基频:高 | |||
| 自动驾驶将大幅提升出行安全,效率。 | 基频低一点 | 基频高一点 |