MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
原文 3293 字,FishAI速读将为你节省 17 分钟
全文总结
香港中文大学(深圳)与趣丸科技联合推出的MaskGCT语音克隆TTS模型,在包含10万小时多语言数据的Emilia数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语种生成能力,同时保持了较强的稳定性。该模型已在Amphion平台开源,并登上Github global trending榜首。MaskGCT是一个全非自回归TTS模型,消除了文本与语音监督之间的显式对齐需求,以及音素级持续时间预测。它采用两阶段模型,第一阶段使用文本预测从语音自监督学习(SSL)模型中提取的语义标记,第二阶段基于这些语义标记预测声学标记。MaskGCT遵循掩码预测学习范式,在训练过程中学习根据给定的条件和提示预测掩码的语义或声学标记。在推理过程中,模型以并行方式生成指定长度的标记。实验结果表明,MaskGCT在质量、相似度和可理解性等方面是业内领先的零样本TTS系统。
关键要点
🤖 MaskGCT模型结构 MaskGCT模型由四个主要组件组成:语音语义表示编解码器、语音声学编解码器、文本到语义模型和语义到声学模型。语音语义表示编解码器用于将语音转换为离散的语义标记,语音声学编解码器则将语音波形量化为多层离散标记。文本到语义模型采用非自回归掩码生成Transformer,根据文本和提示语义标记预测语义标记,语义到声学模型则基于语义标记预测声学标记。
🗣️ MaskGCT模型优势 MaskGCT的优势在于无需文本与语音的对齐监督和音素级持续时间预测,通过文本预测从语音自监督学习(SSL)模型中提取的语义标记,然后基于这些语义标记预测声学标记,实现了高质量的文本到语音合成。它在语音质量、相似度和可理解性方面优于最先进的TTS系统,并且在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。
🚀 MaskGCT应用场景 MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。趣丸科技打造了多语种速译智能视听平台“趣丸千音”,一键上传视频即可快速翻译成多语种版本,并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品革新视频翻译制作流程,降低翻译成本和制作周期,成为影视、游戏、短剧等内容出海的理想选择平台。
🌐 MaskGCT未来发展 MaskGCT作为语音生成基础模型,在语音翻译、语音转换、情感控制和语音内容编辑等任务中具有可扩展性。未来,MaskGCT将会不断优化,提升语音合成质量,扩展应用场景,为更多用户带来更便捷、更智能的语音服务体验。
💡 MaskGCT开源意义 MaskGCT的开源为语音合成技术发展提供了新的思路和方向,推动了语音合成技术的进步,也为相关领域研究人员提供了良好的研究基础。此外,MaskGCT的开源也为语音合成技术的应用提供了更多可能性,为语音合成技术的应用提供了更多可能性。
🌟 MaskGCT技术特点 MaskGCT是一个全非自回归TTS模型,采用两阶段模型,利用掩码预测学习范式,实现了高质量的文本到语音合成。它在语音质量、相似度和可理解性方面优于最先进的TTS系统,并且在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。
🎉 MaskGCT社会影响 MaskGCT的开源为语音合成技术的应用提供了更多可能性,推动了短剧出海、数字人、智能助手、有声读物、辅助教育等领域的发展,为更多用户带来更便捷、更智能的语音服务体验。