鱼阅

Fish AI 速读

原文 2956 字,FishAI速读将为你节省 15 分钟

全文总结

微软发布了零样本的文本到语音(TTS)模型 VALL-E 2,首次实现了与人类同等的水平,标志着 TTS 领域里程碑式的进展。该模型能够仅通过一段简短的陌生语音样本,用相同的声音说出文本内容,展现出强大的模仿能力。虽然 VALL-E 2 有很强的零样本学习能力,但相似度和自然度会受到语音提示的长度、质量和背景噪音等因素的影响。微软目前将其作为研究项目,尚未纳入产品或扩大使用范围的计划。

关键要点

  • 🤔 VALL-E 2 采用重复感知采样和分组代码建模两种创新技术,有效解决了 VALL-E 模型存在的稳定性和效率问题。重复感知采样可以根据 token 重复情况,自适应地选择采样方法,提高解码稳定性。分组代码建模将编解码器代码划分为多个组,减少序列长度并加速推理,同时缓解长上下文建模问题,提升性能。

  • 🚀 VALL-E 2 的训练仅需简单的语音-转录文本数据,不需要额外的复杂数据,简化了数据收集和处理流程,提高了可扩展性。该模型使用了 Libriheavy 语料库中的数据,包含 7000 个人朗读英语有声书的 5 万小时语音。

  • 🏆 VALL-E 2 在主观评估中,其语音合成效果不仅超过了第一代 VALL-E,甚至比人类真实语音更完美。在客观指标上,VALL-E 2 也取得了全方位的提升,WER 和 DNSMOS 分数优于真实人类语音。

  • 🛡️ 由于 VALL-E 2 的强大模仿能力,微软目前将其作为研究项目,尚未纳入产品或扩大使用范围的计划,并强调了合成语音检测模型和授权机制的重要性,以确保模型在合成语音前已经得到了声音所有者的批准。

  • 🤔 VALL-E 2 的 demo 展示了模型对英美口音的模仿能力,但对于其他口音的模仿效果还有待观察。目前还无法判断 VALL-E 2 的真实水平。

  • 🚧 VALL-E 2 的强大能力也引发了一些争议,例如其潜在的滥用风险,如用于 Deepfake 的可能性。微软表示,他们将谨慎地推进该技术的应用,并确保其负责任的使用。