随着人工智能的迅速发展,语音合成技术正逐渐受到关注。最近,一款名为Kokoro的最新语音合成模型在Hugging Face平台上正式发布。这款模型拥有8200万参数,标志着语音合成领域的一个重要里程碑。
Kokoro v0.19在发布前几周的TTS(文本转语音)排行榜上排名第一,其性能超越了其他参数更多的模型。该模型在单声道设置下仅使用不到100小时的音频数据,就达到了与XTTS v2(参数为4.67亿)和MetaVoice(参数为12亿)等模型相当的结果。这一成就表明,传统语音合成模型的性能与其参数、计算负载和数据量之间的关系可能比预期更为重要。
使用Kokoro时,用户只需在Google Colab中运行几行代码即可加载模型和声音包,生成高质量的音频文件。目前,Kokoro支持美式英语和英式英语,并提供了多种声音包供用户选择。
Kokoro的训练过程利用了Vast.ai的A100 80GB vRAM实例进行训练,这些实例相对较为经济实惠,确保了高效的训练过程。整个模型仅用了不到20个训练周期和不到100小时的音频数据进行训练。Kokoro模型使用公共领域音频数据和其他开源许可音频进行训练,以确保数据合规。
尽管Kokoro在语音合成方面表现出色,但由于训练数据和架构的限制,它目前不支持语音克隆功能。主要训练数据侧重于长篇阅读和叙述,而非对话。
Model: https://huggingface.co/hexgrad/Kokoro-82M
Experience: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
总结:本文介绍了最新发布的Kokoro语音合成模型的特点及其应用情况。Kokoro具有出色的性能,并且支持多种语言和地区的声音包选择。虽然其训练过程相对高效且成本较低,但目前仍存在一些功能限制。关键亮点:
- 🌟 Kokoro-82M是一款新发布的具有8200万参数的语音合成模型,并支持多种声音包。
- 🎤 该模型在TTS领域表现出色,在排行榜上排名第一,并且仅用不到100小时的数据进行了训练。
- 📊 Kokoro模型的训练使用了开源许可的数据以确保合规性,尽管仍存在一些功能限制。