最近,NVIDIA 开源了一个名为 Sana 的图像生成模型,该模型只有 6000 万个参数,大大降低了入门门槛。
据报道,Sana 可以生成分辨率为 4096×4096 的图像,并且可以在配备 16GB 显卡的设备上运行。它能够在不到一秒的时间内生成分辨率为 1024×1024 的高质量图像,这在同类模型中表现尤为出色。
Sana 使用的是 DC-AE(双通道自编码器)技术,在图像生成时使用了 32 倍大的潜在空间。这款工具配备了包括强大的 GTX 3090 在内的 8 块 GPU,使其能够更快更有效地处理复杂图像。据说 Sana 的性能达到了 0.6B,与 Flux-12B 相比,在参数只有其五分之一的情况下,速度却快了 100 倍。
有趣的是,Sana 支持英文、中文和表情符号三种提示方式。用户可以通过简单的文本提示生成各种风格的图像,无论是赛博朋克风格的猫、穿着白色 T 恤的运动柴犬、还是在宇宙漩涡中的海盗船,Sana 都能表现出色。用户甚至可以输入中文诗歌来生成相关的艺术图像。此外,Sana 还具备一定的安全性;当输入不适当的文字时,系统会自动将其替换为红心符号 ❤️ ,以防止生成不合适的图像。
例如,使用提示“一只在草地上玩耍的猫 🌟”,生成速度非常快,并且结果相当令人印象深刻。
另一个例子是提示“一只可爱的熊猫 🐼 在水墨画风格下吃着 🎋”,模型能够准确识别表情符号。
值得一提的是,Sana 已获得官方支持 ComfyUI,并配备了 Lora 训练工具。这使得它更加便捷且显著提升了易用性。感兴趣的朋友们可以亲自尝试一下。
总结:本文介绍了 NVIDIA 开源的 Sana 图像生成模型的特点和功能。该模型具有高效率和低参数量的优势,并支持多种语言和表情符号作为提示。它能够快速生成高质量的图像,并具备一定的安全性措施。此外,Sana 还支持 ComfyUI 和 Lora 训练工具,进一步提升了用户体验。