NVIDIA震撼首发！推出开源图像生成模型“萨娜”，一秒生成图像，支持中文、英文和表情符号

最近，NVIDIA 开源了一个名为 Sana 的图像生成模型，该模型只有 6000 万个参数，大大降低了入门门槛。

据报道，Sana 可以生成分辨率为 4096×4096 的图像，并且可以在配备 16GB 显卡的设备上运行。它能够在不到一秒的时间内生成分辨率为 1024×1024 的高质量图像，这在同类模型中表现尤为出色。

Sana 使用的是 DC-AE（双通道自编码器）技术，在图像生成时使用了 32 倍大的潜在空间。这款工具配备了包括强大的 GTX 3090 在内的 8 块 GPU，使其能够更快更有效地处理复杂图像。据说 Sana 的性能达到了 0.6B，与 Flux-12B 相比，在参数只有其五分之一的情况下，速度却快了 100 倍。

有趣的是，Sana 支持英文、中文和表情符号三种提示方式。用户可以通过简单的文本提示生成各种风格的图像，无论是赛博朋克风格的猫、穿着白色 T 恤的运动柴犬、还是在宇宙漩涡中的海盗船，Sana 都能表现出色。用户甚至可以输入中文诗歌来生成相关的艺术图像。此外，Sana 还具备一定的安全性；当输入不适当的文字时，系统会自动将其替换为红心符号 ❤️ ，以防止生成不合适的图像。

例如，使用提示“一只在草地上玩耍的猫 🌟”，生成速度非常快，并且结果相当令人印象深刻。

另一个例子是提示“一只可爱的熊猫 🐼 在水墨画风格下吃着 🎋”，模型能够准确识别表情符号。

值得一提的是，Sana 已获得官方支持 ComfyUI，并配备了 Lora 训练工具。这使得它更加便捷且显著提升了易用性。感兴趣的朋友们可以亲自尝试一下。

项目链接：https://nv-sana.mit.edu/

总结：本文介绍了 NVIDIA 开源的 Sana 图像生成模型的特点和功能。该模型具有高效率和低参数量的优势，并支持多种语言和表情符号作为提示。它能够快速生成高质量的图像，并具备一定的安全性措施。此外，Sana 还支持 ComfyUI 和 Lora 训练工具，进一步提升了用户体验。

NVIDIA震撼首发！推出开源图像生成模型“萨娜”，一秒生成图像，支持中文、英文和表情符号

Leave a comment

Tag Clouds

Press ESC to close

NVIDIA震撼首发！推出开源图像生成模型“萨娜”，一秒生成图像，支持中文、英文和表情符号

Leave a comment

Tag Clouds

Newsletter