阿里达摩院推出电商多模态大模型谷之二

最近,阿里巴巴达摩院推出了一款名为“谷之二”的多模态大语言模型,专门应用于电商场景。这款模型旨在通过可扩展的视觉-语言架构,在多个领域提升性能,并扩大电商和短视频场景的应用边界。谷之二的核心是基于Qwen 2.5的大语言模型,搭配SigLIP-384视觉编码器,通过MLP层和卷积等技术高效地进行特征转换。