Press ESC to close

阿里达摩院推出电商多模态大模型谷之二

阿里巴巴达摩院最近推出了一款名为Valley2的多模态大型语言模型。这款模型是基于电子商务场景设计的,旨在通过可扩展的视觉-语言架构在多个领域提升性能,并扩大电子商务和短视频场景的应用边界。

WeChat Screenshot_20250115084005.png

Valley2使用了Qwen2.5作为其LLM(大型语言模型)的基础架构,并结合了SigLIP-384视觉编码器,以及MLP层和卷积来高效地进行特征转换。它的创新之处在于引入了大规模的视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,这些都增强了处理各种真实世界输入的灵活性,并提高了训练和推理效率。

Valley2的数据集包括OneVision风格的数据、针对电子商务和短视频领域的定制数据,以及用于解决复杂问题的思维链(CoT)数据。训练过程分为四个阶段:文本-视觉对齐、高质量知识学习、指令微调以及思维链后的训练。在实验中,Valley2在多个公开基准测试中表现出色,特别是在MMBench、MMStar和MathVista等基准测试中得分特别高,并且在Ecom-VQA基准测试中也超过了其他同规模的模型。

未来,阿里巴巴达摩院计划发布一个包含文本、图像、视频和音频模态的多功能模型,并基于Valley引入多模态嵌入训练方法,以支持下游检索和检测应用。

Valley2的推出标志着多模态大型语言模型领域的重要进展,展示了通过结构改进、数据集构建和优化训练策略来提升模型性能的潜力。

模型链接:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代码链接:
https://github.com/bytedance/Valley

论文链接:
https://arxiv.org/abs/2501.05901

总结:本文介绍了阿里巴巴达摩院推出的多模态大型语言模型Valley2及其主要特点和技术创新。该模型通过结合视觉和语言处理技术,在电子商务和短视频场景中表现出色,并展示了未来在多功能应用中的潜力。
Douglas Lemke

Hi, I’m Douglas Lemke, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram