阿里达摩院推出电商多模态大模型谷之二

阿里巴巴达摩院最近推出了一款名为Valley2的多模态大型语言模型。这款模型是基于电子商务场景设计的，旨在通过可扩展的视觉-语言架构在多个领域提升性能，并扩大电子商务和短视频场景的应用边界。

WeChat Screenshot_20250115084005.png

Valley2使用了Qwen2.5作为其LLM（大型语言模型）的基础架构，并结合了SigLIP-384视觉编码器，以及MLP层和卷积来高效地进行特征转换。它的创新之处在于引入了大规模的视觉词汇、卷积适配器（ConvAdapter）和Eagle模块，这些都增强了处理各种真实世界输入的灵活性，并提高了训练和推理效率。

Valley2的数据集包括OneVision风格的数据、针对电子商务和短视频领域的定制数据，以及用于解决复杂问题的思维链（CoT）数据。训练过程分为四个阶段：文本-视觉对齐、高质量知识学习、指令微调以及思维链后的训练。在实验中，Valley2在多个公开基准测试中表现出色，特别是在MMBench、MMStar和MathVista等基准测试中得分特别高，并且在Ecom-VQA基准测试中也超过了其他同规模的模型。

未来，阿里巴巴达摩院计划发布一个包含文本、图像、视频和音频模态的多功能模型，并基于Valley引入多模态嵌入训练方法，以支持下游检索和检测应用。

Valley2的推出标志着多模态大型语言模型领域的重要进展，展示了通过结构改进、数据集构建和优化训练策略来提升模型性能的潜力。

模型链接：
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代码链接：
https://github.com/bytedance/Valley

论文链接：
https://arxiv.org/abs/2501.05901

总结：本文介绍了阿里巴巴达摩院推出的多模态大型语言模型Valley2及其主要特点和技术创新。该模型通过结合视觉和语言处理技术，在电子商务和短视频场景中表现出色，并展示了未来在多功能应用中的潜力。

阿里达摩院推出电商多模态大模型谷之二

Leave a comment

Tag Clouds

Press ESC to close

阿里达摩院推出电商多模态大模型谷之二

Leave a comment

Tag Clouds

Newsletter