阿里巴巴达摩院最近推出了一款名为Valley2的多模态大型语言模型。这款模型是基于电子商务场景设计的,旨在通过可扩展的视觉-语言架构在多个领域提升性能,并扩大电子商务和短视频场景的应用边界。
Valley2使用了Qwen2.5作为其LLM(大型语言模型)的基础架构,并结合了SigLIP-384视觉编码器,以及MLP层和卷积来高效地进行特征转换。它的创新之处在于引入了大规模的视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,这些都增强了处理各种真实世界输入的灵活性,并提高了训练和推理效率。
Valley2的数据集包括OneVision风格的数据、针对电子商务和短视频领域的定制数据,以及用于解决复杂问题的思维链(CoT)数据。训练过程分为四个阶段:文本-视觉对齐、高质量知识学习、指令微调以及思维链后的训练。在实验中,Valley2在多个公开基准测试中表现出色,特别是在MMBench、MMStar和MathVista等基准测试中得分特别高,并且在Ecom-VQA基准测试中也超过了其他同规模的模型。
未来,阿里巴巴达摩院计划发布一个包含文本、图像、视频和音频模态的多功能模型,并基于Valley引入多模态嵌入训练方法,以支持下游检索和检测应用。
Valley2的推出标志着多模态大型语言模型领域的重要进展,展示了通过结构改进、数据集构建和优化训练策略来提升模型性能的潜力。
模型链接:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
代码链接:
https://github.com/bytedance/Valley
论文链接:
https://arxiv.org/abs/2501.05901