一个来自AI开发平台Hugging Face的团队发布了一种声称是目前最小的能够分析图片、短视频和文本的AI模型。
这些模型被称为SmolVLM-256M和SmolVLM-500M,设计目的是在诸如内存小于约1GB的笔记本电脑等“受限设备”上运行良好。团队还表示,这些模型非常适合那些希望以极低成本处理大量数据的开发者。
SmolVLM-256M和SmolVLM-500M分别包含2560万和5000万个参数。参数大致对应于模型的问题解决能力,例如其在数学测试中的表现。这两种模型都可以执行描述图片或视频片段、回答关于PDF及其元素(包括扫描文本和图表)的问题等任务。
Hugging Face团队使用了一个名为The Cauldron的数据集集合,其中包括50个高质量的图像和文本数据集,以及一个名为Docmatix的文件扫描配以详细描述的数据集。这两个数据集均由Hugging Face的M4团队开发,该团队专注于开发多模态AI技术。
新发布的SmolVLM模型与其它多模态模型相比的基准测试结果。图片来源:SmolVLM
据团队声称,SmolVLM-256M和SmolVLM-500M在包括AI2D在内的基准测试中表现优于更大的Idefics 80B模型,AI2D测试的是模型分析小学科学图表的能力。这两个模型可以在网络上免费获取,并且可以从Hugging Face下载,使用时没有任何限制。
虽然像SmolVLM-256M和SmolVLM-500M这样的小型模型可能价格低廉且功能多样,但它们也可能存在一些大型模型中不太明显的缺陷。最近的一项研究发现,许多小型模型在复杂推理任务中的表现不如预期。研究人员推测这可能是因为小型模型只能识别数据表面模式,在新情境下难以应用这些知识。
总结:本文介绍了Hugging Face团队发布的两款新型AI模型——SmolVLM-256M和SmolVLM-500M。它们专为受限设备设计,并且具有出色的性能表现。尽管这些小型模型具有成本效益和多功能性,但也存在一些潜在缺陷。