2025年1月15日,北京月球背面科技有限公司正式发布了其新的多模态图像理解模型——moonshot-v1-vision-preview。这款模型增强了moonshot-v1系列模型的多模态能力,帮助我们更好地理解世界。
视觉模型具备强大的图像识别能力,能够准确识别图像中的复杂细节和细微差异。无论是食物还是动物,它都能区分相似但不同的物体。例如,当面对16张蓝莓松饼和吉娃娃犬的相似图片时,这些细节对人眼来说难以分辨,但视觉模型却能精确地识别和区分它们。
视觉模型在国家领先的高级图像识别方面表现出色,尤其在OCR文本识别和图像理解场景中表现优异。它的准确性超过了标准的文档扫描和OCR识别软件,能够识别乱写的收据和送货单等杂乱内容。
视觉模型支持多轮对话、流式输出、工具调用、JSON模式和部分模式等功能。不过,它目前不支持在线搜索,并且不支持使用包含图片内容的上下文缓存。但它允许使用已创建的缓存来调用视觉模型,并且不支持URL格式的图片,目前仅支持base64编码的图片。
模型定价
模型 | 计费单位 | 价格 |
moonshot-v1-8k-vision-preview | 1M tokens | ¥12.00 |
moonshot-v1-32k-vision-preview | 1M tokens | ¥24.00 |
moonshot-v1-128k-vision-preview | 1M tokens | ¥60.00 |