Kimi多模态图像理解模型API正式上线，开启视觉智能新纪元

2025年1月15日，北京月球背面科技有限公司正式发布了其新的多模态图像理解模型——moonshot-v1-vision-preview。这款模型增强了moonshot-v1系列模型的多模态能力，帮助我们更好地理解世界。

视觉模型具备强大的图像识别能力，能够准确识别图像中的复杂细节和细微差异。无论是食物还是动物，它都能区分相似但不同的物体。例如，当面对16张蓝莓松饼和吉娃娃犬的相似图片时，这些细节对人眼来说难以分辨，但视觉模型却能精确地识别和区分它们。

视觉模型在国家领先的高级图像识别方面表现出色，尤其在OCR文本识别和图像理解场景中表现优异。它的准确性超过了标准的文档扫描和OCR识别软件，能够识别乱写的收据和送货单等杂乱内容。

WeChat Screenshot_20250115135433.png

视觉模型支持多轮对话、流式输出、工具调用、JSON模式和部分模式等功能。不过，它目前不支持在线搜索，并且不支持使用包含图片内容的上下文缓存。但它允许使用已创建的缓存来调用视觉模型，并且不支持URL格式的图片，目前仅支持base64编码的图片。

模型定价

总结：本文介绍了北京月球背面科技有限公司发布的新款多模态图像理解模型——moonshot-v1-vision-preview。该模型具备强大的图像识别能力，并在OCR文本识别和图像理解方面表现出色。此外，文章还详细列出了该模型的支持功能及定价信息。