Press ESC to close

MiniMax开源了MiniMax-01新系列模型,性能堪比GPT-4

2025年1月15日,MiniMax宣布开源其最新的模型系列——MiniMax-01,其中包括基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。这一系列模型采用了大胆的架构创新,首次实现了大规模线性注意力机制的应用,打破了传统Transformer架构的限制。MiniMax-01系列拥有4560亿个参数和每实例45.9亿次激活,整体性能与海外领先模型相当,能够处理多达400万词的上下文——是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

MiniMax认为2025年将是智能代理快速发展的关键一年。无论是单个代理还是多代理系统,都需要更长的上下文支持持久记忆和广泛的沟通。MiniMax-01系列模型的推出正是为了满足这一需求,并为复杂代理奠定基础。

WeChat Screenshot_20250115091926.png

得益于架构创新、效率优化以及训练和推理的一体化设计,MiniMax能够以行业最低的价格提供文本和多模态理解的API服务。标准定价为每百万输入词1元人民币、每百万输出词8元人民币。MiniMax开放平台及其国际版本现已上线,供开发者体验和使用。

MiniMax-01系列模型已在GitHub上开源,并将持续更新。在主流行业评估中,MiniMax-01系列在文本和多模态理解方面与GPT-4o-1120、Claude-3.5-Sonnet-1022等先进模型表现相当。特别是在长文档任务中,随着输入长度增加,MiniMax-Text-01表现出最慢的性能下降速度,显著优于谷歌的Gemini模型。

在处理长输入时,MiniMax模型表现出极高的效率,接近线性复杂度。其结构设计中,每8层中有7层基于闪电注意力机制使用线性注意力,而剩余一层则采用传统的SoftMax注意力。这是行业内首次将线性注意力机制扩展到商用模型级别。MiniMax在扩展定律、MoE集成、结构设计、训练优化和推理优化等方面进行了全面评估,并重新构建了训练和推理系统。

在大多数学术基准测试中,MiniMax-01系列的表现与海外顶级模型相当。它尤其在长上下文评估集(如4百万词检索任务)中表现出色。除了学术数据集外,MiniMax还基于真实数据开发了辅助场景测试集,在这些测试集中,MiniMax-Text-01表现优异;而在多模态理解测试集中,MiniMax-VL-01也展现了出色的表现。

开源链接: https://github.com/MiniMax-AI

总结:本文介绍了 MiniMax 在 2025 年 1 月 15 日发布的 MiniMax-01 系列开源模型及其特点。该系列包括 MiniMax-Text-01 和 MiniMax-VL-01 两个子模型,在性能上与海外先进模型相当,并且具备处理长上下文的能力。此外还介绍了 MiniMax 的价格策略和服务平台信息。
Douglas Lemke

Hi, I’m Douglas Lemke, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram