MiniMax 发布 MiniMax-M1,全球首个开源大规模混合注意力推理语言模型。其主要特点是融合了 混合专家架构(MoE) 和高效的 Lightning Attention 机制,在推理速度、长文本处理和复杂任务表现方面具有显著优势。

在多数任务上,MiniMax-M1 显著优于其他开源大模型(如 Qwen3、DeepSeek-R1),并逼近甚至在部分维度超越商用闭源模型。

该模型基于前代模型 MiniMax-Text-01 开发,总参数规模为 4560亿,每个token激活参数为 45.9亿,支持最长 100万tokens 的上下文输入(约为 DeepSeek R1 的8倍)。

模型版本

MiniMax-M1-40K: 上下文:100万 推理预算:tokens40K

MiniMax-M1-80K: 上下文:100万 推理预算:tokens80K

混合专家模型(Mixture-of-Experts, MoE)

  • 每个 token 激活约 45.9 亿参数(总参数为 4560 亿),仅调用部分专家,提高推理效率。
  • 平衡了“大模型能力”与“可落地部署”的矛盾。

Lightning Attention 机制

  • 一种专为大规模上下文优化的注意力方式。
  • 相比 DeepSeek R1 等模型,在处理 10 万 tokens 的生成任务时,MiniMax-M1 的计算量仅为其 25%。

超长上下文处理

  • 原生支持 100 万 token 的上下文,远超绝大多数同类模型(例如 DeepSeek R1 支持 128K)。

训练成本

  • RL 强化训练只需 3 周 + 512 H800 GPU
  • 总成本仅为 53.5 万美元

MiniMax-M1 能力表现

✅ 1. 数学与逻辑推理

  • 在 AIME 2024 竞赛题中得分高达 86.0%
  • 在 MATH-500 达到近乎满分(96.8%)
  • 显示出优秀的链式思考(Chain-of-Thought)能力
  • SFT + RL 阶段针对性强化了反思式推理路径

✅ 2. 通用与高级编程任务

  • 覆盖从算法编程题(LiveCodeBench)到多模块工程任务(FullStackBench)
  • 展现出对代码语法、逻辑结构的全面理解
  • 表现稳定,适合用于代码生成或智能IDE集成

✅ 3. 真实软件工程任务

  • SWE-bench:基于真实 GitHub 问题,验证模型是否能自动完成 bug 修复与 PR 提交
  • MiniMax-M1 构建了真实沙盒系统,并在代码执行层面进行验证
  • 得分 56%,强于所有开源模型,仅次于最新闭源模型

✅ 4. 超长文本能力

  • 支持 100万 tokens 上下文(原生支持)
  • 在 MRCR、LongBench 等任务上表现出色:

    • MRCR-128K 得分 73.4%:比 GPT-4 更接近真实理解
    • 能处理复杂指令、法律文书、科研文档等长内容

✅ 5. Agent 能力:工具使用与调用

  • TAU-bench 模拟真实 API 使用场景
  • MiniMax-M1 超越 Gemini 2.5 和 Claude 4:

    • Airline:62%
    • Retail:63.5%
  • 表明其在复杂推理+动作调用的智能体任务中具备强大适应能力

✅ 6. 对话与助手能力

  • MultiChallenge 得分 44.7%
  • 与 Claude 4、DeepSeek-R1 持平
  • 在多轮任务型对话中表现稳定,适合作为助理底座模型

⚠️ 7. 劣势:事实问答能力较弱

  • 在 SimpleQA 上表现为 18.5%,说明:

    • 对短、明确问题的回答准确性还有提升空间
    • 与训练数据分布或奖励模型偏好有关

MiniMax-M1 的技术创新与亮点

🔧 架构创新:混合注意力机制(Hybrid Attention)

🔹 1. Lightning Attention + Softmax Attention

  • Lightning Attention 是一种 线性复杂度注意力机制,替代传统 quadratic attention,计算量随着文本长度增长更慢。
  • 每 7 层 Lightning Attention 插入 1 层 Softmax Attention,用于强化上下文建模能力。
  • 优势:

    • 支持长达 1,000,000 tokens 的上下文输入
    • 大幅减少推理计算量(例如生成 100K tokens 时,FLOPs 仅为 DeepSeek R1 的 25%)

🧠 模型规模与计算效率:Mixture of Experts(MoE)混合专家机制

  • 模型总参数达 4560 亿,每次仅激活 45.9 亿(即约 10%)
  • 使用了 32个专家模块,每个输入选择部分激活
  • 优势:

    • 计算效率高:在不损失能力的前提下,只使用部分参数进行推理,显著降低推理与训练成本
    • 可扩展性强:总参数可扩展至千亿级别而不影响使用成本。
    • 可微调性好:仅优化局部专家,也利于领域适配。
    • 保持大模型的表现力,同时适用于多任务调度

🧪 强化学习训练优化:新RL算法 CISPO

🔹 问题:传统方法如 PPO、GRPO 存在 token 剪枝问题,会忽略推理中的关键转折点(如“等等、再想一下…”)

🔹 解决方案:MiniMax 提出 CISPO(Clipped IS-weight Policy Optimization)

  • 改为“剪裁采样权重”,保留所有 tokens 的训练信号
  • 优势:

    • 保留罕见但重要的推理路径
    • 训练更稳定,效率更高
    • 在与 GRPO、DAPO 的对比中训练速度提升 2倍

📈 推理性能全面提升:在多个复杂任务中具优势

  • 超长文本处理:支持 1M 输入、80K 输出,适合科研论文、法律文书等场景
  • 复杂任务推理:在 AIME 数学、LiveCodeBench 编程、SWE-bench 软件工程任务中表现优异
  • 工具调用能力:在 TAU-bench 超越 Gemini 2.5 Pro、Claude 4,适合构建复杂智能体

🧰 工程效率优化

  • RL 训练只需 3 周 + 512 H800 GPU
  • 总成本仅为 53.5 万美元,大幅低于一般 GPT-4 等闭源模型训练开销
  • 推理和训练均具成本优势,有助于模型落地与普及

📦原生 Function Calling + Tool Use 能力

✅ 创新点:

  • 内置函数调用(Function Calling)模块,支持输出结构化调用参数。
  • 针对 Agent 应用构建了完整的工具调用评测(TAU-bench)

🔍 优势:

  • 无需额外微调,模型可识别何时调用工具,生成参数格式;
  • 支持构建搜索增强Agent、任务助手、API交互机器人。

GitHub:https://github.com/MiniMax-AI/MiniMax-M1

模型:https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

论文:https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf

在线体验:https://chat.minimax.io/