信息差

微软重磅推出Phi-4推理模型！小模型也能玩转复杂逻辑推理

小语言模型（SLM）怎么才能像大模型一样擅长“复杂逻辑推理”？

也就是说，在不增加参数数量（只用一个 3.8B 的小模型 Phi-4-Mini）的前提下，让它在数学等高要求推理任务中表现得像个“聪明的大脑”。

🧭 为什么这个问题重要？

目前很多AI助手（比如GPT）能回答问题、讲道理，但它们往往参数量很大（几十甚至几百亿个参数），部署成本高。而小模型如果也能推理，意味着：

✅ 更省资源（可部署到本地、移动设备）

✅ 更快响应、更低延迟

✅ 更易部署在企业或边缘设备中

微软提出并验证一套 面向SLM的多阶段推理增强训练方案，用于显著提升数学推理能力，并在 3.8B 参数的 Phi-4-Mini 模型上实现 SOTA 性能。

用途定位：为边缘计算、移动设备等设计，强调低资源环境下的推理性能。
训练方式：对 Phi-4 进行监督微调（SFT），使用 o3-mini 生成的高质量推理数据。
Phi-4-Mini-Reasoning 凭借 3.8B 的小模型体量，在多个指标上超越了 7B 甚至 8B 的模型。
在数学与科学推理基准中取得优异成绩：
- Phi-4-Reasoning 和 Reasoning-Plus 超越 Llama-70B、DeepSeek-R1-Distill，在 AIME 2025 等基准测试中甚至优于 671B 的 DeepSeek-R1。
- Mini-Reasoning 凭 3.8B 参数超越了多款 7B 以上模型，如 OpenThinker-7B、Llama-3.2-3B、Stratos-7B 等。
应用场景：教育场景、嵌入式辅导系统、Copilot+ PC 本地部署。

模型介绍

模型家族：Phi-4-Reasoning、Phi-4 Reasoning-Plus、Phi-4 Mini Reasoning

🧠 Phi-4-Reasoning

简介：基于 Microsoft 的 14B 参数小语言模型 Phi-4，通过**监督微调（SFT）**专门训练于复杂推理任务。
主要特点：
- 能生成结构化的推理链 …。
- 表现接近甚至超越大模型（如 DeepSeek-R1-Distill-70B）。
擅长领域：数学推理、科学问答、算法题、计划安排。
适用场景：需要强推理但资源受限的服务器或API服务。

🧠🧪 Phi-4-Reasoning-Plus

简介：在 Phi-4-Reasoning 的基础上，通过**强化学习（RL）**进一步优化，追求更高推理准确率。
主要特点：
- 使用更多 token（约 1.5 倍）进行更深入的推理。
- 推理准确率明显优于基础版 Phi-4-Reasoning。
擅长领域：高难度数学题、复杂多步骤问题。
适用场景：对推理质量要求极高的研究、竞赛型应用。

⚡️ Phi-4-Mini-Reasoning

简介：轻量级推理模型，仅 3.8B 参数，专为低资源环境设计（如移动端、本地运行）。
主要特点：
- 推理能力优于多数同规模（甚至更大）模型。
- 可运行于 Windows 11 本地、Copilot+ PC 的 NPU 上。
擅长领域：数学问题（初中至博士级）、教育类任务。
适用场景：教育辅导、嵌入式设备、离线 Copilot 功能。

数据与训练方法

数据构建：
- 精选超过 140 万个“可教”提示（teachable prompts），涵盖数学、科学、编程、安全等领域。
- 响应由 o3-mini 模型合成，带有和标签的结构化推理链。
去污染（decontamination）：训练数据通过算法手段排除与主流基准数据（如 AIME-2024、MATH 等）的重合。

模型架构调整

扩展最大上下文长度至 32K token。
使用两个占位符 token（与）标记推理块，支持结构化思考链条。

强化学习（Phi-4-Reasoning-Plus）

使用 Group Relative Policy Optimization（GRPO）进行强化学习，仅用约 6400 个数学问题。

怎么让小模型变聪明的？

他们不是只靠“堆数据”或者“提个好提示”，而是设计了一个四步走的完整训练方案，让模型“从不会推理”逐渐“学会推理”。

四阶段设计保障训练稳定性与能力提升：

Mid-training 蒸馏（大规模打基础）
精调微调（专注高难推理）
偏好优化（学会区分好坏推理）
强化学习（通过奖励机制进一步提升）

🧩 步骤1：让模型先熟悉“怎么推理”（叫 Mid-training）

类比：像小学生先看很多解题过程，理解别人是怎么一步步解题的。

用大模型（如 DeepSeek-R1）自动生成 上百万条“题目 + 解题过程”
只保留 答案正确 的样本，用于训练小模型“模仿这种推理方式”
覆盖了数学的多个难度（从小学到大学）
模型就像预习了大量“做题思路”

🧩 步骤2：精细化训练（Supervised Fine-tuning）

类比：选出最经典的例题，反复重点讲解，提升理解深度。

从上一步中筛选 高质量+难度高的题目
训练模型不光要“会解”，还要学会“什么时候该停下”
不再打包训练，而是逐例学习，让它更专注、精准

🧩 步骤3：从“错误答案”中学习（Rollout Preference Learning）

类比：让学生自己对比两个解题过程，学会“哪个更好”。

使用之前被扔掉的 错误答案 来构建“优 vs 劣”的对比样本
教模型学会“哪个回答更好”而不仅是“哪个对”
训练方式叫 DPO（Direct Preference Optimization）

🧩 步骤4：用奖励机制强化（Reinforcement Learning）

类比：答对题有奖励，答错题扣分，反复练习最终得高分。

如果AI的回答“最终答案对” → +1 分；否则 -1 分
使用类似游戏中“策略优化”的方法（如 PPO、GRPO）强化模型的答题策略
引入一系列技巧来 避免训练不稳定：
- 控制输出长度差异；
- 平衡正负样本；
- 逐步降低“探索性”（温度退火）

📊 效果到底怎么样？

Benchmark 任务表现（Pass@1 准确率）

几个关键领域的表现亮点

📘 数学推理（AIME, OmniMath）

Phi-4-reasoning-plus 在 AIME 2025 上取得了 78% Pass@1，超越 DeepSeek-R1（70.4%）。
在 OmniMath 上达到 81.9%，为开源14B模型中的领先水平。

🔬 科学推理（GPQA）

在研究生级科学题中（GPQA Diamond），达到 69.3%，几乎追平 DeepSeek-R1（73.0%）。
比 QwQ-32B（59.5%）和 DeepSeek Distill-70B（66.2%）表现更好。

💻 编码能力（LiveCodeBench）

在代码生成任务上保持与基础模型相当性能（~53%），但未特别优化（未用于 RL 阶段训练）。
在 NP 难度问题如 3SAT、TSP、日程规划（BA-Calendar）中都有 30~60% 的性能提升；
显示出 模型具有广泛迁移的推理能力，即使这些任务没出现在训练集中。

Phi 4 mini在 三个数学类测试集 来考察训练效果：

✅ 小体量大性能：Phi-4-Mini-Reasoning 凭借 3.8B 的小模型体量，在多个指标上超越了 7B 甚至 8B 的模型。
✅ 对数学推理任务特别强：在 Math-500 上达到 94.6%，接近 GPT-4 级别的表现。
✅ 训练策略效果显著：逐步蒸馏 + 偏好学习 + 强化学习使性能逐步攀升，训练路径清晰、贡献明确。
✅ 适合低资源部署场景：性能强大但资源消耗低，适合本地私有化部署、移动端、教育应用等。

重要发现与结论

数据质量与组合的重要性：
- 训练数据的精心选择（包括种子问题的筛选和生成长链推理）对于提升模型的推理能力至关重要。
- 模型通过特定领域的训练后，可以将推理能力泛化到未专门训练的领域（例如规划和NP-hard问题）。
推理能力与泛化性：
- 尽管模型的强化学习阶段只使用了数学领域的数据，但泛化能力显著增强，算法规划、NP-hard问题求解和其他复杂任务性能显著提高。
推理长度与准确性权衡：
- Phi-4-reasoning-plus倾向于生成更长的推理过程，这通常能提升数学任务的准确性，但也会带来计算成本增加的问题。Phi-4-reasoning 在推理长度和准确性之间的权衡则更为平衡。
评测方法的改进建议：

技术报告：https://arxiv.org/abs/2412.01951

模型下载：https://huggingface.co/microsoft/Phi-4-reasoning

官方介绍：https://azure.microsoft.com/en-us/blog/one-year-of-phi-small-language-models-making-big-leaps-in-ai/

如果觉得文章对你有用，请随意赞赏

快讯

微软重磅推出Phi-4推理模型！小模型也能玩转复杂逻辑推理

https://soraor.com/archives/ai-today_20250506120517

作者

破晓

发布于

2025-05-06

更新于

2025-05-06

许可协议

CC BY 4.0