Black Forest Labs 推出的新一代多模态图像生成与编辑模型:FLUX.1 Kontext,不同于传统的文生图模型,Kontext 同时理解文本与图像输入,能够实现真正的“上下文生成与编辑”。

传统的 text-to-image(文本生成图像)模型 如 DALL·E、Stable Diffusion 等虽然强大,但也存在很多局限:

  • 只能通过文字控制,无法灵活结合图片作为上下文;
  • 无法连续编辑或保留角色特征,缺乏“认知连续性”;
  • 局部编辑需要复杂遮罩或 finetuning;
  • 多轮操作后常常图像退化(失真、风格丢失);
  • 编辑速度慢,无法满足实时交互需求。

🔍 FLUX.1 Kontext 的目标:

构建一个真正 “上下文感知”(context-aware) 的图像生成与编辑引擎。

也就是说:
你可以像 Photoshop + GPT 一样自然地用“图+文”控制图像生成与修改,灵活、高效,并保持人物、风格一致性。

它主打:

  • 图像上下文理解能力(不仅能从文本生成图像,还能理解图像并进行修改)
  • 快速交互式编辑能力(低延迟、逐步迭代)
  • 角色一致性、局部编辑、风格迁移等能力

Kontext 有哪些亮点?

  1. 角色一致性:可在多个场景中保持人物或元素的一致性
  2. 局部编辑:只编辑图像的特定部分,不影响其他区域
  3. 风格参考:可在指定风格下生成新场景
  4. 交互速度快:快速迭代、延迟极低

模型版本:

  • FLUX.1 Kontext [pro]
    适合快速迭代编辑
    支持连续编辑,保持角色、身份、风格和特征在多个场景中的一致性
  • FLUX.1 Kontext [max]
    高性能版本,具备更强的提示词遵循能力、更出色的排版表现与一致性
  • FLUX.1 Kontext [dev]
    我们最先进的图像编辑模型的开源权重版本
    目前处于私测阶段(private beta)

主要功能

📌 1. 图文混合控制(Text + Image Prompt)

不仅可以用文字生成图像,也可以上传图像、再用文字修改它。

📎 举例:

  • 上传一张人物照片,输入:“让她微笑并看向镜头” → 模型只改变表情与头部朝向,保留其他细节。
  • 输入:“将她T恤上的文字换成‘Context Matters’” → 模型准确局部替换图中文字。
  • 输入:“把背景换成夜店风格” → 模型替换背景,保留角色样貌、穿着、动作等。


🎯 2. 局部编辑(Local Editing)

  • 可以精确修改图像中的某个部分,而不影响整体风格或其它区域。
  • 不需要做遮罩、分层或图像标注。

🧠 这意味着:你可以像修图师一样,只“动你想动的地方”。

左图: 输入图像; 中图 :根据输入编辑:“将‘YOU HAD ME AT BEER’改为‘YOU HAD ME AT CONTEXT’”, 右图: “将场景改为夜总会”


👥 3. 人物与风格一致性(Character & Style Consistency)

  • 无论你生成几个不同场景的图像,只要提供相同的参考图或描述,模型能自动保持人物的面孔、表情、姿态一致。
  • 对风格(如动漫、写实、水彩)也能保持统一表达。

🧠 用于构建连续的视觉内容(如漫画角色、虚拟代言人)非常有价值。


🔄 4. 多轮连续编辑(Iterative Editing)

  • 可以对同一张图反复添加修改:“先让她笑 → 再加墨镜 → 再换背景 → 再改衣服文字”
  • 每一步的变化都在保留前一轮基础上进行。

💡这是首次允许多轮自然语言驱动视觉修改的模型体系。

左图: 输入图像; 中图 :根据输入编辑:“将她的头朝向镜头倾斜”, 右图: “让她笑”


⚡ 5. 速度快、交互性强(Low Latency Inference)

  • 推理速度高达当前主流模型的 8 倍;
  • 在编辑、生成过程中可实现近乎“实时反馈”,适合用户快速试错与调整。

评估效果如何?表现是否领先?

Black Forest Labs 提出了一个新的测试集:KontextBench,用于衡量上下文驱动图像任务的模型能力。
FLUX.1 模型在以下六个维度均有领先表现

  1. 文本引导编辑的准确性
  2. 图像保真度与风格一致性
  3. 角色形象在多个画面中保持不变
  4. 图文排版与内容适配
  5. 多轮编辑中的稳定性
  6. 响应速度与推理效率

结果显示:

FLUX.1 Kontext [pro] 在“角色一致性”和“文本编辑精度”两个核心任务上是当前表现最好的模型之一。

他们还推出了一个交互界面

💻 FLUX Playground 简介:

一个为开发者、创意者准备的 图形化界面平台,无需任何代码或集成,即可快速使用 FLUX 模型。

✅ 特点:

  • 输入文本或上传图像,实时体验生成与修改效果;
  • 可进行多轮编辑,查看每一步的对比;
  • 用于向客户或决策方展示原型与能力演示;

🔗 地址: https://playground.bfl.ai/

当前的限制与注意事项

BFL 也诚实地列出了当前的模型限制:

  • 多次连续修改后,图像可能出现质量下降(如颜色伪影、细节模糊);
  • 个别情况下,模型对文本理解会偏离或忽略某些要求;
  • 对“世界知识”的理解较弱(例如可能画出结构不合理的场景);
  • 模型压缩蒸馏过程中可能会损失部分细节(影响高保真度应用)。

这说明它更适合图像创意、概念图、产品原型、场景图等需求,而非最终成图精修阶段。

官方介绍:https://bfl.ai/announcements/flux-1-kontext

技术报告:Read the full tech report