信息差

Black Forest Labs发布FLUX.1 Kontext：新一代多模态图像生成与编辑模型重磅来袭

Black Forest Labs 推出的新一代多模态图像生成与编辑模型：FLUX.1 Kontext，不同于传统的文生图模型，Kontext 同时理解文本与图像输入，能够实现真正的“上下文生成与编辑”。

传统的 text-to-image（文本生成图像）模型 如 DALL·E、Stable Diffusion 等虽然强大，但也存在很多局限：

只能通过文字控制，无法灵活结合图片作为上下文；
无法连续编辑或保留角色特征，缺乏“认知连续性”；
局部编辑需要复杂遮罩或 finetuning；
多轮操作后常常图像退化（失真、风格丢失）；
编辑速度慢，无法满足实时交互需求。

🔍 FLUX.1 Kontext 的目标：

构建一个真正 “上下文感知”（context-aware） 的图像生成与编辑引擎。

也就是说：
你可以像 Photoshop + GPT 一样自然地用“图+文”控制图像生成与修改，灵活、高效，并保持人物、风格一致性。

它主打：

图像上下文理解能力（不仅能从文本生成图像，还能理解图像并进行修改）
快速交互式编辑能力（低延迟、逐步迭代）
角色一致性、局部编辑、风格迁移等能力

Kontext 有哪些亮点？

角色一致性：可在多个场景中保持人物或元素的一致性
局部编辑：只编辑图像的特定部分，不影响其他区域
风格参考：可在指定风格下生成新场景
交互速度快：快速迭代、延迟极低

模型版本：

FLUX.1 Kontext [pro]
适合快速迭代编辑
支持连续编辑，保持角色、身份、风格和特征在多个场景中的一致性
FLUX.1 Kontext [max]
高性能版本，具备更强的提示词遵循能力、更出色的排版表现与一致性
FLUX.1 Kontext [dev]
我们最先进的图像编辑模型的开源权重版本
目前处于私测阶段（private beta）

主要功能

📌 1. 图文混合控制（Text + Image Prompt）

不仅可以用文字生成图像，也可以上传图像、再用文字修改它。

📎 举例：

上传一张人物照片，输入：“让她微笑并看向镜头” → 模型只改变表情与头部朝向，保留其他细节。
输入：“将她T恤上的文字换成‘Context Matters’” → 模型准确局部替换图中文字。
输入：“把背景换成夜店风格” → 模型替换背景，保留角色样貌、穿着、动作等。

🎯 2. 局部编辑（Local Editing）

可以精确修改图像中的某个部分，而不影响整体风格或其它区域。
不需要做遮罩、分层或图像标注。

🧠 这意味着：你可以像修图师一样，只“动你想动的地方”。

左图： 输入图像； 中图 ：根据输入编辑：“将‘YOU HAD ME AT BEER’改为‘YOU HAD ME AT CONTEXT’”， 右图： “将场景改为夜总会”

👥 3. 人物与风格一致性（Character & Style Consistency）

无论你生成几个不同场景的图像，只要提供相同的参考图或描述，模型能自动保持人物的面孔、表情、姿态一致。
对风格（如动漫、写实、水彩）也能保持统一表达。

🧠 用于构建连续的视觉内容（如漫画角色、虚拟代言人）非常有价值。

🔄 4. 多轮连续编辑（Iterative Editing）

可以对同一张图反复添加修改：“先让她笑 → 再加墨镜 → 再换背景 → 再改衣服文字”
每一步的变化都在保留前一轮基础上进行。

💡这是首次允许多轮自然语言驱动视觉修改的模型体系。

左图： 输入图像； 中图 ：根据输入编辑：“将她的头朝向镜头倾斜”， 右图： “让她笑”

⚡ 5. 速度快、交互性强（Low Latency Inference）

推理速度高达当前主流模型的 8 倍；
在编辑、生成过程中可实现近乎“实时反馈”，适合用户快速试错与调整。

评估效果如何？表现是否领先？

Black Forest Labs 提出了一个新的测试集：KontextBench，用于衡量上下文驱动图像任务的模型能力。
FLUX.1 模型在以下六个维度均有领先表现：

文本引导编辑的准确性
图像保真度与风格一致性
角色形象在多个画面中保持不变
图文排版与内容适配
多轮编辑中的稳定性
响应速度与推理效率

结果显示：

✅ FLUX.1 Kontext [pro] 在“角色一致性”和“文本编辑精度”两个核心任务上是当前表现最好的模型之一。

他们还推出了一个交互界面

💻 FLUX Playground 简介：

一个为开发者、创意者准备的 图形化界面平台，无需任何代码或集成，即可快速使用 FLUX 模型。

✅ 特点：

输入文本或上传图像，实时体验生成与修改效果；
可进行多轮编辑，查看每一步的对比；
用于向客户或决策方展示原型与能力演示；

🔗 地址： https://playground.bfl.ai/

当前的限制与注意事项

BFL 也诚实地列出了当前的模型限制：

多次连续修改后，图像可能出现质量下降（如颜色伪影、细节模糊）；
个别情况下，模型对文本理解会偏离或忽略某些要求；
对“世界知识”的理解较弱（例如可能画出结构不合理的场景）；
模型压缩蒸馏过程中可能会损失部分细节（影响高保真度应用）。

这说明它更适合图像创意、概念图、产品原型、场景图等需求，而非最终成图精修阶段。

官方介绍：https://bfl.ai/announcements/flux-1-kontext

技术报告：Read the full tech report

如果觉得文章对你有用，请随意赞赏

快讯

Black Forest Labs发布FLUX.1 Kontext：新一代多模态图像生成与编辑模型重磅来袭

https://soraor.com/archives/ai-today_20250530115102

作者

破晓

发布于

2025-05-30

更新于

2025-05-30

许可协议

CC BY 4.0