画质惊人! Flux 2 震撼发布,成也“一致性”,败也“审查”?

FLUX.2是什么

FLUX.2 是 Black Forest Labs 推出的AI图像模型,专为实际创意工作流程设计。模型支持最多 10 张图片的多图参考,生成高达 4MP 分辨率的高质量图像,具备极强的细节表现力和文本渲染能力。FLUX.2 提供多种版本,包括高性能的FLUX.2 [pro]版、可自定义参数的FLUX.2 [flex]版、开源的FLUX.2 [dev]版和即将推出的FLUX.2 [klein]版。模型结合视觉语言模型与流变换器架构,显著提升现实世界知识理解和图像生成质量,推动视觉智能技术的开放创新与广泛应用。

FLUX.2的主要功能

  • 多图参考:模型支持同时参考多达10张图片,保持角色、风格和产品的一致性。

  • 高分辨率图像生成:模型支持高达4MP的图像编辑,适合产品拍摄、可视化和摄影级应用。

  • 复杂文本渲染:模型能处理复杂排版、信息图、表情包和UI设计,支持可读的细小文字。

  • 指令遵循能力:改进对复杂、结构化指令的遵循,包括多部分提示和组合约束。

  • 现实世界知识:在光照、空间逻辑和场景连贯性方面表现更强,生成更符合现实的图像。

FLUX.2的技术原理

  • 潜在流匹配架构(Latent Flow Matching Architecture):FLUX.2 采用潜在流匹配架构,通过在潜在空间中进行流匹配,模型能高效地处理图像的生成和编辑任务,同时保持生成图像的连贯性和一致性。这种架构的设计使 FLUX.2 在处理复杂的图像合成任务时表现出色,尤其是在多图参考和高分辨率生成方面。
  • 视觉语言模型与流变换器的耦合:FLUX.2 结合 Mistral-3 24B 参数的视觉语言模型(VLM)和流变换器(Transformer)。视觉语言模型为模型提供丰富的现实世界知识和语义理解能力,使 FLUX.2 能更好地理解复杂的提示词和场景逻辑。流变换器专注于捕捉图像中的空间关系、材质属性和组合逻辑,弥补了传统架构的不足。这种耦合使 FLUX.2 在生成复杂场景和细节方面表现出色,尤其是在处理多图参考和复杂文本渲染时。
  • 变分自编码器(VAE)的优化:FLUX.2 引入新的变分自编码器(VAE),用于优化潜在表示。VAE 在可学习性、图像质量和压缩率之间提供最佳的权衡。通过重新训练潜在空间,FLUX.2 解决了“可学习性-质量-压缩”三难困境,实现更高的图像质量和更好的生成效率。
  • 多图参考与风格一致性:FLUX.2 支持同时参考多达 10 张图片,通过先进的多图融合算法,确保生成图像在风格、角色和产品细节上的一致性。多图参考能力使 FLUX.2 特别适合需要保持品牌风格或场景连贯性的创意工作流程,例如广告设计、产品可视化和影视后期制作。

这么大的模型是不可能在本地跑的这样对我们意义不大,倒是阿里的小模型更符合我们的需求,flux2目前看就是鸡肋,在王者nano banana pro光辉下黯然失色

昨天刚刚发布的,我用GGUF的量化版本地comfyUI也可以跑,就是对显存要求太高了,跑大图得16G以上,24G也就堪用。感觉得48G涡轮才行。确实有点猛。 nano banana 2,真是好用!!!!