免费内容
网盘密匙:Qpipi
允许生成图像/视频商用
允许再次训练
不允许转售AI模型
不允许生成计算服务费
许可证:CreativeML Open RAIL-M
🎀包含版本🆕auraflow_v0.3、auraflow_v0.2、auraflow_v0.1、comfy_workflow_v03、comfy_workflow_v02、comfy_workflow_v01
【更新v0.3】AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型

【更新v0.3】AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型

AuraFlow v0.3 更新:

图片[1]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型

AuraFlow v0.3 是完全开源的基于 Flow 的文本到图像生成模型。与之前的版本 AuraFlow-v0.2 相比,该模型使用更多的计算进行训练。

与 AuraFlow-v0.2 相比,该模型在更美观的数据集上进行了微调,现在支持各种纵横比(现在宽度和高度高达 1536 像素)。

该模型在 GenEval 上取得了最先进的结果。阅读我们的博客文章了解更多技术细节。

该模型目前处于测试阶段。我们正在努力改进它,社区的反馈很重要。 加入 fal 的 Discord 向我们提供反馈并与模型开发保持联系。

AuraFlow v0.2 是全开源的最大基于工作流的文本转图像生成模型。与上一版本 AuraFlow-v0.1 相比,该模型的计算量更高!

图片[2]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型

开源 AI 正处于危险之中。在过去的一年里,随着社区对人工智能模型的兴趣激增,我们注意到新的开源基础模型的开发停止了。有些人甚至大胆地宣布开源人工智能已经死了。没那么快!

我们很高兴向您介绍我们的 AuraFlow 模型系列的第一个版本,这是最大但完全开源的基于流程的生成模型,能够生成文本到图像。AuraFlow 是对开源社区的韧性和不懈决心的重申。(注:对SD3的商业政策的不满)

该模型在GenEval上取得了最先进的结果。

该模型目前处于测试阶段。我们正在努力改进它。阅读我们的博客文章,了解更多技术细节。

致谢:非常感谢 cloneofsimo 和 isidentical 将这个项目变为现实。两个破解的工程师能取得的成就令人难以置信 这么短的时间。我们还要感谢那些了不起的研究人员,他们之前的工作为我们的努力奠定了基础。

下载包含了ComfyUI Workflow工作流模板,导入ComfyUI即可使用

图片[3]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型

作品例子

图片[4]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
Close-up portrait of a majestic iguana with vibrant blue-green scales, piercing amber eyes, and orange spiky crest. Intricate textures and details visible on scaly skin. Wrapped in dark hood, giving regal appearance. Dramatic lighting against black background. Hyper-realistic, high-resolution image showcasing the reptile’s expressive features and coloration.
图片[5]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
A photo of a beautiful woman wearing a green dress. Next to her there are three separate boxes. The Box on the Right is filled with lemons. The box in the Middle has two kittens in it. The Box on the Left is filled with pink rubber balls. In the background there is a potted houseplant next to a Grand Piano.
图片[6]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
a cat that is half orange tabby and half black, split down the middle. Holding a martini glass with a ball of yarn in it. He has a monocle on his left eye, and a blue top hat, art nouveau style
图片[7]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
Qpipi.com

技术细节

在这里,我们想分享一些突出的初始技术细节。我们正计划跟进一份更详细的报告,并可能还发表一份文件。

1. MFU作为一等公民

大多数层不需要 MMDiT 块:虽然 MMDiT 取得了良好的性能,但我们发现,将许多层删除为单个 DiT 块是训练这些模型的更具可扩展性和计算效率的方法。通过在小型代理中仔细搜索,我们删除了大部分 MMDiT 块,并用大型 DiT 编码器块替换它们。这些将 6.8B 规模的模型翻牌利用率提高了 15%。

图片[8]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
双层数量和最佳学习率

改进了 torch.compile 的训练:在fal,我们已经是Torch Dynamo + Inductor的忠实粉丝,并基于此工具(使用自定义Dynamo后端)进行构建,以超快地运行我们的推理工作负载(并有效地利用底层硬件)。由于 PT2 的 torch.compile 能够同时处理向前和向后传递,因此 AuraFlow 的训练得到了进一步优化,每层的原语都采用了正向方法,并且能够根据阶段的不同进一步提高 MFU 10% ~ 15%。

2.解锁零样本学习率转移很明显,我们不是 Meta,即使不扫除它们,我们也希望拥有非常好的超参数。幸运的是,我们注意到 MMDiT 架构也采用了零样本 LR 传输,并使用了最大更新参数化。与SP相比,muP在大规模学习率的可预测性方面显然是赢家。

图片[9]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
标准参数化
图片[10]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
最大更新参数化

3.重新标题,一切。常见的技巧是重新命名所有内容,以确保数据集中没有错误的文本条件。我们使用内部字幕和外部字幕数据集来训练这些模型,这大大提高了指令遵循的质量。我们跟随DALL·E 3 方法到了极致,我们没有替代文本的标题。

4.更宽,更短,更好!为了进一步研究最优架构,我们有兴趣制作一个更胖的模型,即使架构整体上利用可被 256 整除的最大 matmul。有了这些发现,我们确信20~100的纵横比确实适用于更大的尺度,这与自回归生成建模的缩放定律的结果相似。我们最终使用了 3072 / 36,这导致模型大小为 6.8B 参数。

图片[11]_AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
参数数/损耗

最后,我们尽了最大的努力来改进并有效地找到大规模培训的最佳配置。利用上述发现,我们能够在 4 周的计算时间内,在最大可能设置中从头开始训练文本到图像模型,包括 256×256、512×512、1024×1024 预训练和纵横比微调。最终模型在预训练期间的 GenEval 得分为 0.63~0.67,在 1024×1024 预训练后同样为 0.64。但是,具有类似于DALL·E 3,我们能够达到 0.703!

A caption is a way that a person would describe an image separated by commas when necessary. All in lower case. Expand the input below into a more detailed caption without changing the original relative positions or interactions between objects, colors or any other specific attributes if they are disclosed in the original prompt. Clarify positional information, colors, counts of objects, other visual aspects and features. Make sure to include as much detail as possible. Make sure to describe the spatial relationships seen in the image. You can use words like left/right, above/below, front/behind, far/near/adjacent, inside/outside. Make sure to include object interactions like “a table is in front of the kitchen pot” and “there are baskets on the table”. Also describe relative sizes of objects seen in the image. Make sure to include counts of prominent objects in the image, especially when there is humans in the image. When its a photograph, include photographic details like bokeh, large field of view etc but dont just say it to say something, do it only when it makes sense. When its art, include details about the style like minimalist, impressionist, oil painting etc. Include world and period knowledge if it makes sense to, like 1950s chevrolet etc.

分布式训练对多模态数据的挑战

训练图像模型最严酷的现实之一是,与 LLM 不同,数据本身的模态可能是一个非常痛苦的处理方式。在 AuraFlow 的培训期间,我们利用了我们在处理分布式存储以及管理数千个 GPU 的大型机群方面的专业知识。

其中一些专业知识可以直接从生产级推理/微调系统中转移过来,我们能够使用 JuiceFS 等开源项目,还有一些是更新颖的挑战,例如如何将大量数据流入和流出多个节点,同时利用本地 NVME 空间作为暂存地,以免减少 MFU。

请留意有关我们如何选择存储介质、在哪里训练此模型、如何评估 GPU 性能和管理大型集群的详细帖子!

下一步是什么?

我们还没有完成培训!此模型是启动一些社区参与的初始版本。我们将继续训练模型,并应用我们从第一次尝试中学到的知识。我们还注意到,对于计算能力有限的消费类 GPU 卡来说,较小的型号或 MoE 可能更有效,因此请密切关注迷你版模型,该模型仍然功能强大,但运行速度要快得多。同时,我们鼓励社区尝试我们今天发布的内容。

我们的目标是使这个模型成为一个标准骨干,其他创新工作可以建立在它之上。我们期待社区的贡献。如果您想训练当前模型的微调、IP 适配器或量化,我们很乐意以任何方式为您提供支持。在我们的 Discord 中,已经有一个围绕 fal 和 Aura 模型的充满活力的社区。如果您想参与其中,我们邀请您加入。

AI绘图常用工具

💡如有问题或建议,🥳请在社区评论告诉我们。🎨享受精彩的AI绘画乐趣!| 使用Qpipi读图提示功能,获取图片TAG Prompt提示 | Stable Diffusion AI绘图软件常见问题解答 | AI绘画新人必备工具指南

⭕ 注意:请勿使用浏览器的"阅读模式",会导致无法显示下载等内容。

© 版权声明
THE END
❤️ 喜欢就支持一下吧!点赞支持作者喔 👍
点赞13分享
【更新v0.3】AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型_Qpipi
【更新v0.3】AuraFlow AI绘图模型,基于工作流的文本到图像的开源模型
此内容为免费资源,请登录后查看
0积分
网盘密匙:Qpipi
允许生成图像/视频商用
允许再次训练
不允许转售AI模型
不允许生成计算服务费
许可证:CreativeML Open RAIL-M
🎀包含版本🆕auraflow_v0.3、auraflow_v0.2、auraflow_v0.1、comfy_workflow_v03、comfy_workflow_v02、comfy_workflow_v01
免费资源
✍️ 评论 共1条

请登录后发表评论