遇见Auraflow：一个真正的开源AI图像生成器，旨在击败稳定的扩散3

2024-07-23 05:50 170

摘要

我们将FAL AI的新Auraflow与Stability AI的SD3进行了面对面的测试。结果可能会让你大吃一惊。

开源AI图像生成器之王的头衔有一个新的竞争者：Auraflow。上周由生成媒体公司Fal AI发布的Auraflow凭借其标准Apache 2.0许可证获得了越来越多的关注，与Stability AI用于发布Stable Diffusion 3（SD3）的限制性许可相比，这感觉就像一股新鲜空气。

支持者认为，开源项目可以快速加快竞争行业的开发周期，因为它使开发人员摆脱了许可和其他法律限制。在没有许可费的情况下，社区经常围绕有能力的开源项目形成，开发人员可以调整、修改、培训甚至从他们的工作中获利。

FAL AI在一篇博客文章中表示：“我们很高兴向您展示我们Auraflow模型系列的第一个版本，这是最大但完全开源的基于流的生成模型，能够生成文本到图像。”。这家总部位于旧金山的公司于2021年由分别在Coinbase和亚马逊工作的Burkay Gur和Gorkem Yurtsevenginers共同创立，该公司警告称，开源人工智能正处于危险之中。”他们说：“有些人甚至大胆地宣布开源人工智能已经死了。”别那么快！”

在四周多的密集计算时间里，Auraflow接受了严格的训练，包括对不同大小、分辨率（256x256、512x512和1024x1024）和纵横比（方形图像、风景、肖像等）的图像进行预训练。结果如何？GenEval得分为0.64，使用类似于DALL-E 3的快速增强管道后，得分提高到0.703。

用Auraflow创造的世代。图片由Fal AI分享

换句话说，当使用合成基准测试时，该模型提供了高质量的结果。然而，尽管Auraflow很好，但它仍然只是一个测试版，因为Fal认为它是0.1版，而不是稳定版。

不过，该模型是VRAM吞噬者。它需要一个具有大约12GB VRAM的强大GPU来运行其fp16版本——Stable Diffusion 3仅在6GB VRAM上运行良好，仅供参考。然而，该公司声称正在开发一种更易于管理的模型。Fal AI表示：“对于计算能力有限的消费级GPU卡来说，较小的型号或MoE可能更高效，因此请密切关注这款型号的迷你版，它仍然强大，但运行速度要快得多。”。

Auraflow可以在Huggingface上下载，也可以在ComfyUI中运行，ComfyUI管理器中也有一个自定义节点。

Auraflow代表了SD3的强大替代品，但它足够好吗？我们比较了两种基本模型，并测试了它们在各种艺术风格和提示下的表现。当我们分享我们的观察结果时，你可以判断谁最有可能赢得世界各地人工智能艺术家的心。

艺术风格和创造力

提示：“一幅宁静湖面上日落的详细画作，天空充满了橙色、粉色和紫色的色调，一个延伸到水中的木码头，一个人坐在码头尽头，手里拿着鱼竿，周围是高大的草和野花，整体风格是印象派的，笔触大胆，色彩鲜艳。”

听觉流：

优点：大胆的笔触和鲜艳的色彩很好地捕捉了印象派风格。天空的色调表现得很好，营造出宁静的氛围。缺点：人和周围自然的细节可能更精确。木制码头和钓鱼可能缺乏明确的定义。钓竿没有处于自然位置。

SD3介质：

优点：表现出对细节的高度关注，尤其是在人物和码头的刻画方面。整个场景更有条理，元素清晰，轮廓精致。缺点：印象派风格不太明显，笔触看起来比预期的更平滑、更逼真。

胜者：平局。Auraflow更接近印象派风格，但SD3更为详细和结构化。

现实主义

提示：“一张高分辨率的夜间繁华城市街道照片，霓虹灯照亮了现场，人们沿着人行道行走，汽车驶过，一个卖热狗的街头小贩，湿漉漉的人行道上的灯光反射，整体风格非常逼真，注重细节和照明，霓虹灯上写着‘解密’。”

听觉流：

优势：用霓虹灯和湿路面上的倒影捕捉充满活力的夜生活。现场热闹非凡，灯光效果也做得很好。缺点：一些细节，比如街头小贩和行人，不够清晰，看起来很卡通，影响了超现实的质量。霓虹灯的标志不够清晰。它具有一定程度的文本理解能力，但不足以令人信任。（热狗标志旁边写着“解密”，但几乎看不清。）

SD3介质：

优点：提供高水平的细节和清晰度，特别是在人物和物体的描绘方面。通过精确的照明和反射，可以很好地实现超现实主义风格。霓虹灯标志清晰，文字易读。缺点：场景可能看起来太乏味，缺乏繁华城市街道的自然混乱。没有街头小贩，只有热狗摊

获胜者：SD3 Medium提供了一个更详细、更逼真的图像，使其成为这个提示的更好模型。

插图

提示：“一只巨大的蜘蛛在丛林中追逐一个女人的手绘插图，极其可怕、痛苦、黑暗和令人毛骨悚然的风景，恐怖，模拟摄影影响的暗示，素描。”

听觉流：

优点：成功营造出一种黑暗而令人毛骨悚然的氛围。带有草图元素的手绘风格很明显。缺点：蜘蛛和女人的细节可能不足，使场景不那么可怕和激烈。

SD3介质：

优点：对蜘蛛和女人进行了非常详细和可怕的描绘。痛苦和恐怖元素更为明显。缺点：模拟摄影的影响不太明显，草图风格可能会被高水平的细节所掩盖。蜘蛛的一些肢体是不自然的

获胜者：SD3 Medium提供了一个更可怕、更详细的插图，使其成为这个提示的更好模型。

迅速遵守

提示：“一个超现实的数字艺术作品，描绘了一个漂浮在天空中的岛屿，岛上覆盖着郁郁葱葱的植被，瀑布倾泻到下面的云层中，岛中心有一座小城堡，连接其他漂浮岛屿的光桥，天空中满是五颜六色的热气球和神话般的生物，整体风格梦幻般，有梦幻元素和发光效果。”

听觉流：

优势：通过发光效果和鲜艳的色彩，很好地捕捉到奇幻和梦幻的元素。浮岛和瀑布被描绘得很漂亮。这些桥是由光组成的，神话生物在场景中得到了体现。缺点：一些元素，如光之桥和神话生物，可能缺乏细节和清晰度。

SD3介质：

优点：提供了一个非常详细和复杂的场景，具有更卡通的外观。弱点：这一代人的即时坚持较弱，它没有创造出光之桥，这些桥没有连接到其他岛屿，也没有神话生物。

获胜者：Auraflow捕获了提示中的所有元素，使其成为该提示的更好模型。

空间意识

提示：“一只狗站在电视上，屏幕上显示着‘解密’这个词。左边是一个穿着西装的女人，手里拿着一枚硬币，右边是一个机器人站在急救箱上。整体风景超现实。”

听觉流：

优点：创造超现实和富有想象力的场景。构图和空间布局很有趣。缺点：狗、机器人和女人的细节可能不够精细，影响整体效果。急救箱的十字架漏进了第二个盒子和机器人本身。文本生成很差。

SD3介质：

优点：对所有元素进行了非常详细和清晰的描述。通过精确的空间布局，超现实的氛围得到了很好的保持。整体场景不太现实。缺点：这个场景可能看起来不那么富有想象力，更直白。

获胜者：平局。SD3 Medium提供了更好的清晰度，使其成为此提示的更好模型。Auraflow也提供了这一代人的所有元素，并在空间理解方面表现出了良好的理解水平。

动漫和漫画

提示：“一位女忍者在日本古代与一位强大的武士作战，动漫、漫画，非常详细、丰富多彩、充满活力。”

听觉流：

优势：很好地捕捉到动漫和漫画的动态和丰富多彩的元素。动作场面充满活力，引人入胜。它的风格非常详细，更像是封面插图。缺点：它缺乏附着力，只产生女忍者，而不注意武士对手。

SD3介质：

优点：采用简单的二维漫画风格，使场景生动动态。缺点：颜色可能不那么鲜艳，影响整体活力。它未能捕捉到古代日本的风景。

获胜者：SD3 Medium提供了更详细和动态的描述，使其成为此提示的更好模型。两者都缺乏迅速遵守的关键要素。

结论

Auraflow擅长捕捉印象派、奇幻和异想天开的风格，而SD3 Medium更擅长提供细节、超现实和动态的场景。

这两个弱点都可以通过微调来调整，这就是法律战胜技术的地方。Auraflow的Apache 2.0开源许可证使其对微调者具有吸引力，允许在许可条款下免费使用、复制和分发，这与SD3不同，SD3在这方面更具限制性。因此，开始使用Auraflow可能更容易。但在此之前，这只是一个尚未实现的战略优势。

然而，Auraflow需要大量的VRAM才能运行，一些报告显示高达35 GB，远高于SD3，SD3只需要6 GB的VRAM。作为参考，亚马逊上24GB RTX 4090的价格高达1700美元，而能够运行SD3的6GB RTX3050的价格不到200美元。这是SD3目前相对于Auraflow的明显优势。

考虑到这一点，SD3 Medium目前是比较中更好的型号，由于其较低的硬件要求和可比的质量结果，服务于更广泛的用户群。

尽管如此，Auraflow仍展现出巨大的潜力。如果将来开发一个修剪（更小）或量化（更不精确）的版本来降低其硬件需求，Auraflow可能会成为一个强有力的竞争者，并可能通过其稳定扩散模型挑战Stability长期以来的主导地位。

声明：本文所述观点并非数字焦点的立场，不构成任何投资活动的邀约或建议。本文仅供参考。投资存在风险，请自行评估。转载需注明来源，违者必究！文章投稿请联系miqianbao@gmail.com

比特币ETF连续四周资金流入，市场等待本周特朗普在重磅加密货币大会上讲话

SHIB首席开发人员Kusama Shytoshi表示，在全球IT中断后，现在需要基于Web3的操作系统