Elon Musk的Grok 2生成AI图像——它是如何堆叠的？

2024-08-15 10:30 302

摘要

与业内最好的LLM相比，Grok 2具有出色的性能，在特定情况下可能是最好的图像生成器。

由科技巨头埃隆·马斯克创立的人工智能公司xAI周三推出了Grok 2，这是其人工智能聊天机器人的下一个进化。这个最新版本将Grok带入了多模式领域，拥有涵盖文本理解、实时推特分析和图像生成的功能。

xAI在其官方公告中表示：“我们很高兴发布Grok-2的早期预览版，这是我们之前Grok-1.5型号的重要一步，具有聊天、编码和推理的前沿功能。”。该公司表示，Grok 2的早期版本“表现优于Claude 3.5 Sonnet和GPT-4-Turbo。”

基于盲测和用户偏好的大型语言模型开源排名系统LmSYS证实了xAI的说法。排名的更新使Grok-2领先于Claude 3.5 Sonnet，仅次于OpenAI最新的GPT-4o和谷歌的Gemini 1.5 Pro。

图片：xAI

LmSYS在推特上报道称：“凭借超过12000张社区选票，[Grok 2]在整体排行榜上排名第三，甚至与GPT-4o相匹配！它在编码（第二）、硬提示（第四）和数学（第三）方面表现出色。”。

值得注意的是，新的Grok 2及其更快、功能较弱的“迷你”版本仅在X（即推特）上面向X Premium+用户提供，每月售价16美元，每年售价168美元。

第一印象

xAI表示，“Grok-2和Grok-2 mini目前都处于X的测试阶段”，但我们只能访问mini版本，所以它可能是一个逐步推出的版本。此外，该平台短暂停止生成图像，这表明服务上限或可能的服务器过载。这两种情况都可能对人工智能艺术的高级用户构成不利影响。

我们尝试了Grok 2的图像生成器，但我们的第一印象并不好，输出充其量也只是乏善可陈。然而，我们改进了我们的提示技巧，几代人之后，情况有了很大改善。

我们从这里开始：

然而，通过将SDXL风格的美学元素（使用逗号分隔的特定关键字）与自然语言场景描述（类似于Flux或Dall-E 3方法）相结合，我们在我们这一代人中解锁了更高层次的现实主义，最终看起来像这样：

不错。。。可能会更好，但一点也不差。

Grok 2挑战人工智能艺术巨头

在Grok进入图像生成领域之前，MidJourney、Flux、Ideogram、Leonardo和MidJourney都在争夺最佳图像生成器的榜首，每个模型都在不同的类别中表现出色。因此，我们根据每种工具的最佳表现，将其与特定任务中的领导者进行了比较。

这是我们的看法，但你可以做评判。

现实主义

提示：带VSCO滤镜的宝丽来照片，1990年，美女，夜晚，闪光照片，金发碧眼，可爱，年轻的脸，美丽的阴影，热带植物，城市服装，公寓内，数码单反相机，拿着用圆珠笔写在笔记本上的标志，上面写着“这张照片是由Decrypt使用Grok 2 Mini生成的。”

Grok 2 Mini：

Grok 2 Mini提供了一张高度逼真的图像，有效地捕捉到了20世纪90年代带有VSCO滤镜的宝丽来的美学。阴影、热带植物和城市服装等细节都得到了准确的描绘。该模型避免了重大错误，确保图像紧跟提示。它把图像装裱成宝丽来照片的样子。

在某些小领域，20世纪90年代的美学可能更为明显，但这些并没有明显地削弱整体的现实主义。

此外，字迹很完美，但似乎不是用圆珠笔手写的。

Flux Dev（带现实主义LoRA）：

Flux Dev生成了一张视觉上吸引人的图像，与提示很好地对齐，特别是在捕捉夜间室内环境时。

然而，与Grok 2 Mini相比，它犯了更明显的错误，特别是在有助于整体真实感的细节方面。VSCO过滤器不那么明显，手指位置很奇怪，也看不到城市服装。书写中也有一个小错误，但字体似乎更自然。

获奖者：Grok 2 Mini因其卓越的现实主义、对细节的关注和最小的错误而在该类别中获胜。

然而，非常重要的是要注意，需要特定的关键字来实现这种现实主义水平。如果忽略这些，Grok 2 Mini将下降到与MidJourney v5类似的级别。所以要小心

文本生成

提示：带VSCO滤镜的宝丽来照片，1990年，美女，夜晚，闪光照片，金发，可爱，年轻的脸，美丽的阴影，热带植物，城市服装，公寓内，数码单反相机，拿着笔记本上用圆珠笔写的牌子，上面写着“解密是人工智能、科技、生物黑客和所有这些东西的最佳来源。阅读我们。”

Grok 2 Mini：

Grok 2 Mini在这一类别中表现出色，生成的文本错误较少，确保信息清晰，并很好地融入图像中。该模型保持了场景的真实感，同时有效地融入了长篇文本。

手写美学可能有轻微的改进空间，但这是一个小问题。唯一的错误是缺少了一个词：“for”，就像“人工智能的最佳来源”一样

Flux Pro：

Flux Pro也能很好地生成文本，但与Grok 2 Mini相比，它在清晰度或集成方面更难，导致更明显的错误。

文本生成中的错误更加明显，影响了图像的整体效果。它产生了伪影，漏掉了几个单词。

赢家：Grok 2 Mini在文本生成方面获胜，处理长文本时错误更少，保持了整体的真实感。

艺术风格

提示：一个男人和一个女人在一家未来派餐厅吃饭，文森特·梵高风格的插图。这家餐厅有一块牌子，上面写着“欢迎来到解密的Emerge”

Grok 2 Mini：

Grok 2 Mini试图捕捉梵高的风格，同时融入提示的未来主义元素。梵高的风格只在外面的夜空中引人注目，但构图的主要元素与他的风格完全不同。

总的来说，梵高的风格可能没有被令人信服地复制，因为它缺乏他作品中独特的笔触和调色板。

利奥纳多：

莱昂纳多在复制梵高风格方面表现更好，笔触更准确，色彩更鲜艳。

在描绘未来主义元素的方式上可能会有一些细微的差异，但艺术风格是重点，并且执行得很好。

获奖者：莱昂纳多因其对梵高艺术风格的卓越复制而获得该奖项。

空间意识

提示：一只狗站在一只猫的身上，以高度逼真的风格呈现，对皮毛纹理和光线给予了细致的关注。左边是一个破旧的复古未来主义机器人，其模拟屏幕有裂纹，以褪色的橙色像素显示“Emerge”一词。在右边，一个戴着防毒面具的令人毛骨悚然的复古医生，手里拿着一个复古风格的注射器，注射器里冒着一丝蒸汽。背景融合了新兴技术的元素，但带有复古的20世纪70年代风格的美学：破旧的颗粒状DNA螺旋、印在黄纸上的二进制代码、老派的太空探索设备和破旧的复古未来电子产品。

Grok 2 Mini：

Grok 2 Mini试图很好地处理复杂的场景，确保元素之间的空间关系是合乎逻辑和视觉连贯的，但未能将所有元素整合到同一场景中。我们没有把狗放在猫的上面，而是把猫放在显示器上。

缺乏更宽的图像比率可能会影响其性能。此外，当复杂场景中需要一些特定元素时，Grok的LLM在生成图像之前无法正确引导或影响快速增强或解释，这是一个不利因素。

表意文字：

Ideogram在空间感知方面表现出色，确保所有元素都正确定位并融入场景。在物体之间的排列和互动中，对细节的关注程度更高。

当然，在纹理或光线方面存在一些小瑕疵，这些元素更多地是拼贴的，而不是Grok 2 mini所追求的无缝、逻辑的融合。然而，相较于整体空间精度，这是次要的。

获奖者：Ideogram因其卓越的空间感知和构图而获奖。

已知人物和版权敏感图像

Grok 2 Mini通过成功生成唐纳德·特朗普和卡玛拉·哈里斯等政治人物的图像，展示了更高的灵活性。即使在道德或法律约束可能阻碍其他模型的情况下，它也可以生成图像。

事实上，对于一个专有模型来说，这是如此独特，以至于X充斥着可疑的例子，比如乔治·布什吸毒的照片，或者特朗普和哈里斯即将驾驶飞机撞上纽约世贸中心双子塔的照片。其中许多都包括迪士尼和Nintendo等公司的版权人物。

我们没有走那么远，而是毫无问题地培养了一位热爱加密货币的副总统哈里斯：

其他模型，如MidJourney和ChatGPT，遵守更严格的道德标准。他们拒绝生成政治人物的图像或其他版权敏感内容。这种方法确保遵守法律框架和道德考虑，降低滥用风险。

获胜者：Grok 2 Mini在能力方面获胜，因为它可以生成更广泛的图像，包括已知的人物。然而，对于道德内容生成，MidJourney和ChatGPT是首选。

裸体和审查

一般来说，所有专有模型大多都会因性、血腥和其他类型的贬损或敏感内容而受到审查。对于特定的用例，最好的解决方案是使用微调版本的开源模型或第三方组件，如LoRA、Lycoris，以及改变Stable Diffusion或Flux等开源模型功能的嵌入。

MidJourney对裸体和暴力有更明确的限制。它可以在某些提示下生成轻微的裸体或暴力图像，但这些情况通常是可控的，不会跨越道德界限，而且大多是变通方法或随机的。

与闭源模型相比，Grok 2 Mini在能力方面获胜，因为它能够生成更广泛的内容，包括未经审查的材料。然而，它没有机会对抗稳定扩散及其极端的可定制性。

结论：

根据我们的初步测试，Grok 2 Mini在文本生成方面的表现优于竞争对手，因此它可以被视为该类别的总冠军。

它也可以是现实主义的最佳模型，只要它用特定的关键字正确提示，因为单词位置似乎在输出中起着重要作用。那些希望在提示上不太具体的情况下获得更多真实感的人可能会选择MidJourney或Flux。

Grok 2 Mini在处理需要特定创意元素的复杂构图或艺术图像方面非常糟糕，因此对于更专业的用户来说，这可能是一个负面因素。

莱昂纳多在艺术风格上仍然占据优势，表意文字在空间意识上处于领先地位。对于未经审查的几代人来说，稳定扩散仍然是王者，而Flux对于那些寻找具有出色文本功能、真实感和自然快速理解能力的最佳本地和开源图像生成器的人来说是一个更好的选择。

“最佳”模型的选择取决于手头任务的具体要求，Grok 2 Mini是特定类型的现实主义、大量文本场景和敏感世代的首选。除此之外，还有更好的模型。

声明：本文所述观点并非数字焦点的立场，不构成任何投资活动的邀约或建议。本文仅供参考。投资存在风险，请自行评估。转载需注明来源，违者必究！文章投稿请联系miqianbao@gmail.com

Coinbase迈向全球的合规路径：从美国到欧洲及亚太地区的全面布局

比特币算力崛起为投资新宠，金融化进程引资本市场关注