(资料图片仅供参考)
如今,人工智能和深度学习不断成为头条新闻,无论是ChatGPT生成糟糕的建议、自动驾驶汽车、被指控使用人工智能的艺术家、人工智能的医疗建议等等。这些工具中的大多数都依赖于具有大量硬件的复杂服务器来进行训练,但是可以在您的PC上使用其显卡通过推理使用经过训练的网络。但是消费类GPU进行AI推理的速度有多快?
我们在最新的Nvidia、AMD甚至英特尔GPU上对流行的AI图像创建器StableDiffusion进行了基准测试,以了解它们的性能如何。如果您偶然尝试在您自己的PC上启动并运行StableDiffusion,您可能对它的复杂性或简单性略有了解!-可以。简短的总结是Nvidia的GPU占据主导地位,大多数软件都是使用CUDA和其他Nvidia工具集设计的。但这并不意味着您无法在其他GPU上运行StableDiffusion。
我们最终使用三个不同的StableDiffusion项目进行测试,主要是因为没有一个包适用于每个GPU。对于Nvidia,我们选择了Automatic1111的webui版本(在新标签页中打开);它表现最好,有更多选择,而且很容易上手。AMDGPU使用Nod.ai的Shark版本进行了测试(在新标签页中打开)—我们检查了NvidiaGPU的性能(在Vulkan和CUDA模式下),发现它……缺乏。由于缺乏支持,让英特尔的ArcGPU运行起来有点困难,但StableDiffusionOpenVINO(在新标签页中打开)给了我们一些非常基本的功能。
免责声明是有序的。我们没有编写任何这些工具的代码,但我们确实在寻找易于运行(在Windows下)并且似乎也经过合理优化的东西。我们相对有信心Nvidia30系列测试在提取接近最佳性能方面做得很好——尤其是在启用xformers时,它提供了大约20%的额外性能提升(尽管精度降低可能会影响质量)。同时,RTX40系列结果最初较低,但GeorgeSV8ARJ提供了此修复(在新标签页中打开),其中替换PyTorchCUDADLLs给性能带来了健康的提升。
AMD的结果也有点喜忧参半:RDNA3GPU表现非常好,而RDNA2GPU似乎相当平庸。Nod.ai让我们知道他们仍在为RDNA2开发“调整”模型,一旦可用,它们应该会大大提高性能(可能翻倍)。最后,在英特尔GPU上,尽管最终性能似乎与AMD选项相当,但实际上渲染时间要长得多——实际生成任务开始需要5-10秒,而且可能需要很多额外的背景东西正在发生,这会减慢它的速度。
由于软件项目的选择,我们还使用了不同的稳定扩散模型。Nod.ai的Shark版本使用SD2.1,而Automatic1111和OpenVINO使用SD1.4(尽管可以在Automatic1111上启用SD2.1)。同样,如果您对StableDiffusion有一些内部知识,并且想推荐可能比我们使用的运行得更好的不同开源项目,请在评论中告诉我们(或者发送电子邮件给Jarred(在新标签页中打开)).
我们的测试参数对于所有GPU都是相同的,尽管在Intel版本上没有否定提示选项的选项(至少,我们找不到)。上面的图库是在NvidiaGPU上使用Automatic1111的webui生成的,具有更高分辨率的输出(需要更长、更长时间才能完成)。这是相同的提示,但目标是2048x1152而不是我们用于基准测试的512x512。请注意,我们选择的设置适用于所有三个SD项目;一些可以提高吞吐量的选项仅适用于Automatic1111的构建,但稍后会提供更多。以下是相关设置:
肯定提示:
后世界末日蒸汽朋克城市,探索,电影,逼真,超详细,逼真最大细节,体积光,(((focus))),广角,(((brightlylit))),(((vegetation))),闪电,藤蔓,破坏,破坏,wartorn,废墟