Stabilit推出StableDiffusion3称效果优于同类产品

Stabilit推出StableDiffusion3称效果优于同类产品-3

Stability AI发布了全新的图像合成模型Stable Diffusion 3,开放了权重。该模型据称在图像和文本生成方面有显著改进。Stability首席执行官表示,模型采用了新型扩散变压器架构,结合了流匹配技术。尽管尚未广泛可用,但可供测试完成后免费下载。

Stability AI于周四宣布推出了全新的图像合成模型Stable Diffusion 3,该模型开放了权重,并据称与先前版本相比在图像生成和文本生成方面取得了显著改进。尽管公告内容简短且未提供公开演示,但Stability已经开放了等待名单,供有意尝试者报名。

尽管目前Stab le Diffusion 3仅提供给特定合作伙伴,但稳定AI和AI爱好者正在分享其输出与来自SDXL、MidJourney和Dall-E 3等类似提示的结果的比较。从各种迹象来看,SD3在总体质量上优于竞争对手。

据Stability称,Stable Diffusion 3系列模型的规模从8亿到80亿参数不等,旨在满足不同设备的需求,从智能手机到服务器皆可本地运行。模型的参数大小直接影响其生成图像的细节程度,并且较大的模型需要更多GPU加速器的VRAM才能运行。

自2022年以来,Stability推出了一系列AI图像生成模型,包括Stable Diffusion 1.4、1.5、2.0、2.1、XL、XL Turbo以及最新的3版本。Stability以提供更开放的替代方案而闻名,其Stable Diffusion模型一直以开放权重和源代码可用而著称,与像OpenAI的DALL-E 3等专有图像合成模型形成鲜明对比。

Stability首席执行官Emad Mostaque在一份声明中指出:“这款模型采用了一种新型扩散变换器(类似Sora),结合了流匹配和其他改进,充分利用了变压器的改进,不仅能够进一步扩展,还可以接受多模态输入。”

Stable Diffusion 3系列采用了扩散变换器架构,这种架构是一种新颖的图像生成方法,不同于传统的图像构建块,而是通过处理图像的小部分来创建图像。该方法的灵感来自于Transformer,它擅长处理模式和序列,据称能够高效扩展并生成高质量的图像。

此外,Stable Diffusion 3还利用了流匹配技术,这是一种平滑生成图像的方法,无需模拟每一步的过程,而是专注于整体方向或流动。

尽管Stable Diffusion 3尚未广泛可用,但据其他人提供的样本显示,该模型在文本生成方面表现出色,并且提示的忠实度似乎与DALL-E 3相似。Stability表示,一旦测试完成,权重将可以免费下载并在本地运行。

Stability近期一直在尝试各种图像合成架构,最近推出的Stable Cascade模型采用了一个三阶段的过程进行文本到图像的合成。

版权声明:
作者:小火箭
链接:https://www.xiaohuojian6.top/482.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>