1秒出图,全球最快的开源Stable Diffusion出炉
机器之心发布
机器之心编辑部
OneFlow 将 Stable Diffusion 的推理性能推向了一个全新的 SOTA。
第一辆汽车诞生之初,时速只有 16 公里,甚至不如马车跑得快,很长一段时间,汽车尴尬地像一种“很酷的玩具”。人工智能作图的出现也是如此。
AI 作图一开始的 “风格化” 本身就为 “玩” 而生,大家普遍兴致勃勃地尝试头像生成、磨皮,但很快就失去兴趣。直到扩散模型的降临,才给 AI 作图带来质变,让人们看到了 “AI 转成生产力” 的曙光:画家、设计师不用绞尽脑汁思考色彩、构图,只要告诉 Diffusion 模型想要什么,就能言出法随般地生成高质量图片。
然而,与汽车一样,如果扩散模型生成图片时“马力不足”,那就没法摆脱玩具的标签,成为人类手中真正的生产工具。
起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?
显然,现在还无法给出具体答案。即便如此,可以确定的是 AI 作图在技术和速度上的突破,很可能已经接近甚至超过阈值,因为这一次,OneFlow 带来了字面意义上 “一秒出图” 的 Stable Diffusion 模型。
OneFlow Stable Diffusion 使用地址:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-DiffusionOneFlow 地址:https://github.com/Oneflow-Inc/oneflow/比快更快,OneFlow 一马当先
下面的图表分别展示了在 A100 (PCIe 40GB / SXM 80GB)、RTX 2080 和 T4 不同类型的 GPU 硬件上,分别使用 PyTorch, TensorRT, AITemplate 和 OneFlow 四种深度学习框架或者编译器,对 Stable Diffusion 进行推理时的性能表现。


对于 A100 显卡,无论是 PCIe 40GB 的配置还是 SXM 80GB 的配置,OneFlow 的性能可以在目前的最优性能之上继续提升 15% 以上。
特别是在 SXM 80GB A100 上,OneFlow 首次让 Stable Diffusion 的推理速度达到了 50it/s 以上,首次把生成一张图片需要采样 50 轮的时间降到 1 秒以内,是当之无愧的性能之王。

在 T4 推理卡上,由于 AITemplate 暂不支持 Stable Diffsuion,相比于目前 SOTA 性能的 TensorRT,OneFlow 的性能是它的 1.5 倍。

而在 RTX2080 上,TensorRT 在编译 Stable Diffsuion 时会 OOM ,相比于目前 SOTA 性能的 PyTorch,OneFlow 的性能是它的 2.25 倍。
综上,在各种硬件以及更多框架的对比中,OneFlow 都将 Stable Diffusion 的推理性能推向了一个全新的 SOTA。
生成图片展示
利用 OneFlow 版的 Stable Diffusion,你可以把天马行空的想法很快转化成艺术图片,譬如:
以假乱真的阳光、沙滩和椰树:

仓鼠救火员、长兔耳朵的狗子:

在火星上吃火锅:

未来异世界 AI:

集齐 OneFlow 七龙珠:

上述图片均基于 OneFlow 版 Stable Diffusion 生成。如果你一时没有好的 idea,可以在 lexica 上参考一下广大网友的创意,不仅有生成图片还提供了对应的描述文字。

无缝兼容 PyTorch 生态,实现一键模型迁移
想体验 OneFlow Stable Diffusion?只需要修改三行代码,你就可以将 HuggingFace 中的 PyTorch Stable Diffusion 模型改为 OneFlow 模型,分别是将 import torch 改为 import oneflow as torch 和将 StableDiffusionPipeline 改为 OneFlowStableDiffusionPipeline:

之所以能这么轻松迁移模型,是因为 OneFlow Stable Diffusion 有两个出色的特性:
OneFlowStableDiffusionPipeline.from_pretrained 能够直接使用 PyTorch 权重。OneFlow 本身的 API 也是和 PyTorch 对齐的,因此 import oneflow as torch 之后,torch.autocast、torch.float16 等表达式完全不需要修改。上述特性使得 OneFlow 兼容了 PyTorch 的生态,这不仅在 OneFlow 对 Stable Diffusion 的迁移中发挥了作用,也大大加速了 OneFlow 用户迁移其它许多模型,比如在和 torchvision 对标的 flowvision 中,许多模型只需通过在 torchvision 模型文件中加入 import oneflow as torch 即可得到。
此外,OneFlow 还提供全局 “mock torch” 功能,在命令行运行 eval $(oneflow-mock-torch) 就可以让接下来运行的所有 Python 脚本里的 import torch 都自动指向 oneflow。
使用 OneFlow 运行 Stable Diffusion
在 docker 中使用 OneFlow 运行 StableDiffusion 模型生成图片:
docker run --rm -it \ --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \ -v ${HF_HOME}:${HF_HOME} \ -v ${PWD}:${PWD} \ -w ${PWD} \ -e HF_HOME=${HF_HOME} \ -e HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} \ oneflowinc/oneflow-sd:cu112 \ python3 /demos/oneflow-t2i.py # --prompt "a photo of an astronaut riding a horse on mars"更详尽的使用方法请参考:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion
后续工作
后续 OneFlow 团队将积极推动 OneFlow 的 diffusers(https://github.com/Oneflow-Inc/diffusers.git) 和 transformers(https://github.com/Oneflow-Inc/transformers.git) 的 fork 仓库内容合并到 huggingface 上游的的对应仓库。这也是 OneFlow 首次以 transformers/diffusers 的后端的形式开发模型,欢迎各位开发者朋友在 GitHub 上反馈意见。
值得一提的是,在优化和加速 Stable Diffusion 模型的过程中使用了 OneFlow 自研编译器,不仅让 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快,而且也可以让这样的模型在国产 AI 芯片和 GPU 上跑得更快,这些将在之后的文章中揭秘技术细节。
大家都在看
-
全球最快轰炸机:13000公里作战半径,美军为何害怕 说起轰炸机,大家可能最先想到的就是美国B-2轰炸机。作为世界上唯一一种隐身战略轰炸机,确实就是轰炸机中的明星。但是军事大国不止只有美国,俄罗斯也是军事大国。要问俄罗斯最先进的轰炸机,就不得不说图-160了。 ... 世界最快06-12
-
132GHz!中科院研制出世界最快硅-石墨烯-锗晶体管!!! 到底突破了什么?6月8日,中科院传来了一个振奋人心的好消息:我国科学家成功研制出了国际上首款硅-石墨烯-锗势垒晶体管,其截止频率达到了132GHz,创下了世界纪录。而且,这还远远不是终点。从理论上讲,这种新型晶 ... 世界最快06-10
-
全球最快!12.8T光模块亮相光博会 产业链预研加速 光通信圈热议“超级周期” 财联社5月20日讯(记者 付静)AI算力基建浪潮席卷全球,光通信正经历超级周期,其中最受关注的光模块可谓AI时代“数据血脉”。日前,财联社记者在武汉光谷举行的第二十一届“中国光谷”国际光电子博览会(以下简称“ ... 世界最快05-26
-
曝GPT-5.5用上“全球最快芯片”,Claude慌了 120B模型飙到2000 token/秒,CFO更放话已在跑GPT-5.5!Cerebras 560亿美元IPO首日暴涨68%,但SemiAnalysis万字拆解直指死穴。SemiAnalysis,硅谷最硬核的芯片分析机构,4月份光是AI工具的订阅费就烧到了年化1000万美 ... 世界最快05-23
-
“九章四号”造出来了!速度比全球最快超算还要快10的54次方倍? 文:纵马封川编辑:离歌5月13日这个周三,国际顶级学术期刊《自然》杂志一篇论文刷屏了。中国人把"九章四号"造出来了!什么概念?25微秒对10的42次方年,比目前全球最快的超级计算机还要快10的54次方倍。25 ... 世界最快05-20
-
苏州小伙,全球爬得最快 5月10日2026年世界攀联攀岩世界杯(中国吴江汾湖)圆满落幕在当晚举行的男子速度赛决赛中苏州17岁小将赵一程在家乡父老的注视下斩获男子速度赛金牌上演了“12天两破世界纪录”的传奇时刻苏州选手赵一程(左)作为中 ... 世界最快05-15
-
“九章四号”造出来了,速度比全球最快超算还要快10的54次方倍 “九章四号”造出来了,助力我国再次站上量子计算之巅峰。据央视新闻5月13日报道,中国科学技术大学潘建伟、陆朝阳等团队联合多家机构,成功研制出九章四号可编程光量子计算原型机,一举刷新光量子计算全球纪录,科 ... 世界最快05-14
-
10年升0.56℃!报告警示:欧洲变暖最快,超全球平均速度两倍 如果说全球变暖是一场缓慢燃烧的大火,那么欧洲可能已经站在最靠近火焰的地方。最新发布的《2025年欧洲气候状况》报告表明,欧洲是全球变暖最快的大陆。不是最热的地方,却是升温速度最惊人的大陆之一。世界气象组织 ... 世界最快05-13
-
实现50分钟成渝通勤!“全球最快高铁”,要来了 据央视新闻报道被称作“全球最快高铁”的CR450动车组正在沪渝蓉高铁开展运用考核明年将会在成渝中线展开更接近运营条件的全面测试2021年,“十四五”规划102项重大项目之一的CR450科技创新工程启动,去年年底,CR450 ... 世界最快05-13
-
造车8个月,它带来了全球最快的车 中国正式成为了全球顶尖的汽车大国,随便一家企业入场造车都是手拿把掐,从宣布造车到实车发布,只需要8个月时间!放眼全球,有哪个品牌能如此“高效”?用火箭般的速度,打造了速度媲美火箭的超跑,实现这一壮举的 ... 世界最快05-04
相关文章
- 苏州小伙,全球爬得最快
- “九章四号”造出来了,速度比全球最快超算还要快10的54次方倍
- 世界上最快的脚步,不是冲刺而是坚持
- 10年升0.56℃!报告警示:欧洲变暖最快,超全球平均速度两倍
- 实现50分钟成渝通勤!“全球最快高铁”,要来了
- 造车8个月,它带来了全球最快的车
- 世界上崛起速度最快的小国,从濒临亡国到区域霸主,只用了50年
- 诺奖得主与沪上大中学生畅谈发明世界上“最快的相机”
- 发明世界上“最快的相机”,诺奖得主复旦开讲!
- 10个世界上最快的人造物,打破了物理限制,快到让你怀疑人生。
- 世界最快科学装置是什么
- 报告:中国成为世界上增绿最多最快的国家
- 本田翼在电视节目上坦白了洗澡时间 在场人员吃惊:“世界最快?”
- 速度达10米/秒 全球最快人形机器人Bolt正式发布
- 世界最快!时速800公里,在武汉!
- 世界上最快的人!奔跑时速48公里,比猎豹还快
- 两小时建交,全球最快,背后到底图啥?
- 全球最快高铁要来了,时速453公里刷新纪录,明年将开展全面测试
- 全球最快的 10 列超级列车:第一名时速 603 公里,比客机起飞还快 50%
- 时速800公里!世界最快!就在湖北
热门阅读
-
世界最快的个人潜艇,数秒潜入100米 09-29
-
世界上最快的手指,一秒钟敲击琴键13次 10-12
-
世界上速度最快的卡车,能达到每小时644公里 10-28
-
世界上飞行最快的鸟,灵活的军舰鸟 04-26
