这两天如果你还把 GPT Image 2 当成“又来了一个更强的生图模型”,那我觉得有点看轻它了。

我真正盯着看的,不是它又把画质往上抬了多少,也不是社交平台上又冒出多少“看起来像真的”截图。

而是另一件更值钱的事:它开始被接进工作流了。

这一步一旦走通,味道就完全不一样了。

以前很多生图模型,最大的问题不是不能看。

是不好接。

你单独打开一个网页,输提示词,出一张图,惊呼一下,发个朋友圈,这当然也算“能用”。

但真到日常干活的时候,问题马上就来了:图要不要反复改?能不能放进现有流程?和写作、代码、页面、文档、自动化任务能不能串起来?

一旦开始问这些,很多“很强”的模型,立马就没那么强了。

所以这次我对 GPT Image 2 的判断,其实挺直接。

它最值得看的,不只是成图能力,而是它正在从“单点体验”往“工作流组件”走。

这件事,Hermes 和 Codex 这两边的变化,刚好能看得很清楚。

先说结论

如果你只是想偶尔玩一玩图片,GPT Image 2 当然也有吸引力。

但如果你平时就在折腾 Agent、自动化、内容生产、前端页面、产品原型,那它现在真正吓人的地方,不是更会画了,而是更容易被接进你的主力工具链了。

这才是我觉得它这次“不太一样”的原因。

GPT Image 2 这次放开的,不只是一个模型名

我翻了 OpenAI 开发者文档,这次给得其实已经很明确了。

官方写的是:最新的 gpt-image-2,现在既可以走 Image API,也可以走 Responses API。

这两个入口的差别,不只是接口名字不同。

它背后代表的是两种完全不同的使用姿势。

如果你只想根据一句提示词直接生成一张图,那走 Image API 就够了,简单,直接,适合单次出图。

但如果你想把图片生成放进多轮对话、放进 Agent 流程、放进连续修改任务里,那 Responses API 才是更关键的那个入口。

因为它支持把图片生成当成工具来调用,还支持多轮编辑、带着上下文继续改,甚至还能用 previous_response_id 接着前一轮往下走。

这意味着什么?

意味着以后“先写文案,再出图,再改图,再把图塞进页面或文档”这种事,不用再拆成五六个孤岛动作了。

模型、图片、上下文、任务流,开始能接起来了。

这个变化,比单纯讨论“它比谁更清晰”“它比谁更有氛围感”,重要得多。

因为画得再好,如果接不进流程,最后也容易沦为演示。

Hermes 这一侧,最大的价值不是花样更多,而是入口更顺了

Hermes 这边我最近也一直在看。

它之前最容易把人劝退的,说白了就一句话:能力很多,真接起来有点累。

搜索一套,出图一套,浏览器一套,语音再来一套。

Agent 还没开始认真干活,人先在配钥匙了。

但 0.10.0 这一轮之后,Hermes 已经把 image generation 明确放进自己的工具层里了。

从公开文档看,Hermes 现在的 image generation 已经是标准能力,能走 FAL,也能走 Nous 的 Tool Gateway。官方 release note 里也明确把 image generation 列进了 Gateway 的四大能力之一,和 web search、text-to-speech、browser automation 放在同一层。

这件事表面上看像是“又多了一个工具”。

实际上不是。

它真正值钱的地方,是把图片生成从外挂,往内建能力挪了一步。

这一步很关键。

因为一旦生图能力进入统一工具层,后面它就不再只是“顺手玩一下”的功能,而是可以跟检索、浏览器操作、写作、总结这些动作接成链路。

比如一篇内容稿,先查资料,再整理观点,再顺手生成配图。

比如一个产品方案,先梳理需求,再补一张示意图。

比如一个自动化任务,前面几步都是文字和网页,最后一步直接把封面图吐出来。

这种体验,和以前专门跳去另一个站点生图,再把图拖回来,差别真的很大。

当然,这里我也得说实话。

Hermes 当前公开文档里,明确列出来的是 fal-ai/gpt-image-1.5 这类模型入口,Tool Gateway 也已经把 image generation 作为统一能力接进来了。换句话说,Hermes 这边最重要的进展,是图像生成已经进入它的工具链框架,接下来官方模型层继续往 GPT Image 2 跟进,反而更像时间问题。

我个人会把这理解成:路已经铺好了。

而且是主路,不是小路。

Codex 这一侧,更吓人的是“图片开始进入 Agent 工作流”

很多人看到 Codex,第一反应还是写代码。

这当然没错。

但如果你看最近 OpenAI 开发者文档和 Codex changelog,会发现它正在往更完整的工作台走。

尤其是这轮更新之后,Codex 一边在补 in-app browser、computer use、artifact viewer 这些能力,一边 OpenAI 又把 image generation 明确做成了 Responses API 里的工具能力。

这两个信号放在一起看,就很有意思了。

它不再只是“会写代码的助手”。

而是越来越像一个能处理多模态任务的 Agent 工作台。

文档里写得很清楚:在 Responses API 里,图片生成可以作为内置工具被调用;不仅能生成,还能在多轮上下文里持续编辑;需要的时候还能强制 generate 或 edit。

这意味着什么?

意味着 Codex 这类以任务流为核心的产品,后面接 GPT Image 2,不是“能不能做”的问题,而是“会做成什么体验”的问题。

这才是重点。

因为对真正干活的人来说,最烦的从来都不是模型不够强。

而是流程割裂。

你写了一段 landing page 文案,接着要做配图。

你画了一个产品说明页,又要补几张插图。

你让 AI 改前端页面,结果还得自己另外找地方做 hero image。

这种来回切换,特别伤流畅度。

一旦图片生成被放进同一条任务链里,很多事情就顺了。

写、改、看、调、出图,可以在一个上下文里连续发生。

这个体感差异,不是“多了一个功能”能概括的。

这是工作方式在变。

所以我为什么觉得这次更值得认真看

因为它说明了一件事:

生图模型这条线,已经开始从“比效果”走到“比接入”。

前几年大家卷的是谁更像,谁更快,谁更惊艳。

现在这些当然还重要。

但对真正长期用工具的人来说,已经不够了。

接下来更值钱的判断标准,我觉得至少有三个。

第一,能不能稳定进入工作流。

第二,能不能支持连续修改,而不是每次都重新开一局。

第三,能不能和文字、网页、代码、文档这些任务自然串起来。

谁先把这三件事做好,谁就更像主力工具。

谁只会出几张“哇塞”的图,最后大概率还是停在展示层。

这也是为什么我会觉得 GPT Image 2 这次更危险一点。

不是因为它又赢了一张海报。

而是因为它正在被接进真正的生产链条。

哪些人现在最该盯着它看

如果你是下面这几类人,我觉得这波要认真看,不是看热闹。

第一类,做内容的人。

尤其是那种平时既要写字,又要配图,还要反复改封面和插图的人。你会很快感受到,图像能力一旦进入同一套工作流,省下来的不是一步,而是一串动作。

第二类,做产品和前端的人。

很多页面工作,本来就不是纯代码问题,而是文案、结构、视觉、截图、插图混在一起的问题。图片生成如果能直接挂进任务流,很多事就没必要拆开做了。

第三类,折腾 Agent 和自动化的人。

这一类人最该看的,从来都不是“模型榜单”。

而是“哪个能力终于能接进链条了”。

因为一旦接进去,后面能玩的就不是一个功能,而是一整套流程。

反过来讲,如果你现在只是偶尔随手出图,没连续修改需求,也没有工作流整合需求,那倒不用急着吹得太猛。

你可能只会觉得:嗯,图更好了。

但这还不是它最狠的地方。

我自己的判断

我现在越来越觉得,下一阶段真正能打的生图模型,比的已经不是谁更像设计师。

而是谁更像基础设施。

能不能被接进 Agent。

能不能被接进工作流。

能不能在连续任务里不掉线。

这三件事,比再多几张惊艳样片都更值钱。

所以 GPT Image 2 这次在我这里,意义并不只是“OpenAI 又发了个更强的生图模型”。

而是它把一个信号放得很明确:图片生成,正在从展示能力,往主流程能力里挤。

Hermes 这边,工具层已经铺路了。

Codex 这边,Agent 工作流也已经把图像生成纳进来了。

这就不是小修小补了。

这说明生图这件事,正在从“单独玩”变成“顺手用”。

而一旦一个能力开始变成“顺手用”,它离真正普及,通常就不远了。

如果你问我这波该怎么看,我的答案很简单。

先别只盯着它画得有多好看。

先看它是不是已经开始悄悄进入你每天会用的那条链路。

这个变化,才更大。