行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

OpenAI发布Images20把思考能力带到图像生成0422

2026-04-22 未知机构米软绵gogo

大模型厂商在近期各领风骚，OpenAI的Images 2.0发布将“思考”能力引入图像生成，显著提升性能。

核心观点：OpenAI Images 2.0在图像生成中引入“思考”能力，通过实时信息搜索、多图生成和输出复核，生成更准确和及时的图像内容。
关键数据：ELO得分1512 vs 1271，完爆Nano Banana 2；Codex用户达400万。
技术突破：支持实时信息搜索、多图生成、输出复核，知识截止日期为2025年12月，提升说明图、教育图表和视觉摘要能力。
算力与用户：OpenAI利用算力优势，一边Anthropic限制用户，一边狂揽用户，印证“算力=token=收入=用户”逻辑。
研究结论：OpenAI将文本模型的“思考”能力复用至多模态生成，印证“LLM和多模态模型底层Know-How可复用”，全模态能力或将受益。

大模型厂商“各领风骚一百天”，历历在目。评分：完爆Nano Banana 2，真正意义上的，ELO得分1512 vs 1271。甚至官网新闻介绍都有一个图像模式，介绍文字生成在图像上，非常准确，大家可以去搜官网新闻体验下，真会秀。 OpenAI发布Images 2.0，把“思考”能力带到图像生成！（0422）@华泰计算机大模型厂商“各领风骚一百天”，历历在目。评分：完爆Nano Banana 2，真正意义上的，ELO得分1512 vs 1271。甚至官网新闻介绍都有一个图像模式，介绍文字生成在图像上，非常准确，大家可以去搜官网新闻体验下，真会秀。最大变化：在图像生成中引入“思考”能力可以在网络上搜索实时信息、根据一个提示创建多张互不相同的图像，并对自己的输出进行复核。引入了对世界更新、更及时的理解，知识截止日期为2025年12月，从而生成更相关且在语境上更准确的输出，加强对说明图、教育图表和视觉摘要的能力。其他支持纵横比自定义、一致性、文字准确性、2K分辨率都显得稀松平常了。干什么：1）大模型：MiniMax 智谱。 OpenAI已经把文本模形特有的思考，用到了多模态的生成中，印证了0417我们说的“LLM和多模态模型有大量底层Know-How可复用”，全模态能力或将受益。 2）算力就是token_就是收入_就是用户。直接复用OpenAI的原话“当在ChatGPT中选择“思考型模型”时，模型会花更多时间并在后台以更具代理性的方式深入理解并执行任务”。一边Anthropic不停限制用户，一边OpenAI借着算力优势狂揽用户，Codex的用户已经到了400万。

点击免费查看完整报告

OpenAI发布Images20把思考能力带到图像生成0422

你可能感兴趣

全球科技行业周报：OpenAI发布视频与音频生成模型Sora2，腾讯混元图像3.0开源并登顶

传媒行业周报：阿里开源端到端全模态大模型，OpenAI全量开放GPT-4o图像生成能力

人工智能第一团队民生计算机火线速递OpenAI发布全新模型sCM图像生成

【掘金行业龙头】多模态+AIGC，多模态大模型进入实验性训练阶段，AIGC产品覆盖图像、音乐、文本、编程等多模态内容生成能力，这家公司已发布多个AI助手

传媒行业周观察：OpenAI年化营收超13亿美元，开发可高精度检测AI生成图像工具

互联网传媒行业周报（20240506-20240512）：周观点：OpenAI推出AI生成图像检测工具，月之暗面上线Kimi+功能

百度文心大模型4.5系列开源，字节发布图像生成新模型Xverse

传媒行业跟踪报告：谷歌发布Nano Banana2图像生成模型，完美世界《异环》定档

传媒行业跟踪报告：字节、阿里、谷歌升级发布AI视频及图像生成模型，广电总局整治不良动画微短剧

【财联社早知道】全球首个影视行业大模型！PixVerse C1正式发布，机构称AI视频及图像生成技术规模化商用落地进程显著提速，这家公司基于自己的大模型打造了一站式AI视频创作工作台-20260409