您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:OpenAI发布Images20把思考能力带到图像生成0422 - 发现报告

OpenAI发布Images20把思考能力带到图像生成0422

2026-04-22 未知机构 米软绵gogo
报告封面

大模型厂商“各领风骚一百天”,历历在目。 评分:完爆Nano Banana 2,真正意义上的,ELO得分1512 vs 1271。 甚至官网新闻介绍都有一个图像模式,介绍文字生成在图像上,非常准确,大家可以去搜官网新闻体验下,真会秀。 OpenAI发布Images 2.0,把“思考”能力带到图像生成!(0422)@华泰计算机 大模型厂商“各领风骚一百天”,历历在目。 评分:完爆Nano Banana 2,真正意义上的,ELO得分1512 vs 1271。 甚至官网新闻介绍都有一个图像模式,介绍文字生成在图像上,非常准确,大家可以去搜官网新闻体验下,真会秀。 最大变化:在图像生成中引入“思考”能力可以在网络上搜索实时信息、根据一个提示创建多张互不相同的图像,并对自己的输出进行复核。 引入了对世界更新、更及时的理解,知识截止日期为2025年12月,从而生成更相关且在语境上更准确的输出,加强对说明图、教育图表和视觉摘要的能力。 其他支持纵横比自定义、一致性、文字准确性、2K分辨率都显得稀松平常了。 干什么:1)大模型:MiniMax 智谱。 OpenAI已经把文本模形特有的思考,用到了多模态的生成中,印证了0417我们说的“LLM和多模态模型有大量底层Know-How可复用”,全模态能力或将受益。 2)算力就是token_就是收入_就是用户。 直接复用OpenAI的原话“当在ChatGPT中选择“思考型模型”时,模型会花更多时间并在后台以更具代理性的方式深入理解并执行任务”。 一边Anthropic不停限制用户,一边OpenAI借着算力优势狂揽用户,Codex的用户已经到了400万。