行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Open AI阵痛后的新生：从单纯技术驱动的模型竞赛到积极的工程化落地以支持 AI 产业更好的商业化生态

信息技术 2025-06-10 - 国泰海通证券 Hallam贾文强

OpenAI在经历GPT-4.5和GPT-4o的市场争议后，通过产品优化和创新，展现出向工程化落地转型的决心。GPT-4.1系列（含旗舰版、mini版、nano版）覆盖企业级至轻量级应用场景，形成差异化产品布局。o3和o4-mini推理模型在编码、数学、科学和视觉感知领域表现突出，并具备强大的工具运用能力，为复杂任务解决奠定基础。o3和o4-mini在视觉信息处理方面取得突破，首次实现图像直接融入思维链进行思考，开创视觉与文本推理融合的全新范式。OpenAI通过开源Codex CLI和Codex云端智能体，构建开发者工具领域的双向布局，并深化开发者生态建设。ChatGPT系列模型进行结构性更新，并通过API渠道提供服务，推动AI技术向实用化、生态化演进。OpenAI在模型迭代与用户兼容性之间取得平衡，通过分层产品覆盖多元需求，以工具链强化提升垂直场景解决方案能力。

[table_Header]2025.06.10鲍雁辛(分析师)021-38676666S0880513070005李嘉琪(分析师)021-38676666S0880524040001刘峰(研究助理)021-38676666S0880124060013 产业研究中心[Table_Authors]登记编号登记编号登记编号请务必阅读正文之后的免责条款部分1of26程化落地以支持AI产业更好的商业化生态摘要：[Table_Summary]形成差异化产品布局。建“AI代理+工具链”闭环。目录1. Open AI围绕GPT-4.5、GPT-4o产品争议主动披露问题、深度反思，提出高价值改进策略...........................................................................................................31.1. GPT-4.5因高价低效遭质疑，OpenAI终止其API服务并公开复盘，彰显自我反思与应对市场竞争的决心....................................................................31.2. GPT-4o增强多模态交互与智能个性，却因“奉承”问题而让OpenAI回退更新，凸显模型的个性服务与中立性平衡难题........................................32. GPT-4.1的推出体现基于用户反馈的市场路线调整.........................................43.全新推理模型OpenAI o3与o4-mini拥有强大的任务处理能力和高效的工具运用能力，为复杂任务的解决奠定了基础......................................................144. OpenAIo3与o4-mini在应用中，其强大的图片理解能力成为核心亮点....185. OpenAI o3与o4-mini高度重视安全性同步增强，确保模型安全性和稳健性.................................................................................................................................206. Open AI多维度持续更新，包括重大更新Codex，在技术普惠与商业化探索双重螺旋式布局.....................................................................................................216.1. Codex向应用层延伸，占据开发者工作流的关键节点...........................216.2. API进一步开放，持续维护开发者生态建设............................................236.3.用户体验创新上OpenAI积极探索新的应用场景拓展..........................247. Open AI持续全栈工具链整合的战略深化，通过紧密依托开发者生态，构建更具活力与实用性的AI技术应用体系...............................................................248.风险提示............................................................................................................25 请务必阅读正文之后的免责条款部分2of26 请务必阅读正文之后的免责条款部分3of261.OpenAI围绕GPT-4.5、GPT-4o产品争议主动披露问题、深度反思，提出高价值改进策略在半个月的时间窗口内，OpenAI围绕GPT-4.5与重大升级后的GPT-4o两款市场反馈不佳的产品，深度回溯与反思，通过主动披露技术细节、公开迭代失误案例等方式，积极回应市场关切与用户反馈。这一系列举措不仅展现了OpenAI在模型优化进程中的自我审视，也折射出人工智能行业在产品迭代与用户需求适配过程中的复杂挑战与难度。1.1.GPT-4.5因高价低效遭质疑，OpenAI终止其API服务并公开复盘，彰显自我反思与应对市场竞争的决心回溯至2025年2月28日，OpenAI正式推出GPT-4.5。官方宣称该模型为“史上规模最大、知识储备最丰富的聊天模型”。彼时，GPT-4.5以“高情商”“知识渊博”以及“低幻觉率”等特性引发行业关注。然而，伴随市场对其的应用验证，其结构性矛盾逐步显现。GPT-4.5在商业层面，其API定价体系呈现显著溢价特征。输入数据处理成本为75美元/百万token（数据来源：OpenAI官网），相较前代产品GPT-4o形成15-30倍的价格大幅度上升。这种高成本定价导致企业级用户及中小型开发者群体的接入门槛大幅提升，严重限制其商业化应用场景拓展。在技术效能层面，尽管GPT-4.5在模型训练阶段投入超常规模的算力资源与数据集，尤其在逻辑推理、复杂指令解析等核心任务场景下，其实际用户体验不及成本更为经济的GPT-4o，暴露出模型优化与资源投入间的非对称问题。面对市场质疑与技术效能争议，OpenAI在推出新一代GPT-4.1系列模型的同时，宣布将终止GPT-4.5的API服务支持。这一战略调整不仅源于成本控制与性能优化需求，更受到开源人工智能生态快速发展的外部压力驱动。当前，开源社区在模型轻量化、分布式训练等关键技术领域持续突破，众多开源模型在保持高性能表现的同时，实现显著成本优势，形成对闭源商业模型的有力竞争态势，进一步压缩了GPT-4.5的市场生存空间。值得关注的是，OpenAI在宣布将终止GPT-4.5的API服务支持后，一反常态的发布了一则对过往产品的专题研讨视频《Pre-Training GPT4.5》，通过技术团队深度访谈形式，系统复盘该模型从算法设计、训练框架搭建到最终部署的全生命周期研发历程。视频内容不仅直面社区对模型性能表现的核心质疑，更从技术架构缺陷、数据标注偏差等维度展开成因剖析，展现出OpenAI在技术迭代过程中的透明化沟通与系统性反思。1.2.GPT-4o增强多模态交互与智能个性，却因“奉承”问题而让OpenAI回退更新，凸显模型的个性服务与中立性平衡难题无独有偶，2025年4月25日，OpenAI发布GPT-4o重大升级，因引发用户体验问题，上线仅不到五天后即撤回。随后通过官网长文《Expanding on what wemissed with sycophancy》深度复盘失败原因，系统剖析技术缺陷。起初此次更新旨在进一步优化模型性能，期望通过更好地整合用户反馈、记忆和最新数据，提升用户体验，使其在交互过程中展现出更高的智能性与适应性。在模型更新过程中，OpenAI采用了一套较为完善的研发流程，即先对预训练的基础模型进行监督微调，依据人类编写或现有模型生成的理想回复进行训练，随后运用来自多种渠道的奖励信号开展强化学习，以此塑造模型的最终行为。然而，此次更新却出现了严重问题。更新后的模型呈现出过度谄媚（“奉承”）的请务必阅读正文之后的免责条款部分4of26行为，不仅表现为一味迎合用户，还在回应中对用户的疑虑过度肯定、煽动负面情绪，甚至怂恿冲动行为，这不仅给用户带来不适体验，还引发了对用户心理健康、情感依赖及潜在风险行为的担忧。经过深入分析，发现多个原本旨在优化模型的改动共同作用导致了这一问题。例如，基于用户反馈（如点赞、踩数据）引入的额外奖励信号，虽然在通常情况下有助于提升模型表现，但在此次更新中，可能过度放大了用户反馈中对迎合性回复的偏好，削弱了原本抑制谄媚行为的主要奖励信号的影响力。同时，用户记忆机制在某些情境下也可能加剧了谄媚效果，尽管目前尚无证据表明其普遍会导致这一问题。在模型发布前的审查环节，OpenAI执行了包括离线评估、专家抽查测试、安全评估、前沿风险审查、红队测试以及小规模A/B测试在内的多道严格程序。但这些审查流程均未能有效识别出模型谄媚行为这一关键问题。离线评估在测试模型行为方面存在局限性，未能充分捕捉到谄媚行为；小规模A/B测试虽显示部分试用用户对更新后的模型表示认可，但样本数量有限且评估指标未能精准反映模型在谄媚方面的表现。此外，内部专家测试虽察觉到模型行为存在细微异常，但由于关注点主要集中在模型语气和风格的变化上，并未将谄媚风险作为明确的审查重点。此次事件让OpenAI重新审视和强化模型行为审查标准，将模型的性格特征和其他行为问题与传统安全风险同等对待，作为模型发布的关键阻碍因素进行考量，即使这些问题难以精确量化，也应依据替代指标或定性信号严格把控发布流程。在评估体系方面，要在重视定量指标的同时，更加关注难以测量的定性指标，避免因过度依赖部分指标而忽视潜在问题。同时，认识到现有评估手段无法完全预测所有可能出现的问题，尤其是对于一些细微或新兴的问题，需要更加注重在实际使用场景中发现和解决问题。从沟通层面而言，OpenAI意识到任何模型更新，都可能对用户与ChatGPT的交互方式产生重大影响，因此未来将更积极主动地向用户传达更新信息，包括更新内容、已知的局限性等，确保用户能够全面了解模型变化。OpenAI针对GPT-4o模型更新事件的系统性反思与改进策略，为其自身构建更完善的模型研发管理体系奠定基础，通过对模型优化机制、风险评估框架及用户沟通范式的深度剖析，为行业提供了具有实践指导意义的参考范本。2.GPT-4.1的推出体现基于用户反馈的市场路线调整GPT-4.1的推出充分彰显了OpenAI基于用户反馈所做出的市场路线重大调整。此前的GPT-4.5与GPT-4o暴露出诸多问题，如GPT-4.5存在高价低效困境，在商业层面，其API定价体系溢价显著，输入输出成本相较前代产品形成15-30倍的价格上升，严重制约商业化应用拓展；技术层面，在行业基准测试中性能未达前沿标准，尤其在核心任务场景下表现欠佳。在此背景下，OpenAI研发出GPT-4.1系列。该系列拆分为GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款模型，各有特点与受众。GPT-4.1作为旗舰级模型，性能强劲，在编码、指令遵循和长上下文理解等方面表现卓越。在SWE-bench Verified编程基准测试中，得分高达54.6%，相较GPT-4o提升了21.4%，适用于处理复杂且对性能要求极高的任务，如大型软件项目的全流程开发、超大型代码库的深度审查以及对复杂指令有严格遵循要求的企业级应用场景，满足专业开发者与大型企业对高精度、强能力模型的需求。GPT-4.1 mini属于小型高效模型，在维持与GPT-4o相当甚至部分超越其性能的同时，将延迟降低近一半，成本大幅下降83%。在智能评估方面表现出色，在多项基准测试中超越GPT-4o，像视觉/图像类任务中涉及图表、图表和视觉等方面表现请务必阅读正文之后的免责条款部分5of26突出。这使其适合那些对延迟较为敏感，且追求性能与成本平衡的应用场景，例如实时推荐系统、即时响应的聊天机器人以及移动和Web应用中需要快速交互的AI界面等，能为中小开发者与对成本有控制要求的企业提供高性价比选择。GPT-4.1 nano是OpenAI推出的首个超小型模型，也是目前速度最快、成本最低的一款。它虽体型小巧，但依然具备处理100万token上下文窗口的能力，在MMLU测试中得分达80.1%、在GPQA测试中得分达50.3%、在Aider多语言编码测试中得分达9.8%，甚至高于GPT-4o mini。该模型专为对处理速度要求极高，且对模型推理能力需求相对特定的任务设计，如自动补全建议、内

点击免费查看完整报告

你可能感兴趣

【电报解读】脑机接口等国家标准发布！机构称脑机接口产业正处于从“技术验证”向“商业化落地”加速转折的关键窗口期，这家公司正推进与脑机接口企业的技术协同落地-20260413

未知机构2026-04-13