(注:以下信息汇总自Twitter最新核心账号) ✏ 1.模型发布与性能突破 • OpenAI:发布GPT-5.3-Codex,针对NVIDIA GB200-NVL72架构优化。 SamAltman指出该模型在SWE-Bench Pro等基准测试达SOTA,且具备“性格选择”(务实/友好)和实时任务 AI简报(2026-02-06晚报)@华泰计算机 (注:以下信息汇总自Twitter最新核心账号) ✏ 1.模型发布与性能突破 • OpenAI:发布GPT-5.3-Codex,针对NVIDIA GB200-NVL72架构优化。 SamAltman指出该模型在SWE-Bench Pro等基准测试达SOTA,且具备“性格选择”(务实/友好)和实时任务操控力。 • Anthropic:发布Claude Opus 4.6,在规划能力与长时智能体任务上显著提升。 实验中智能体团队耗时2周自主构建了可运行Linux内核的C编译器。 其ARC v2分数提升至69%。 • NVIDIA (JimFan):推出DreamZero (14B World Action Model)。 强调物理AI (Physical AI)应建立在“世界模型”而非“语言骨干”之上,实现机器人的零样本/少样本迁移。 ✏ 2.工业与科研应用 • OpenAI + Ginkgo: GPT-5接入自动化实验室实现闭环实验,将蛋白质生产成本降低40%,发现了人类此前未曾覆盖的优化组合。 • DeepMind: Gemini在Kaggle Game Arena(狼人杀、扑克、国际象棋)中测试社交博弈能力;发布虚拟世界构建原型Project Genie。 ✏ 3.行业洞察与反思 • Andrej Karpathy:提出“Vibe Coding”已演进为“智能体工程(Agentic Engineering)”,即人类99%的时间在编排和审查智能体。 成功实现GPT-2级模型的fp8低成本训练(约20美元)。 • Ilya Sutskever:澄清观点——当前技术路径的Scaling并不会停滞,但达成最终目标仍缺失某些关键组件。 • François Chollet:认为非验证领域的AI性能提升呈对数增长。 • Greg Brockman:强调Codex类工具的引入是深层文化变革,需建立针对“智能体轨迹”的观测基础设施,并确保人类对合并代码负责。