AI Daily: Codex 5.3 发布、Vibe Coding 一周年与机器人学的第二范式

今日 AI 热点速览
今天 AI 圈最重磅的消息无疑是 OpenAI 正式发布 GPT-5.3-Codex。Sam Altman 表示这是自 GPT-4 以来团队最激动的模型发布,而技术社区的反应也证实了这一点。
与此同时,"Vibe Coding" 概念迎来一周年,创始人 Andrej Karpathy 回顾了这个意外走红的编程新范式。在物理 AI 领域,NVIDIA 的 Jim Fan 团队带来了 基于 World Model 的机器人 Foundation Model 突破。
让我们深入解析这三件大事。
🔥 OpenAI Codex 5.3:编程 AI 的新标杆
性能全面升级
GPT-5.3-Codex 在多个编程基准测试中创下新高:
- SWE-Bench Pro: 57%
- TerminalBench 2.0: 76%
- OSWorld: 64%
但数字背后的实际体验更令人兴奋。Sam Altman 特意发推表示:"I love building with this model; it feels like more of a step forward than the benchmarks suggest."(我喜欢用这个模型编程,实际体验比数据指标显示的进步更大)
效率大幅提升
Codex 5.3 在效率方面有显著优化:
| 指标 | 5.2 | 5.3 | 提升 |
|---|---|---|---|
| Token 使用量 | 基准 | -50% | 减半 |
| 推理速度 | 基准 | +25% | 更快 |
| 综合效率 | - | - | 显著优化 |
个性化特性
一个有趣的新功能是 Personality Selector,用户可以选择:
- Pragmatic(务实型): 直接、高效的解决方案
- Friendly(友好型): 更详细的解释和引导
社区对此反应两极分化,Sam 表示 "people have strong preferences one way or the other!"
对 "软件工程已解决" 的回应
有开发者激动地表示 "Codex 5.3 just genuinely solved software. It's over.",Sam 的回应展现了 OpenAI 一贯的审慎:
"Not solved yet, but 5.3 will help build the thing that solves it" (还没完全解决,但 5.3 将帮助构建最终解决问题的东西)
🎵 Vibe Coding 一周年:编程范式的静默革命
从一条推文到一种运动
一年前的 2025 年 2 月 3 日,Andrej Karpathy 发了一条看似随意的推文:
"There's a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists."
这条推文意外引爆了技术社区,成为过去一年最具影响力的编程概念之一。
什么是 Vibe Coding?
简单来说,Vibe Coding 是指:
- 全情投入 AI 辅助流程,不再纠结于每一行代码
- 拥抱指数级进步,相信 LLM 的能力会快速迭代
- 忘记代码本身的存在,专注于问题和解决方案
- 自然语言交互,通过对话而非键盘完成编程
Karpathy 透露,他现在主要用 Cursor Composer + Sonnet + SuperWhisper(语音输入)的组合进行开发。
程序员的焦虑与适应
在一周年回顾中,Karpathy 也表达了对职业未来的思考:
"I've never felt this much behind as a programmer. The profession is being dramatically refactored as the bits contributed by the programmer are increasingly sparse and between."
Jim Fan 对此的总结一针见血:
"2024: AI is the copilot. 2025+: humans are the copilot."
编程技能正在从 "写代码" 转向 "驾驭 AI"。
🤖 NVIDIA 的机器人学突破:World Model + Zero-Shot
第二预训练范式
Jim Fan 在一篇置顶文章中提出了 "The Second Pre-training Paradigm"(第二预训练范式)的概念:
- 第一范式: Next word prediction(预测下一个词)
- 第二范式: World modeling / Next physical state prediction(世界建模/预测下一物理状态)
这是一个深刻的洞察:正如语言模型通过学习语言的统计规律获得推理能力,世界模型通过学习物理世界的规律获得对物理的深刻理解。
DreamZero:让机器人 "做梦"
NVIDIA GEAR 实验室发布的 DreamZero 展示了这一理念的实践:
核心突破:
- 14B 参数的 "World Action Model"
- 在 world model backbone 上训练 robot foundation model
- 实现 zero-shot 泛化到未见过的新任务
- 支持 few-shot 适应新机器人
关键技术创新:
- 在单次 diffusion 前向传播中联合预测视频和动作
- 如果 world model 能在像素中 "梦想" 正确的未来,机器人就能在电机中执行
为什么这很重要?
传统机器人学面临的根本问题是 数据稀缺。真实世界的机器人数据极其昂贵且难以获取。
World Model 提供了一条新路径:
- 在仿真中训练 world model
- 用 world model 生成无限的 "想象" 数据
- 实现 zero-shot 迁移到真实世界
Jim Fan 团队的实验证实了这一路径的可行性:
- VIRAL 项目: 完全在 Isaac Lab 仿真中训练,零样本部署到真实世界
- DoorMan 项目: 仅用 RGB 输入和仿真数据,解决机器人开门这一经典难题
物理图灵测试:AI 的终极挑战
Jim Fan 表示他当前的 singular mission 是解决 Physical Turing Test(物理图灵测试):
"Super-intelligence in text strings will win a Nobel prize before we have chimpanzee-intelligence in agility & dexterity."
这呼应了 Moravec's Paradox(莫拉维克悖论):
- 对人类困难的事(如下棋、解方程),AI 已经做得很好
- 对人类简单的事(如开门、叠衣服),AI 依然很困难
解决物理 AI 可能是人工智能最后一个 grand challenge。
💰 训练成本暴跌:GPT-2 从 "危险" 到 "$20"
Karpathy 的 nanochat 项目带来了一个震撼的数据点:
训练 GPT-2 级别的模型现在只需 $73(约 3 小时,8x H100)
对比 7 年前 OpenAI 最初发布 GPT-2 时的担忧:
- 2019: "Too dangerous to release"(太危险而不能发布)
- 2026: 任何人都可以花 $20 训练一个
使用 FP8 精度后,时间进一步缩短到 2.91 小时。
这标志着:
- AI 训练的民主化正在加速
- 算力效率的指数级提升
- 模型能力不再是大公司的专属
🎯 今日总结
今天 AI 领域呈现了三个清晰的演进方向:
1. 编程 AI 的工具化深化
Codex 5.3 证明专用模型仍有巨大提升空间。编程正在从 "写代码" 转向 "与 AI 协作"。
2. AI 范式的扩展
从语言(word)到物理(world),AI 正在从数字世界走向物理世界。这可能是比 LLM 更大的变革。
3. 成本的断崖式下跌
训练成本的暴跌意味着 AI 能力的快速民主化。技术门槛正在消失,创意和应用将成为新的护城河。
明天 AI 圈会发生什么?让我们拭目以待。
数据来源: @sama, @karpathy, @DrJimFan | 分析时间: 2026-02-10