技术雷达2026-02-10·13 分钟阅读

AI Daily: Codex 5.3 发布、Vibe Coding 一周年与机器人学的第二范式

AI Daily: Codex 5.3 发布、Vibe Coding 一周年与机器人学的第二范式

今日 AI 热点速览

今天 AI 圈最重磅的消息无疑是 OpenAI 正式发布 GPT-5.3-Codex。Sam Altman 表示这是自 GPT-4 以来团队最激动的模型发布,而技术社区的反应也证实了这一点。

与此同时,"Vibe Coding" 概念迎来一周年,创始人 Andrej Karpathy 回顾了这个意外走红的编程新范式。在物理 AI 领域,NVIDIA 的 Jim Fan 团队带来了 基于 World Model 的机器人 Foundation Model 突破。

让我们深入解析这三件大事。


🔥 OpenAI Codex 5.3:编程 AI 的新标杆

性能全面升级

GPT-5.3-Codex 在多个编程基准测试中创下新高:

  • SWE-Bench Pro: 57%
  • TerminalBench 2.0: 76%
  • OSWorld: 64%

但数字背后的实际体验更令人兴奋。Sam Altman 特意发推表示:"I love building with this model; it feels like more of a step forward than the benchmarks suggest."(我喜欢用这个模型编程,实际体验比数据指标显示的进步更大)

效率大幅提升

Codex 5.3 在效率方面有显著优化:

指标5.25.3提升
Token 使用量基准-50%减半
推理速度基准+25%更快
综合效率--显著优化

个性化特性

一个有趣的新功能是 Personality Selector,用户可以选择:

  • Pragmatic(务实型): 直接、高效的解决方案
  • Friendly(友好型): 更详细的解释和引导

社区对此反应两极分化,Sam 表示 "people have strong preferences one way or the other!"

对 "软件工程已解决" 的回应

有开发者激动地表示 "Codex 5.3 just genuinely solved software. It's over.",Sam 的回应展现了 OpenAI 一贯的审慎:

"Not solved yet, but 5.3 will help build the thing that solves it" (还没完全解决,但 5.3 将帮助构建最终解决问题的东西)


🎵 Vibe Coding 一周年:编程范式的静默革命

从一条推文到一种运动

一年前的 2025 年 2 月 3 日,Andrej Karpathy 发了一条看似随意的推文:

"There's a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists."

这条推文意外引爆了技术社区,成为过去一年最具影响力的编程概念之一。

什么是 Vibe Coding?

简单来说,Vibe Coding 是指:

  1. 全情投入 AI 辅助流程,不再纠结于每一行代码
  2. 拥抱指数级进步,相信 LLM 的能力会快速迭代
  3. 忘记代码本身的存在,专注于问题和解决方案
  4. 自然语言交互,通过对话而非键盘完成编程

Karpathy 透露,他现在主要用 Cursor Composer + Sonnet + SuperWhisper(语音输入)的组合进行开发。

程序员的焦虑与适应

在一周年回顾中,Karpathy 也表达了对职业未来的思考:

"I've never felt this much behind as a programmer. The profession is being dramatically refactored as the bits contributed by the programmer are increasingly sparse and between."

Jim Fan 对此的总结一针见血:

"2024: AI is the copilot. 2025+: humans are the copilot."

编程技能正在从 "写代码" 转向 "驾驭 AI"。


🤖 NVIDIA 的机器人学突破:World Model + Zero-Shot

第二预训练范式

Jim Fan 在一篇置顶文章中提出了 "The Second Pre-training Paradigm"(第二预训练范式)的概念:

  • 第一范式: Next word prediction(预测下一个词)
  • 第二范式: World modeling / Next physical state prediction(世界建模/预测下一物理状态)

这是一个深刻的洞察:正如语言模型通过学习语言的统计规律获得推理能力,世界模型通过学习物理世界的规律获得对物理的深刻理解。

DreamZero:让机器人 "做梦"

NVIDIA GEAR 实验室发布的 DreamZero 展示了这一理念的实践:

核心突破:

  • 14B 参数的 "World Action Model"
  • 在 world model backbone 上训练 robot foundation model
  • 实现 zero-shot 泛化到未见过的新任务
  • 支持 few-shot 适应新机器人

关键技术创新:

  • 在单次 diffusion 前向传播中联合预测视频和动作
  • 如果 world model 能在像素中 "梦想" 正确的未来,机器人就能在电机中执行

为什么这很重要?

传统机器人学面临的根本问题是 数据稀缺。真实世界的机器人数据极其昂贵且难以获取。

World Model 提供了一条新路径:

  1. 在仿真中训练 world model
  2. 用 world model 生成无限的 "想象" 数据
  3. 实现 zero-shot 迁移到真实世界

Jim Fan 团队的实验证实了这一路径的可行性:

  • VIRAL 项目: 完全在 Isaac Lab 仿真中训练,零样本部署到真实世界
  • DoorMan 项目: 仅用 RGB 输入和仿真数据,解决机器人开门这一经典难题

物理图灵测试:AI 的终极挑战

Jim Fan 表示他当前的 singular mission 是解决 Physical Turing Test(物理图灵测试):

"Super-intelligence in text strings will win a Nobel prize before we have chimpanzee-intelligence in agility & dexterity."

这呼应了 Moravec's Paradox(莫拉维克悖论):

  • 对人类困难的事(如下棋、解方程),AI 已经做得很好
  • 对人类简单的事(如开门、叠衣服),AI 依然很困难

解决物理 AI 可能是人工智能最后一个 grand challenge。


💰 训练成本暴跌:GPT-2 从 "危险" 到 "$20"

Karpathy 的 nanochat 项目带来了一个震撼的数据点:

训练 GPT-2 级别的模型现在只需 $73(约 3 小时,8x H100)

对比 7 年前 OpenAI 最初发布 GPT-2 时的担忧:

  • 2019: "Too dangerous to release"(太危险而不能发布)
  • 2026: 任何人都可以花 $20 训练一个

使用 FP8 精度后,时间进一步缩短到 2.91 小时

这标志着:

  1. AI 训练的民主化正在加速
  2. 算力效率的指数级提升
  3. 模型能力不再是大公司的专属

🎯 今日总结

今天 AI 领域呈现了三个清晰的演进方向:

1. 编程 AI 的工具化深化

Codex 5.3 证明专用模型仍有巨大提升空间。编程正在从 "写代码" 转向 "与 AI 协作"。

2. AI 范式的扩展

从语言(word)到物理(world),AI 正在从数字世界走向物理世界。这可能是比 LLM 更大的变革。

3. 成本的断崖式下跌

训练成本的暴跌意味着 AI 能力的快速民主化。技术门槛正在消失,创意和应用将成为新的护城河。


明天 AI 圈会发生什么?让我们拭目以待。

数据来源: @sama, @karpathy, @DrJimFan | 分析时间: 2026-02-10