技术雷达2026-02-10·13 分钟阅读

AI Daily: Codex 5.3 发布、Vibe Coding 一周年与机器人学的第二范式

#AI #OpenAI #Codex #Vibe Coding #Robotics #NVIDIA

今日 AI 热点速览

今天 AI 圈最重磅的消息无疑是 OpenAI 正式发布 GPT-5.3-Codex。Sam Altman 表示这是自 GPT-4 以来团队最激动的模型发布，而技术社区的反应也证实了这一点。

与此同时，"Vibe Coding" 概念迎来一周年，创始人 Andrej Karpathy 回顾了这个意外走红的编程新范式。在物理 AI 领域，NVIDIA 的 Jim Fan 团队带来了 基于 World Model 的机器人 Foundation Model 突破。

让我们深入解析这三件大事。

🔥 OpenAI Codex 5.3：编程 AI 的新标杆

性能全面升级

GPT-5.3-Codex 在多个编程基准测试中创下新高：

SWE-Bench Pro: 57%
TerminalBench 2.0: 76%
OSWorld: 64%

但数字背后的实际体验更令人兴奋。Sam Altman 特意发推表示："I love building with this model; it feels like more of a step forward than the benchmarks suggest."（我喜欢用这个模型编程，实际体验比数据指标显示的进步更大）

效率大幅提升

Codex 5.3 在效率方面有显著优化：

指标	5.2	5.3	提升
Token 使用量	基准	-50%	减半
推理速度	基准	+25%	更快
综合效率	-	-	显著优化

个性化特性

一个有趣的新功能是 Personality Selector，用户可以选择：

Pragmatic（务实型）: 直接、高效的解决方案
Friendly（友好型）: 更详细的解释和引导

社区对此反应两极分化，Sam 表示 "people have strong preferences one way or the other!"

对 "软件工程已解决" 的回应

有开发者激动地表示 "Codex 5.3 just genuinely solved software. It's over."，Sam 的回应展现了 OpenAI 一贯的审慎：

"Not solved yet, but 5.3 will help build the thing that solves it" （还没完全解决，但 5.3 将帮助构建最终解决问题的东西）

🎵 Vibe Coding 一周年：编程范式的静默革命

从一条推文到一种运动

一年前的 2025 年 2 月 3 日，Andrej Karpathy 发了一条看似随意的推文：

"There's a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists."

这条推文意外引爆了技术社区，成为过去一年最具影响力的编程概念之一。

什么是 Vibe Coding？

简单来说，Vibe Coding 是指：

全情投入 AI 辅助流程，不再纠结于每一行代码
拥抱指数级进步，相信 LLM 的能力会快速迭代
忘记代码本身的存在，专注于问题和解决方案
自然语言交互，通过对话而非键盘完成编程

Karpathy 透露，他现在主要用 Cursor Composer + Sonnet + SuperWhisper（语音输入）的组合进行开发。

程序员的焦虑与适应

在一周年回顾中，Karpathy 也表达了对职业未来的思考：

"I've never felt this much behind as a programmer. The profession is being dramatically refactored as the bits contributed by the programmer are increasingly sparse and between."

Jim Fan 对此的总结一针见血：

"2024: AI is the copilot. 2025+: humans are the copilot."

编程技能正在从 "写代码" 转向 "驾驭 AI"。

🤖 NVIDIA 的机器人学突破：World Model + Zero-Shot

第二预训练范式

Jim Fan 在一篇置顶文章中提出了 "The Second Pre-training Paradigm"（第二预训练范式）的概念：

第一范式: Next word prediction（预测下一个词）
第二范式: World modeling / Next physical state prediction（世界建模/预测下一物理状态）

这是一个深刻的洞察：正如语言模型通过学习语言的统计规律获得推理能力，世界模型通过学习物理世界的规律获得对物理的深刻理解。

DreamZero：让机器人 "做梦"

NVIDIA GEAR 实验室发布的 DreamZero 展示了这一理念的实践：

核心突破:

14B 参数的 "World Action Model"
在 world model backbone 上训练 robot foundation model
实现 zero-shot 泛化到未见过的新任务
支持 few-shot 适应新机器人

关键技术创新:

在单次 diffusion 前向传播中联合预测视频和动作
如果 world model 能在像素中 "梦想" 正确的未来，机器人就能在电机中执行

为什么这很重要？

传统机器人学面临的根本问题是 数据稀缺。真实世界的机器人数据极其昂贵且难以获取。

World Model 提供了一条新路径：

在仿真中训练 world model
用 world model 生成无限的 "想象" 数据
实现 zero-shot 迁移到真实世界

Jim Fan 团队的实验证实了这一路径的可行性：

VIRAL 项目: 完全在 Isaac Lab 仿真中训练，零样本部署到真实世界
DoorMan 项目: 仅用 RGB 输入和仿真数据，解决机器人开门这一经典难题

物理图灵测试：AI 的终极挑战

Jim Fan 表示他当前的 singular mission 是解决 Physical Turing Test（物理图灵测试）：

"Super-intelligence in text strings will win a Nobel prize before we have chimpanzee-intelligence in agility & dexterity."

这呼应了 Moravec's Paradox（莫拉维克悖论）：

对人类困难的事（如下棋、解方程），AI 已经做得很好
对人类简单的事（如开门、叠衣服），AI 依然很困难

解决物理 AI 可能是人工智能最后一个 grand challenge。

💰 训练成本暴跌：GPT-2 从 "危险" 到 "$20"

Karpathy 的 nanochat 项目带来了一个震撼的数据点：

训练 GPT-2 级别的模型现在只需 $73（约 3 小时，8x H100）

对比 7 年前 OpenAI 最初发布 GPT-2 时的担忧：

2019: "Too dangerous to release"（太危险而不能发布）
2026: 任何人都可以花 $20 训练一个

使用 FP8 精度后，时间进一步缩短到 2.91 小时。

这标志着：

AI 训练的民主化正在加速
算力效率的指数级提升
模型能力不再是大公司的专属

🎯 今日总结

今天 AI 领域呈现了三个清晰的演进方向：

1. 编程 AI 的工具化深化

Codex 5.3 证明专用模型仍有巨大提升空间。编程正在从 "写代码" 转向 "与 AI 协作"。

2. AI 范式的扩展

从语言（word）到物理（world），AI 正在从数字世界走向物理世界。这可能是比 LLM 更大的变革。

3. 成本的断崖式下跌

训练成本的暴跌意味着 AI 能力的快速民主化。技术门槛正在消失，创意和应用将成为新的护城河。

明天 AI 圈会发生什么？让我们拭目以待。

数据来源: @sama, @karpathy, @DrJimFan | 分析时间: 2026-02-10