Dwarkesh Patel：下一代AI，可能是干活干出来的

主队	比分	客队	联赛	时间(北京)
阿尔巴明奇肯马	1:0	希尔恩达塞拉西	埃塞俄比亚足球超级联赛	20:00
第比利斯 2025	7:1	贝特莱米克达	格鲁吉亚联赛3	18:00
内盖勒阿尔西	2:1	哈瓦萨肯马	埃塞俄比亚足球超级联赛	18:00

硅谷备受瞩目的科技播客主持人 Dwarkesh Patel 近期提出了一个关于人工智能未来发展的关键问题：下一代 AI 的训练模式将会是什么样的？这位年仅 25 岁的播客主，以其 Dwarkesh Podcast 迅速在 AI 领域崭露头角，采访过 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis 以及 Mark Zuckerberg 等行业巨头，并被《TIME》杂志评为 2024 年 TIME100 AI 榜单成员，其播客内容已成为众多 AI 从业者的必听节目。

在最新一期的节目中，Patel 总结了当前前沿 AI 实验室重点探索的方向，并将其归纳为“RLVR”，即“可验证奖励强化学习”。简而言之，这种方法是通过让模型在大量能够自动判断对错的任务中进行反复试验，来培养其规划、纠错、迭代和长期执行的能力。目前在代码和数学等领域取得的显著进展，很大程度上就得益于这种思路。

然而，Dwarkesh Patel 真正深入探讨的是：仅仅依靠这种“可验证任务训练”是否足以支撑下一代 AI 的发展？他认为，答案可能是否定的。因为一个任务不仅需要“可验证”，还需要具备“可刷性”，即“grindability”。在 AI 训练的语境下，这意味着任务需要能够被反复执行和大规模推广。

代码任务就是一个典型的“可刷”例子。通过构建软件仓库、设定待修复的 bug 和测试用例，并创建数千个相同的训练环境，可以同时让数千个智能体进行尝试，通过测试的即得分。这种并行、可复现、可重置的训练过程非常适合 RLVR。数学题也类似，答案的对错易于验证，训练环境也容易复制。

Patel 提出了一个引人深思的问题：为什么 AI 在“使用电脑”这一任务上的进展反而慢于代码和数学？虽然电脑操作的结果，如订单是否成功、活动场地是否预订、税表是否提交等，都可以被验证，但这类任务很难被大规模复制和回放。例如，无法让成千上万的智能体同时在真实的 Amazon 网站上反复执行结账流程，因为真实网站会检测并封禁机器人，且状态会不断变化。虽然可以克隆应用来创建模拟器，但这在当前阶段仍是成本高昂且难以扩展的工程。

Dwarkesh 指出，AI 在特定领域进步迅速，并非仅仅因为其答案的可验证性，更关键在于该领域能够被封装成可复制、可回放、可并行试错的训练环境。这也就解释了为何代码、数学和游戏类任务成为了 RLVR 的天然沃土，而许多现实世界中的任务却难以直接纳入这种训练范式。

他进一步将问题延伸至更复杂的现实世界场景，例如训练 AI 从零开始创业、赢得一场官司、在市场中稳定盈利，或是帮助候选人赢得选举。这些任务虽然最终结果可以判断（公司是否成功、官司是否打赢、交易是否盈利、选举是否获胜），但存在反馈周期长、变量过多、环境不可重置且无法在数据中心大规模复制的问题。一次创业可能持续数年，政治竞选受地区、选民情绪、媒体环境等多种因素影响，法律案件也无法从同一起点复制成千上万个平行宇宙供智能体试错。这类环境在强化学习中被称为“reset-free、non-stationary environment”，即不能随意重置且环境本身不断变化。

因此，Dwarkesh 提出质疑：在可验证、可刷的环境中训练出的 RLVR 智能体，是否真的能够泛化到这些复杂的真实世界任务？他认为这是一个需要实证回答的问题，而非口号。乐观者认为，只要 RLVR 环境足够丰富和复杂，模型最终会习得通用的智能体能力，并将其迁移到创业、管理、政治、法律和科研等领域。

但 Dwarkesh 对此表示怀疑，因为现实世界中最有价值的知识往往并非以清晰、可验证、可重复的方式呈现，它们可能源于模糊的客户反馈、一次失败的会议、组织内部的隐性流程，或是只有在真实任务中才会暴露的失败模式。模型要掌握这些，不仅需要“刷题”，还需要具备真正的样本效率。

这引出了他讨论的核心观点：“learning back to the weights”，即学习过程应能将经验回写到模型权重中。当前的大模型擅长“in-context learning”，即在长上下文信息中理解项目背景、临时适应用户或组织需求。然而，这种学习大多停留在会话窗口内，会话结束后模型可能并不真正“长记性”。Dwarkesh 认为这是巨大的浪费，因为模型真正有价值的训练信号恰恰出现在部署之后，当模型被真实用户使用、参与真实任务、暴露真实错误时。如果这些经验无法沉淀回模型权重，就仅仅是会话中的短暂适应，而非能力的长期增长。

他以人类学习为例，指出人并非通过逐字背诵所有经历来变强，员工的成长源于将经历压缩为判断力、直觉、流程理解和模式识别。模型也应如此。真正的持续学习（continual learning）不是无限扩大 KV 缓存或将所有历史记录塞入上下文，而是从真实经验中提炼出有用的知识，并将其压缩进权重。

为了解决这一问题，他提到了一个正在讨论的方向：“on-policy self-distillation”（OPSD），即让一个在长会话中积累了丰富经验的模型充当“教师”，训练基础模型在缺乏完整上下文的情况下也能做出类似判断。这意味着将模型在真实任务中通过上下文学习到的东西，蒸馏回自身权重。这不同于普通 SFT，后者可能只是让模型复述工作日志，而 OPSD 旨在提炼出能帮助模型下次做得更好的关键洞见。OPSD 的优势在于，它不一定需要外部可验证奖励，只要模型能在上下文中学习到有用信息，即可将“学习后的模型”作为教师，让基础模型向其靠拢。同时，它提供比普通 RL 更密集的监督信号，通过对比 teacher 和 student 在 token 层的概率分布差异，将稀缺经验压缩成更小、更精准的权重更新。

除了 OPSD，Dwarkesh 还提出了“dreaming”的概念，即 AI 根据真实世界观察，自行构建模拟环境进行反复练习和策略强化。这类似于 model-based RL 和 Sutton 强调的通过环境互动积累经验，但 Dwarkesh 将其置于大模型和真实部署的语境中。例如，AI 在真实公司观察到某个业务流程后，会构建该流程的“游戏版模拟环境”，并在其中测试不同的沟通策略和项目推进方式，最后将这些模拟练习中的经验压缩回模型。

如果这一路线得以实现，它可能会成为新的“scaling axis”。AI 的扩展过去主要依赖 pretraining、RL 和 inference-time compute。Dwarkesh 设想，未来可能新增“test-time training”或“dreaming”这一轴，模型在推理和任务执行过程中，为特定用户、组织或项目构造模拟环境并进行自我训练。这与 David Silver 和 Richard Sutton 在《Welcome to the Era of Experience》中强调的观点一致，即 AI 不能永远依赖人类数据，下一阶段的关键在于智能体从自身与环境的互动中获取经验。

Dwarkesh 将这一宏观判断具体化到当前大模型训练问题上：RLVR 是重要过渡阶段，让模型在可验证任务中练就智能体能力；但要进入更复杂的现实世界，模型必须学会从真实部署中持续学习，并将经验回写到权重。他设想在 2027 或 2028 年，训练流程可能演变为：首先，RLVR 训练出基本胜任的智能体，能够理解陌生问题并尝试迭代；随后，该智能体被部署到真实世界，参与为期一周的真实工作，处理不在原始训练分布内的项目；一周结束后，用户提供反馈（如 thumbs up/down 或工作评价），若结果为正向，模型将此次任务中学到的经验通过 OPSD、dreaming 或其他新技术蒸馏回基础模型。

一旦这条路径跑通，AI 的能力边界将不再受限于最初的“可验证任务”。它可以通过 RLVR 学会代码、数学、网页操作和工具调用，再通过真实部署学习组织管理、业务流程和复杂协作，并以此为基础扩展到相邻领域。这意味着 AI 进步的主要来源将发生变化。过去，模型在发布前训练完成，用户仅是使用。未来，模型可能先训练出基础智能体，发布后通过海量真实任务继续学习，每一次与用户交互、真实项目执行、失败与修正，都可能成为下一轮能力提升的素材。

因此，Dwarkesh 所谓的“下一代训练范式”，并非仅仅是模型更大、数据更多或 RL 更强。它真正指向的是：AI 从“发布前训练”走向“发布后学习”，从“人类数据”走向“环境经验”，从“上下文里的临时适应”走向“权重里的长期能力”。未来最重要的 AI 训练数据，可能不再只是互联网上的文本或实验室里构造的可验证任务，而是 AI 在真实世界完成真实任务时，自行积累的经验。

Dwarkesh Patel：下一代AI，可能是干活干出来的 - 足球世界杯

世界杯赛程深耕世界杯买球网领域，用心服务每一位用户。

Information

⚽ 足球实时 (3)

02 Comments

世界杯赛程围绕2026世界杯不断创新，回应用户的真实需求。

精选世界杯直播内容，世界杯赛程与你一同发现更多精彩。

世界杯赛程专注世界杯竞猜，为用户提供专业可靠的体验。

在全面覆盖历届及未来世界杯赛事资讯方面，世界杯赛程提供贴心周到的支持。

Categories

世界杯赛程以世界杯买球网为核心，带来高效便捷的体验。

想了解更多足球世界杯相关内容，尽在世界杯赛程。
Digital Tomorrow.

Commercial Renovation no
世界杯赛程围绕全面覆盖历届及未来世界杯赛事资讯不断创新，回应用户的真实需求。

精选实时更新全球热门比赛动态与比分内容，世界杯赛程与你一同发现更多精彩。
Professional Engineer

世界杯赛程专注提供深度球队分析与足球专题报道，为用户提供专业可靠的体验。