访谈:张小珺,李广密• 虽然过去 2 年模型格局、技术关键词不断变化,但 AGI 路线图上只有智能提升是唯一主线,智能本身就是最大应用,要围绕智能本身去投资和思考。模型公司形成壁垒的关键在于成为 Cloud 或 OS,
![]() 访谈:张小珺,李广密 ![]() • 虽然过去 2 年模型格局、技术关键词不断变化,但 AGI 路线图上只有智能提升是唯一主线,智能本身就是最大应用,要围绕智能本身去投资和思考。模型公司形成壁垒的关键在于成为 Cloud 或 OS,未来模型和产品边界会逐渐模糊; • 今天最大非共识是 pre-training 空间还非常大,只有 pre-training 才能涌现出新能力,决定模型内在上限; • Coding 的意义不仅仅在于编程,而是实现 AGI 的最好环境,是模型的一只手,现实世界多数任务可用 Coding 表达,模型通过生成并执行代码来实现对外部信息的采集、处理和反馈; • ChatGPT 只是 AGI 的“前菜”,是 AGI 攀登的第一站,Agentic AI 才是更加关键的未来。Agent 落地最关键的三个能力是 long context reasoning、Tool-use、Instruction following; • AGI 时代,组织和文化竞争力是仅次于算力的核心竞争力。 …… 25年Q1大模型季报:当下最大非共识、AGI的主线与主峰 01. 重新重视 Pre-training 张小珺:Base model 的竞争结束了吗?有观点说“现阶段放这么大精力关注模型没有必要,还是应该把时间投入到应用上”,你怎么看? Guangmi Li:最大非共识是 pre-training 空间还非常大,甚至可以说是刚开始,还会迎来新的能力涌现。我有很强的信心说 pre-training base model 的 scaling 远远没有结束,下一代 SOTA 模型还是能显著超过今天的 SOTA model,不管是 GPT-4.5、Grok-3、Sonnet 3.7,还是 Gemini 2.5 Pro。 之前说 pre-training 结束的共识,很大原因是 OpenAI 的 pre-training 进程变慢了,其实 Anthropic 和 xAI 的进步还挺快的。OpenAI 之前是领先者,领先者的表现就容易被认为是正确的共识,但当领先者不再领先,这个也就是非共识了。 要强调只有 pre-training 才能涌现出新能力,post training 和 RL 是不涌现新能力的,只是激发或加强能力。Pre-training 基本决定了模型内在的上限,后面再怎么做 post training 和 RL 也只能做到 pre-training 的内在上限,只有 pre-training 阶段把 base model 能力往上提升才是最本质的,不然在比较差的 base model 基础上做强化学习,就像小学生刷题,很容易饱和见顶,只有持续 pre-training 才能把小学生本质上变成初中生,O 系列就是刷题。 我们在半年前那篇播客里强调重视 RL 范式的时候提到,“pre-training 有 50% 概率结束了”,但今天所有人都聚焦在 RL、reasoning model 的时候,我认为还是要重视 pre-training。 张小珺:从外界看 OpenAI 好像没有那么重视 pre-training 了,原因是什么? Guangmi Li:可能不是不重视,从外部观察,我感觉更多是战略选择和组织问题: 战略选择上,O 系列在 benchmark 上走的非常快,O 系列 2 个月刷分的收益就比 pre-training 1-2 年进步得快,而且 ChatGPT 成长非常快,还在加速,ChatGPT 占据了管理层很大的精力。 组织问题上,外部视角是 OpenAI 的 pre-training 核心团队一直挺动荡的,最早是 Anthropic 的 Dario 带走一批人员,ilya 又离开,CTO Mira 又带走核心的 post training 团队和最早 Infra 团队的核心,原来 pre-training 的人就要不断调到 post-training,团队动荡比较大。 张小珺:所以 OpenAI 不是 top down 不重视 pre-training 了,而是组织调整,显得不那么重视 pre-training 了? Guangmi Li:OpenAI 是一个自下而上的公司,做 pre-training 做得好的人走了,今天 Anthropic 和 xAI 的 pre-training 团队比 OpenAI 要强。 张小珺:O 系列做得很快,但不一定能打开智能的天花板?为什么 pre-training 还要继续?之前说过数据不是很够用。 Guangmi Li:O 系列是加强智能,但能不能打开智能天花板,这个问题没有标准答案。 2023 年我们就在提合成数据,今天很少有人提了,但今天恰好是 RL 能产生更多合成数据,尤其是高价值的 CoT 数据,可以加到 pre-training 环节里,或者说从 pre-training 阶段就做 RL,解决数据瓶颈问题。training 和 RL inference 融合挺难的,涉及训练框架的 Infra 问题,要求 GPU 里同时跑 RL inference 的 sampling 和 training,之前这两者各是一套框架,今天如果要融合,对 Infra 的难度挺高,大家突破这个问题还是花了挺长时间的。 张小珺:外界认为 pre-training 收益是放缓的,投入产出的 ROI 不明显了,继续投入 pre-training 还能带来突破或能力涌现吗? Guangmi Li:我很期待新能力涌现,比如 tool use,今天模型的 tool use,即用电脑工具的水平,还是我们爸妈用电脑的水平,后面可能很快到熟练程序员用电脑的水平,Agent 就可以在电脑和手机的数字环境下完成人类操作电脑的绝大部分行为,甚至操作你不知道怎么操作的工具。 绝大多数人用 Excel 公式的能力都不如 Agent,整个 Windows 系统、Office 套件里面累计有上百万个功能点,这些 Agent 都可以非常熟练地调用。 Manus 非常依赖 tool use 能力。Manus 是 Anthropic tool use 能力的“ChatGPT 时刻”。Anthropic Claude 模型非常重视 tool use,做了几百个 tool use 专门的训练,Anthropic 只专注在模型能力提升,不着急做上层产品。Manus 团队对 Claude 模型理解是非常棒的,执行力非常强,第一次让外界感受到了 tool use 能力的 Magic moment,很像 OpenAI 当时做 ChatGPT。很多 Magic moment 还是要靠模型内化能力才能推动的,Pre-training 阶段是最关键的。 智能无上限,一定会持续变的更聪明。每一年回看过去一年,智能技术变化其实非常大。 张小珺:Anthropic 的 tool use 能力的 ChatGPT moment 为什么不是 Anthropic 做的,而是 Manus 做的? Guangmi Li:OpenAI、Anthropic 都没有预想到 Agent 来的那么快,模型公司和云厂商都还没有完全做好准备。 张小珺:站在今天看,实现 AGI 是更清晰了,还是变模糊了? Guangmi Li:我对两年内实现 AGI 有前所未有的信心,这是 100%的概率。 张小珺:为什么这么快?信心来源是什么? Guangmi Li:离 AGI 越近,AGI 就没有那么神秘。最重要的是想明白了: Coding 是实现 AGI 最好的环境,Coding 意义不在于编程本身,而在于“环境”,现实世界的绝大多数任务都可以用 Coding 来表达,Coding 可能是数字经济 GDP 活动最重要的环境。 构建环境非常重要,AlphaGo 的棋盘就是环境,百度之前是通用搜索,整个网页 index 就是环境,淘宝构建了商品搜索的环境,携程构建了旅游产品搜索的环境,Boss 直聘构建了工作搜索的环境。Coding 是很通用的一个环境。 大家觉得数字经济 GDP 和实体经济 GDP 未来占比会怎么样?在没有互联网之前,100%都是实体经济,未来可能很极端。如果只看增量的部分,绝大部分都会是数字经济 GDP,这会是实体经济 GDP 增量的成千上万倍。未来人类的经济活动绝大多数都是数字化的表达,那最后都可以通过 Coding 表达,Agent 可以调度物理世界的人和实体去完成很多事情,Coding 就是模型的一个手。 Manus 就给 Agent 搭了个虚拟电脑环境,Agent 来操作电脑的工具。如果 Agent 能操作电脑和手机上正常人能操作的 99%的任务,而且操作的比人好,是不是就 AGI 了?我觉得这在 2 年内一定会实现。 张小珺:怎么更好理解“Coding 是环境”,是“模型的一个手”?比如在 Anthropic 上是怎么体现的? Guangmi Li:好的环境有两个重要的特点:动态、可操作。要求环境不仅包含数据和硬规则,还允许模型“执行”它的想法并获得实时反馈。符合这个要求的环境主要就是 Coding、gaming、science 相关的,其中 Coding 是最通用的赛博世界环境。 “模型的一个手”类似人类通过手去操作物体、改变环境,模型通过生成并执行代码来实现对外部信息的采集、处理和反馈。 Anthropic 为模型设计了很多 tool use 脚手架放进环境里,帮助模型更好理解环境并且操作,比如 os world、computer use,包括把环境中的 RL synthetic data 喂回给 pre-training,都是比较重要的。 张小珺:现在哪家模型 Coding 做得最好? Guangmi Li:现在每个模型公司都越来越重视 Coding 了,但我对 Anthropic 的信心也是前所未有的强,Anthropic 还能在 pre-training base model 取得显著进步,实现下一代模型的 SOTA,继续保持或加强 Coding 领先优势,Coding 也是 SOTA。 Cursor 现在是最火的独立编程 IDE 工具,ARR 已经超过 1.5 亿美金了,年底可能 4-5 亿美金,开发者可以在 Cursor 选模型,75% 开发者都是选 Sonnet,Sonnet 可以说是 Coding 默认模型了,因此 Cursor 一个月要给 Sonnet 1000 多万美金 Token 费用,大概是 OpenAI 的 4-5 倍。 张小珺:OpenAI 为什么没有做好 Coding? Guangmi Li:可能不是技术能力问题,以 OpenAI 的能力和认知肯定也会很重视 Coding,但过去了一年还没做好,我倾向是战略选择和组织问题。 做好 Coding,要么就是在 pre-training 阶段的 Coding 数据上花时间花精力,把 Coding 实战型的数据集做细致,有人两年前就做到几百个门类细分,有人现在也才几十类细分;要么有全新的方法,比如 RL,这个还需要 Top-down 的战略决定和组织能力。也可能是 OpenAI 的 Coding 现在还没体现出来,未来可能会在某个时候发个大招。 Coding 是个$1T 级别的机会,只要 Anthropic 能在 Coding 持续领先,就有机会到三五千亿美金级别,Cursor 也有机会到千亿美金级别,Coding 一定会出来抖音、拼多多、微信级别的机会。 张小珺:模型公司怎么变成$1T 或者$10T ? Guangmi Li:要在 AI for Science 领域实现突破。现在一个减肥药都能每年卖 1000 亿美金,未来攻克癌症、治疗所有疾病,那就是$10T 了,全人类在健康上的消费要比在今天手机上的消费大 10-100 倍的。 张小珺:Coding 是一种技术手段,最终 Coding 会成为最好的产品表达吗? Guangmi Li:Coding 是比搜索引擎和推荐引擎更重要的东西,信息流产品是推荐引擎的表达。编程本身是个高门槛、高动机用户才能用好的产品形式,消费者产品要淡化 Coding 编程元素。 产品表达应该是一种内容或者交互形式。抖音不会说自己是推荐引擎产品,而是短视频产品。把 Coding 当成一个技术引擎比较好,最后的产品表达还没有定义好。 最近 Notion 的首席设计师加入了 Cursor,挺期待 Cursor 在新的交互表达上能做出新东西的。 02. ChatGPT 只是攀登 AGI 高山的第一站 张小珺:领先的模型公司在实现 AGI 路线上有差异吗? Guangmi Li:OpenAI 和 Anthropic 是同宗同源,最开始路线是一样的,但慢慢地在核心战略 bet 或者路线已经发生了分化。 OpenAI 现在核心 bet 是两个,第一是希望通过 O 系列 RL 或者 reasoning model 路径就实现 AGI,第二是希望把 ChatGPT 做成 10 亿活跃用户的 killer-app。 Anthropic 核心在于专注 pre-training 一个很强的 base model, bet on Coding 和 Agentic。 OpenAI 和 Anthropic 的领导层关心的内容不一样。OpenAI 更关心 RL、reasoning model、O 系列,Anthropic 更关心 base model 和 Coding。OpenAI 重视 C 端市场,Anthropic 重视 B 端市场。OpenAI 是自下而上的组织文化,Anthropic 更加自上而下。 张小珺:为什么会有这样的分化? Guangmi Li:可能是 Anthropic 的 Dario 他们都是做 pre-training 出身的,所以对 pre-training 非常有信心,或者大家都有路径依赖。 OpenAI 是 frontier team 做出了 O 系列,O 系列非常亮眼,froniter team 的老大 Mark Chen 现在成为了仅次于 Sam、Greg 的三号人物,所以给了 O 系列更多资源,加上 OpenAI pre-training 和 post training team 变动太大,O 系列优先级肯定比原来的 pre-training team 要更高了。战略选择其实是不同组织能力的表达。 张小珺:O 系列能走到哪,O3、O4、O5 这么走下去,天花板有多高? Guangmi Li:O 系列刷 benchmark 刷的特别快,但不确定够不够本质。我不知道 reasoning 有没有落地场景。Reasoning Model 主要表现是提升 Math 和 Coding,Math 没落地场景,主要还是 Coding,但 Reasoning Model 提升的 Coding 不是实战型的 Coding,还是竞赛型的 Coding。Anthropic 做的还是实战型的 Coding 更多一些。 张小珺:硅谷对不同的路线认知有什么分歧吗? Guangmi Li:分歧非常大,背后问题的本质是智能重要,还是流量重要。 OpenAI 有非常大的流量,Anthropic Claude 几乎没多少 C 端流量。这一点硅谷的分歧也非常大,硅谷很多 VC,比如 Sequoia US Roelof 和 Khosla Venture Vinod,觉得 OpenAI 应该变成一个大型消费互联网平台公司,训练模型的资本效率很低。 我觉得他们是错的,老牌投资人是喜欢经典的商业模式,但今天 AI 商业模式都是很差的,讨论不清楚,今天还不是讨论商业模式的时候,太早期了。 我有点担心 OpenAI 过早走向一家消费互联网公司,今天产品和流量没那么重要,即便重要,也要在模型训练的优先级之后。 大家认知分歧非常大,每个人都有自己的信仰,也都有自己的 bias。我更相信 AGI 原教旨主义,智能最重要,再构建一个 Google 除了赚钱外,意义并没有那么大。今天是人类少有的一个可以去 push 智能的窗口,杠杆效应非常强。在 AGI 的范式下,在研究驱动的范式下,资本家们很多判断产品和商业模式的惯性有挺高概率是错的。 张小珺:你说有点失望 Sam 竟然把 10 亿用户作为首要目标,而不是 AGI-first、Research-first、model training-first,去 push 智能的边界? Guangmi Li:今天还在智能很早期的阶段,不能停下来。OpenAI 的杠杆效应很大,几千个人改变了几十亿人,不应该把构建新的互联网平台当作最高目标,push 智能才是最高目标。今天还有很多问题要解决,比如攻克癌症,让世界没有疾病。 OpenAI 是有机会对人类帮助更大的。不应该降低对科学的 vision,过早追求商业可能会错过 AGI 科学的文艺复兴。 张小珺:Anthropic 和 OpenAI 有不同的 bet,谁会是最后的赢家? Guangmi Li:取决于智能的水平走到哪。 各家模型公司能否拉开显著差异,最核心的是 base model 能否显著领先其他人?如果智能往前走的很强,模型显著领先,那就会有流量迁移,流量是没有忠诚度的。 Google 在模型上无法显著反超 OpenAI,Gemini 模型虽然好,但流量一直上不去,过去一两年 Chat Bot 绝大部分流量还是去了 ChatGPT,本质还是因为 ChatGPT base model 过去是有一定领先优势的,技术领先优势转化成了流量优势。 Anthropic 的 Roadmap 很好,长期来看 Anthropic 可能是比 OpenAI 更有价值的公司。我有一定 bias,或者我比较偏 AGI 原教旨主义,我更关心谁更重视 pre-training,看谁能先出来大幅超过对方的 base model。Pre-training 一旦放松或者降低优先级了,后面很难追,RL、reasoning model 其实容易追,一旦 Anthropic pre-training 做出来更强的 base model,OpenAI 再从 RL 或者 O 系列切回来是很难的。 从外部视角看,OpenAI 对 pre-training 的重视度是不够的,过多精力花在 reasoning model 和 ChatGPT C 端的各种功能上面,这是不够本质。 大家的路线差异其实无关对错,这两家应该都能实现 AGI,大家都是去攀登珠穆朗玛峰,AGI 科学探索每天都在突破边界,每个团队都要敢于 bet,把 bet 的东西 push 到极致就是了。 OpenAI 对行业贡献是非常大的,虽然没有开源,但指明了路线,一定要尊重和 value OpenAI 的贡献。但这个领域竞争非常激烈,今天的差异化表面上是各家战略选择问题,其实回到本质上,还是组织能力的表达。 张小珺:国内有 DeepSeek 这样 push 智能边界的公司,而且是开源,其他公司还有必要训练自己的闭源模型吗? Guangmi Li:训练模型需要有很强的 training 能力,如果没有,那看不到很多风景,很多东西得自己做才知道。还有一条路线是从 post training 做起,然后做 mid training,最后再 per-training。还是要有比较强的 training tream,不 |
2025-03-05
2025-03-03
2025-03-05
2025-03-03
2025-02-26