研究笔记 · 2026/05/21

顶级 AI 公司
人才学习路径

研究 OpenAI、Anthropic、DeepMind、xAI、Mistral 与 DeepSeek、Moonshot、智谱、MiniMax 等公司核心研究人员的教育背景共性,并给出明确的路径建议。结论按三个角色分开——研究科学家、研究工程师/Infra、已工作转入者。

~15
门票学校
3
职业路径
14/15
研究岗 PhD 比例
5y
物理→ML 红利期

一、学校分布的三条带

研究科学家路径上"门票学校"不到 15 所;Infra 路径上学校权重显著下降,"做过的事"权重上升。

🇺🇸 美 / 加

深度学习正统

  • Toronto · Sutskever(Hinton 学生)、Karpathy 本科
  • Stanford · Karpathy PhD、Tri Dao、Jared Kaplan
  • Berkeley · Schulman(Abbeel)、Aravind Srinivas
  • CMU · 杨植麟 PhD
  • Princeton · Dario Amodei 生物物理
  • Caltech / MIT · Schulman 本科、何恺明 2024 任教
🇪🇺 欧洲

古典学院体系

  • 剑桥 + UCL · Hassabis CS 本 + 认知神经 PhD
  • X + ENS · Mistral 三人组(Mensch / Lample / Lacroix)全部出身
  • ETH Zürich · 大量 FAIR / DeepMind 研究员
🇨🇳 中国

本土主力学校

  • 清华 · 何恺明基科、杨植麟、唐杰
  • CUHK · 汤晓鸥系(何恺明 PhD → 商汤一代)
  • 浙大 · 梁文锋(异类:量化 infra 转 AI)
  • 北大 / 上交 ACM / 中科大少年班
结论

研究科学家路径"门票学校"不到 15 所;研究工程师 / Infra 路径上学校权重显著下降,"做过的事"权重上升

二、专业背景

物理 / 数学背景在"从零搭新范式"上有结构性优势;纯 CS 在"把现有范式做到极致"上更熟练。

物理 → ML
Anthropic 核心 · Kaplan / Schulman / Dario
数学 → ML
Sutskever / Tri Dao / Shazeer
CS 主线
最大头:Karpathy / 何恺明 / Hassabis / Mensch
EE / 信号
梁文锋 / 孙剑(infra / 视觉)
神经科学
Hassabis(DeepMind 灵魂)

Kaplan 的 Scaling Laws (2020) 本质是统计物理思维(Wilson RG、有限尺度标度),物理 PhD 训练出的"找 universal scaling"直觉对路。这条路径在 Anthropic 密度极高。

判断

物理 / 数学背景在"从零搭新范式"(scaling laws、Mamba、新架构)上有结构性优势;纯 CS 在"把现有范式做到极致"(系统、ranking、infra)上更熟练。两者不可替代。

三、竞赛经历

不同公司偏好不同竞赛——这是简历筛选的隐性硬通货。

Putnam 研究

Noam Shazeer 是 Putnam Fellow(前五)。Google Brain / Anthropic senior 里 Putnam 出现频率极高。

IMO / IPhO 研究

DeepMind 大量招(AlphaProof / AlphaGeometry 团队尤其)。Anthropic、OpenAI、xAI 都偏好。

ICPC + CF 2200+ Infra

中国 + 东欧 infra 岗密度高。字节 Seed、月之暗面、DeepSeek 招聘的实际信号。

Kaggle 应用

产品 / 应用 ML 权重高,前沿研究权重低。Tesla 早期、各 fintech 偏好。

粗略偏好:Anthropic 偏数学 / 物理奥赛 + 理论品味;OpenAI 早期偏 Putnam + 工程;DeepMind 偏 IMO + 学术 PhD;DeepSeek / Moonshot / MiniMax 偏 ICPC + Codeforces + 顶会一作。

四、PhD 是否必须

三种角色,三种答案。

必须
研究科学家
pre-training、新架构、对齐基础理论。样本里 14/15 是 PhD。
不必要
研究工程师 / Infra
vLLM / Megatron / CUDA kernel。Shazeer、Jeff Dean、梁文锋全无 ML PhD。
奢侈品
产品 / 应用层
完全不需要 PhD,应用直觉与产品判断更值钱。

学生密度最高的几个 lab

  • Hinton(Toronto / Google)→ Sutskever、Krizhevsky、Graves
  • Abbeel(Berkeley)→ Schulman、Chelsea Finn、Peter Chen
  • 李飞飞(Stanford)→ Karpathy、Justin Johnson、Jim Fan
  • Christopher Ré(Stanford)→ Tri Dao、Albert Gu(Mamba 系全员)
  • Salakhutdinov(CMU)→ 杨植麟与大量 NLP 中国学生
  • 汤晓鸥(CUHK)→ 何恺明与商汤一代
  • 朱军(清华)→ 智谱核心、Diffusion 中国阵营
  • LeCun(NYU / FAIR)、Bengio(Mila)自成生态

这些 lab 的师承血统在 hiring 时是隐性硬通货。

五、早期实习与项目

几乎所有 90 后样本都有至少一段大厂研究院实习。

实习圣杯

Google Brain DeepMind FAIR MSR OpenAI Anthropic

Aravind Srinivas 在 OpenAI、DeepMind、Google 都实习过 → 回 OpenAI → 创 Perplexity,是教科书路径。杨植麟在 Google Brain、FAIR 都有实习。Mistral 三人组全部 DeepMind / FAIR 出身。

Residency · 无 PhD 进研究岗的官方后门

Anthropic Fellows(最值钱) OpenAI Residency Google AI Residency Meta FAIR Residency

开源贡献 · 隐性招聘渠道

nanoGPT / llm.c FlashAttention / Mamba vLLM SGLang HuggingFace transformers PyTorch core

这些 repo 的 top 50 contributor 名单基本是各大厂招聘短名单。

六、技能侧重

不同细分方向对数学和系统的要求差异极大。

方向数学权重系统 / CUDA备注
Pre-training algorithmKaplan 系,物理直觉重要
Post-training / RLHFSchulman 系
新架构(Mamba / MoE)Tri Dao 范本,IO-aware
Training infra极高Jeff Dean / Noam / 梁文锋
Inference infra极高vLLM / SGLang,系统出身吃香
Agents产品直觉 > 数学
Multimodal视觉 / 语音传统
Evals / safety写作 + 实验设计

七、趋势变化

从学术派到 infra 派,从研究院到工程师。

2015 – 2020

研究院模式

学术派主导,PhD + 顶会一作 = 入场券。CV / NLP 各做各的,单卡 / 8 卡跑实验。

2020 后 · Scaling Laws

Infra 重度倾斜

一个能把 7B 训练效率 +20% 的工程师,价值超过十篇 NeurIPS。Noam Shazeer 在 Google 内部据传拿到资深 VP 级薪酬就是信号。

2023 后 · GPT-4

新蓝海打开

post-training(RLHF / RLAIF / RLVR)+ data quality + evals 成为新蓝海,吸纳大批从应用层转入的人。

2024 后 · DeepSeek 时刻

非传统出身证明力

DeepSeek 证明非传统 ML 出身(量化 infra)也能 SOTA。但前提是十年自建 GPU 集群 + 高强度 infra 工程能力,不是"小作坊逆袭"故事。

给年轻人的三条路径

三条路的最优学习路线不同,不要搞混。

A

研究科学家

想做 scaling、新架构、对齐基础理论

高中 / 本科阶段

  • 国家:首选美本,或国内顶尖 + 美研。纯本土路径在前沿研究岗的天花板目前仍明显低于美研路径——不是智商问题,是 lab 师承和合作网络。
  • 学校:MIT、Stanford、CMU、Berkeley、Princeton、Caltech、Toronto;国内清华基科 / 姚班、北大图灵班、中科大少年班、上交 ACM 班。
  • 专业:数学 + CS 双修,或物理 + CS 双修。不要只读"AI 专业"——AI 课程半年过时,数学 / 物理底子十年不过时。
  • 竞赛:IMO / IPhO / Putnam 选一打到金牌或前 100。这是 PhD 申请最硬的通货之一。
  • 项目:大三前复现 nanoGPT;大三做一个能投 workshop 的小工作;大四争取一段 MSR / Google / DeepMind 实习。

已本科 CS / 数学

  • 是否读 PhD:是。这条路径上 PhD 不是可选项。
  • 申 lab 优先级:Christopher Ré、Percy Liang、Chelsea Finn、Sergey Levine、Yejin Choi、Tatsu Hashimoto;欧洲 Yoshua Bengio、Max Welling;国内朱军、孙茂松、刘知远。
  • Residency 备选:Anthropic Fellows(最值钱)、OpenAI Residency、Google AI Residency、Meta FAIR Residency。
  • Side project:复现 Chinchilla scaling 曲线(小尺度即可);为 vLLM / SGLang 贡献一个 sampler;做一篇 mechanistic interpretability 复现(Anthropic 那条线在招人)。
B

研究工程师 / Infra

想做训练框架、推理优化、CUDA

高中 / 本科

  • 国家:中国本土在这条路上占优。DeepSeek、Moonshot、字节 Seed、阿里 Qwen 都在疯抢 infra。
  • 学校:清华 / 上交 ACM / 中科大 / 浙大 / 哈工大;美国 CMU / UIUC / Berkeley 系统方向。
  • 专业:CS(系统方向)+ 数学辅修。
  • 竞赛:ICPC 区域奖牌 + Codeforces 2200+ 比任何论文都管用。
  • 项目:写 CUDA kernel(Triton、CUTLASS 都行);给 PyTorch / vLLM / SGLang / TransformerEngine / Megatron 提 PR;自己用 4 张 4090 训一个 1B 模型并 blog 出来。

已本科 CS / 数学

  • 是否读 PhD:不必要,甚至应该跳过。一年的 vLLM commit 比三年水 PhD 价值大。
  • 直接进字节 Seed / DeepSeek / Moonshot / Qwen / Anthropic infra / xAI infra。
  • 关键技能栈:NCCL、FSDP、TP/PP/EP、CUDA Graphs、PagedAttention、Triton、编译器(torch.compile / TVM)。
  • Side project:写一个 MoE 分布式训练的最小实现并开源;做一个 FP8 训练数值稳定性 report。
C

已工作想转入

应用 / 产品 / evals / data 的切入路线

切入点排序

  1. Evals 工程师:门槛最低、最缺人。会写 Python + 有领域知识(医疗、法律、金融、教育)就能切。Anthropic、OpenAI、Scale AI 都在大规模招。
  2. Data quality / annotation pipeline:数据工程 + 一点 LLM 经验。Surge、Scale、Snorkel 系。
  3. Infra 应用工程:SRE + 懂 GPU 调度,比从 ML 转 infra 反而容易。
  4. 产品层 / agent wrapper:Cursor、Devin、Perplexity 这类。要会做产品判断 + prompt + eval 循环。
  5. 垂直行业 fine-tune + 评测:对原行业 know-how 是杠杆。
不建议

试图自学三个月就去抢 pre-training 岗。那个市场对自学者关闭。

四条非主流判断

这些是我的明确观点,不是行业共识。

PhD 不是必需品,但"PhD 替代品"门槛同样高

要么是 Putnam / IMO 级竞赛,要么是 vLLM / FlashAttention 级开源贡献。中间地带(普通硕士 + 几个 Kaggle 银牌)现在最难。

美本 / 美研在研究路径上结构性占优,中国本土在 Infra 路径上结构性占优

研究端的优势来自 lab 师承网络;infra 端的优势来自算力市场和工程文化。两条路要分开优化。

物理 / 数学 PhD 转 ML 的红利期还有约 5 年

因为 scaling / 新架构方向仍在出新范式;等范式稳定后,CS 系统派会重新占优。

梁文锋路径不可复制

他成功的前提是十年量化 infra 积累 + 自有 GPU 集群。年轻人模仿"绕开 PhD 直接做大模型"会失败,因为缺少他那十年的 infra 复利。

概念解释

vLLM commit、Evals 工程师、DeepSeek 团队画像反推。

"一年 vLLM commit" 是什么意思

vLLM 是 2023 年 Berkeley Sky Lab(Woosuk Kwon、Zhuohan Li)开源的 LLM 推理引擎,核心创新是 PagedAttention——把操作系统虚拟内存的分页思想搬到 KV cache。现在和 SGLang、TensorRT-LLM、llama.cpp 并列事实标准。

"一年 vLLM commit"是简写,指持续 12 个月以上、有实质性贡献(不是改 typo)的开源工作。它值钱的原因:

  • 公开可验证:PR、代码质量、review 记录全部可查,比简历可信度高一个数量级。
  • 接触真实生产系统:连续批处理、KV cache 管理、speculative decoding、FP8、MoE inference、TP / PP 调度——闭门写不出来。
  • 直接进入招聘视野:core team 和 top 50 contributor 基本被 NVIDIA、Anthropic、OpenAI、xAI、Together、Anyscale、Red Hat(收购 Neural Magic)瓜分。
  • 同质等价物:SGLang、TensorRT-LLM、llama.cpp、MLX、HuggingFace transformers core。

"实质性"的颗粒度:加一个新模型架构、写一个 fused kernel、修一个 TP edge case、实现一个 sampler、做 FP8 数值稳定性 patch。README 改字不算。

🎯

Evals 工程师

Evals = evaluations。不是建模,是测量。

工作内容

  • 设计 benchmark(MMLU、GPQA、SWE-bench、AIME、ARC-AGI 这类)
  • 写 harness(Anthropic 的 Inspect、EleutherAI 的 lm-eval-harness、OpenAI 的 simple-evals)
  • 领域 evals:医疗、法律、代码、agentic(METR 的 RE-Bench、Apollo 的 sandbagging eval)
  • 危险能力红队:生化、网络攻击、自主复制——直接挂在 Anthropic RSP / OpenAI Preparedness 框架上,决定模型能不能发布
  • 生产侧 online evals + regression 监控

雇主

Anthropic(团队最大,50+) OpenAI Preparedness METR Apollo Research UK AISI Scale AI 红队

"门槛低却缺人"的三个原因

  1. 真正的瓶颈是领域知识 + 实验严谨度 + 写作清晰,不是 ML 理论。会写 Python 的医生 / 律师 / 生物学家比纯 CS 毕业生更值钱。
  2. ML 圈传统认为 evals 不 prestigious,researcher 不愿做——但 RSP 出来后地位飙升。
  3. 统计功底(采样、置信区间、多重比较、IRR)很多 ML 工程师反而不熟。

下游路径:evals → safety researcher、→ AI governance / policy、→ 产品 PM。

🔍

DeepSeek 工程师画像反推

公开信源:V2 / V3 / R1 论文作者名单、《暗涌》《揭秘 DeepSeek》专访、36kr、知乎离职片段、幻方早期 JD。

构成

  • 学校:清华、北大、浙大、上交、中科大、复旦为主体。几乎全本土培养,没有美研主力。
  • 学历:硕士占多数,PhD 是少数派——和 Anthropic / OpenAI 完全相反。
  • 年龄:97 / 98 / 99 后比例极高。多个核心作者是应届或工作 1–3 年。

两支前职业

  • 幻方量化内部转岗(最重要的一支)——原本写高频交易系统,熟悉低延迟、CUDA、NVLink、自建集群运维。
  • 高校直招——竞赛背景偏多,ICPC / 信息学奥赛 / 数学竞赛。

不招的人(来自访谈)

  • BAT 老员工
  • 海归 senior researcher
  • "有成功 ML 经验"的人

梁文锋原话:"认知比经验重要"——是 Anthropic 式 hiring 的反面极端。

组织反推

  • 扁平,没有 director / principal 阶梯
  • 算力不限——上万张 H800,研究员有"无限算力"幻觉
  • 发论文不是 KPI,是招人和定位手段
  • 工资行业 top(应届顶尖 200 万+ RMB base),无大厂层级政治

技能反推(从公开成果反推必备能力)

  • MLA(Multi-head Latent Attention):架构创新,懂 attention 内部数学
  • DeepSeekMoE + 细粒度专家:MoE 系统工程
  • FP8 混合精度训练:底层数值 + CUDA
  • DualPipe + 自写 all-to-all 通信 kernel:硬核系统,已触到 NVIDIA 工程师领域
  • GRPO:把 PPO 简化但保持 RL 稳定,理论嗅觉
  • R1-Zero 的纯 RL 路线:敢做大胆实验,且有算力支撑
真正启发

DeepSeek 不是"年轻人逆袭"故事,而是"量化资本 + 自建算力 + 反主流 hiring + 工程师文化"的组合拳

年轻人能学的:早期囤系统能力(CUDA、分布式、低延迟),不要早期囤 ML 论文数。

但复制路径需要资本前置——这是它和 OpenAI 早期"几个天才靠论文起家"最大的不同,也是为什么国内其他六小虎走不通这条路:他们没有一个已经赚到钱的量化母体提供十年算力复利。从博弈论看,DeepSeek 是资本 + 人才耦合策略的胜利,而不是单独的人才策略——所以"模仿 DeepSeek 的 hiring 方式"而没有匹配的算力底座,是注定失败的局部模仿。