一、学校分布的三条带
研究科学家路径上"门票学校"不到 15 所;Infra 路径上学校权重显著下降,"做过的事"权重上升。
深度学习正统
- Toronto · Sutskever(Hinton 学生)、Karpathy 本科
- Stanford · Karpathy PhD、Tri Dao、Jared Kaplan
- Berkeley · Schulman(Abbeel)、Aravind Srinivas
- CMU · 杨植麟 PhD
- Princeton · Dario Amodei 生物物理
- Caltech / MIT · Schulman 本科、何恺明 2024 任教
古典学院体系
- 剑桥 + UCL · Hassabis CS 本 + 认知神经 PhD
- X + ENS · Mistral 三人组(Mensch / Lample / Lacroix)全部出身
- ETH Zürich · 大量 FAIR / DeepMind 研究员
本土主力学校
- 清华 · 何恺明基科、杨植麟、唐杰
- CUHK · 汤晓鸥系(何恺明 PhD → 商汤一代)
- 浙大 · 梁文锋(异类:量化 infra 转 AI)
- 北大 / 上交 ACM / 中科大少年班
研究科学家路径"门票学校"不到 15 所;研究工程师 / Infra 路径上学校权重显著下降,"做过的事"权重上升。
二、专业背景
物理 / 数学背景在"从零搭新范式"上有结构性优势;纯 CS 在"把现有范式做到极致"上更熟练。
Kaplan 的 Scaling Laws (2020) 本质是统计物理思维(Wilson RG、有限尺度标度),物理 PhD 训练出的"找 universal scaling"直觉对路。这条路径在 Anthropic 密度极高。
物理 / 数学背景在"从零搭新范式"(scaling laws、Mamba、新架构)上有结构性优势;纯 CS 在"把现有范式做到极致"(系统、ranking、infra)上更熟练。两者不可替代。
三、竞赛经历
不同公司偏好不同竞赛——这是简历筛选的隐性硬通货。
Noam Shazeer 是 Putnam Fellow(前五)。Google Brain / Anthropic senior 里 Putnam 出现频率极高。
DeepMind 大量招(AlphaProof / AlphaGeometry 团队尤其)。Anthropic、OpenAI、xAI 都偏好。
中国 + 东欧 infra 岗密度高。字节 Seed、月之暗面、DeepSeek 招聘的实际信号。
产品 / 应用 ML 权重高,前沿研究权重低。Tesla 早期、各 fintech 偏好。
粗略偏好:Anthropic 偏数学 / 物理奥赛 + 理论品味;OpenAI 早期偏 Putnam + 工程;DeepMind 偏 IMO + 学术 PhD;DeepSeek / Moonshot / MiniMax 偏 ICPC + Codeforces + 顶会一作。
四、PhD 是否必须
三种角色,三种答案。
学生密度最高的几个 lab
- Hinton(Toronto / Google)→ Sutskever、Krizhevsky、Graves
- Abbeel(Berkeley)→ Schulman、Chelsea Finn、Peter Chen
- 李飞飞(Stanford)→ Karpathy、Justin Johnson、Jim Fan
- Christopher Ré(Stanford)→ Tri Dao、Albert Gu(Mamba 系全员)
- Salakhutdinov(CMU)→ 杨植麟与大量 NLP 中国学生
- 汤晓鸥(CUHK)→ 何恺明与商汤一代
- 朱军(清华)→ 智谱核心、Diffusion 中国阵营
- LeCun(NYU / FAIR)、Bengio(Mila)自成生态
这些 lab 的师承血统在 hiring 时是隐性硬通货。
五、早期实习与项目
几乎所有 90 后样本都有至少一段大厂研究院实习。
实习圣杯
Aravind Srinivas 在 OpenAI、DeepMind、Google 都实习过 → 回 OpenAI → 创 Perplexity,是教科书路径。杨植麟在 Google Brain、FAIR 都有实习。Mistral 三人组全部 DeepMind / FAIR 出身。
Residency · 无 PhD 进研究岗的官方后门
开源贡献 · 隐性招聘渠道
这些 repo 的 top 50 contributor 名单基本是各大厂招聘短名单。
六、技能侧重
不同细分方向对数学和系统的要求差异极大。
| 方向 | 数学权重 | 系统 / CUDA | 备注 |
|---|---|---|---|
| Pre-training algorithm | 高 | 中 | Kaplan 系,物理直觉重要 |
| Post-training / RLHF | 中 | 中 | Schulman 系 |
| 新架构(Mamba / MoE) | 高 | 高 | Tri Dao 范本,IO-aware |
| Training infra | 低 | 极高 | Jeff Dean / Noam / 梁文锋 |
| Inference infra | 低 | 极高 | vLLM / SGLang,系统出身吃香 |
| Agents | 中 | 中 | 产品直觉 > 数学 |
| Multimodal | 中 | 中 | 视觉 / 语音传统 |
| Evals / safety | 中 | 低 | 写作 + 实验设计 |
七、趋势变化
从学术派到 infra 派,从研究院到工程师。
研究院模式
学术派主导,PhD + 顶会一作 = 入场券。CV / NLP 各做各的,单卡 / 8 卡跑实验。
Infra 重度倾斜
一个能把 7B 训练效率 +20% 的工程师,价值超过十篇 NeurIPS。Noam Shazeer 在 Google 内部据传拿到资深 VP 级薪酬就是信号。
新蓝海打开
post-training(RLHF / RLAIF / RLVR)+ data quality + evals 成为新蓝海,吸纳大批从应用层转入的人。
非传统出身证明力
DeepSeek 证明非传统 ML 出身(量化 infra)也能 SOTA。但前提是十年自建 GPU 集群 + 高强度 infra 工程能力,不是"小作坊逆袭"故事。
给年轻人的三条路径
三条路的最优学习路线不同,不要搞混。
研究科学家
想做 scaling、新架构、对齐基础理论
高中 / 本科阶段
- 国家:首选美本,或国内顶尖 + 美研。纯本土路径在前沿研究岗的天花板目前仍明显低于美研路径——不是智商问题,是 lab 师承和合作网络。
- 学校:MIT、Stanford、CMU、Berkeley、Princeton、Caltech、Toronto;国内清华基科 / 姚班、北大图灵班、中科大少年班、上交 ACM 班。
- 专业:数学 + CS 双修,或物理 + CS 双修。不要只读"AI 专业"——AI 课程半年过时,数学 / 物理底子十年不过时。
- 竞赛:IMO / IPhO / Putnam 选一打到金牌或前 100。这是 PhD 申请最硬的通货之一。
- 项目:大三前复现 nanoGPT;大三做一个能投 workshop 的小工作;大四争取一段 MSR / Google / DeepMind 实习。
已本科 CS / 数学
- 是否读 PhD:是。这条路径上 PhD 不是可选项。
- 申 lab 优先级:Christopher Ré、Percy Liang、Chelsea Finn、Sergey Levine、Yejin Choi、Tatsu Hashimoto;欧洲 Yoshua Bengio、Max Welling;国内朱军、孙茂松、刘知远。
- Residency 备选:Anthropic Fellows(最值钱)、OpenAI Residency、Google AI Residency、Meta FAIR Residency。
- Side project:复现 Chinchilla scaling 曲线(小尺度即可);为 vLLM / SGLang 贡献一个 sampler;做一篇 mechanistic interpretability 复现(Anthropic 那条线在招人)。
研究工程师 / Infra
想做训练框架、推理优化、CUDA
高中 / 本科
- 国家:中国本土在这条路上占优。DeepSeek、Moonshot、字节 Seed、阿里 Qwen 都在疯抢 infra。
- 学校:清华 / 上交 ACM / 中科大 / 浙大 / 哈工大;美国 CMU / UIUC / Berkeley 系统方向。
- 专业:CS(系统方向)+ 数学辅修。
- 竞赛:ICPC 区域奖牌 + Codeforces 2200+ 比任何论文都管用。
- 项目:写 CUDA kernel(Triton、CUTLASS 都行);给 PyTorch / vLLM / SGLang / TransformerEngine / Megatron 提 PR;自己用 4 张 4090 训一个 1B 模型并 blog 出来。
已本科 CS / 数学
- 是否读 PhD:不必要,甚至应该跳过。一年的 vLLM commit 比三年水 PhD 价值大。
- 直接进字节 Seed / DeepSeek / Moonshot / Qwen / Anthropic infra / xAI infra。
- 关键技能栈:NCCL、FSDP、TP/PP/EP、CUDA Graphs、PagedAttention、Triton、编译器(torch.compile / TVM)。
- Side project:写一个 MoE 分布式训练的最小实现并开源;做一个 FP8 训练数值稳定性 report。
已工作想转入
应用 / 产品 / evals / data 的切入路线
切入点排序
- Evals 工程师:门槛最低、最缺人。会写 Python + 有领域知识(医疗、法律、金融、教育)就能切。Anthropic、OpenAI、Scale AI 都在大规模招。
- Data quality / annotation pipeline:数据工程 + 一点 LLM 经验。Surge、Scale、Snorkel 系。
- Infra 应用工程:SRE + 懂 GPU 调度,比从 ML 转 infra 反而容易。
- 产品层 / agent wrapper:Cursor、Devin、Perplexity 这类。要会做产品判断 + prompt + eval 循环。
- 垂直行业 fine-tune + 评测:对原行业 know-how 是杠杆。
试图自学三个月就去抢 pre-training 岗。那个市场对自学者关闭。
四条非主流判断
这些是我的明确观点,不是行业共识。
要么是 Putnam / IMO 级竞赛,要么是 vLLM / FlashAttention 级开源贡献。中间地带(普通硕士 + 几个 Kaggle 银牌)现在最难。
研究端的优势来自 lab 师承网络;infra 端的优势来自算力市场和工程文化。两条路要分开优化。
因为 scaling / 新架构方向仍在出新范式;等范式稳定后,CS 系统派会重新占优。
他成功的前提是十年量化 infra 积累 + 自有 GPU 集群。年轻人模仿"绕开 PhD 直接做大模型"会失败,因为缺少他那十年的 infra 复利。
概念解释
vLLM commit、Evals 工程师、DeepSeek 团队画像反推。
"一年 vLLM commit" 是什么意思
vLLM 是 2023 年 Berkeley Sky Lab(Woosuk Kwon、Zhuohan Li)开源的 LLM 推理引擎,核心创新是 PagedAttention——把操作系统虚拟内存的分页思想搬到 KV cache。现在和 SGLang、TensorRT-LLM、llama.cpp 并列事实标准。
"一年 vLLM commit"是简写,指持续 12 个月以上、有实质性贡献(不是改 typo)的开源工作。它值钱的原因:
- 公开可验证:PR、代码质量、review 记录全部可查,比简历可信度高一个数量级。
- 接触真实生产系统:连续批处理、KV cache 管理、speculative decoding、FP8、MoE inference、TP / PP 调度——闭门写不出来。
- 直接进入招聘视野:core team 和 top 50 contributor 基本被 NVIDIA、Anthropic、OpenAI、xAI、Together、Anyscale、Red Hat(收购 Neural Magic)瓜分。
- 同质等价物:SGLang、TensorRT-LLM、llama.cpp、MLX、HuggingFace transformers core。
"实质性"的颗粒度:加一个新模型架构、写一个 fused kernel、修一个 TP edge case、实现一个 sampler、做 FP8 数值稳定性 patch。README 改字不算。
Evals 工程师
Evals = evaluations。不是建模,是测量。
工作内容
- 设计 benchmark(MMLU、GPQA、SWE-bench、AIME、ARC-AGI 这类)
- 写 harness(Anthropic 的 Inspect、EleutherAI 的 lm-eval-harness、OpenAI 的 simple-evals)
- 领域 evals:医疗、法律、代码、agentic(METR 的 RE-Bench、Apollo 的 sandbagging eval)
- 危险能力红队:生化、网络攻击、自主复制——直接挂在 Anthropic RSP / OpenAI Preparedness 框架上,决定模型能不能发布
- 生产侧 online evals + regression 监控
雇主
"门槛低却缺人"的三个原因
- 真正的瓶颈是领域知识 + 实验严谨度 + 写作清晰,不是 ML 理论。会写 Python 的医生 / 律师 / 生物学家比纯 CS 毕业生更值钱。
- ML 圈传统认为 evals 不 prestigious,researcher 不愿做——但 RSP 出来后地位飙升。
- 统计功底(采样、置信区间、多重比较、IRR)很多 ML 工程师反而不熟。
下游路径:evals → safety researcher、→ AI governance / policy、→ 产品 PM。
DeepSeek 工程师画像反推
公开信源:V2 / V3 / R1 论文作者名单、《暗涌》《揭秘 DeepSeek》专访、36kr、知乎离职片段、幻方早期 JD。
构成
- 学校:清华、北大、浙大、上交、中科大、复旦为主体。几乎全本土培养,没有美研主力。
- 学历:硕士占多数,PhD 是少数派——和 Anthropic / OpenAI 完全相反。
- 年龄:97 / 98 / 99 后比例极高。多个核心作者是应届或工作 1–3 年。
两支前职业
- 幻方量化内部转岗(最重要的一支)——原本写高频交易系统,熟悉低延迟、CUDA、NVLink、自建集群运维。
- 高校直招——竞赛背景偏多,ICPC / 信息学奥赛 / 数学竞赛。
不招的人(来自访谈)
- BAT 老员工
- 海归 senior researcher
- "有成功 ML 经验"的人
梁文锋原话:"认知比经验重要"——是 Anthropic 式 hiring 的反面极端。
组织反推
- 扁平,没有 director / principal 阶梯
- 算力不限——上万张 H800,研究员有"无限算力"幻觉
- 发论文不是 KPI,是招人和定位手段
- 工资行业 top(应届顶尖 200 万+ RMB base),无大厂层级政治
技能反推(从公开成果反推必备能力)
- MLA(Multi-head Latent Attention):架构创新,懂 attention 内部数学
- DeepSeekMoE + 细粒度专家:MoE 系统工程
- FP8 混合精度训练:底层数值 + CUDA
- DualPipe + 自写 all-to-all 通信 kernel:硬核系统,已触到 NVIDIA 工程师领域
- GRPO:把 PPO 简化但保持 RL 稳定,理论嗅觉
- R1-Zero 的纯 RL 路线:敢做大胆实验,且有算力支撑
DeepSeek 不是"年轻人逆袭"故事,而是"量化资本 + 自建算力 + 反主流 hiring + 工程师文化"的组合拳。
年轻人能学的:早期囤系统能力(CUDA、分布式、低延迟),不要早期囤 ML 论文数。
但复制路径需要资本前置——这是它和 OpenAI 早期"几个天才靠论文起家"最大的不同,也是为什么国内其他六小虎走不通这条路:他们没有一个已经赚到钱的量化母体提供十年算力复利。从博弈论看,DeepSeek 是资本 + 人才耦合策略的胜利,而不是单独的人才策略——所以"模仿 DeepSeek 的 hiring 方式"而没有匹配的算力底座,是注定失败的局部模仿。