跳转至

大模型工程面试题介绍

来源:https://xiaolinnote.com/ai/llm/llm_info.html

第一条主线是「Transformer 架构原理」。Attention 公式里为什么除以 √d_k、Q/K/V 是怎么从输入投影出来的、Multi-Head 多在哪儿,这些是基础必考。再往上是 MHA 的优化(MQA、GQA、Flash Attention),是 2024 年之后新加的高频考点,特别是面 DeepSeek、阿里、字节这种自研大模型的公司,几乎必问。位置编码(RoPE 怎么用旋转表示相对位置)也是 100% 会问的点。

第二条主线是「训练流程」。预训练 + SFT + 对齐三阶段是大模型训练的标准框架,每个阶段在做什么、为什么必须按这个顺序、缺一会怎样,是面试官最爱追问的。延伸的高频点包括 Scaling Law(Chinchilla 1:20 配比、涌现能力)、LoRA / QLoRA 微调、RLHF / DPO / GRPO 对齐。特别是 GRPO,因为 DeepSeek R1 的火爆,2026 年成了几乎必问的新热点,你说不出「砍掉 Value Model 用组内归一化代替」这一句,面试官就知道你没跟上最新进展。

第三条主线是「推理优化」。这一块是 Agent 开发岗最容易延伸到的地方,包括温度/Top-P/Top-K 采样参数、KV Cache + Prompt Caching、量化(INT4/AWQ/GPTQ)、解码策略(为什么 LLM 不用 Beam Search)、MoE(DeepSeek V3 为什么 671B 参数但推理只用 37B)、部署框架(vLLM vs SGLang 怎么选)。面试官问到「你这个项目为什么用 X 模型」「推理成本怎么压下来的」这种问题,基本都会往这一块带。

第四条主线是「Prompt 工程和应用层」。Prompt 怎么写好(五要素、Few-shot、CoT 触发词)、CoT 为什么有效、幻觉为什么会出现以及怎么缓解,是所有 LLM 应用岗的必问基础。这一块上手最容易,但要答到能让面试官点头,得能讲出「Prompt 不是写完就完,是工程问题」「幻觉的根因是 LLM 是续写器不是数据库」这种工程视角。

第五条主线是「评测与选型」。包括学术 Benchmark 的局限(数据污染问题)、业务测试集怎么建、实际项目里选什么模型。特别是「你们项目为什么选这个模型不选那个」,几乎每场面试都会有这道开放题。能答出「合规 + 成本 + 延迟 + 能力四维度匹配业务需求」这种判断框架,就比一般候选人深一层。

把这五条主线吃透,大模型底层这块的面试基本就稳了。我从这些真实面经里筛了 22 道最高频的题,按上面的主线分块组织,每道题都按照的「面试翻车现场 + 知识点讲透」的方式写。目的不是让你背一套标准答案,而是让你真正理解了,不管面试官怎么换着花样问,你都能自己推出来。

题目目录

下面按完整顺序列出 22 道题,你可以挑自己不熟的看。整体内容分成六块。

第一块(Q1-Q5)是认知与基础原理,先讲清楚 LLM 是什么、和传统 NLP 的区别,然后展开 Transformer 架构、MHA 优化(MQA/GQA/Flash Attention)、位置编码(RoPE 等)、分词器(Tokenizer)。这五题是底层原理的地基,搞不清楚后面所有的东西都讲不透。

第二块(Q6-Q11)是训练全景与微调,从「大模型怎么训练出来」这个全景题开始,展开 Scaling Law(参数和数据怎么配)、微调方案(全量 vs LoRA vs QLoRA)、LoRA 的深入分析、Post-Training 家族(RLHF / DPO / GRPO / 拒绝采样 / RLAIF)、DPO vs PPO 的对比。

第三块(Q12-Q15)是推理与生成,讲清楚模型生成文本时怎么选下一个 token(贪心、Beam Search、采样)、采样参数怎么调(温度/Top-P/Top-K)、KV Cache 和 Prompt Caching 的工程优化、大模型量化(INT4/INT8/AWQ/GPTQ)。这一块是部署优化的核心。

第四块(Q16-Q18)是应用与 Prompt 工程,讲 Prompt 怎么写好(五要素 + 进阶技巧)、CoT 怎么用、幻觉为什么会出现以及怎么缓解。这一块是 LLM 应用开发直接相关的实战内容。

第五块(Q19-Q20)是架构演进与部署,讲 MoE 混合专家模型(DeepSeek V3 为什么便宜)、推理框架对比(vLLM / SGLang / TGI / llama.cpp 怎么选)。

第六块(Q21-Q22)是评测与选型,讲大模型评测指标(学术 Benchmark 的局限、业务测试集的构建)、实际项目选型(合规 + 成本 + 延迟 + 能力四维度)。

针对 Agent 开发同学的阅读意见

很多林友是冲着 Agent 开发求职来的,时间又比较紧(一般 1-2 个月内要面试),不可能 22 题平均用力。我按「跟 Agent 开发的相关度」把这 22 题分成三档优先级,你可以照着安排时间。

第一档:必看,直接关系 Agent 开发实战(9 道)

这一档是 Agent 开发每天都会用到的知识,也是面试官追问 Agent 架构时最容易延伸到的地方。这 9 道题如果答不上来,Agent 开发岗位的面试基本走不远。

应用与生成层(5 道):Q1 什么是 LLM(认知打底,快速过即可)、Q13 温度/Top-P/Top-K(Agent 输出稳定性的关键,调过 OpenAI API 的应该都熟)、Q16 Prompt 工程(写 Agent System Prompt 的基本功)、Q17 CoT(Agent 推理增强必备,ReAct、Plan-and-Execute 这些范式背后都是 CoT 的延伸)、Q18 幻觉(Agent 输出靠谱性的核心问题,必须懂缓解手段)。

推理优化与部署(4 道):Q14 KV Cache + Prompt Caching(Agent 调用次数多,Prompt Caching 能省 90% 输入 token 费用)、Q20 部署框架(vLLM、SGLang 是 Agent 部署的两个主流选择,SGLang 在多轮对话场景比 vLLM 省 50%+ 显存)、Q21 评测指标(Agent 效果怎么量化、业务测试集怎么建)、Q22 模型选型(选什么模型直接决定 Agent 的上限,国内项目还有合规约束)。

把这 9 道吃透,Agent 开发岗的 LLM 部分面试就有 70% 的把握了。

第二档:选看,理解原理为主(6 道)

这一档是「面试可能被追问到,但 Agent 开发实战里用得少」的内容。建议作为「补充阅读」,不需要每道都吃透到能默写公式的程度,理解大致原理 + 能在面试里说清楚关键概念就够了。

底层架构(3 道):Q2 Transformer 架构(基础原理,面试经常追问 Q/K/V 投影、√d_k 的作用)、Q3 MHA 优化(理解推理成本来源,MQA/GQA/Flash Attention 这套优化是为什么 LLM 推理这么贵的答案)、Q5 分词器(理解 token 计费、上下文管理为什么按 token 算)。

推理和架构演进(3 道):Q12 解码策略(理解为什么 LLM 不用 Beam Search 而用采样)、Q15 量化(部署相关,INT4 量化 + AWQ/GPTQ 算法)、Q19 MoE(理解 DeepSeek V3 这种「671B 总参数但只激活 37B」的模型为什么这么便宜)。

第三档:可跳,短期 Agent 开发用不上(7 道)

这一档是「大模型训练相关」的题。如果你是 Agent 开发求职,短期 1-2 个月内不需要深入这块。这些题更适合后期想往大模型训练、对齐方向转的同学,或者面试时间有富余的话作为拓展看。

训练原理(3 道):Q4 位置编码(sin/cos、RoPE、ALiBi 是训练时的设计)、Q6 大模型怎么训练(预训练 + SFT + 对齐三阶段)、Q7 Scaling Law(理论性强,Chinchilla 配比、涌现能力)。

微调和对齐(4 道):Q8 微调方案、Q9 LoRA、Q10 Post-Training 全景、Q11 DPO vs PPO 的区别。

这 7 道题不是不重要,是「对 Agent 开发求职的优先级不高」。如果有时间,完全可以补一下,对面试也有帮助。但如果时间紧,第一档 + 第二档先吃透,第三档面试前快速过一遍要点就行。