LLM 基础进阶2026-05-01 更新开始学习

Transformer 从论文到工程实现

用可运行的模块拆开注意力机制、训练流程与推理优化

这门课围绕 Transformer 的核心结构展开，从张量形状、注意力计算、前馈网络到训练循环逐步拆解。

当前测试数据先提供图文课时，不包含视频模块；视频可以后续在后台上传并关联到课时内容模块。

课程介绍

课程设计

从 Q/K/V 的张量流开始建立直觉。
用最小 PyTorch 模块串起注意力、残差、LayerNorm 与 MLP。
最后落到训练循环、mask 和调试方法。

适合人群

已经会 Python，希望系统理解 Transformer 的工程实现。
看过论文但还不能稳定写出核心模块的人。

你会掌握

搭建 Transformer 核心模块的心智模型

理解注意力计算中的张量形状和 mask

能独立阅读并调试简化版 Transformer 代码

完整课程目录

Chapter 1

第一章：结构拆解

从输入表示、注意力机制和残差结构开始建立整体图景。

2 课时

01注意力机制的张量地图用一张张量流图解释 Q、K、V、mask 与 softmax 的计算过程。视频 / 图文28 分钟 02前馈网络、残差与归一化解释 Transformer block 中 MLP、残差连接和 LayerNorm 的协作方式。图文22 分钟

Chapter 2

第二章：训练与调试

把模型结构放进训练循环，处理 loss、mask、优化器和日志。

1 课时

01最小训练循环从 batch、forward、loss、backward 到 optimizer step 的完整路径。图文31 分钟