课程介绍
课程设计
- 从 Q/K/V 的张量流开始建立直觉。
- 用最小 PyTorch 模块串起注意力、残差、LayerNorm 与 MLP。
- 最后落到训练循环、mask 和调试方法。
适合人群
- 已经会 Python,希望系统理解 Transformer 的工程实现。
- 看过论文但还不能稳定写出核心模块的人。
你会掌握
搭建 Transformer 核心模块的心智模型
理解注意力计算中的张量形状和 mask
能独立阅读并调试简化版 Transformer 代码
完整课程目录
Chapter 1
2 课时第一章:结构拆解
从输入表示、注意力机制和残差结构开始建立整体图景。
Chapter 2
1 课时第二章:训练与调试
把模型结构放进训练循环,处理 loss、mask、优化器和日志。