系统课程
LLM 基础进阶2026-05-01 更新开始学习

Transformer 从论文到工程实现

用可运行的模块拆开注意力机制、训练流程与推理优化

这门课围绕 Transformer 的核心结构展开,从张量形状、注意力计算、前馈网络到训练循环逐步拆解。

当前测试数据先提供图文课时,不包含视频模块;视频可以后续在后台上传并关联到课时内容模块。

课程介绍

课程设计

  • 从 Q/K/V 的张量流开始建立直觉。
  • 用最小 PyTorch 模块串起注意力、残差、LayerNorm 与 MLP。
  • 最后落到训练循环、mask 和调试方法。

适合人群

  • 已经会 Python,希望系统理解 Transformer 的工程实现。
  • 看过论文但还不能稳定写出核心模块的人。

你会掌握

搭建 Transformer 核心模块的心智模型
理解注意力计算中的张量形状和 mask
能独立阅读并调试简化版 Transformer 代码

完整课程目录