详细讲解 Transformer 注意力机制原理,并提供 PyTorch 代码实现,帮助理解大模型基础架构。