头像

刀子李

帅气的我简直无法用语言描述!

要懂 transformer 大模型(如 LLM)的基本构造 +关键组件(Attention, FFN, embedding 等)

作为一个顶级部署工程师,我们看 Transformer 的视角和算法研究员是完全不一样的。 研究员视角:数学公式、梯度传播、语义理解能力。工程师视角:显存占用(Memory)、计算密度(FLOPS...
头像2周前
000