头像

默然微语

帅气的我简直无法用语言描述!

Transformer 的 “隐形大佬”:拆解 FFN,读懂架构核心

许多人聊 Transformer,一上来就扎进注意力机制里,把前馈神经网络(FFN)当空气,竟觉其不过是两个全连接层与一个激活函数的组合罢了?如此简单的架构,是否真如表面这般寻常,其中又是否潜藏着别样...
头像3周前
200