DeepSeek-V3 寫著 671B 總參數、只啟動 37B;Snowflake Arctic 是 480B 總量、17B active。同樣叫 Transformer,差在哪?答案不在注意力,而在每一層的 FFN——本文拆解 Dense、MoE、與兩種 Hybrid 的結構差異。