#LLM — Mitpy's Blog | Mitpy's Blog

#LLM 2 篇文章

Dense、MoE、Hybrid：Transformer 的 FFN 有三種長法

DeepSeek-V3 寫著 671B 總參數、只啟動 37B；Snowflake Arctic 是 480B 總量、17B active。同樣叫 Transformer，差在哪？答案不在注意力，而在每一層的 FFN——本文拆解 Dense、MoE、與兩種 Hybrid 的結構差異。

很多人預設開源模型都吃 ChatML，但 OpenAI 為推理設計的 Harmony 是另一套協定。本文拆解兩者的世代差異——多 channel、角色階層、控制 token——以及為什麼你用 OpenAI-compatible API 呼叫時根本碰不到這層。