← 回到首頁
#LLM 2 篇文章
Dense、MoE、Hybrid:Transformer 的 FFN 有三種長法
DeepSeek-V3 寫著 671B 總參數、只啟動 37B;Snowflake Arctic 是 480B 總量、17B active。同樣叫 Transformer,差在哪?答案不在注意力,而在每一層的 FFN——本文拆解 Dense、MoE、與兩種 Hybrid 的結構差異。
#LLM#Transformer#MoE#模型架構
Harmony vs ChatML:兩代對話協定差在哪
很多人預設開源模型都吃 ChatML,但 OpenAI 為推理設計的 Harmony 是另一套協定。本文拆解兩者的世代差異——多 channel、角色階層、控制 token——以及為什麼你用 OpenAI-compatible API 呼叫時根本碰不到這層。
#LLM#Harmony#ChatML#API