🦆 我把 32 台 Intel N100 小主机改造成了一个 DeepSeek-V3.2 685B 推理集群

23:00 · 2026年4月13日 · 周一

🦆 我把 32 台 Intel N100 小主机改造成了一个 DeepSeek-V3.2 685B 推理集群。

没有 NVLink。
没有 InfiniBand。
只有 1 张 RTX 5090、32 台原本用于在线评测的 N100、和普通以太网。

关键想法：
🧠 Attention 留在 GPU
🦆 MoE 层交给 N100 集群
⚡ 自定义 fp9 数据格式，让 AVX2 小核也能跑 MoE GEMV

最终：
11 tokens 输入，2037 tokens 输出
16.171 tok/s decode
MTP1 接受率约 89%

技术报告：
https://judgeduck.ai/duck-llm/

*个人娱乐项目，与任何组织均无关联*