Skip to main content

🦆 我把 32 台 Intel N100 小主机改造成了一个 DeepSeek-V3.2 685B 推理集群

  1. Forwarded from 小松鼠的日常 ()
    🦆 我把 32 台 Intel N100 小主机改造成了一个 DeepSeek-V3.2 685B 推理集群。

    没有 NVLink。
    没有 InfiniBand。
    只有 1 张 RTX 5090、32 台原本用于在线评测的 N100、和普通以太网。

    关键想法:
    🧠 Attention 留在 GPU
    🦆 MoE 层交给 N100 集群
    自定义 fp9 数据格式,让 AVX2 小核也能跑 MoE GEMV

    最终:
    11 tokens 输入,2037 tokens 输出
    16.171 tok/s decode
    MTP1 接受率约 89%

    技术报告:
    https://judgeduck.ai/duck-llm/

    *个人娱乐项目,与任何组织均无关联*