DeepSeek 还是在节前发了东西：针对当前大模型在复杂结构推理中因自然语言指代模糊而产生的 "Reference Gap" 问题，DeepSeek 提出将空间标记（点、边界框）直接嵌入推理链作为最小思维单元，使模型在思考过程中就能精确"指向"物理坐标而非仅靠语言描述；该方案基于 DeepSeek-V4-Flash 架构，通过将每4个视觉 token 的 KV cache 压缩为1个条目实现了极高的显存效率，在计数与空间推理等基准测试中已能与 GPT-5.4、Claude-Sonnet-4.6 等前沿模型持平，团队计划后续公开内部评测基准及部分冷启动数据，相关模型权重也将整合至基础模型中发布

今天abc看了啥🤔

Photo

DeepSeek 还是在节前发了东西：
针对当前大模型在复杂结构推理中因自然语言指代模糊而产生的 "Reference Gap" 问题，DeepSeek 提出将空间标记（点、边界框）直接嵌入推理链作为最小思维单元，使模型在思考过程中就能精确"指向"物理坐标而非仅靠语言描述；该方案基于 DeepSeek-V4-Flash 架构，通过将每4个视觉 token 的 KV cache 压缩为1个条目实现了极高的显存效率，在计数与空间推理等基准测试中已能与 GPT-5.4、Claude-Sonnet-4.6 等前沿模型持平，团队计划后续公开内部评测基准及部分冷启动数据，相关模型权重也将整合至基础模型中发布。
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

GitHub

GitHub - deepseek-ai/Thinking-with-Visual-Primitives

Contribute to deepseek-ai/Thinking-with-Visual-Primitives development by creating an account on GitHub.