DeepSeek 还是在节前发了东西:
针对当前大模型在复杂结构推理中因自然语言指代模糊而产生的 "Reference Gap" 问题,DeepSeek 提出将空间标记(点、边界框)直接嵌入推理链作为最小思维单元,使模型在思考过程中就能精确"指向"物理坐标而非仅靠语言描述;该方案基于 DeepSeek-V4-Flash 架构,通过将每4个视觉 token 的 KV cache 压缩为1个条目实现了极高的显存效率,在计数与空间推理等基准测试中已能与 GPT-5.4、Claude-Sonnet-4.6 等前沿模型持平,团队计划后续公开内部评测基准及部分冷启动数据,相关模型权重也将整合至基础模型中发布。
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
针对当前大模型在复杂结构推理中因自然语言指代模糊而产生的 "Reference Gap" 问题,DeepSeek 提出将空间标记(点、边界框)直接嵌入推理链作为最小思维单元,使模型在思考过程中就能精确"指向"物理坐标而非仅靠语言描述;该方案基于 DeepSeek-V4-Flash 架构,通过将每4个视觉 token 的 KV cache 压缩为1个条目实现了极高的显存效率,在计数与空间推理等基准测试中已能与 GPT-5.4、Claude-Sonnet-4.6 等前沿模型持平,团队计划后续公开内部评测基准及部分冷启动数据,相关模型权重也将整合至基础模型中发布。
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives