什么是 DeepSeek R1 深度思考？

文章发布于：2025年1月28日

通过对比 8.8 和 8.11 数字大小，来揣测什么是深度思考。

先看 DeepSeek 的默认版本（V3?）

说了一大堆，反正结论是正确的：8.8 大于 8.11。但是我知道，它说这么多，很可能是在系统提示词的诱导下说的，为的是推导出正确答案，而过去许多没有经过优化的大模型会直接回答这个问题，然后就会给出错误答案（目前GTP4o仍然回答错误）。于是给问题添加一个限定，不准展开过程，直接给出答案。

果然，回答错误。而此时如果人为的让它展开步骤，它还是能回答正确。

而如果把增加限定的问题交给 R1，它会怎么做呢？

至此，什么是 DeepSeek 的“深度学习”大概就知道了。深度学习功能，就是让大模型在回答问题时，明确区分出两个部分，即推理过程和正式回答。这个本应该包括在以往答案中的“推理过程”被单独地放在一个“思考”的标签中，这样即兼顾了正式答案的简洁性，又保证了正式答案是经过充分推理过程的。

可以想象，推理过程也是由系统引导词产生的，而这份引导词一定是经过精心雕琢的。它就像飞机的自检手册，飞行员在起飞时，会严格按照顺序，一条一条的完成检测任务。当面对问题时，系统引导词有若干条指令，每一条指令都会产生一系列的推理步骤，最终会产生一长串的推理过程。通过详细的推理过程，大模型开始生成最终的回答，而这个回答的可靠性，相比没有经过充分推理的回答，自然是可靠的多。

所以我觉得对于R1，一个缺点是，它在产生正式回答之前，会经历漫长的推理过程。而作为可以用的产品，有两种对策：最理想的状态是用速度弥补，即大模型的速度足够快，即便隐藏了推理过程，正式答案仍然能及时给出。另一种是为了让用户不至于等的厌烦，干脆将推理过程也展示给用户。

开启了深度思考(R1)功能，大模型的能力确实增加不少，印象最深刻的是玩2048游戏，R1是唯一一个能正确完成一步2048游戏计算的大模型。之前试过 GPT4o、豆包、kimi，印象中它们基本上都是胡扯。我在想，这个游戏挺简单的，许多大模型能完成复杂的编程题，但在这个游戏上表现如此之差，我能想到的一个可能是，它没有经过这方面的训练，所以面对这个问题，只能纯靠推理。

当然，还是前面说的问题，R1在玩2048游戏时，会经过漫长的推理过程，感觉一步要推理近一分钟，推理过程生成了一大堆的操作步骤。在等待的过程中，因为会输出各种假设、步骤、以及判断，而且内容相似，我一度怀疑是不是触发了什么 Bug，导致了死循环了呢。但最终竟然给出了正确答案，还是十分让人惊讶的。