猫鱼周刊 vol. 057 什么是推理语言大模型？

关于本刊

这是猫鱼周刊的第 58 期，本系列每周日更新，主要内容为每周收集内容的分享，同时发布在

博客：阿猫的博客-猫鱼周刊

RSS：猫鱼周刊

邮件订阅：猫鱼周刊

微信公众号：猫兄的和谐号列车

私信：leslieleung@proton.me

文章

认识推理语言大模型 —— 构建和优化推理模型的方法和策略

原文链接

一篇关于推理语言大模型（Reasoning LLMs）的介绍，以 DeepSeek-R1 为例讲解推理模型的构建和优化。

作者认为「推理（reasoning）」是指模型回答复杂的问题前中间的中间步骤，因此简单的问题（如「法国的首都是哪里？」）并不是推理，而「一辆火车以 30mph 的速度前进 3 个小时，它前进了多少距离」则需要简单的推理。

推理语言大模型在以下问题上表现更佳：

演绎或归纳推理（例如谜语或数学证明等）
链式思维推理（分解需要多步解决的问题）
复杂的决策任务
对新颖的任务有更好的泛化

但相应也有一些地方不如普通的模型：

推理速度
基于知识的任务（需要私域知识）
过于简单的任务

其实找到这篇文章的一个契机是有人问，「从 LLM 到推理 LLM，好像没有太高的技术门槛或者跃进，是否这个过程非常简单？」。回忆一下，刚才说的「推理」，其实在很早 Prompt Engineering 中就有一个经典名句「Let's think step by step.」，可以视为最古早的「推理」。文章整理了下图，展示从 DeepSeek-V3（基座模型）发展到 DeepSeek-R1 以及其他蒸馏模型的技术路径。

可以看到，DeepSeek-V3 产生的数据，经过一系列 RL（强化学习）和 SFT（有监督微调），就能得到 R1；利用相同的数据，在开源模型上微调，即可得到蒸馏模型（Destill 系列）。所以理论上说，R1 并不是一个全新的模型，更多地是 V3 的一个变种，被训练成一开始就先输出一个 <think> 来进行相应的「推理」。

回到上面的问题，答案就是，开发基座模型，比从基座模型开发推理模型要难。

自顶向下方式深度解读 DeepSeek-R1，内含大量细节

原文链接

一篇中文的文章，会比上文更加详细去解析中间的步骤，也值得一读。

在 emoji 中夹带任意数据

原文链接

通过零宽连字夹带数据的方式并不新鲜，但作者发现了可以利用Unicode 变体选择符来在 emoji 中夹带数据。这种技术在隐写水印等方面有很大的作用。

项目

ai-chatbot

项目链接

Vercel 开源的 AI 聊天机器人模板，支持推理模型等多种形式的模型对话。

subtrace

项目链接

一个 Docker 抓包工具。不需要侵入代码，用来做一些调试或者逆向等比较有帮助。

工具/网站

sqlnoir

网站链接

一个通过数据库查询解密的游戏，每个谜题以案件的形式，要求通过给出的数据库进行各种查询来获得结果。算是一个「在实操中学习」的例子，甚至可以做成线上面试题，模拟现实工作中各种复杂的情况。

想法

Cursor w/ deepseek-r1

Cursor 最近上新了 deepseek 的模型，终于是体验了推理模型在代码编写方面的应用。此前因为 o1 系列都是需要另外充值使用，deepseek-r1 出来后，因为推理成本降低，Cursor 将其列在跟 Claude 3.5 Sonnet 同一个收费等级，因此也可以不额外付费就能使用。

在一个场景中，我要求帮忙把一段代码改得更加健壮，我用同样的代码片段和 prompt，分别让 Claude 3.5 Sonnet、gpt-4o 和 DeepSeek-R1 去优化。结果是前两者都提出了非常多代码风格上的改进，只有 DeepSeek-R1 建议我关掉 Kafka 的自动提交，手动控制 offset 来保证 exacly-once。坦白说，之前我根本没有想到这一点，而这却正好是这段代码中最为薄弱，容易出问题的点。在这个场景中，推理模型表现出了之前模型都做不到的「智能」，提出了真正有用的建议而不是一些可有可无的改进。

当然了，R1 也不是万金油，在一些简单改写的场景下，完全没必要使用它，主要的原因还是太慢了，可能要花很多时间盯着他 <think> 一大堆，but wait 一大堆，最后才改出来一两行代码。

最后

本周刊已在 GitHub 开源，欢迎 star。同时，如果你有好的内容，也欢迎投稿。如果你觉得周刊的内容不错，可以分享给你的朋友，让更多人了解到好的内容，对我也是一种认可和鼓励。（或许你也可以请我喝杯咖啡）

另外，我建了一个交流群，欢迎入群讨论或反馈，可以通过文章头部的联系邮箱私信我获得入群方式。

阿猫的博客

阿猫的博客

猫鱼周刊 vol. 057 什么是推理语言大模型？

关于本刊

文章

认识推理语言大模型 —— 构建和优化推理模型的方法和策略

自顶向下方式深度解读 DeepSeek-R1，内含大量细节

在 emoji 中夹带任意数据

项目

ai-chatbot

subtrace

工具/网站

sqlnoir

想法

Cursor w/ deepseek-r1

最后

赞助

分享