阿猫的博客

阿猫的博客

猫鱼周刊 vol. 057 什么是推理语言大模型?

2025-02-23
猫鱼周刊 vol. 057 什么是推理语言大模型?

关于本刊

这是猫鱼周刊的第 58 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在

博客:阿猫的博客-猫鱼周刊

RSS:猫鱼周刊

邮件订阅:猫鱼周刊

微信公众号:猫兄的和谐号列车

私信:leslieleung@proton.me

文章

认识推理语言大模型 —— 构建和优化推理模型的方法和策略

原文链接

一篇关于推理语言大模型(Reasoning LLMs)的介绍,以 DeepSeek-R1 为例讲解推理模型的构建和优化。

作者认为「推理(reasoning)」是指模型回答复杂的问题前中间的中间步骤,因此简单的问题(如「法国的首都是哪里?」)并不是推理,而「一辆火车以 30mph 的速度前进 3 个小时,它前进了多少距离」则需要简单的推理。

推理语言大模型在以下问题上表现更佳:

  • 演绎或归纳推理(例如谜语或数学证明等)
  • 链式思维推理(分解需要多步解决的问题)
  • 复杂的决策任务
  • 对新颖的任务有更好的泛化

但相应也有一些地方不如普通的模型:

  • 推理速度
  • 基于知识的任务(需要私域知识)
  • 过于简单的任务

其实找到这篇文章的一个契机是有人问,「从 LLM 到推理 LLM,好像没有太高的技术门槛或者跃进,是否这个过程非常简单?」。回忆一下,刚才说的「推理」,其实在很早 Prompt Engineering 中就有一个经典名句 「Let's think step by step.」,可以视为最古早的「推理」。文章整理了下图,展示从 DeepSeek-V3(基座模型)发展到 DeepSeek-R1 以及其他蒸馏模型的技术路径。


可以看到,DeepSeek-V3 产生的数据,经过一系列 RL(强化学习)和 SFT(有监督微调),就能得到 R1;利用相同的数据,在开源模型上微调,即可得到蒸馏模型(Destill 系列)。所以理论上说,R1 并不是一个全新的模型,更多地是 V3 的一个变种,被训练成一开始就先输出一个 <think> 来进行相应的「推理」。

回到上面的问题,答案就是,开发基座模型,比从基座模型开发推理模型要难。

自顶向下方式深度解读 DeepSeek-R1,内含大量细节

原文链接

一篇中文的文章,会比上文更加详细去解析中间的步骤,也值得一读。

在 emoji 中夹带任意数据

原文链接

通过零宽连字夹带数据的方式并不新鲜,但作者发现了可以利用Unicode 变体选择符来在 emoji 中夹带数据。这种技术在隐写水印等方面有很大的作用。

项目

ai-chatbot

vercel/ai-chatbot - GitHub

项目链接

Vercel 开源的 AI 聊天机器人模板,支持推理模型等多种形式的模型对话。

subtrace

subtrace/subtrace - GitHub

项目链接

一个 Docker 抓包工具。不需要侵入代码,用来做一些调试或者逆向等比较有帮助。

工具/网站

sqlnoir

网站链接

一个通过数据库查询解密的游戏,每个谜题以案件的形式,要求通过给出的数据库进行各种查询来获得结果。算是一个「在实操中学习」的例子,甚至可以做成线上面试题,模拟现实工作中各种复杂的情况。

想法

Cursor w/ deepseek-r1

Cursor 最近上新了 deepseek 的模型,终于是体验了推理模型在代码编写方面的应用。此前因为 o1 系列都是需要另外充值使用,deepseek-r1 出来后,因为推理成本降低,Cursor 将其列在跟 Claude 3.5 Sonnet 同一个收费等级,因此也可以不额外付费就能使用。

在一个场景中,我要求帮忙把一段代码改得更加健壮,我用同样的代码片段和 prompt,分别让 Claude 3.5 Sonnet、gpt-4o 和 DeepSeek-R1 去优化。结果是前两者都提出了非常多代码风格上的改进,只有 DeepSeek-R1 建议我关掉 Kafka 的自动提交,手动控制 offset 来保证 exacly-once。坦白说,之前我根本没有想到这一点,而这却正好是这段代码中最为薄弱,容易出问题的点。在这个场景中,推理模型表现出了之前模型都做不到的「智能」,提出了真正有用的建议而不是一些可有可无的改进。

当然了,R1 也不是万金油,在一些简单改写的场景下,完全没必要使用它,主要的原因还是太慢了,可能要花很多时间盯着他 <think> 一大堆,but wait 一大堆,最后才改出来一两行代码。

最后

本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡

另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。