猫鱼周刊 vol. 057 什么是推理语言大模型?
编辑
关于本刊
这是猫鱼周刊的第 58 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在
博客:阿猫的博客-猫鱼周刊
RSS:猫鱼周刊
邮件订阅:猫鱼周刊
微信公众号:猫兄的和谐号列车
文章
认识推理语言大模型 —— 构建和优化推理模型的方法和策略
一篇关于推理语言大模型(Reasoning LLMs)的介绍,以 DeepSeek-R1 为例讲解推理模型的构建和优化。
作者认为「推理(reasoning)」是指模型回答复杂的问题前中间的中间步骤,因此简单的问题(如「法国的首都是哪里?」)并不是推理,而「一辆火车以 30mph 的速度前进 3 个小时,它前进了多少距离」则需要简单的推理。
推理语言大模型在以下问题上表现更佳:
- 演绎或归纳推理(例如谜语或数学证明等)
- 链式思维推理(分解需要多步解决的问题)
- 复杂的决策任务
- 对新颖的任务有更好的泛化
但相应也有一些地方不如普通的模型:
- 推理速度
- 基于知识的任务(需要私域知识)
- 过于简单的任务
其实找到这篇文章的一个契机是有人问,「从 LLM 到推理 LLM,好像没有太高的技术门槛或者跃进,是否这个过程非常简单?」。回忆一下,刚才说的「推理」,其实在很早 Prompt Engineering 中就有一个经典名句 「Let's think step by step.」,可以视为最古早的「推理」。文章整理了下图,展示从 DeepSeek-V3(基座模型)发展到 DeepSeek-R1 以及其他蒸馏模型的技术路径。
可以看到,DeepSeek-V3 产生的数据,经过一系列 RL(强化学习)和 SFT(有监督微调),就能得到 R1;利用相同的数据,在开源模型上微调,即可得到蒸馏模型(Destill 系列)。所以理论上说,R1 并不是一个全新的模型,更多地是 V3 的一个变种,被训练成一开始就先输出一个 <think>
来进行相应的「推理」。
回到上面的问题,答案就是,开发基座模型,比从基座模型开发推理模型要难。
自顶向下方式深度解读 DeepSeek-R1,内含大量细节
一篇中文的文章,会比上文更加详细去解析中间的步骤,也值得一读。
在 emoji 中夹带任意数据
通过零宽连字夹带数据的方式并不新鲜,但作者发现了可以利用Unicode 变体选择符来在 emoji 中夹带数据。这种技术在隐写水印等方面有很大的作用。
项目
ai-chatbot
Vercel 开源的 AI 聊天机器人模板,支持推理模型等多种形式的模型对话。
subtrace
一个 Docker 抓包工具。不需要侵入代码,用来做一些调试或者逆向等比较有帮助。
工具/网站
sqlnoir
一个通过数据库查询解密的游戏,每个谜题以案件的形式,要求通过给出的数据库进行各种查询来获得结果。算是一个「在实操中学习」的例子,甚至可以做成线上面试题,模拟现实工作中各种复杂的情况。
想法
Cursor w/ deepseek-r1
Cursor 最近上新了 deepseek 的模型,终于是体验了推理模型在代码编写方面的应用。此前因为 o1 系列都是需要另外充值使用,deepseek-r1 出来后,因为推理成本降低,Cursor 将其列在跟 Claude 3.5 Sonnet 同一个收费等级,因此也可以不额外付费就能使用。
在一个场景中,我要求帮忙把一段代码改得更加健壮,我用同样的代码片段和 prompt,分别让 Claude 3.5 Sonnet、gpt-4o 和 DeepSeek-R1 去优化。结果是前两者都提出了非常多代码风格上的改进,只有 DeepSeek-R1 建议我关掉 Kafka 的自动提交,手动控制 offset 来保证 exacly-once。坦白说,之前我根本没有想到这一点,而这却正好是这段代码中最为薄弱,容易出问题的点。在这个场景中,推理模型表现出了之前模型都做不到的「智能」,提出了真正有用的建议而不是一些可有可无的改进。
当然了,R1 也不是万金油,在一些简单改写的场景下,完全没必要使用它,主要的原因还是太慢了,可能要花很多时间盯着他 <think>
一大堆,but wait
一大堆,最后才改出来一两行代码。
最后
本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡)
另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。
- 0
- 0
-
赞助
微信赞赏码
-
分享