猫鱼周刊 vol. 056 AI Infra 会是今年风口吗?
编辑
关于本刊
这是猫鱼周刊的第 57 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在
博客:阿猫的博客-猫鱼周刊
RSS:猫鱼周刊
邮件订阅:猫鱼周刊
微信公众号:猫兄的和谐号列车
摄于江西武功山。也是春节假期期间去的,当天一直阴雨,在山顶时难得停雨,在从金顶下到吊马桩时掏出相机拍了一张,也是我对这座山最深的印象:多雾,天气多变。山间的雾飘得很快,所以前一刻还能看得清的山峰,下一刻就可能被大雾笼罩。
文章
武功山游记
本来是想放在上面图说的部分简单写一下,后面发现可能会变成比较大的篇幅,临时加更了一篇文章讲一下我的武功山游记。
简单总结一下就是合适的装备和补给非常重要,另外路线规划也要尽可能做好。第一次写游记类型的文章,写完发现观感上比较流水账,后面一篇长沙的尽量好好组织一下。
模型量化技术概述及 GGUF/GGML 文件格式解析
最近不可避免地接触到「本地部署」这个话题,于是稍微补了一下课。为了能让参数量巨大的模型方便传输以及在小规模硬件上能够运行,需要把原来的模型进行一些处理减小其参数需要的存储量以及加速推理,具体做法就是把高精度的参数映射到更低精度,称为「量化(Quantization)」。一般来说是把 32 位的浮点数转为 16 位的浮点或 8 位的整型,在 GGUF 中分别称为 F16、Q8。
如果你使用过 Ollama 或者 LM Studio,应该会见到形如 DeepSeek-R1-Distill-Qwen-7B-Q3_K_L.gguf
这样的模型名称,它的意思是:
- 模型:Qwen-7B(7B 参数),使用 DeepSeek-R1 蒸馏。
- 量化:3 位量化,L 意味着部分参数可能使用更高的量化。
这里提到「蒸馏」的概念,顺便也讲解一下。蒸馏的概念是有一个复杂的教师模型,将其知识迁移至一个更小的学生模型中,来达到减少模型参数同时提升效果的目的。说白了,就是让小模型「鹦鹉学舌」。上面的例子就是让 DeepSeek-R1 去教 Qwen-7B。
现在一般把全部参数的模型叫「满血版」,经过量化或者蒸馏的模型都称为「阉割版」。从我的体验来说,deepseek-r1-distill-qwen-7b(Q4_K_M)
就非常地智障。按照网友的经验,Q4 左右是最低能接受的水平,而 Q8 可用性会好一点。
另外,也看到个观点说 DeepSeek 本地化部署最大的意义是让一些公司能私有化部署媲美主流闭源模型的大模型,我觉得确实有些道理,因此我更正一下上期「本地部署都是扯淡」的观点。不过,还是需要留意成本、模型效果(是否满血)以及吞吐量这三个指标,他们有点像不可能三角。从实际使用来说,这三个指标牺牲任何一个都是不值得的。
4090 单卡跑满血版 DeepSeek-R1,清华团队开源项目再破大模型推理门槛
大模型推理方面的进展,通过「专家卸载」技术,单卡能跑 DeepSeek-R1 量化版本(我觉得也不算「满血」)。这篇算是新闻稿,如果对具体的技术感兴趣,还可以深入阅读下:
- 灵活可配的 CPU/GPU 异构大模型推理策略 - KTransformers (2)
- ktransformers/doc/en/DeepseekR1_V3_tutorial.md at main · kvcache-ai/ktransformers · GitHub
对应的开源项目是:
另外,我发现这个团队还有在做一个推理平台,是 Kimi 的服务平台(Moonshot),名字也很有意思,叫 Mooncake(月饼)。
项目
AI-Guide-and-Demos-zh_CN
一个不错的大模型入门指南,上面的文章就来源于此。
nezha
一个轻量的服务器监控工具(以针会友)。界面还蛮好看的,Homelab / MJJ 自娱自乐神器。
beszel
也是一个轻量的服务器监控工具,有历史数据,支持 Docker 状态信息的查看和告警等。跟 nezha 最大的区别是能同时看到 Docker 容器的信息。
Awesome-LLM-Inference
一些大模型推理方面的进展和集锦,一知半解(x。
工具/网站
Humanity's Last Exam
直译就是「人类最后的考试」。背景是现在 AI 能力不断提升,已经在很多数据集做到 90% 以上的准确率。这个测试集的组织者认为,如果有 AI 可以通过一个由人类各个学科各种复杂问题组成的数据集,就可以认为 AI 超越了人类的智力,达到了 AGI(通用人工智能)的水平。
目前来说:
Random Nerd Tutorials
一个嵌入式教程网站,有很多案例,也有比较系统的教学。
想法
AI Infra 会是今年风口吗?
这里的 AI Infra 其实有两种定义,一是指运行 AI 的基础设施,二是相关的职业。
先说基础设施。从 DeepSeek-R1 爆火之后,很多平台都推出了对应的 API。目前为止用下来最稳的还是字节的火山引擎,比较有意思的是硅基流动(使用了华为昇腾),甚至连国家超算中心也有。算力是一个很大的竞争因素,所以后续很多云计算公司都会在这方面加大投入,建设自己的「基础设施」。另外异构计算、国产算力这些都会是比较有看点的地方。
再说 AI Infra 这种新职业。它有点像运维和算法工程师的合体,可以偏向于量化、推理等方向的开发(例如上面的,或者也可以称为「科研向」),也有接地气一点的负责相应技术的部署落地的(称为「工程向」)。
上面说到,DeepSeek 模型的能力以及开源的性质,使得「一些公司能私有化部署媲美主流闭源模型的大模型」成为可能,因此 AI Infra 不再是一些大公司的专利,一些中小规模的公司也会产生对应的需求。我觉得今年面向中小公司的大模型算力需求会有增长,以及中小企业对「工程向」人才的需求也会增长。
一个疯狂的猜想:今年的 AI Infra(行业) 会像当年移动互联网兴起一样,行业蓬勃发展,继而大量吸纳人才,使得转型成 AI Infra(职业) 相对容易,算是一个风口。
最后
本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡)
另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。
- 1
- 0
-
赞助
微信赞赏码
-
分享