猫鱼周刊 vol. 042 NLP 已死？

关于本刊

这是猫鱼周刊的第 43 期，本系列每周日更新，主要内容为每周收集内容的分享，同时发布在

博客：阿猫的博客-猫鱼周刊

RSS：猫鱼周刊

邮件订阅：猫鱼周刊

微信公众号：猫兄的和谐号列车

私信：leslieleung@pm.me

文章

为什么 wordfreq 不会再更新了

项目wordfreq作者关于项目不再更新的公告。wordfreq 是一个 Python 包，其能查询某一个词在某个语言中的出现频率。

作者认为，生成式 AI 在 2021 年以后已经开始污染互联网上的文字，同时由于数据获取的难度和成本增加，以及传统的 NLP 实际上已经被生成式 AI 挤压得没有发展空间，再去投入这个项目已经没有意义了。

说起这个事情我还有一点点感触，因为我的大学很大部分时间花在了 NLP 上，那是 2018 年左右。NLP 有非常多细分的场景和方向，例如文本分类、信息抽取、机器翻译、问答等等，每个方向有一些独特的核心问题和解决方案，可以说是「百花齐放」。当然 GPT 2 在 2019 年推出的时候，也引起过一定的注意，但它当时只是一个「文本生成」的模型，对标的是当时的 BERT，时间也正是「预训练」兴起的时候。当时解决很多 NLP 问题都只需要在 BERT 后面再糊一层网络，就能获得不错的效果；如果有领域的语料，那就用 BERT 再微调一下。bert-base 的参数量只有 110M 左右，在一块 2060 上就可以运行，因此实验室的机器配一张 2080 已经足够跑实验，而普通学生也可以用相对便宜的显卡就能做对应的学习。

毕业之后，GPT 3.5 推出了，它比之前的模型相比，能生成更长的内容，到后来更是出现了 16k 乃至现在 100M 的上下文长度（相比之下 BERT 仅有 512）。很多事情变得不一样了，可以用模型生成大段大段的文本了，一些需要大量标注数据的应用（例如分类）可以通过简单的 prompt 工程解决了，原本复杂的领域问答也可以通过 RAG 来完成了。可以说传统的 NLP 被浇了个透心凉，过去「小而美」的解决方法被「力大砖飞」替代了，更大的参数量更多的训练语料使得 LLM 能轻松解决过去难以解决的问题。但是现在再要研究 NLP，或者说 LLM，就需要多卡才能完成实验，再不是当年一块 2080 就可以打比赛的程度了，更别谈个人甚至普通高校怎么获得这种计算资源或者语料资源的问题。

之前经常有人把 NLP 的发展概括成这么几个阶段：基于规则、基于统计学习以及基于深度学习，现在我想在后面再增加一个——基于大语言模型。这个新阶段有很鲜明的特征，例如底层模型的开发和训练需要大量的资源（约等于钱），因此底层模型的开发牢牢控制在商业公司和大型研究机构上，但是技术落地和普及相对更加简单（普通开发者通过 API 即可调用大语言模型，普通人可以在平常 APP 中用到 AI 相关的功能）。