# 我使用 AI 写了 DeepSeekV4 的论文解读，但我觉得我不应该发出来

我刚刚用 AI 写了一篇 DeepSeek-V4 的论文解读。

流程很顺。把论文 PDF 丢进去，让 AI 抽取内容，整理结构，生成配图方案，再写成一篇看起来还算完整的技术博客。无论是关键的创新点，还是后面对于评测结果的解读，都还挺不错，我把目录放在下面，是不是看着还挺好。

![](https://leafw-blog-pic.oss-cn-hangzhou.aliyuncs.com/screenshot_1777095270.png)

但我读完之后，心里有点膈应。这篇文章是一篇挺好的论文解读不错，可它并不完全是我读懂之后写出来的东西。更准确地说，是 AI 帮我把论文里的内容整理成了一篇我能看懂大概意思的文章。这里有差别，而且差别不小。

---

## 我发现自己有点退化了

这两年我用了很多 AI。

写代码、查资料、整理文档、读论文、生成脚本、做小工具，很多事情都可以让 AI 先跑一版。效率确实高。以前要花一下午做的东西，现在可能半小时就能有个差不多的结果。

问题也在这里。

我越来越习惯让 AI 先给答案。答案来得太快，人就容易懒。尤其是遇到一篇技术密度很高的论文，我第一反应已经变成：先让 AI 总结一下。

刚开始这很合理。论文太长了，先用 AI 抽个结构，节省时间。

但如果每次都停在“抽个结构”，甚至直接把 AI 生成的解读当成自己的理解，那就麻烦了。

我读 DeepSeek-V4 的时候就有这种感觉。很多术语我认识，但没有真正跟上，尤其是Muon，我想很多了解Kimi的或者经常逛苏神博客的肯定很熟悉了，但说实话我至今尚未有仔细看过这个优化器的原理，这都是什么事啊。

我对大模型训练的很多理解，还停在两年前。那时候还会刷课、看书、在 Colab 上用小模型跑一些 LoRA、QLoRA、PEFT 之类的东西。虽然做得很菜，但至少会亲手跑一遍。loss 怎么降，显存怎么爆，batch size 怎么调，模型怎么胡说八道，这些体验很真实。

现在呢？

家里买了不少关于大模型的书，大部分只翻了几页。Colab 上次打开是什么时候，我都不太记得了。很多新的训练技巧，技术革新，我只是知道名字。虽然作为爱好者其实不可能真的直接接触到大模型的训练，因为也没有资源，但连现在的论文都看不懂，这还挺尴尬的。

---

## AI 很适合辅助学习，但很容易替代学习

我不觉得用 AI 学习有什么问题。

恰恰相反，AI 是很好的学习工具。它可以帮你快速解释概念，整理上下文，指出论文结构，补齐背景知识。以前读论文卡住一个概念，可能要搜好几篇博客和教材。现在可以直接问它，让它先给一个入门解释。

但这里有一条线。

AI 帮我降低入门门槛，这是辅助学习。AI 帮我生成一篇我自己并没有完全消化的文章，这就开始替代学习了。

替代学习的问题很隐蔽。

它不会让你立刻觉得自己变弱。相反，它会制造一种“我好像掌握了”的错觉。你可以让 AI 用很清晰的语言解释一个概念，可以让它列出公式里的变量含义，可以让它把论文每一章总结成要点。读起来很顺。

顺，不等于懂。

真正懂一个技术，通常没那么顺。你会卡在某个符号上，会发现前后定义对不上，会意识到自己忘了线性代数，会因为一张图回头读三遍方法部分。这个过程很慢，也很烦。

但这个过程才是学习。

---

## 我准备换一种用法

所以这篇 DeepSeek-V4 的 AI 解读，我不准备发了，反正网上那么多解读的文章，人家还有不少专业解读的，我一个AI写的有啥用，闹呢。

我更想把 AI 放回工具的位置。

第一步，让 AI 生成思维导图。

我需要先知道论文的大结构，它生成的那个解读文章的结构其实就挺好，当然我也使用了NotebookLM直接生成了思维导图，也挺好的。

第二步，关注核心概念，比如CSA，HCA，mhC，Muon。

这些问题先让 AI 做初步解释。解释不用太长，最好能给出直觉、公式位置和相关背景。

第三步，带着这些概念回到论文。

这一点最关键。

AI 的解释只能当预习材料。真正的理解还是要回到原文，尤其是方法部分和实验部分。论文里的符号、表格、图、消融和系统假设，都不能只看二手总结。

我以前读论文喜欢直接从头读到尾。现在发现不一定高效。先有地图，再带着问题读，可能更适合我这种已经落下一段时间的人。

---

## 使用 AI 实现想法，不等于拥有能力

这句话我最近越来越有感触。

现在会用 AI，确实是一种能力。会写 prompt，会拆任务，会让 agent 跑代码，会用 skills，会搭一套自动化流程，这些都有价值。

但这类能力很容易被高估。

会使用 skills，不代表你懂背后的技术。会装龙虾，也不代表你是个AI工程大师。能让 AI 写出一篇 DeepSeek-V4 解读，也不代表你真的理解了 DeepSeek-V4。

我不是在否定工具。工具当然要用，而且要用好。

只是不能把“我可以借助工具做出来”直接换算成“这是我的能力”。中间隔着一层自己的理解、判断和实践。没有这一层，工具越强，错觉越强。

这几年 AI 发展太快了。两年前学过一点 fine-tuning，今天再看模型训练和推理系统，已经有很多东西变了。MoE、稀疏注意力、低精度训练、long-context serving、agentic RL、OPD，这些东西如果只停留在名词层面，很快就会跟不上。

不进则退，这句话在技术学习里挺残酷。

你以为自己只是没进步，其实很多旧知识也在过期。更麻烦的是，AI 可以帮你把过期的知识包装得很像还够用。

---

## 还是要多读、多练、多看好案例

我现在能想到的办法很朴素。

多读。不要只读 AI 总结，要读原文。哪怕一天只读一小节，也比收藏一堆总结强。

多练。看到一个训练技巧，能不能找个小模型跑一下？github上都有一些大佬的迷你大模型训练示例，为啥自己不去学学？哪怕只是 Colab 上的小实验，也比只看概念实在。

多看好案例。看别人怎么写技术解读，怎么复现实验，怎么分析 benchmark，怎么承认不确定性。好的案例能校准自己的表达，也能暴露自己的浅。

我之前有段时间还会在 Colab 上乱折腾。现在想想，虽然当时很多东西都没搞明白，但那种折腾本身很重要。跑不起来、显存爆、环境冲突、结果不稳定，这些问题会逼着你真正理解一点东西。

只靠 AI 对话，知识很容易变成眼睛学会了，脑子说：你会啥了？

---

## 数学真的很重要

其实这个倒不是读论文有感而发，而是感觉一直数学有种很神奇的魅力，到了我这个年纪开始折腾一些业余爱好时，发现数学是一个零成本，能打发时间，能获得成就感的（和挫败感🐶）的完美爱好。

而且我又不去高考不去考研，我能有啥压力，学不好又不会怎样，从我的角度来看，这跟我这么多年打DOTA2一直是个菜鸡没啥两样，我又不是职业的。

之前刚开始学习AI相关技术的时候补过一段时间数学，但现在又忘得差不多了，还得再补补，果然知识这玩意就是用进废退。

数学基础打牢靠一点，对于阅读当前大模型相关的研究可方便太多了，不然那就是看天书，只会越来越不愿意看论文。

---

## 最后

所以我决定只把那篇 AI 写的 DeepSeek-V4 论文解读当作我的阅读辅助材料，慢条斯理的去读论文。

这篇反思倒是可以发。

因为它至少是我此刻真实遇到的问题：我在使用 AI 提高效率的同时，也在慢慢失去沉下心学习的耐心。

这不是什么严重到需要忏悔的事，但值得警惕。

AI 很强。正因为它强，才更需要把自己的边界看清楚。

菜就多读论文，多写代码，多学数学。