我使用 AI 写了 DeepSeekV4 的论文解读,但我觉得我不应该发出来
我刚刚用 AI 写了一篇 DeepSeek-V4 的论文解读。
流程很顺。把论文 PDF 丢进去,让 AI 抽取内容,整理结构,生成配图方案,再写成一篇看起来还算完整的技术博客。无论是关键的创新点,还是后面对于评测结果的解读,都还挺不错,我把目录放在下面,是不是看着还挺好。

但我读完之后,心里有点膈应。这篇文章是一篇挺好的论文解读不错,可它并不完全是我读懂之后写出来的东西。更准确地说,是 AI 帮我把论文里的内容整理成了一篇我能看懂大概意思的文章。这里有差别,而且差别不小。
我发现自己有点退化了
这两年我用了很多 AI。
写代码、查资料、整理文档、读论文、生成脚本、做小工具,很多事情都可以让 AI 先跑一版。效率确实高。以前要花一下午做的东西,现在可能半小时就能有个差不多的结果。
问题也在这里。
我越来越习惯让 AI 先给答案。答案来得太快,人就容易懒。尤其是遇到一篇技术密度很高的论文,我第一反应已经变成:先让 AI 总结一下。
刚开始这很合理。论文太长了,先用 AI 抽个结构,节省时间。
但如果每次都停在“抽个结构”,甚至直接把 AI 生成的解读当成自己的理解,那就麻烦了。
我读 DeepSeek-V4 的时候就有这种感觉。很多术语我认识,但没有真正跟上,尤其是Muon,我想很多了解Kimi的或者经常逛苏神博客的肯定很熟悉了,但说实话我至今尚未有仔细看过这个优化器的原理,这都是什么事啊。
我对大模型训练的很多理解,还停在两年前。那时候还会刷课、看书、在 Colab 上用小模型跑一些 LoRA、QLoRA、PEFT 之类的东西。虽然做得很菜,但至少会亲手跑一遍。loss 怎么降,显存怎么爆,batch size 怎么调,模型怎么胡说八道,这些体验很真实。
现在呢?
家里买了不少关于大模型的书,大部分只翻了几页。Colab 上次打开是什么时候,我都不太记得了。很多新的训练技巧,技术革新,我只是知道名字。虽然作为爱好者其实不可能真的直接接触到大模型的训练,因为也没有资源,但连现在的论文都看不懂,这还挺尴尬的。
AI 很适合辅助学习,但很容易替代学习
我不觉得用 AI 学习有什么问题。
恰恰相反,AI 是很好的学习工具。它可以帮你快速解释概念,整理上下文,指出论文结构,补齐背景知识。以前读论文卡住一个概念,可能要搜好几篇博客和教材。现在可以直接问它,让它先给一个入门解释。
但这里有一条线。
AI 帮我降低入门门槛,这是辅助学习。AI 帮我生成一篇我自己并没有完全消化的文章,这就开始替代学习了。
替代学习的问题很隐蔽。
它不会让你立刻觉得自己变弱。相反,它会制造一种“我好像掌握了”的错觉。你可以让 AI 用很清晰的语言解释一个概念,可以让它列出公式里的变量含义,可以让它把论文每一章总结成要点。读起来很顺。
顺,不等于懂。
真正懂一个技术,通常没那么顺。你会卡在某个符号上,会发现前后定义对不上,会意识到自己忘了线性代数,会因为一张图回头读三遍方法部分。这个过程很慢,也很烦。
但这个过程才是学习。
我准备换一种用法
所以这篇 DeepSeek-V4 的 AI 解读,我不准备发了,反正网上那么多解读的文章,人家还有不少专业解读的,我一个AI写的有啥用,闹呢。
我更想把 AI 放回工具的位置。
第一步,让 AI 生成思维导图。
我需要先知道论文的大结构,它生成的那个解读文章的结构其实就挺好,当然我也使用了NotebookLM直接生成了思维导图,也挺好的。
第二步,关注核心概念,比如CSA,HCA,mhC,Muon。
这些问题先让 AI 做初步解释。解释不用太长,最好能给出直觉、公式位置和相关背景。
第三步,带着这些概念回到论文。
这一点最关键。
AI 的解释只能当预习材料。真正的理解还是要回到原文,尤其是方法部分和实验部分。论文里的符号、表格、图、消融和系统假设,都不能只看二手总结。
我以前读论文喜欢直接从头读到尾。现在发现不一定高效。先有地图,再带着问题读,可能更适合我这种已经落下一段时间的人。
使用 AI 实现想法,不等于拥有能力
这句话我最近越来越有感触。
现在会用 AI,确实是一种能力。会写 prompt,会拆任务,会让 agent 跑代码,会用 skills,会搭一套自动化流程,这些都有价值。
但这类能力很容易被高估。
会使用 skills,不代表你懂背后的技术。会装龙虾,也不代表你是个AI工程大师。能让 AI 写出一篇 DeepSeek-V4 解读,也不代表你真的理解了 DeepSeek-V4。
我不是在否定工具。工具当然要用,而且要用好。
只是不能把“我可以借助工具做出来”直接换算成“这是我的能力”。中间隔着一层自己的理解、判断和实践。没有这一层,工具越强,错觉越强。
这几年 AI 发展太快了。两年前学过一点 fine-tuning,今天再看模型训练和推理系统,已经有很多东西变了。MoE、稀疏注意力、低精度训练、long-context serving、agentic RL、OPD,这些东西如果只停留在名词层面,很快就会跟不上。
不进则退,这句话在技术学习里挺残酷。
你以为自己只是没进步,其实很多旧知识也在过期。更麻烦的是,AI 可以帮你把过期的知识包装得很像还够用。
还是要多读、多练、多看好案例
我现在能想到的办法很朴素。
多读。不要只读 AI 总结,要读原文。哪怕一天只读一小节,也比收藏一堆总结强。
多练。看到一个训练技巧,能不能找个小模型跑一下?github上都有一些大佬的迷你大模型训练示例,为啥自己不去学学?哪怕只是 Colab 上的小实验,也比只看概念实在。
多看好案例。看别人怎么写技术解读,怎么复现实验,怎么分析 benchmark,怎么承认不确定性。好的案例能校准自己的表达,也能暴露自己的浅。
我之前有段时间还会在 Colab 上乱折腾。现在想想,虽然当时很多东西都没搞明白,但那种折腾本身很重要。跑不起来、显存爆、环境冲突、结果不稳定,这些问题会逼着你真正理解一点东西。
只靠 AI 对话,知识很容易变成眼睛学会了,脑子说:你会啥了?
数学真的很重要
其实这个倒不是读论文有感而发,而是感觉一直数学有种很神奇的魅力,到了我这个年纪开始折腾一些业余爱好时,发现数学是一个零成本,能打发时间,能获得成就感的(和挫败感🐶)的完美爱好。
而且我又不去高考不去考研,我能有啥压力,学不好又不会怎样,从我的角度来看,这跟我这么多年打DOTA2一直是个菜鸡没啥两样,我又不是职业的。
之前刚开始学习AI相关技术的时候补过一段时间数学,但现在又忘得差不多了,还得再补补,果然知识这玩意就是用进废退。
数学基础打牢靠一点,对于阅读当前大模型相关的研究可方便太多了,不然那就是看天书,只会越来越不愿意看论文。
最后
所以我决定只把那篇 AI 写的 DeepSeek-V4 论文解读当作我的阅读辅助材料,慢条斯理的去读论文。
这篇反思倒是可以发。
因为它至少是我此刻真实遇到的问题:我在使用 AI 提高效率的同时,也在慢慢失去沉下心学习的耐心。
这不是什么严重到需要忏悔的事,但值得警惕。
AI 很强。正因为它强,才更需要把自己的边界看清楚。
菜就多读论文,多写代码,多学数学。