LLM on Leafw's Blog

苹果芯片Mac使用Docker部署MinerU api服务

wyr95626@gmail.com (Leafw) — Sun, 17 Aug 2025 00:00:00 +0000

最近试了下 Mineru 解析 PDF，感觉还是挺好的，但为了本地开发方便，就直接在电脑上部署个 API 服务，官网上虽然也有部署教程，但感觉对于 Mac 用户并不算友好，就自己又瞎折腾了好久，现在总算 OK 了，也把我的部署方式分享下，主要还是依靠 ChatGPT 的大力支持 🐶。

高效智能体设计：如何在不牺牲效果的前提下降低成本？

wyr95626@gmail.com (Leafw) — Sat, 09 Aug 2025 00:00:00 +0000

本文解读的是 OPPO AI Agent 团队于 2025 年 8 月发布的论文
《Efficient Agents: Building Effective Agents While Reducing Cost》
arXiv: 2508.02694v1

引言

大语言模型驱动的智能体（Agent）近年来在复杂任务上展现了惊人的能力——从多轮推理、跨工具调用，到信息检索与整合。然而，性能的提升往往伴随着成本的飙升：更多的推理步数、更多的工具调用、更复杂的记忆机制，都意味着更多的 token 消耗与 API 调用费用。

大语言模型的上下文工程（Context Engineering for Large Language Models）

wyr95626@gmail.com (Leafw) — Sun, 20 Jul 2025 00:00:00 +0000

LLM 刚开始火热的时候，有个词非常热门，叫做提示词工程，甚至有各种网文声称市面上可能会招聘大量的提示词工程师，当初在一些招聘网站上倒是也的确能搜索到这样的岗位。但随着大模型技术的发展和应用复杂度的激增，单独依赖写一句好的提示词已经不能满足工业级的生产场景。一个新的概念产生了，叫做 Context Engineering(上下文工程) 。

让 LLM 拥有“可治理的记忆”：MemOS：A Memory OS for AI System 论文解读

wyr95626@gmail.com (Leafw) — Sun, 13 Jul 2025 00:00:00 +0000

随着大语言模型（LLM）能力的持续扩展，研究者和开发者逐渐意识到，若要真正迈向通用人工智能（AGI），模型不仅需要强大的语言生成能力，更应具备长期一致性、知识演化能力与用户个性化适配能力。因此，越来越多的系统开始尝试将 LLM 作为智能体（Agent）进行封装，并探索其在多轮对话、长期任务、知识积累等真实场景中的表现。

大模型真的能做推荐系统吗？ARAG论文给了我一个颠覆性的答案

wyr95626@gmail.com (Leafw) — Sat, 05 Jul 2025 00:00:00 +0000

前两天刷微博无意间刷到了一位老师转发的关于大模型做推荐系统的论文，这是 Walmart AI 团队近期发布的一篇论文：《ARAG: Agentic Retrieval-Augmented Generation for Personalized Recommendation》。老实说，在看这篇论文之前，我一直觉得大模型做推荐系统跟传统推荐系统是不值得比较的，自己虽然没做过推荐系统，但也看过一些科普，觉得这应该主要还是依靠机器学习、特征工程、协同过滤和排序模型等技术来实现，而大语言模型（LLM）擅长的是对话、写代码、写文案、问答推理这些，拿来做推荐？感觉不太靠谱。但这篇论文，用一个代理式多智能体 RAG 框架，把我从这条旧路径中拽了出来。

Tool Calling、 MCP、A2A一文透析

wyr95626@gmail.com (Leafw) — Sat, 19 Apr 2025 00:00:00 +0000

这两年随着大模型的能力的飞速发展，我们可以依赖大模型做很多更加复杂的任务，为了完成这些任务，我们经常需要依赖于外部环境提供的能力，为了整合这些能力，涌现了多种扩展技术，目前很常用的就是工具/函数调用（Tool/Function Calling）和模型上下文协议（MCP， Model Context Protocol），此外就是最近才发布不久的 Agent2Agent 协议。它们的功能在某些角度来看十分相近，但又有着各自的特点，本文将会分别就这几种技术进行介绍和分析，帮助大家对它们能有个总体的认知。

Windsurf使用技巧分享

wyr95626@gmail.com (Leafw) — Sun, 22 Dec 2024 00:00:00 +0000

最近使用了差不多半个月的 Windsurf，使用下来的感觉就是这玩意血强，不比 cursor 差。之前体验过免费的 cursor，但 completion 的次数很快就用完了，体验的确很好，但 20 美刀的价格的确需要仔细考虑考虑，后来就开始体验 Windsurf，只有 cursor 一半的价格（不知道啥时候会变成 15），但也依然保持着优秀的体验，因此今天我就写几点关于我使用 Windsurf 的一些心得。

Paper-Agent支持论文问答转聊天功能

wyr95626@gmail.com (Leafw) — Sun, 11 Aug 2024 00:00:00 +0000

本周有点偷懒，没想好写什么技术文章，就给 Paper-Agent 加了点花样，支持基于首页的论文问答进行对话，直接切换到聊天菜单就会自动带上。目前只做了 Deepseek 的适配，当然理论上所有的符合 OpenAI 规范的模型都可以适配，只是还未经过测试，不能保证。

聊一聊Sam Altman的Who will control the future of AI?

wyr95626@gmail.com (Leafw) — Sun, 04 Aug 2024 00:00:00 +0000

今天随便翻了翻 X，看到了 Sam Altman 7 月底发的一篇推文，说的是他在 Washington Post 上的一篇文章，Who will control the future of AI? ，从他说的 U.S. need to maintain its lead in developing in AI 来看，就显然可以看出他不会是那种希望全球共同发展 AI 的和平主义者，而是更希望美国进行独裁的支持者。之前对于他的各种新闻我也看过了很多，更对于 OpenAI 的发展也是越来越抱有怀疑态度，尤其是从之前的内部动乱到后来 Karpathy 大神的离职，感觉 OpenAI 逐渐就是变成他的 CloseAI，而且现在无论是闭源的 Anthropic 还是开源的 Meta ，都隐隐有着超越之势，也许不就的将来，OpenAI 会被拉下神坛。

Paper-Agent 新版本更新

wyr95626@gmail.com (Leafw) — Sun, 28 Jul 2024 00:00:00 +0000

之前写的Paper-Agent最近做了些重构升级，主要是下面这些变动：

多种大模型的支持之前是只接入了 deepseek 和 kimi，并且使用 Kimi 作为pdf问答的关键大模型，但经过使用后发现一个比较头疼的问题，kimi 的api略贵了一点，如果要做完整的论文十问可能要一块多，但官方有个 Context Caching 的功能，可以节约大量的 token 消耗，不过这个我还没有细看，如果想要更多的依赖 kimi 的话，后续有空也许会进行代码实现。

理解深度学习中文版PDF发布

wyr95626@gmail.com (Leafw) — Sat, 20 Jul 2024 00:00:00 +0000

之前翻译的Understanding DeepLearning 这本书最近花了些时间用latex重写了一遍，因为原书有很多图片，用md实在太不方便，之前也答应过粉丝的留言要提供pdf版本的，因为md直接导出的pdf太丑了，就一直拖到了现在。

写了个平时看论文可能会用上的工具

wyr95626@gmail.com (Leafw) — Sat, 13 Jul 2024 00:00:00 +0000

写了一款可以帮助经常阅读论文的同学提升效率的小工具，有两个部分：

HuggingFace Weekly Paper 制作工具
Arxiv Helper

前置条件

翻译基于 deepseek 的服务，论文十问依赖于 kimi，因此需要这两个的 api key。可以配置到环境变量中，代码中使用的环境变量 key 分别是

如何实现参加RAG比赛但进不了复赛的总结

wyr95626@gmail.com (Leafw) — Sun, 07 Jul 2024 00:00:00 +0000

好久没写文章了，断更了一个多月了，刚开始一段时间主要是上班精神内耗太严重没有精力去写文了，到六月初的时候，参加了一个RAG相关的比赛，初赛本周结束，作为菜鸟的我也是理所应当的没进复赛，跟第一名差了十分多，尝试了很多办法，但的确已经到个人能力的尽头了，决定就此放弃，这也是我第一次参加跟AI相关的比赛，而且还是自己单打独斗，也不能再强求更好了，总的来说，四个字：菜就多练🐶。

读李飞飞自传：我看见的世界

wyr95626@gmail.com (Leafw) — Sun, 19 May 2024 00:00:00 +0000

前不久李飞飞教授的"我看见的世界"中译版在中国发售了，我也迫不及待买了一本，这两周断断续续的看完了。看完后的感慨颇深，想着好好写一篇文章来分享给大家。

论文解读(KAN Kolmogorov–Arnold Networks)

wyr95626@gmail.com (Leafw) — Sun, 05 May 2024 00:00:00 +0000

五一假期刚开始没两天的时候，刷到了一篇火遍国内外AI圈的论文，叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣，在假期结束之前，抽个空读一下看看是怎么个事。读了之后发现，仅仅只是高数、线代和概率论这些数学知识是看不懂的，最好还需要了解一点数分方面的知识，反正我是借助了ChatGPT才能勉强看完，这里我就从一个简单的科普角度来阅读这篇文章好了，建议感兴趣的同学还是完整的阅读下这篇文章，真的是个很有意思的思路。

一文带你了解当前主流PEFT技术

wyr95626@gmail.com (Leafw) — Sun, 21 Apr 2024 00:00:00 +0000

随着LLaMA3的发布，大模型开源社区的战力又提升了一分，国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调，对于微调技术，目前比较常见的就是Peft系列的技术，那么什么是PEFT，有哪些分类，为什么这么受大家欢迎呢？今天我们就好好聊聊这个话题。

问答AI模型训练前的必做功课：数据预处理

wyr95626@gmail.com (Leafw) — Sun, 14 Apr 2024 00:00:00 +0000

翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了，主要最近也在学习一些微调上面的知识，平时晚上还需要跑跑代码看看视频啥的，因此也一直没太有空写文章，UDL的翻译整理成PDF的工作都没空整。（虽然实际最近也花了很长时间在打游戏(。・＿・。)）。又到周末了，再拖着不干点正事我也过意不去了，今天就写点关于最近学习的一些关于微调方面的东西好了，因为我也是初学者，可能会有些错误，希望有大佬可以批评指正。

复习一下时间检验奖：Word2Vec

wyr95626@gmail.com (Leafw) — Sat, 16 Dec 2023 00:00:00 +0000

不久前，NeurIPS 官方公布了 2023 年度的获奖论文，其中时间检验奖颁发给了10年前的论文「Distributed Representations of Words and Phrases and their Compositionality」。这篇论文可以看做是Word2Vec的第二篇论文。第一篇是「Efficient Estimation of Word Representations in Vector Space」，但是这第二篇论文提出的改进算法使得Word2Vec广泛应用起来的。我想各位AI从业者尤其是NLP领域的从业者对此已经非常熟悉了，作为一个刚入门的小白今天就简单回顾一下Word2Vec算法的知识。这篇文章因为有一些数学公式，因此排版看着回有点难受，介意的话可以点击原文去掘金看哦。

又一个提升大模型反馈效果的思路：黑盒Prompt优化

wyr95626@gmail.com (Leafw) — Mon, 20 Nov 2023 00:00:00 +0000

长期潜水在各个LLM技术群的小透明今天看到了智谱AI和清华团队又整了一篇有意思的论文，叫做Black-Box Prompt Optimization: Aligning Large Language Models without Model Training 主要是解决大模型的"对齐问题"。

LLM也要反思自己了？Self-RAG框架介绍

wyr95626@gmail.com (Leafw) — Sat, 18 Nov 2023 00:00:00 +0000

今天又看了一篇好玩的关于RAG玩法的论文，叫做 SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION 。核心思想很有意思，让LLM自己对自己说的话反思反思（脑海里不由得就想起前不久某知名主播说的让我们反思的话了）。接下来我就大致介绍一下这个方法怎么让LLM进行反思的。

如何用更小的模型和更少的数据打败大型语言模型?

wyr95626@gmail.com (Leafw) — Tue, 14 Nov 2023 00:00:00 +0000

今天看了一篇来自于llmstack的创始人及CTO写的关于RAG的文章，正好最近在研究怎么玩本地知识库来着，感觉这篇文章很有帮助，这里翻译一下分享给大家，不过有时间的话更建议大家去看原文。

“你是Agent啊？巧了么不是？我也是！” -- 多代理对话框架AutoGen介绍

wyr95626@gmail.com (Leafw) — Sat, 28 Oct 2023 00:00:00 +0000

前几天我分享了一篇跟Agent研究有关的文章，文章最后说过我还有一篇想要分享的，今天我就给大家带来了，它就是 “AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation”。

我们知道，LLM不仅能够生成文本，还能进行复杂的任务和计算。然而，尽管这些模型具有巨大的潜力，但如何有效地将它们应用于实际问题仍然是一个挑战。这正是这篇论文要解决的问题。

如何让你的LLM能跟操作系统一样可以持久化记忆?

wyr95626@gmail.com (Leafw) — Wed, 25 Oct 2023 00:00:00 +0000

好久没更新论文的分享了，今天来给大家分享一篇最近阅读的个人感觉非常有价值的一篇：MEMGPT: TOWARDS LLMS AS OPERATING SYSTEMS。我们都知道无论是ChatGPT、LLaMA、Claude等等大模型，虽然支持结合上下文进行对话，但这个对话长度实际是受限的，尤其是如果想进行长文档处理的时候就更头疼了，那么对于大模型这种记忆能力薄弱的问题要如何解决呢？这篇论文从操作系统的存储设计上得到灵感，从而尝试让大模型拥有了"无限"的记忆能力。

如何用更小的模型和更少的数据打败大型语言模型?

wyr95626@gmail.com (Leafw) — Sat, 07 Oct 2023 00:00:00 +0000

如今国际上各种大语言模型蜂拥而至，但我们个人或者小公司想玩一个大模型要么花钱买硬件要么花钱买服务，因为大型语言模型（LLMs）虽然厉害，但部署起来非常困难！此外，这些巨型语言模型就像是那些吃不胖的人，吃了无数的数据，练了无数的参数，但是一到要“出门”工作的时候，问题来了。它们需要的计算资源和内存就像是一个永无止境的黑洞，让人望而却步。

分享两篇大模型幻觉问题相关的论文

wyr95626@gmail.com (Leafw) — Wed, 27 Sep 2023 00:00:00 +0000

最近看了两篇关于大模型幻觉问题的论文，一篇叫做 A Survey of Hallucination in “Large” Foundation Models，是关于大型基础模型（Large Foundation Models, LFMs）的幻觉问题的一个综述。另外一篇是来自MetaAI的 Chain-of-Verification Reduces Hallucination in Large Language Models ，讲得是一种减轻大语言模型幻觉问题的一个方法。