AI on Leafw's Blog

分享一个有意思的框架：Performative UI

wyr95626@gmail.com (Leafw) — Tue, 09 Jun 2026 00:00:00 +0000

今天在 Hacker News 上看到一个很好玩的项目：Performative UI。

它的自我介绍就简单一句话：一个 “AI-native React Components” 组件库。但你点进去看几秒钟就会发现，每个组件都是那么的熟悉，因为它压根就没打算正经做一个类似 shadcn/ui 这样相对严谨稳重一点的组件，而是现在那些高度同质化的 AI startup 网站风格。

我问的是你，不是 AI

wyr95626@gmail.com (Leafw) — Tue, 02 Jun 2026 00:00:00 +0000

前几天 Hacker News 上有个帖子挺火，标题叫《I’m tired of talking to AI》。原文很短，一分钟就能看完。可这篇文章描述的场景，让我很有感触。

美国毕业典礼上对 AI 的集体嘘声

wyr95626@gmail.com (Leafw) — Thu, 21 May 2026 00:00:00 +0000

上周一些美国大学毕业典礼上，一旦嘉宾开始夸AI，台下就嘘声一片，也许这个结果让演讲嘉宾很意外，但我相信很多我们这样的普通打工人或者学生其实是很能理解的。

Coursera 与 Udemy 合并：AI 正在重塑在线教育

wyr95626@gmail.com (Leafw) — Tue, 12 May 2026 00:00:00 +0000

2026 年 5 月 11 日，在线教育平台 Coursera 宣布完成与 Udemy 的合并。合并后的公司继续使用 Coursera 名称，在纽约证券交易所交易，股票代码仍为 COUR；Udemy 的股票将从纳斯达克退市。

Coding Agent 的组成部分【译】

wyr95626@gmail.com (Leafw) — Sat, 02 May 2026 00:00:00 +0000

原文地址：https://magazine.sebastianraschka.com/p/components-of-a-coding-agent

OpenAI 与微软官宣“分手”：这场 AI 时代最重要联盟，终于解绑了

wyr95626@gmail.com (Leafw) — Tue, 28 Apr 2026 00:00:00 +0000

2026 年 4 月 27 日，OpenAI 和微软同时发了一份声明：双方修订合作协议。

我们可以认为他们是“分手”了。原因也不难理解。微软不再独家拥有 OpenAI 模型和产品的授权；OpenAI 可以把产品放到任意云平台上；微软也不再向 OpenAI 支付收入分成。过去几年这两家公司几乎被视为同一个 AI 阵营，现在突然有了分割线，的确是个大新闻。

我使用 AI 写了 DeepSeekV4 的论文解读，但我觉得我不应该发出来

wyr95626@gmail.com (Leafw) — Sat, 25 Apr 2026 00:00:00 +0000

我刚刚用 AI 写了一篇 DeepSeek-V4 的论文解读。

流程很顺。把论文 PDF 丢进去，让 AI 抽取内容，整理结构，生成配图方案，再写成一篇看起来还算完整的技术博客。无论是关键的创新点，还是后面对于评测结果的解读，都还挺不错，我把目录放在下面，是不是看着还挺好。

AI Coding 订阅的集体退潮：从狂欢到收紧，中间只隔了一个季度

wyr95626@gmail.com (Leafw) — Wed, 22 Apr 2026 00:00:00 +0000

一张停售公告

4月20日，GitHub 发了一篇博客，标题很克制：“Changes to GitHub Copilot Individual Plans”。内容却不客气：

暂停 Pro、Pro+、Student 计划的新用户注册
收紧用量限制，引入会话限制 + 周限制双重机制
Pro 计划移除 Claude Opus 模型

理由写得很直接：Agentic 工作流让计算资源消耗远超预期，“现在少量请求的成本就可能超过套餐价格本身”。

我暂停了vibecoding一个月

wyr95626@gmail.com (Leafw) — Sun, 19 Apr 2026 00:00:00 +0000

怎么停下来的

最近几个月我经常疯狂使用vibecoding，这个词现在已经挺常见的了——用AI辅助快速开发产品，从idea到上线可能只需要几天甚至几小时。我很享受这种节奏。半夜有个想法，第二天就开始写代码，周末就能发布。

LLM时代程序员的懒惰美德正在消亡

wyr95626@gmail.com (Leafw) — Tue, 14 Apr 2026 00:00:00 +0000

引言

你是否也有过这样的经历：用 LLM 写代码，一天下来产出了几千行，回头看却发现——真正有价值的可能不到几百行？

听起来离谱但这其实是很正常的现象。Oxide 公司 CTO、DTrace 的联合创始人 Bryan Cantrill 最近写了一篇文章 The Peril of Laziness Lost，直指这个问题的心脏：LLM 正在杀死程序员最重要的美德——懒惰。

AI 的逐步进化：从被动的“思考者”到主动的“行动者”

wyr95626@gmail.com (Leafw) — Mon, 26 Jan 2026 00:00:00 +0000

如今大模型已经火热了两三年，发展得也越来越快，已经不仅仅停留在聊天机器人和文本生成工具上。虽然你输入问题，它给出答案。这种交互模式已经很有用了，但也仅此而已，现在的AI的使用方式跟GPT3.5刚出来的时候已经完全不一样了，无论是dify、coze这些平台，还是Codex、Claude Code等开发者工具，都在以不一样的方式来改变我们的生活。

AI 把技术门槛踩碎，我们拿什么作为护城河？

wyr95626@gmail.com (Leafw) — Sun, 07 Dec 2025 00:00:00 +0000

还记得 ChatGPT3.5 问世之前，各位还记得当时在学着哪些技能，用着什么样的方式去学习，以及工作中是如何去通过搜索引擎解决问题的呢。

那个时候的我已经开始在尝试提升自己知识的广度了，无论是本质工作的Java开发，还是兴趣爱好的AI领域，都在通过公开课、博客、自己动手的demo来一步步前进，遇到问题通过搜索引擎搜索答案，一遍遍的试错，看看他人的技术博客来解决自己遇到的各种问题。

AI：比我更懂我的旁观者

wyr95626@gmail.com (Leafw) — Tue, 02 Dec 2025 00:00:00 +0000

前段时间，我在网上看到了一个有意思的提示词:

“根据你对我的了解，告诉我几个连我自己可能都没有意识到的问题。”

我把这计划发给了我使用了快三年的ChatGPT，我预想过它会谈论我的时间管理，或者建议我多运动。但我没预料到，这几段回复扎得太准了，生生撕开了我平时用来武装自己的‘理智’表象，毫不留情。

苹果芯片Mac使用Docker部署MinerU api服务

wyr95626@gmail.com (Leafw) — Sun, 17 Aug 2025 00:00:00 +0000

最近试了下 Mineru 解析 PDF，感觉还是挺好的，但为了本地开发方便，就直接在电脑上部署个 API 服务，官网上虽然也有部署教程，但感觉对于 Mac 用户并不算友好，就自己又瞎折腾了好久，现在总算 OK 了，也把我的部署方式分享下，主要还是依靠 ChatGPT 的大力支持 🐶。

高效智能体设计：如何在不牺牲效果的前提下降低成本？

wyr95626@gmail.com (Leafw) — Sat, 09 Aug 2025 00:00:00 +0000

本文解读的是 OPPO AI Agent 团队于 2025 年 8 月发布的论文
《Efficient Agents: Building Effective Agents While Reducing Cost》
arXiv: 2508.02694v1

引言

大语言模型驱动的智能体（Agent）近年来在复杂任务上展现了惊人的能力——从多轮推理、跨工具调用，到信息检索与整合。然而，性能的提升往往伴随着成本的飙升：更多的推理步数、更多的工具调用、更复杂的记忆机制，都意味着更多的 token 消耗与 API 调用费用。

大语言模型的上下文工程（Context Engineering for Large Language Models）

wyr95626@gmail.com (Leafw) — Sun, 20 Jul 2025 00:00:00 +0000

LLM 刚开始火热的时候，有个词非常热门，叫做提示词工程，甚至有各种网文声称市面上可能会招聘大量的提示词工程师，当初在一些招聘网站上倒是也的确能搜索到这样的岗位。但随着大模型技术的发展和应用复杂度的激增，单独依赖写一句好的提示词已经不能满足工业级的生产场景。一个新的概念产生了，叫做 Context Engineering(上下文工程) 。

让 LLM 拥有“可治理的记忆”：MemOS：A Memory OS for AI System 论文解读

wyr95626@gmail.com (Leafw) — Sun, 13 Jul 2025 00:00:00 +0000

随着大语言模型（LLM）能力的持续扩展，研究者和开发者逐渐意识到，若要真正迈向通用人工智能（AGI），模型不仅需要强大的语言生成能力，更应具备长期一致性、知识演化能力与用户个性化适配能力。因此，越来越多的系统开始尝试将 LLM 作为智能体（Agent）进行封装，并探索其在多轮对话、长期任务、知识积累等真实场景中的表现。

大模型真的能做推荐系统吗？ARAG论文给了我一个颠覆性的答案

wyr95626@gmail.com (Leafw) — Sat, 05 Jul 2025 00:00:00 +0000

前两天刷微博无意间刷到了一位老师转发的关于大模型做推荐系统的论文，这是 Walmart AI 团队近期发布的一篇论文：《ARAG: Agentic Retrieval-Augmented Generation for Personalized Recommendation》。老实说，在看这篇论文之前，我一直觉得大模型做推荐系统跟传统推荐系统是不值得比较的，自己虽然没做过推荐系统，但也看过一些科普，觉得这应该主要还是依靠机器学习、特征工程、协同过滤和排序模型等技术来实现，而大语言模型（LLM）擅长的是对话、写代码、写文案、问答推理这些，拿来做推荐？感觉不太靠谱。但这篇论文，用一个代理式多智能体 RAG 框架，把我从这条旧路径中拽了出来。

Tool Calling、 MCP、A2A一文透析

wyr95626@gmail.com (Leafw) — Sat, 19 Apr 2025 00:00:00 +0000

这两年随着大模型的能力的飞速发展，我们可以依赖大模型做很多更加复杂的任务，为了完成这些任务，我们经常需要依赖于外部环境提供的能力，为了整合这些能力，涌现了多种扩展技术，目前很常用的就是工具/函数调用（Tool/Function Calling）和模型上下文协议（MCP， Model Context Protocol），此外就是最近才发布不久的 Agent2Agent 协议。它们的功能在某些角度来看十分相近，但又有着各自的特点，本文将会分别就这几种技术进行介绍和分析，帮助大家对它们能有个总体的认知。

Windsurf使用技巧分享

wyr95626@gmail.com (Leafw) — Sun, 22 Dec 2024 00:00:00 +0000

最近使用了差不多半个月的 Windsurf，使用下来的感觉就是这玩意血强，不比 cursor 差。之前体验过免费的 cursor，但 completion 的次数很快就用完了，体验的确很好，但 20 美刀的价格的确需要仔细考虑考虑，后来就开始体验 Windsurf，只有 cursor 一半的价格（不知道啥时候会变成 15），但也依然保持着优秀的体验，因此今天我就写几点关于我使用 Windsurf 的一些心得。

Paper-Agent支持论文问答转聊天功能

wyr95626@gmail.com (Leafw) — Sun, 11 Aug 2024 00:00:00 +0000

本周有点偷懒，没想好写什么技术文章，就给 Paper-Agent 加了点花样，支持基于首页的论文问答进行对话，直接切换到聊天菜单就会自动带上。目前只做了 Deepseek 的适配，当然理论上所有的符合 OpenAI 规范的模型都可以适配，只是还未经过测试，不能保证。

聊一聊Sam Altman的Who will control the future of AI?

wyr95626@gmail.com (Leafw) — Sun, 04 Aug 2024 00:00:00 +0000

今天随便翻了翻 X，看到了 Sam Altman 7 月底发的一篇推文，说的是他在 Washington Post 上的一篇文章，Who will control the future of AI? ，从他说的 U.S. need to maintain its lead in developing in AI 来看，就显然可以看出他不会是那种希望全球共同发展 AI 的和平主义者，而是更希望美国进行独裁的支持者。之前对于他的各种新闻我也看过了很多，更对于 OpenAI 的发展也是越来越抱有怀疑态度，尤其是从之前的内部动乱到后来 Karpathy 大神的离职，感觉 OpenAI 逐渐就是变成他的 CloseAI，而且现在无论是闭源的 Anthropic 还是开源的 Meta ，都隐隐有着超越之势，也许不就的将来，OpenAI 会被拉下神坛。

Paper-Agent 新版本更新

wyr95626@gmail.com (Leafw) — Sun, 28 Jul 2024 00:00:00 +0000

之前写的Paper-Agent最近做了些重构升级，主要是下面这些变动：

多种大模型的支持之前是只接入了 deepseek 和 kimi，并且使用 Kimi 作为pdf问答的关键大模型，但经过使用后发现一个比较头疼的问题，kimi 的api略贵了一点，如果要做完整的论文十问可能要一块多，但官方有个 Context Caching 的功能，可以节约大量的 token 消耗，不过这个我还没有细看，如果想要更多的依赖 kimi 的话，后续有空也许会进行代码实现。

理解深度学习中文版PDF发布

wyr95626@gmail.com (Leafw) — Sat, 20 Jul 2024 00:00:00 +0000

之前翻译的Understanding DeepLearning 这本书最近花了些时间用latex重写了一遍，因为原书有很多图片，用md实在太不方便，之前也答应过粉丝的留言要提供pdf版本的，因为md直接导出的pdf太丑了，就一直拖到了现在。

写了个平时看论文可能会用上的工具

wyr95626@gmail.com (Leafw) — Sat, 13 Jul 2024 00:00:00 +0000

写了一款可以帮助经常阅读论文的同学提升效率的小工具，有两个部分：

HuggingFace Weekly Paper 制作工具
Arxiv Helper

前置条件

翻译基于 deepseek 的服务，论文十问依赖于 kimi，因此需要这两个的 api key。可以配置到环境变量中，代码中使用的环境变量 key 分别是

如何实现参加RAG比赛但进不了复赛的总结

wyr95626@gmail.com (Leafw) — Sun, 07 Jul 2024 00:00:00 +0000

好久没写文章了，断更了一个多月了，刚开始一段时间主要是上班精神内耗太严重没有精力去写文了，到六月初的时候，参加了一个RAG相关的比赛，初赛本周结束，作为菜鸟的我也是理所应当的没进复赛，跟第一名差了十分多，尝试了很多办法，但的确已经到个人能力的尽头了，决定就此放弃，这也是我第一次参加跟AI相关的比赛，而且还是自己单打独斗，也不能再强求更好了，总的来说，四个字：菜就多练🐶。

读李飞飞自传：我看见的世界

wyr95626@gmail.com (Leafw) — Sun, 19 May 2024 00:00:00 +0000

前不久李飞飞教授的"我看见的世界"中译版在中国发售了，我也迫不及待买了一本，这两周断断续续的看完了。看完后的感慨颇深，想着好好写一篇文章来分享给大家。

论文解读(KAN Kolmogorov–Arnold Networks)

wyr95626@gmail.com (Leafw) — Sun, 05 May 2024 00:00:00 +0000

五一假期刚开始没两天的时候，刷到了一篇火遍国内外AI圈的论文，叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣，在假期结束之前，抽个空读一下看看是怎么个事。读了之后发现，仅仅只是高数、线代和概率论这些数学知识是看不懂的，最好还需要了解一点数分方面的知识，反正我是借助了ChatGPT才能勉强看完，这里我就从一个简单的科普角度来阅读这篇文章好了，建议感兴趣的同学还是完整的阅读下这篇文章，真的是个很有意思的思路。

一文带你了解当前主流PEFT技术

wyr95626@gmail.com (Leafw) — Sun, 21 Apr 2024 00:00:00 +0000

随着LLaMA3的发布，大模型开源社区的战力又提升了一分，国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调，对于微调技术，目前比较常见的就是Peft系列的技术，那么什么是PEFT，有哪些分类，为什么这么受大家欢迎呢？今天我们就好好聊聊这个话题。

问答AI模型训练前的必做功课：数据预处理

wyr95626@gmail.com (Leafw) — Sun, 14 Apr 2024 00:00:00 +0000

翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了，主要最近也在学习一些微调上面的知识，平时晚上还需要跑跑代码看看视频啥的，因此也一直没太有空写文章，UDL的翻译整理成PDF的工作都没空整。（虽然实际最近也花了很长时间在打游戏(。・＿・。)）。又到周末了，再拖着不干点正事我也过意不去了，今天就写点关于最近学习的一些关于微调方面的东西好了，因为我也是初学者，可能会有些错误，希望有大佬可以批评指正。

复习一下时间检验奖：Word2Vec

wyr95626@gmail.com (Leafw) — Sat, 16 Dec 2023 00:00:00 +0000

不久前，NeurIPS 官方公布了 2023 年度的获奖论文，其中时间检验奖颁发给了10年前的论文「Distributed Representations of Words and Phrases and their Compositionality」。这篇论文可以看做是Word2Vec的第二篇论文。第一篇是「Efficient Estimation of Word Representations in Vector Space」，但是这第二篇论文提出的改进算法使得Word2Vec广泛应用起来的。我想各位AI从业者尤其是NLP领域的从业者对此已经非常熟悉了，作为一个刚入门的小白今天就简单回顾一下Word2Vec算法的知识。这篇文章因为有一些数学公式，因此排版看着回有点难受，介意的话可以点击原文去掘金看哦。

又一个提升大模型反馈效果的思路：黑盒Prompt优化

wyr95626@gmail.com (Leafw) — Mon, 20 Nov 2023 00:00:00 +0000

长期潜水在各个LLM技术群的小透明今天看到了智谱AI和清华团队又整了一篇有意思的论文，叫做Black-Box Prompt Optimization: Aligning Large Language Models without Model Training 主要是解决大模型的"对齐问题"。

LLM也要反思自己了？Self-RAG框架介绍

wyr95626@gmail.com (Leafw) — Sat, 18 Nov 2023 00:00:00 +0000

今天又看了一篇好玩的关于RAG玩法的论文，叫做 SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION 。核心思想很有意思，让LLM自己对自己说的话反思反思（脑海里不由得就想起前不久某知名主播说的让我们反思的话了）。接下来我就大致介绍一下这个方法怎么让LLM进行反思的。

如何用更小的模型和更少的数据打败大型语言模型?

wyr95626@gmail.com (Leafw) — Tue, 14 Nov 2023 00:00:00 +0000

今天看了一篇来自于llmstack的创始人及CTO写的关于RAG的文章，正好最近在研究怎么玩本地知识库来着，感觉这篇文章很有帮助，这里翻译一下分享给大家，不过有时间的话更建议大家去看原文。

“你是Agent啊？巧了么不是？我也是！” -- 多代理对话框架AutoGen介绍

wyr95626@gmail.com (Leafw) — Sat, 28 Oct 2023 00:00:00 +0000

前几天我分享了一篇跟Agent研究有关的文章，文章最后说过我还有一篇想要分享的，今天我就给大家带来了，它就是 “AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation”。

我们知道，LLM不仅能够生成文本，还能进行复杂的任务和计算。然而，尽管这些模型具有巨大的潜力，但如何有效地将它们应用于实际问题仍然是一个挑战。这正是这篇论文要解决的问题。

如何让你的LLM能跟操作系统一样可以持久化记忆?

wyr95626@gmail.com (Leafw) — Wed, 25 Oct 2023 00:00:00 +0000

好久没更新论文的分享了，今天来给大家分享一篇最近阅读的个人感觉非常有价值的一篇：MEMGPT: TOWARDS LLMS AS OPERATING SYSTEMS。我们都知道无论是ChatGPT、LLaMA、Claude等等大模型，虽然支持结合上下文进行对话，但这个对话长度实际是受限的，尤其是如果想进行长文档处理的时候就更头疼了，那么对于大模型这种记忆能力薄弱的问题要如何解决呢？这篇论文从操作系统的存储设计上得到灵感，从而尝试让大模型拥有了"无限"的记忆能力。

如何用更小的模型和更少的数据打败大型语言模型?

wyr95626@gmail.com (Leafw) — Sat, 07 Oct 2023 00:00:00 +0000

如今国际上各种大语言模型蜂拥而至，但我们个人或者小公司想玩一个大模型要么花钱买硬件要么花钱买服务，因为大型语言模型（LLMs）虽然厉害，但部署起来非常困难！此外，这些巨型语言模型就像是那些吃不胖的人，吃了无数的数据，练了无数的参数，但是一到要“出门”工作的时候，问题来了。它们需要的计算资源和内存就像是一个永无止境的黑洞，让人望而却步。

分享两篇大模型幻觉问题相关的论文

wyr95626@gmail.com (Leafw) — Wed, 27 Sep 2023 00:00:00 +0000

最近看了两篇关于大模型幻觉问题的论文，一篇叫做 A Survey of Hallucination in “Large” Foundation Models，是关于大型基础模型（Large Foundation Models, LFMs）的幻觉问题的一个综述。另外一篇是来自MetaAI的 Chain-of-Verification Reduces Hallucination in Large Language Models ，讲得是一种减轻大语言模型幻觉问题的一个方法。

人脸识别和神经风格迁移介绍

wyr95626@gmail.com (Leafw) — Sun, 17 Sep 2023 00:00:00 +0000

终于来到Andrew Ng教授深度学习专项课程CNN课程的的最后一节课的笔记博客了，这也是这门课程专栏的最后一篇博文了，本篇主要内容主要是CNN在人脸识别和神经风格迁移中的应用。那我们开始吧！

浅谈CNN中的检测算法

wyr95626@gmail.com (Leafw) — Sun, 10 Sep 2023 00:00:00 +0000

图像处理算法发展迅速,卷积神经网络扮演越来越重要的角色。本文基于Andrew Ng 教授的深度学习专项课程第四门课程的第三周内容来详细介绍卷积神经网络（CNN）中的主要检测算法，包括对象识别定位、如何提升检测精度，YOLO算法，语义分割等概念。

深度卷积神经网络案例研究

wyr95626@gmail.com (Leafw) — Fri, 08 Sep 2023 00:00:00 +0000

在深度学习快速发展的时代,各种创新型的神经网络架构层出不穷。要想跟着时代的发展，对于这些案例的研究是很有必要的。本篇博客将基于Andrew Ng教授的深度学习专项课程第四门课程的第二周内容来针对卷积神经网络的一些案例进行介绍。

卷积神经网络入门

wyr95626@gmail.com (Leafw) — Mon, 04 Sep 2023 00:00:00 +0000

卷积神经网络(Convolutional Neural Network，简称CNN)是一类用于图像处理的深度神经网络。CNN借鉴生物视觉系统的结构，使用卷积运算提取图像的空间特征，再结合全连接层进行分类或预测。由于卷积运算的引入，CNN在图像处理方面表现卓越，被广泛应用于图像分类、目标检测、语义分割等任务中。本篇博客将基于Andrew Ng教授的深度学习专项课程第四门课程的第一周内容来针对卷积神经网络的基础知识进行简单的介绍。

Transformer 网络解读

wyr95626@gmail.com (Leafw) — Sat, 26 Aug 2023 00:00:00 +0000

终于到序列模型课程最后一周的内容了，本篇博客依然是基于Andrew Ng的深度学习专项课程的序列模型来编写的，本篇内容不会很多，主要就是Transformer网络相关的知识点，Transformer网络是一种基于注意力机制的神经网络架构,被广泛应用于自然语言处理领域,尤其是机器翻译任务中。本文将详细介绍Transformer网络的关键概念和工作原理。废话不多说，现在开始吧。

揭秘序列到序列模型:从机器翻译到语音识别

wyr95626@gmail.com (Leafw) — Thu, 24 Aug 2023 00:00:00 +0000

揭秘序列到序列模型:从机器翻译到语音识别

Sequence to Sequence Model是NLP领域非常核心的模型，这类模型使用编码器-解码器的结构，可以实现输入和输出不相同长度序列之间的变换。本篇博客将全面介绍序列到序列模型的基础概念、工作机制，尤其是其中注意力机制的技术更是当前大模型技术的根基之一，最后也会捎带介绍一些序列模型在语音处理的应用。本文也是基于Andrew Ng教授Deep Learning 专项课程中序列模型这门课第三周的内容，那我们开始吧！

浅谈Word Embeddings

wyr95626@gmail.com (Leafw) — Sat, 19 Aug 2023 00:00:00 +0000

词嵌入（Word Embeddings）是自然语言处理（NLP）和深度学习中的一个核心概念。它通过将词汇映射到连续的向量空间，为计算机提供了一种直观和强大的方式来理解语言。本篇博客基于Andrew Ng教授的Deep Learning 专项课程中序列模型这门课第二周的内容，那我们开始吧！

循环神经网络介绍

wyr95626@gmail.com (Leafw) — Sun, 13 Aug 2023 00:00:00 +0000

循环神经网络(Recurrent Neural Network, RNN)是一种能够处理序列数据的神经网络,在自然语言处理、语音识别、手写识别等领域发挥着重要作用。相比普通的前馈神经网络,RNN可以捕捉时间序列数据中的时序信息和长距离依赖关系。本篇博客将详细介绍RNN的工作原理、常见模型如门控循环单元(GRU)、长短期记忆(LSTM)以及如何应用于具体问题中。

机器学习策略详解

wyr95626@gmail.com (Leafw) — Mon, 17 Jul 2023 00:00:00 +0000

机器学习已然成为当今科技发展的重要驱动力之一。如何建立一个系统的机器学习策略,使机器学习项目能够高效推进并取得预期成果,是每一位机器学习从业者都需要思考的问题。每个机器学习项目的核心都涉及到目标设定，模型选择，数据处理和结果评估等多个关键步骤。在这篇博客中，我们将深入讨论这些步骤，特别是关于如何有效地设置机器学习目标，评估模型性能，并进行优化的具体策略和方法。希望通过这篇博客，你能对机器学习项目的整个流程有更深入的理解，并能将这些方法应用到你的项目中，以提升你的模型表现。这篇也是Andrew Ng 深度学习专项课程第三门课的内容，由于这门课的内容较少，因此放在一篇博客中介绍，Lets Go!

超参数调优、批量归一化以及深度学习框架

wyr95626@gmail.com (Leafw) — Wed, 12 Jul 2023 00:00:00 +0000

本篇博客的内容主要是超参数调优，批量归一化以及常见的深度学习框架，也是深度学习专项课程第二门课的最后一周课程内容，Let’s Go!

超参数调优

在深度学习中,超参数调优是一个非常关键的过程。合适的超参数设置将直接影响深度学习模型的性能。本节将详细探讨深度学习中超参数调优的重要性、主要影响模型性能的超参数以及超参数选择的方法与策略。

深度学习的优化算法

wyr95626@gmail.com (Leafw) — Tue, 04 Jul 2023 00:00:00 +0000

本周的内容主要是一些优化算法的知识点，这些优化算法可以帮助我们更好更快速的训练一个深度学习模型，Let’s Go!

1. 优化算法的重要性

优化算法在机器学习和深度学习领域起着关键的作用，特别是在训练深度神经网络时。它们是用于最小化（或最大化）函数的一种策略或者说是方法。在深度学习中，这个函数通常是损失函数，优化的目标是找到使得这个函数值最小的参数。

深度学习实践基础

wyr95626@gmail.com (Leafw) — Sun, 02 Jul 2023 00:00:00 +0000

在深度学习的学习过程中，我们会接触到大量的理论知识，如梯度下降，反向传播，损失函数等。然而，真正理解并应用这些理论知识，才能使我们在解决实际问题时如鱼得水，运用自如。本篇博客根据吴恩达教授的Deep Learning Specialization中的Course2第一周的内容，从深度学习的实践角度出发，深入解读一些至关重要的概念和方法，例如如何划分训练集、开发集和测试集，如何理解和处理偏差和方差，何时并如何使用正则化，以及如何正确设置优化问题。

深度学习与神经网络入门

wyr95626@gmail.com (Leafw) — Sat, 24 Jun 2023 00:00:00 +0000

随着ChatGPT的爆火以及最近各种爆发的大模型竞争，人工智能行业逐渐走入了大众的眼球。作为喜欢折腾各种技术的爱好者，自然也希望能了解一些其中的原理。但想要更好的了解AI领域的知识，我想从深度学习开始是不为过的，因为早前已经学习过吴恩达教授的Machine Learning课程，因此本次也是通过他的另一门专项课程，Deep Learning Specialization来学习深度学习。本文主要以第一门课为参考，尝试通俗的带大家入门深度学习。