个人学习方向分析与资料汇总
生成时间:2026-05.07
数据来源:daily_Q 目录近一周问题(2026.05.02 ~ 2026.05.06,共4天)
分析目标:基于你的问题模式识别知识薄弱领域,提供针对性学习路径和资源
一、近一周问题统计与分析
1.1 问题领域分布(共约35+个问题)
| 优先级 | 领域 | 问题数 | 严重程度 |
|---|---|---|---|
| 🔴 P0 | LLM 底层原理与 Transformer 架构 | ~9题 | 知识黑盒,最需系统学习 |
| 🔴 P0 | 模型量化与压缩技术(GGUF/GPTQ/AWX) | ~8题 | 实操中频繁遇到困惑度问题 |
| 🟡 P1 | 推理引擎底层(vLLM / MLX / llama.cpp) | ~7题 | vMLX 速度优化反复出现 |
| 🟡 P1 | Agent 工程化(熔断机制/死循环) | ~5题 | 影响实际使用体验的 bug |
| 🟢 P2 | AI 应用开发(文生图/浏览器自动化) | ~3题 | 偏实操,边做边学即可 |
| 🟢 P2 | 工程化/商业(海外建站/外贸) | ~3题 | 非技术核心,按需学习 |
1.2 关键发现
你目前处于 从前端开发向 AI/LLM 工程化转型 的关键阶段,问题呈现以下特征:
- 底层原理理解不足但意识强烈 — 你在 5/05 的问题清单中列出了非常系统的学习框架(Transformer、RoPE、采样策略等),说明你清楚自己缺什么,但缺乏结构化学习路径。
- 部署工具对比困惑多 — vMLX、LM Studio、oMLX 三者之间的差异和参数调优是高频问题,核心原因是缺乏对底层推理引擎原理的理解。
- 量化格式一头雾水 — Q4_K_M、Q4_k_L、JANG 等命名规则,本质是对 GGUF/GPTQ/AWX 格式缺乏系统了解。
- Agent 工程化经验欠缺 — 死循环熔断是实际痛点,需要参考业界最佳实践。
二、分领域学习路径与资源(按优先级)
🔴 P0:LLM 底层原理与 Transformer 架构
学习目标
- 理解 Attention、FFN、LayerNorm 的数学推导和代码实现
- 掌握自回归生成过程的 Prefill/Decode 阶段差异
- 理解 RoPE、ALiBi、YaRN 等长上下文扩展技术
推荐资源(按学习顺序)
1. 视频入门(建立直觉)
- 3Blue1Brown - But what is a GPT? — 用可视化解释 GPT 工作原理,3Blue1Brown 出品
- 3B1B - Neural Networks — 神经网络系列,理解 Backprop
- Yannic Kilcher - Transformer Papers — 论文解读频道
2. 图文教程(系统学习)
- The Illustrated Transformer — Jay Alammar 出品,图解 Transformer 经典教程(必读)
- The Illustrated GPT-2 — 同上作者,延伸理解 GPT
- The Illustrated DPO — Maxime Labonne,图解 DPO 对齐
- lilianweng.github.io - LLM Survey — Lilian Weng 的 LLM 系列博客(极深)
3. 数学推导 + 代码实现
- minimind (GitHub) — 从零实现 LLM,包含完整训练代码
- Andrej Karpathy - micrograd + nanogpt / nanogpt — 从梯度下降到完整训练,视频在 YouTube
- Language Model Workshop — Hugging Face 官方课程
- Deep Learning Specialization (Coursera) — Andrew Ng,系统学习 DL
4. Transformer 进阶论文(精读)
- Attention Is All You Need (2017) — Transformer 原始论文
- RoPE (2021) — Rotary Position Embedding
- ALiBi (2022) — Attention with Linear Biases
- YaRN (2023) — 长上下文扩展
- FlashAttention (2022) — 高效 Attention
📝 今日实践任务
- 用 Python 手写一个最小版 SelfAttention(不用框架)
- 跑一遍 Karpathy 的 nanogpt training,观察 loss 曲线
🔴 P0:模型量化与压缩技术
学习目标
- 理解线性量化、非对称量化的数学原理
- 掌握 GGUF(k-quants)、GPTQ、AWX、MLX 四种格式的适用场景
- 理解量化级别(2/4/6/8-bit)与 Perplexity 损失的关系
推荐资源(按学习顺序)
1. 入门理解量化概念
- Model Quantization (HuggingFace Blog) — HF 官方文档,概念清晰
- What is Quantization? (The Gradient) — 中文友好,图解多
- Quantization Explained (YouTube) — Daniel Bourke 出品,可视化好
2. GGUF / k-quants 详解(重点)
- llama.cpp GGUf Format — GGUF 格式说明
- GGML Quantization Guide — k-quants 级别说明
- Understanding GGUF Quantization (HuggingFace Blog) — 解释 Q4_K_M、Q5_K_S 等命名规则
量化级别速查表:
1 | INT8 → 精度损失最小,文件较大(~10GB for 70B) |
3. Perplexity vs Quantization Benchmark
- LMSYS Chatbot Arena - Weight Precision — 不同量化级别的模型对比
- HuggingFace Open LLM Leaderboard — 量化模型 benchmark
- Quantization Benchmark (GitHub - lm-sys)
4. KV Cache 量化(进阶)
- KV Cache Quantization (MLX Blog) — MLX 官方 KV Cache 量化示例
- FP8 KV-Cache in vLLM — vLLM FP8 KV Cache
📝 今日实践任务
- 在 HuggingFace 上下载同一个模型的不同量化版本(Q4_K_M vs Q8_0),对比文件大小和推理速度
- 用 llama.cpp 的
llama-bench工具跑不同量化级别的 benchmark
🟡 P1:推理引擎底层(vLLM / MLX / llama.cpp)
学习目标
- 理解 PagedAttention、连续批处理(Continuous Batching)、推测解码
- vLLM vs llama.cpp 的适用场景和性能权衡
- Mac(MLX)上的部署优化策略
推荐资源
1. vLLM 核心机制
- vLLM Paper (PagedAttention) — 原始论文,理解 PagedAttention
- vLLM Documentation — 官方文档,API + 配置详解
- vLLM Tutorials (GitHub) — 官方示例
2. MLX Framework (Apple Silicon)
- MLX Official Documentation — Apple MLX 官方文档
- MLX Examples - LLM Inference — MLX LLM 推理示例
- MLX vs PyTorch Comparison — 性能对比
- MLX Blog - LLM Inference — LLM 推理优化
3. llama.cpp 底层
- llama.cpp Documentation — 项目文档
- Speculative Decoding with llama.cpp — 推测解码
- Continuous Batching in llama.cpp — 社区讨论
4. vLLM vs llama.cpp 对比
- When to use which? (vLLM FAQ)
- Benchmark: vLLM vs llama.cpp — 社区 benchmark
📝 今日实践任务
- Mac 上安装 MLX,跑一个 Q4_K_M 模型的推理 benchmark(对比 LM Studio)
- Docker 里部署 vLLM,跑同一个模型,对比吞吐量
🟡 P1:Agent 工程化(熔断机制 / 死循环)
学习目标
- 理解 Agent 常见故障模式(重复执行、无限递归等)
- 实现有效的熔断/超时机制
- 参考业界最佳实践解决 Hermes Agent 的死循环问题
推荐资源
1. Agent 故障分析论文/文章
- AgentBench: Evaluating LLMs as Agents — Agent 评测基准
- ReAct: Synergizing Reasoning and Acting in LLMs — ReAct 模式原始论文
- Circuit Breaker Pattern for AI Agents — Anthropic 的 Agent 构建指南
2. 熔断机制实现方案
- Circuit Breaker Pattern (Martin Fowler) — 经典熔断模式
- LangChain - Max Iterations — LangChain 的迭代限制机制
- AutoGPT - Loop Detection — AutoGPT 的循环检测实现
3. Hermes Agent 熔断建议(基于分析)
1 | # 核心思路:操作去重 + 结果变化检测 + 最大迭代限制 |
关键优化点(针对你的场景):
- web_search 死循环:记录上次搜索结果摘要,如果连续2次结果相似度 >95%,触发熔断
- 文件读取死循环:记录上次读取的 file path + offset,如果结果相同则熔断
- 通用策略:每个 tool call 设置独立计数器 + 全局 max_iterations
📝 今日实践任务
- 在 Hermes Agent 的 prompt 中加入熔断规则(写在 AGENTS.md/SOUL.md)
- 测试:故意让 Agent 重复执行同一个搜索,观察是否触发熔断
🟢 P2:AI 应用开发(文生图 / 浏览器自动化)
推荐资源
1. 本地文生图模型部署
- Stable Diffusion WebUI (AUTOMATIC1111) — 最流行的 SD WebUI
- ComfyUI — 节点式 SD,适合工作流搭建
- SDXL Turbo — 实时文生图,速度快
- FLUX.1 (Black-Forest-Labs) — 最新开源文生图模型,速度快质量好
2. Chrome MCP / 浏览器自动化
- Playwright Python — Microsoft 出品的浏览器自动化库
- CDP Protocol (Chrome DevTools) — Chrome 调试协议
- Puppeteer — Node.js 浏览器自动化(适合小红书流程)
- Browser-use (GitHub) — LLM 驱动的浏览器自动化
三、推荐学习顺序(30天计划)
1 | 第1周:LLM 底层原理入门 |
四、补充资源清单
📚 博客 & 频道推荐
- 3Blue1Brown — YouTube,数学可视化天花板
- Yannic Kilcher — YouTube,LLM 论文解读
- lilianweng.github.io — OpenAI 前研究员博客,LLM 系列
- MLabonne’s Blog — HuggingFace 工程师,量化 + LLM 方向
- Jay Alammar’s Blog — The Illustrated 系列作者
🎓 课程
- Coursera - Deep Learning Specialization — Andrew Ng(系统基础)
- HuggingFace Course (免费) — 实战导向,从零到部署
- Fast.ai - Practical Deep Learning — 代码优先
🏆 Benchmark & 社区
- Open LLM Leaderboard — HuggingFace
- Chatbot Arena — LMSYS 模型对比
- [llama.cpp Discord](https://discord.gg/ llama.cpp) — 活跃社区,提问快
五、总结:你的核心优势与改进方向
✅ 已做得好的
- 问题意识强 — 能准确识别知识盲区(Transformer黑盒、量化困惑等)
- 学习框架清晰 — 5/05 的问题清单本身就是很好的 learning roadmap
- 工具对比意识 — vMLX/LM Studio/oMLX 的对比思维方向正确
🎯 下一步重点
- 优先攻克 Transformer 底层 — 这是理解一切 LLM 技术的基础,建议从 The Illustrated Transformer + nanogpt 开始
- 量化知识体系化 — 建立一个 GGUF/GPTQ/AWX/MLX 对比表,边学边记录
- 实践驱动 — 每个理论知识点配一个动手实验(写代码、跑 benchmark)
- Agent 熔断 — 这是当前最影响体验的问题,建议优先加到 AGENTS.md
这份资料基于你近一周的实际问题生成,建议结合 SOUL.md 中的学习路线图一起使用。每完成一个模块后在 daily_Q 中记录进展和心得。