近期学习方向

个人学习方向分析与资料汇总

生成时间:2026-05.07
数据来源:daily_Q 目录近一周问题(2026.05.02 ~ 2026.05.06,共4天)
分析目标:基于你的问题模式识别知识薄弱领域,提供针对性学习路径和资源


一、近一周问题统计与分析

1.1 问题领域分布(共约35+个问题)

优先级 领域 问题数 严重程度
🔴 P0 LLM 底层原理与 Transformer 架构 ~9题 知识黑盒,最需系统学习
🔴 P0 模型量化与压缩技术(GGUF/GPTQ/AWX) ~8题 实操中频繁遇到困惑度问题
🟡 P1 推理引擎底层(vLLM / MLX / llama.cpp) ~7题 vMLX 速度优化反复出现
🟡 P1 Agent 工程化(熔断机制/死循环) ~5题 影响实际使用体验的 bug
🟢 P2 AI 应用开发(文生图/浏览器自动化) ~3题 偏实操,边做边学即可
🟢 P2 工程化/商业(海外建站/外贸) ~3题 非技术核心,按需学习

1.2 关键发现

你目前处于 从前端开发向 AI/LLM 工程化转型 的关键阶段,问题呈现以下特征:

  1. 底层原理理解不足但意识强烈 — 你在 5/05 的问题清单中列出了非常系统的学习框架(Transformer、RoPE、采样策略等),说明你清楚自己缺什么,但缺乏结构化学习路径
  2. 部署工具对比困惑多 — vMLX、LM Studio、oMLX 三者之间的差异和参数调优是高频问题,核心原因是缺乏对底层推理引擎原理的理解。
  3. 量化格式一头雾水 — Q4_K_M、Q4_k_L、JANG 等命名规则,本质是对 GGUF/GPTQ/AWX 格式缺乏系统了解。
  4. Agent 工程化经验欠缺 — 死循环熔断是实际痛点,需要参考业界最佳实践。

二、分领域学习路径与资源(按优先级)

🔴 P0:LLM 底层原理与 Transformer 架构

学习目标

  • 理解 Attention、FFN、LayerNorm 的数学推导和代码实现
  • 掌握自回归生成过程的 Prefill/Decode 阶段差异
  • 理解 RoPE、ALiBi、YaRN 等长上下文扩展技术

推荐资源(按学习顺序)

1. 视频入门(建立直觉)

2. 图文教程(系统学习)

3. 数学推导 + 代码实现

4. Transformer 进阶论文(精读)

📝 今日实践任务

  • 用 Python 手写一个最小版 SelfAttention(不用框架)
  • 跑一遍 Karpathy 的 nanogpt training,观察 loss 曲线

🔴 P0:模型量化与压缩技术

学习目标

  • 理解线性量化、非对称量化的数学原理
  • 掌握 GGUF(k-quants)、GPTQ、AWX、MLX 四种格式的适用场景
  • 理解量化级别(2/4/6/8-bit)与 Perplexity 损失的关系

推荐资源(按学习顺序)

1. 入门理解量化概念

2. GGUF / k-quants 详解(重点)

量化级别速查表:

1
2
3
4
5
INT8    →   精度损失最小,文件较大(~10GB for 70B)
FP8 → NVIDIA GPU 友好,Mac MLX 支持好
AWQ-4bit→ Activation-aware Quantization, 适合 NVIDIA/AMD GPU
GPTQ-4bit → INT4,NVIDIA CUDA 生态首选
GGUF-Q4_K_M → llama.cpp/Mac MLX 推荐,性价比最优

3. Perplexity vs Quantization Benchmark

4. KV Cache 量化(进阶)

📝 今日实践任务

  • 在 HuggingFace 上下载同一个模型的不同量化版本(Q4_K_M vs Q8_0),对比文件大小和推理速度
  • 用 llama.cpp 的 llama-bench 工具跑不同量化级别的 benchmark

🟡 P1:推理引擎底层(vLLM / MLX / llama.cpp)

学习目标

  • 理解 PagedAttention、连续批处理(Continuous Batching)、推测解码
  • vLLM vs llama.cpp 的适用场景和性能权衡
  • Mac(MLX)上的部署优化策略

推荐资源

1. vLLM 核心机制

2. MLX Framework (Apple Silicon)

3. llama.cpp 底层

4. vLLM vs llama.cpp 对比

📝 今日实践任务

  • Mac 上安装 MLX,跑一个 Q4_K_M 模型的推理 benchmark(对比 LM Studio)
  • Docker 里部署 vLLM,跑同一个模型,对比吞吐量

🟡 P1:Agent 工程化(熔断机制 / 死循环)

学习目标

  • 理解 Agent 常见故障模式(重复执行、无限递归等)
  • 实现有效的熔断/超时机制
  • 参考业界最佳实践解决 Hermes Agent 的死循环问题

推荐资源

1. Agent 故障分析论文/文章

2. 熔断机制实现方案

3. Hermes Agent 熔断建议(基于分析)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
# 核心思路:操作去重 + 结果变化检测 + 最大迭代限制

class AgentCircuitBreaker:
def __init__(self, max_iterations=10):
self.max_iterations = max_iterations
self.observed_states = {} # tool_name -> last_result_hash

def should_execute(self, tool_name, args):
# 1. 检查是否超过最大迭代次数
if self.count > self.max_iterations:
raise CircuitBreakerOpen(f"Max iterations ({self.max_iterations}) reached")

# 2. 检查结果是否无变化(防重复执行)
current_result = hash(str(args))
if self.observed_states.get(tool_name) == current_result:
raise CircuitBreakerOpen(f"Stale result detected for {tool_name}")

self.observed_states[tool_name] = current_result

def reset(self):
"""当执行了不同的操作时重置"""
self.observed_states.clear()

关键优化点(针对你的场景):

  • web_search 死循环:记录上次搜索结果摘要,如果连续2次结果相似度 >95%,触发熔断
  • 文件读取死循环:记录上次读取的 file path + offset,如果结果相同则熔断
  • 通用策略:每个 tool call 设置独立计数器 + 全局 max_iterations

📝 今日实践任务

  • 在 Hermes Agent 的 prompt 中加入熔断规则(写在 AGENTS.md/SOUL.md)
  • 测试:故意让 Agent 重复执行同一个搜索,观察是否触发熔断

🟢 P2:AI 应用开发(文生图 / 浏览器自动化)

推荐资源

1. 本地文生图模型部署

2. Chrome MCP / 浏览器自动化


三、推荐学习顺序(30天计划)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
第1周:LLM 底层原理入门
├── Day 1-2: The Illustrated Transformer(读 + 做笔记)
├── Day 3-4: minigpt / micrograd(跑代码,理解训练循环)
├── Day 5-6: Attention is All You Need(精读论文 + Yannic Kilcher 解读视频)
└── Day 7: 手写 SelfAttention + FFN(Python,不用框架)

第2周:模型量化与压缩
├── Day 8-9: HuggingFace Quantization Guide(概念)
├── Day 10-11: GGUF k-quants 详解 + llama.cpp bench
├── Day 12-13: GPTQ vs AWX vs GGUF(对比实验)
└── Day 14: KV Cache 量化 + FP8

第3周:推理引擎
├── Day 15-17: vLLM PagedAttention(论文 + Docker部署)
├── Day 18-20: MLX Framework(Mac上跑通 LLM推理)
├── Day 21: llama.cpp 源码阅读(核心部分)

第4周:Agent 工程化
├── Day 22-23: ReAct + Function Calling(实现一个简单Agent)
├── Day 24-25: Circuit Breaker Pattern(实现熔断机制)
├── Day 26-27: MCP Protocol + Tool Use
└── Day 28-30: 综合实战(搭建一个完整 Agent workflow)

四、补充资源清单

📚 博客 & 频道推荐

  • 3Blue1Brown — YouTube,数学可视化天花板
  • Yannic Kilcher — YouTube,LLM 论文解读
  • lilianweng.github.io — OpenAI 前研究员博客,LLM 系列
  • MLabonne’s Blog — HuggingFace 工程师,量化 + LLM 方向
  • Jay Alammar’s Blog — The Illustrated 系列作者

🎓 课程

  • Coursera - Deep Learning Specialization — Andrew Ng(系统基础)
  • HuggingFace Course (免费) — 实战导向,从零到部署
  • Fast.ai - Practical Deep Learning — 代码优先

🏆 Benchmark & 社区


五、总结:你的核心优势与改进方向

✅ 已做得好的

  • 问题意识强 — 能准确识别知识盲区(Transformer黑盒、量化困惑等)
  • 学习框架清晰 — 5/05 的问题清单本身就是很好的 learning roadmap
  • 工具对比意识 — vMLX/LM Studio/oMLX 的对比思维方向正确

🎯 下一步重点

  1. 优先攻克 Transformer 底层 — 这是理解一切 LLM 技术的基础,建议从 The Illustrated Transformer + nanogpt 开始
  2. 量化知识体系化 — 建立一个 GGUF/GPTQ/AWX/MLX 对比表,边学边记录
  3. 实践驱动 — 每个理论知识点配一个动手实验(写代码、跑 benchmark)
  4. Agent 熔断 — 这是当前最影响体验的问题,建议优先加到 AGENTS.md

这份资料基于你近一周的实际问题生成,建议结合 SOUL.md 中的学习路线图一起使用。每完成一个模块后在 daily_Q 中记录进展和心得。