从 “稍后读” 到 “终身维基” :专为重度阅读者打造的个人知识内化方案。

🔗 官网

https://github.com/Kenshin/simpread-karpathy-llm-wiki-compiler

🌟 核心理念

作为 简悦(SimpRead) 的创建者,我设计了这个框架,旨在弥合 “稍后阅读(Read-it-Later)” 与 “永远不读(Read-it-Never)” 之间的鸿沟。

本项目是基于 Andrej Karpathy 提倡的 LLM Wiki 概念构建的 个人知识库自动化知识构建方案。它不仅是一套工具链,更是一种将 “被动囤积” 转化为 “主动内化” 的个人知识库自动化构建协议。

这套框架利用具备文件读写权限的 AI 环境,将任意本地 Markdown 文件(或通过简悦导出的本地的本地快照)转化为高度结构化、可溯源、且具备双向链接的个人维基(Wiki),专为处理 大规模(1000+)异步阅读素材 而生。

我使用这套框架管理着通过 简悦 (SimpRead) 收集的数千个深度阅读内容(稍后读)。它不只是简单的存储,而是通过一套 协议驱动型架构,将凌乱的 HTML/Markdown 剪藏增量编译为具备高度逻辑性、可回溯、且带有本地快照链接的结构化维基。

RAG 方案 更简洁,比 AI 浏览器方案 更强大,这套框架的 👉 具体使用方案

😆 太长不看

简悦用户请 移步到这里 或直接查看 快速上手

🧬 设计哲学:Karpathy LLM Wiki Protocol

  • 原子化 (Atomic):知识点被拆解为最小逻辑单元。

  • 原始数据驱动 (Data-Driven):Wiki 只是 Raw 素材的 “编译产物”,随原始数据的演进而进化。

  • 显式溯源 (Grounding):每一条知识 wiki/ 均引用原始来源 raw/

  • 无损演进 (Non-destructive):采用 [ADD] 增量合并与 [FIX] 轨迹修正,完整保留知识的迭代过程。

👥 目标受众

  1. 理念践行者:对 Andrej Karpathy LLM Wiki 理念感兴趣,且具有大量处理大量本地文件(知识库)的用户。

  2. 简悦资深玩家:已配置 本地知识库 的简悦用户。

✨ 特点与优势

  • 无须配置:支持开箱即用。

  • 增量更新:仅处理新增或修改的文件,节省 Token 并提高效率。

  • 海量处理:支持 1000 行以上的大文件以及多主题并发处理。

  • 高度扩展:支持自定义技能库 skills/ ,轻松实现功能插件化。

  • 协议与数据解耦::全部数据为文本数据,方便迁移。

  • 简报模式:专门用于大量数据提取主题并生成简报,可直接生成 ASCII / Mermaid / 表格 / 关系图等结构。

🔥 相比 RAG 的优势

维度 传统 RAG (Vector Search) Karpathy LLM Wiki (本项目)
处理量级 面对数千个长文本时,检索结果容易产生碎片化。 全局掌控。 专为数千个长文设计的 “流式吞噬” 协议,逻辑不留死角。
溯源精度 仅定位到语义片段。 原子级回溯。 每个事实精准挂载 简悦本地快照链接 (Localhost)
知识深度 关键词匹配,难以理解复杂的因果链。 深度架构。 像编译代码一样理清技术演进与产品哲学。
稳定性 容易受到模型幻觉和切片干扰。 确定性。 每一行 Wiki 都有对应的 Source 账本支撑。

⚠️ 处理大文件的机制

为解决大文件导致的 “信息截断” 顽疾,本方案内置了 强制分块读取流

  1. 行数预检:AI 处理前会先确认原始文件的总行数。

  2. 循环吞噬:若超出单次处理窗口,AI 会自主执行循环分段读取(如 read_lines),直至触达文件末尾(EOF)。

📂 目录结构说明

.
├── raw/              # 原始素材库:按主题文件夹存放原始素材
│   ├── 主题A/         # 主题文件夹,每个主题文件夹对应一个 Wiki 页面(如果是简悦用户的话,每个文件夹下面有若干个序号从 0 开始的文件 e.g. `0.md`, `1.md`, ...
│   ├── 主题B/
│   ├── 主题C/
├── wiki/             # 目标知识库:编译后的 Wiki 页面 (*.md)
├── skills/           # 核心技能库
├── command/          # 常用命令
└── AGENT.md          # 全局元协议:定义 AI 执行任务时的基本准则

🛠️ 技能库 (Skills) 详解

0️⃣ 全量初始化:skills/init.md

全量扫描 raw/ 根目录,在 wiki/ 创建相应的主题,建立 INDEX.md 索引锚点。

1️⃣ 添加操作:开辟新主题 (skills/add.md)

识别 raw/ 下的新主题,自动注册(在 wiki/ 创建对应 .md )至 Wiki 体系。

2️⃣ 更新操作:深化已有主题 (skills/update.md)

仅处理新增素材,执行增量追加。

3️⃣ 全量审计:skills/audit.md

对特定主题重新深度扫描,找回隐藏的逻辑关系,丰富简略段落。

4️⃣ 知识消费协议:command/qa.md

强制执行 “知识库优先” ,当内部知识库无法满足回复时,将会引用外部知识体系。

5️⃣ 快捷命令:command/ask.md

执行后,自动调用 command/qa.md 的回答规则,在之后将使用 /ask [提问内容] 提问。

6️⃣ 执行 skills 命令:command/generate.md

输入 /gen [快捷指令] 调用具体的 skills 命令。

7️⃣ 执行 skills 命令:command/report.md

执行 /report [主题] 自动生成基于架构图的深度洞察简报。

生成图表时包含了 ASCII (默认)和 Mermaid 方案,可通过 /report -- mermaid 切换。

8️⃣ 执行 skills 命令:command/refresh.md

当修改 AGENT.md skills/ command/ 里面的内容后,需要使用此命令获取并理解这些内容。

📖 使用说明

📥 下载

git clone [email protected]:Kenshin/simpread-karpathy-llm-wiki-compiler.git手动下载并解压缩到任意目录

🚀 首次使用

执行 startup.md

💡 提问

  1. 输入 /ask [提问内容] 即可开始提问。

  2. 输入 /report [主题] 即可开始生成对应主题的简报。

🧰 后续维护

  1. 添加新主题:输入 /gen add.md

  2. 更新旧主题:输入 /gen update.md

🔎 审查(重新梳理任意主题)

当某个主题的内容较大时(如 1000 行以上,包含多个索引 .md 文件),LLM 生成的 Wiki 的知识颗粒度可能不够,这时需要使用 audit.md 进行深度审计。

  1. 执行 generate.md 内容(仅需一次,如已执行,则无须再次使用)。

  2. 输入 /gen audit.md 开始针对某一主题进行重新审计。

🔄 更新技能

当修改 AGENT.md skills/ command/ 里面的内容后,需要使用此命令获取并理解这些内容。

  1. 执行 refresh.md 内容(仅需一次,如已执行,则无须再次使用)。

  2. 输入 /refresh 全部重新扫描 skills/ command/ 的内容并重新理解和严格执行。

  3. 输入 /refresh [filename] 开始针对某一主题进行重新审计,如 /refresh audit.md 仅重新理解和严格执行 audit.md。

📚 快速上手

为方便快速上手,此框架中内置了一些 Demo 数据(来自通过简悦生成的 276 篇文章,分为 47 个文件),位置在 raw/标签@科技史话_AI战争/ 下面,同时使用这套访问生成了对应的 wiki/标签@科技史话_AI战争.md

  1. 下载

  2. 执行 startup.md

  3. 提问 /ask 请以 OpenAI 为关键字,生成一份以时间线为主的简报,并按照 /report 的格式给出答案。

🌊 工作流指南

  • 情况 A(新主题):素材放入 raw/ → 输入 /gen add.md → 确认报告并 开始执行

  • 情况 B(更新素材):新素材丢进 raw/已有主题/ → 输入 /gen update.md → 查看变更日志。

  • 情况 C(深度挖掘):如果觉得某个 Wiki 主题内容有缺失可输入 /gen audit.md 后根据提示重新从 /raw/[主题] 挖掘。

  • 情况 D(提问):输入 /ask [你的问题]

  • 情况 E(简报):输入 /report [主题]

  • 情况 F(高级用法): 输入 /ask 请在 AI 相关内容中检索 OpenAI CEO 相关内容,并按照 /report 方案整理。

  • 情况 G(高级用法): 输入 /ask 请在 AI 相关内容中检索 OpenAI CEO 相关内容,并按照 /report -- mermaid 方案整理。

🖥 仅迁移到新的环境

相比 RAG 方案,此方式可以方便的迁移到任意支持本地操作的 AI 环境中。

假设你已在使用这套 LLM Wiki 了(也就是 wiki/ 积累了很多内容),当迁移到新环境中,仅需要执行 startup.md

🖼 截图

GithHub | 语雀

🔌 简悦用户专属配置

🛠️ 深度整合:简悦 (SimpRead) 生态

本项目针对 简悦 (SimpRead) 导出的素材进行了专项优化:

  • 快照直达:完美映射简悦本地解析服务器地址 (http://localhost:7026/...),实现从 Wiki 结论到原始阅读环境的秒级跳转。

  • 元数据兼容:自动识别简悦导出的原文地址、标签及原始文件名。

  • 海量吞噬:针对数千个文件可能带来的上下文溢出问题,内置了动态行数预检分块流式读取机制。

  • 简报模式:专门用户大量数据提取主题并生成简报,可直接生成 ASCII / Mermaid / 表格 / 关系图等结构。

📚 使用前提

  1. 用户需配置 本地知识库

  2. 确保同步助手版本 ≥ 1.5.1,如有必要 请点击升级

💡 特点

确保存在本地快照即可,设置目录后,可将本地快照以各种检索方式(如标签、时间点、任意搜索内容等)进行保存到 raw/ 目录。

⚡ 在稍后读 · 极速版使用

GitHub | 语雀

📖 在阅读模式下使用

使用简悦插件 · 导出简悦知识库 👉 GitHub | 语雀

🤖 使用工具建议

只要是可以操作本地文件的 AI 工具均可,此工程在 Visual Studio Code · Codex · Trae · OpenCode 下完成。

分别使用了 Google Gemini Flash · GPT-5.4 · MiniMax-M2.7 模型。

🤝 贡献与反馈

欢迎 提交 IssuePull Request 来完善编译器协议。