增量编译方案:AI 只读变化的部分,Token 消耗直降 10 倍
🖥 下载地址
Onedrive@世纪互联 | 夸克网盘 | 百度网盘 | Box.net | 更多版本
💡 1.5.2 版功能
新增 index_map.txt 映射文件,用于提升简悦 Andrej Karpathy LLM Wiki 方案的编译效率。
📖 解决了什么问题
Wiki 方案的工作原理是将 raw/ 文件夹下的原始素材编译为结构化维基。每次编译时,AI 需要知道:哪些文件是新增的?哪些快照发生了变化?哪些需要重新处理?
在 1.0 版本中,AI 必须逐个读取 raw/ 下的全部文件才能回答这些问题。假设一个主题有 10 个文件,每个 1000 行,每次编译就要读取约 10000 行文本,消耗约 50000 tokens。
index_map.txt 的出现让这一切变得不同。
实际场景:10 个 raw 文件 × 1000 行的主题,1.0 需读取约 50000 tokens,2.0 仅读取变化的 1 个文件,约 5000 tokens,节省约 10 倍。
Token 消耗降低 5-10 倍
| 对比维度 | 1.x 版本 | 2.0 版本 | 提升 |
|---|---|---|---|
| 变更检测 | 读取所有 raw 文件 | 仅读取 index_map.txt(几行) | ~50x |
| 快照提取 | 扫描全文提取链接 | 映射表直接获取 | ~10x |
| 增量更新 | 全量对比,耗时长 | 精准定位变化文件 | ~5-10x |
| Sources 维护 | 手动或全量重建 | 自动对齐映射表 | ~3x |
假设:一个主题包含 10 个 raw 文件,每个文件 1000 行
1.0 版本(无 index_map.txt ):
-
需要读取 10 个文件 = 10,000 行文本
-
Token 消耗:约 50,000 tokens
2.0 版本(有 index_map.txt ):
-
读取 index_map.txt = 10 行
-
仅 1 个文件变化,读取 1 个文件 = 1,000 行
-
Token 消耗:约 5,000 tokens
💡 节省比例:约 10 倍!
🔧 特点
1️⃣ Token 消耗降低 5-10 倍:AI 无需逐个读取全部 raw 文件,只需读取几行映射表即可完成变更检测,从约 50000 tokens 降至约 5000 tokens。
2️⃣ 精准增量感知:新增了文件?快照 ID 数量变了?映射表一比对就知道,AI 只需读取变化的文件,其余跳过。
3️⃣ Sources 账本自动对齐:Wiki 页面底部的 ## Sources(映射表) 可直接从 index_map.txt 生成,无需从正文中逐行提取快照链接。
4️⃣ 简悦用户的专属优化: index_map.txt 中的快照 ID 与简悦本地快照(http://localhost:7026/reading/{id})一一对应,实现从 Wiki 结论到原始阅读环境的秒级跳转。
🧠 一句话总结
index_map.txt 让 Wiki 方案从 "每次全量扫描" 变为 "只读变化部分",是 2.0 版本降低 Token 消耗的核心机制。
🔌 如何使用
同步助手导出时自动生成,无需手动配置,确保版本为 1.5.2 即可。