增量编译方案:AI 只读变化的部分,Token 消耗直降 10 倍

🔗 永久链接 | 更新日志 | 知乎专栏

🖥 下载地址

Onedrive@世纪互联 | 夸克网盘 | 百度网盘 | Box.net | 更多版本

💡 1.5.2 版功能

新增 index_map.txt 映射文件,用于提升简悦 Andrej Karpathy LLM Wiki 方案的编译效率。

📖 解决了什么问题

Wiki 方案的工作原理是将 raw/ 文件夹下的原始素材编译为结构化维基。每次编译时,AI 需要知道:哪些文件是新增的?哪些快照发生了变化?哪些需要重新处理?

在 1.0 版本中,AI 必须逐个读取 raw/ 下的全部文件才能回答这些问题。假设一个主题有 10 个文件,每个 1000 行,每次编译就要读取约 10000 行文本,消耗约 50000 tokens。

index_map.txt 的出现让这一切变得不同。

实际场景:10 个 raw 文件 × 1000 行的主题,1.0 需读取约 50000 tokens,2.0 仅读取变化的 1 个文件,约 5000 tokens,节省约 10 倍。

Token 消耗降低 5-10 倍

对比维度 1.x 版本 2.0 版本 提升
变更检测 读取所有 raw 文件 仅读取 index_map.txt(几行) ~50x
快照提取 扫描全文提取链接 映射表直接获取 ~10x
增量更新 全量对比,耗时长 精准定位变化文件 ~5-10x
Sources 维护 手动或全量重建 自动对齐映射表 ~3x

假设:一个主题包含 10 个 raw 文件,每个文件 1000 行

1.0 版本(无 index_map.txt ):

  • 需要读取 10 个文件 = 10,000 行文本

  • Token 消耗:约 50,000 tokens

2.0 版本(有 index_map.txt ):

  • 读取 index_map.txt = 10 行

  • 仅 1 个文件变化,读取 1 个文件 = 1,000 行

  • Token 消耗:约 5,000 tokens

💡 节省比例:约 10 倍!

🔧 特点

1️⃣ Token 消耗降低 5-10 倍:AI 无需逐个读取全部 raw 文件,只需读取几行映射表即可完成变更检测,从约 50000 tokens 降至约 5000 tokens。

2️⃣ 精准增量感知:新增了文件?快照 ID 数量变了?映射表一比对就知道,AI 只需读取变化的文件,其余跳过。

3️⃣ Sources 账本自动对齐:Wiki 页面底部的 ## Sources(映射表) 可直接从 index_map.txt 生成,无需从正文中逐行提取快照链接。

4️⃣ 简悦用户的专属优化: index_map.txt 中的快照 ID 与简悦本地快照(http://localhost:7026/reading/{id})一一对应,实现从 Wiki 结论到原始阅读环境的秒级跳转。

🧠 一句话总结

index_map.txt 让 Wiki 方案从 "每次全量扫描" 变为 "只读变化部分",是 2.0 版本降低 Token 消耗的核心机制。

🔌 如何使用

同步助手导出时自动生成,无需手动配置,确保版本为 1.5.2 即可。

🔎 关联阅读

1️⃣ 同步助手1.5.1版:支持 Andrej Karpathy LLM Wiki 方案

2️⃣ 简悦 Andrej Karpathy LLM Wiki 方案