LLM Wiki Pattern

🇹🇭 ภาษาไทย

วิธีสร้าง personal knowledge base ที่ LLM ดูแลรักษา wiki แบบ persistent และ interlinked อย่างต่อเนื่อง แทนที่จะ re-derive คำตอบจาก raw documents ทุกครั้งที่ถาม

ความแตกต่างจาก RAG

RAG (traditional)LLM Wiki
ความรู้Re-derived ทุก queryCompile ครั้งเดียว, อัปเดตต่อเนื่อง
การสังเคราะห์Ephemeral (อยู่ใน chat)Persistent (อยู่ใน wiki)
Cross-referencesคำนวณตอน queryเขียนไว้แล้วใน wiki
ContradictionsอาจพลาดFlag ไว้ inline
การดูแลไม่ต้องดูแลLLM ดูแลทั้งหมด

สถาปัตยกรรม 3 ชั้น

Layer 1 — Raw sources (raw/) เอกสาร source ที่ immutable LLM อ่านได้ ไม่เขียน

Layer 2 — Wiki (wiki/) Pages ที่ LLM สร้างและดูแล — entity pages, concept pages, source summaries, analyses, index, log

Layer 3 — Schema (CLAUDE.md) Operating rules สำหรับ LLM: directory structure, naming conventions, formats, workflows

Operations

Ingest: อ่าน source → คุย key takeaways → เขียน source page → อัปเดต entity/concept pages → อัปเดต overview/index → append log

Query: อ่าน index → อ่าน relevant pages → สังเคราะห์คำตอบพร้อม citations → เก็บเป็น analysis page (ถ้าตกลงกัน)

Lint: ตรวจสอบ contradictions, orphan pages, stale claims, missing cross-references

ทำไมถึงได้ผล

bottleneck ของ personal knowledge management คือ maintenance ไม่ใช่ curation มนุษย์ทิ้ง wiki เพราะค่าใช้จ่ายของการดูแล compounding เร็วกว่า value ที่ได้ LLM ขจัด bottleneck นี้ได้ — ไม่เบื่อ ไม่ลืม cross-references ไม่เสีย context

ตระกูลความคิด

  • Vannevar Bush, Memex (1945) — private associative knowledge store; Bush ไม่มีเครื่องมือทำ maintenance อัตโนมัติ
  • Fan wikis — thousands of interlinked pages; pattern นี้ replicate ความหนาแน่นนั้นสำหรับบุคคลคนเดียว
  • NotebookLM / ChatGPT files — คล้ายที่สุดในกระแสหลัก แต่ใช้ RAG (re-derive per query, ไม่มี persistent synthesis)
  • RAG vs Wiki — เปรียบเทียบสองแนวทางแบบละเอียด
  • Memex — precursor concept ของ Bush ปี 1945
  • MemPalace — ระบบ verbatim retrieval ที่ตรงข้าม philosophy

🇬🇧 English

A method for building a personal knowledge base where an LLM incrementally maintains a persistent, interlinked wiki rather than answering questions by re-deriving from raw documents each time.

Core Distinction

RAG (traditional)LLM Wiki
KnowledgeRe-derived per queryCompiled once, kept current
SynthesisEphemeral (lives in chat)Persistent (lives in wiki)
Cross-referencesComputed at query timeAlready written in the wiki
ContradictionsMay be missedFlagged inline
MaintenanceNone neededLLM handles everything

Three-Layer Architecture

Layer 1 — Raw sources (raw/) Immutable source documents. Articles, papers, notes, data files. The LLM reads from here but never writes.

Layer 2 — The wiki (wiki/) LLM-generated and LLM-maintained markdown pages: entity pages, concept pages, source summaries, analyses, an index, and a log.

Layer 3 — The schema (CLAUDE.md) Operating rules for the LLM: directory structure, naming conventions, page formats, and workflow steps for each operation. Evolved collaboratively over time.

Operations

Ingest: Read source → Discuss key takeaways → Write source summary page → Update entity/concept pages (may touch 5–20 pages) → Update overview and index → Append log entry.

Query: Read index.md → Read relevant pages → Synthesize answer with wiki-link citations → Optionally file as an analysis page.

Lint: Check for contradictions, orphan pages, stale claims superseded by newer sources, concepts mentioned but lacking their own page, missing cross-references.

Why It Works

The bottleneck in personal knowledge management is maintenance, not curation. Humans abandon wikis because upkeep cost compounds faster than the value gained. LLMs eliminate this bottleneck — they don’t get bored, forget cross-references, or lose context across 15 files.

Human role: source curation, direction, asking good questions. LLM role: all bookkeeping — summarizing, cross-referencing, filing, keeping things consistent.

Intellectual Lineage

  • Vannevar Bush, Memex (1945) — private associative knowledge store with trails between documents. Bush couldn’t solve who maintains it. This pattern’s answer: the LLM.
  • Fan wikis (Tolkien Gateway, etc.) — thousands of interlinked pages built by community. This pattern replicates that density for a single person, with the LLM as the community.
  • NotebookLM / ChatGPT file uploads — closest mainstream analogues, but both use RAG (re-derivation per query, no persistent synthesis).
  • MemPalace — local-first verbatim retrieval system; represents the opposing philosophy (store raw, search smart). See RAG vs Wiki for full contrast.

Open Questions

  • Optimal grain for entity vs. concept page split
  • Scaling strategy beyond ~hundreds of pages (hybrid index + vector search?)
  • Best schema conventions for different domains (personal, research, business)