Tokenkosten halveren met kenniscompressie in CLAUDE.md

Claude Code rekent per token. Elke sessie begint met het inlezen van je CLAUDE.md systeemprompt, en die tokens tellen mee bij elke query. Hoe meer tokens je daar instopt, hoe meer je betaalt. Maar er is een tweede effect dat de meeste mensen over het hoofd zien: meer tokens betekent ook slechtere output. In dit artikel laat ik zien hoe je met kenniscompressie je tokenkosten bespaart en tegelijk betere resultaten krijgt.

Waarom leiden meer tokens tot slechtere output?

Dit is contraintuïtief. Je zou denken: hoe meer context ik Claude geef, hoe beter het begrijpt wat ik wil. Maar het tegenovergestelde is waar. Tokenvolgorde schaalt omgekeerd evenredig met de kwaliteit van de output.

Stel je voor dat je een briefing geeft aan een nieuwe collega. Je kan twee dingen doen:

De uitgebreide versie. Je stuurt een document van tien pagina's met elke mogelijke conventie, elk edge case, en elke beslissing die ooit genomen is. Je collega leest het door, raakt het overzicht kwijt, en mist de drie dingen die er echt toe doen.
De gecomprimeerde versie. Je stuurt vijf bullets met de kernregels. Je collega snapt direct wat de prioriteiten zijn en levert werk dat aansluit bij je verwachting.

Claude werkt op dezelfde manier. Een CLAUDE.md vol uitgebreide uitleg verdunt de aandacht van het model. De instructies die er echt toe doen, verdrinken in ruis. Een strakke, gecomprimeerde CLAUDE.md laat Claude focussen op wat belangrijk is.

Hoe ziet een compressiefactor van 45x eruit?

Laten we een concreet voorbeeld pakken. Neem een app.jsx bestand van een React-project. Als je de volledige inhoud kopieert naar een woordteller, kom je op ongeveer 827 woorden (zo'n 1.100 tokens).

Diezelfde kennis, gecomprimeerd in een CLAUDE.md, kost slechts 22 woorden. Dat is een compressiefactor van 45x.

Wat staat er dan in die 22 woorden? Iets als:

React 18 + TypeScript. Tailwind CSS. Componentstructuur: pages/ en components/. State via Zustand. Tests in Vitest.

Die ene regel vertelt Claude alles wat het moet weten over je stack, je mappenstructuur, je state management en je testframework. Claude hoeft niet meer door honderden regels code te spitten om dezelfde conclusie te trekken.

Compressie is geen verlies

Kenniscompressie betekent niet dat je informatie weggooit. Je destilleert de kern. Claude leidt de rest af uit context, net zoals een ervaren developer dat zou doen wanneer je zegt "React met TypeScript en Tailwind".

Wat bespaar je concreet aan kosten?

Laten we de rekening maken. Claude Code werkt met input- en outputtokens. Je CLAUDE.md wordt bij elke interactie als inputtokens meegestuurd.

Stel je hebt een ongecomprimeerde CLAUDE.md van 2.000 tokens. Na compressie is dat 200 tokens. Dat scheelt 1.800 tokens per query.

In een gemiddelde sessie stuur je zo'n 30 tot 50 queries. Reken met 40:

Ongecomprimeerd: 2.000 x 40 = 80.000 tokens per sessie alleen aan CLAUDE.md
Gecomprimeerd: 200 x 40 = 8.000 tokens per sessie alleen aan CLAUDE.md
Besparing per sessie: 72.000 tokens

Bij dagelijks gebruik en 20 werkdagen per maand is dat 1.440.000 tokens per maand aan onnodige kosten. Met Claude's huidige pricing loopt dat op tot tientallen euro's per maand, puur aan systeem context die je niet nodig hebt.

En dan heb ik het alleen over je CLAUDE.md. Als je ook claude skills gebruikt (en dat zou je moeten doen), tellen die tokens daar bovenop.

Hoe meet je je eigen compressiefactor?

Het meten is simpel. Je hebt twee getallen nodig:

Stap 1. Tel de woorden in het bronbestand (of de bronbestanden) die de kennis bevatten. Kopieer de inhoud naar een woordteller, of gebruik wc -w in je terminal.

Stap 2. Tel de woorden in je CLAUDE.md-sectie die dezelfde kennis beschrijft.

Stap 3. Deel het eerste getal door het tweede. Dat is je compressiefactor.

# Woorden tellen in je bronbestand
wc -w src/app.jsx
# Output: 827 src/app.jsx

# Woorden tellen in je CLAUDE.md
wc -w CLAUDE.md
# Output: 145 CLAUDE.md

# Compressiefactor
# 827 / 22 (de relevante sectie) = 37.6x

Een goede compressiefactor ligt tussen 10x en 50x. Zit je onder de 5x, dan is je CLAUDE.md waarschijnlijk te uitgebreid. Zit je boven de 100x, dan mis je mogelijk cruciale details.

Welke technieken werken voor effectieve compressie?

Niet alle kennis comprimeert even goed. Hier zijn de technieken die ik dagelijks gebruik.

Gebruik declaratieve statements

In plaats van uitleg, geef een feit. Claude kent de implicaties.

Uitgebreid (veel tokens)	Gecomprimeerd (weinig tokens)
"We gebruiken React versie 18 met de nieuwe concurrent rendering features en server components."	"React 18, server components."
"Voor styling gebruiken we Tailwind CSS utility classes. Geen custom CSS, geen styled-components."	"Tailwind CSS only, geen custom CSS."
"Tests schrijven we met Vitest en Testing Library. We testen altijd componenten in isolatie."	"Tests: Vitest + Testing Library, unit per component."

Gebruik lijsten en opsommingen

Proza kost veel tokens voor weinig informatie. Opsommingen zijn compact en scanbaar, zowel voor Claude als voor jou.

Verwijs, kopieer niet

Als je een uitgebreide styleguide hebt, verwijs ernaar in je CLAUDE.md. Schrijf niet de hele guide over.

## Styling
Tailwind CSS only. Zie /docs/styleguide.md voor conventies.

Maak gebruik van impliciete kennis

Claude kent React, TypeScript, Tailwind en honderden andere tools. Je hoeft niet uit te leggen wat ze doen. Je hoeft alleen te vermelden dat je ze gebruikt.

Dit is het verschil tussen schrijven voor een junior die alles uitgelegd moet krijgen, en schrijven voor een senior die alleen de projectspecifieke keuzes nodig heeft.

Wat moet je juist niet comprimeren?

Compressie werkt niet voor alles. Sommige kennis heeft detail nodig, omdat Claude het niet kan afleiden.

Projectspecifieke conventies. Als je team een ongebruikelijke naamgevingsconventie heeft, of een specifieke mappenstructuur die afwijkt van de standaard, dan moet dat expliciet in je CLAUDE.md staan.

Faal- en succespatronen. De plan-instantiate-learn loop levert concrete learnings op. "Gebruik nooit any in TypeScript" of "Schrijf altijd een useAsyncData wrapper rond queryCollection". Die regels zijn kort maar essentieel. Ze zijn het resultaat van fouten die je niet wilt herhalen.

Omgevingsspecifieke details. Welke environment variables zijn nodig? Welke poorten gebruikt je dev server? Welke externe services zijn geconfigureerd? Dit zijn dingen die Claude niet kan raden.

De vuistregel: als Claude het zelf kan afleiden uit een technologienaam of conventie, comprimeer het. Als het projectspecifiek is en nergens anders gedocumenteerd staat, schrijf het uit.

Hoe begin je vandaag?

Open je CLAUDE.md en tel de woorden. Pak er een woordteller bij, of draai wc -w in je terminal. Kijk dan kritisch naar elke sectie: staat hier uitleg die Claude al kent? Staat hier proza dat ook in drie woorden kan? Comprimeer het.

Meet je compressiefactor voor en na. Draai een sessie en let op het verschil. Minder tokens, scherpere output, lagere kosten. Dat is geen theorie. Dat is wiskunde.

Tokenkosten halveren met kenniscompressie in je CLAUDE.md