Problema
Når AI-omkostningerne stiger, reagerer mange virksomheder ved at skære i tokens. Kortere prompts, mindre kontekst, færre eksempler, mindre hukommelse. Nogle gange virker det. Andre gange efterlader det agenten blind.
Kontekst er ikke fedt, man kan skære i uden at tænke sig om. Det er det informationsmiljø, hvor agenten træffer sine beslutninger. Fjerner du kritisk kontekst, bruger agenten mindre, men fejler mere. Putter du det hele ind, bruger den mere og kan blive forvirret.
Udfordringen er ikke “mindre kontekst”. Det er et bedre kontekstbudget.
Tesis
Context Budgeting bør være sin egen disciplin inden for AI-operationsmodellen.
Det handler om at beslutte, hvilken information der kommer ind, hvor den placeres, hvor længe den varer, hvornår den caches, hvornår den udløber, hvad der hentes on demand, og hvad der aldrig bør indgå.
Et godt kontekstbudget sænker omkostninger uden at ødelægge kvaliteten. Et dårligt sparer tokens ved at købe omarbejde.
Framework
Opdel konteksten i fem budgetter:
- Stabil: instruktioner, politikker, kriterier, schemas og varige eksempler.
- Situationsbestemt: data om sagen, brugeren, kunden, kanalen eller opgaven.
- Hentet: dokumenter, tickets, hukommelse, viden eller kilder.
- Forbigående: tool outputs, midlertidige logs og mellemliggende trin.
- Forbudt: hemmeligheder, unødvendige data, støj og uautoriseret kontekst.
Mini-case: en juridisk agent modtager en kontrakt, interne politikker, kundens historik, eksempler på redlines og tool outputs. Hvis det hele indgår som én flad blok, stiger omkostningerne, og præcisionen falder. Hvis de stabile politikker caches, kontrakten indgår som sag, kilderne hentes med tilladelser, og tool outputs udløber, træffer systemet bedre beslutninger og koster mindre.
Målbart signal: omkostning pr. accepteret outcome efter at have adskilt stabil, situationsbestemt, hentet og forbigående kontekst.
Holdning: kontekst er inventar. Budgetterer du ikke med den, bliver den dyr skrald.
Hvorfor det er vigtigt nu
Anthropic dokumenterer prompt caching for at genbruge stabilt indhold som tool definitions, systeminstruktioner, kontekst og eksempler. AWS annoncerede i januar 2026 en TTL-mulighed på én time for prompt caching i Amazon Bedrock med udvalgte Claude-modeller, rettet mod lange agent-workflows, tool use, retrieval og orkestrering. OpenAI dokumenterer agenter og SDK’er, hvor værktøjer, hukommelse og eksekveringsstruktur bliver eksplicitte dele af systemet.
Alle disse dele peger mod det samme problem: lange agenter skal administrere kontekst som en operationel ressource – ikke som påklistret tekst.
Omkostningen ved kontekst viser sig ikke kun på regningen. Den viser sig i latenstid, fejl, dataeksponering og besvær med debugging.
Anti-eksempel
“Lad os proppe hele vidensbasen ind i konteksten, så den ikke fejler.”
Det går som regel galt – og dyrt. Det øger tokens, trækker forældede dokumenter ind, blander tilladelser og gør det svært at se, hvilken kilde der påvirkede svaret. En agent har ikke brug for alt; den har brug for tilstrækkelig, relevant, autoriseret og frisk kontekst.
Protokol (3 trin)
- Markér kontekst efter levetid. Minutter, timer, dage, release, kontrakt eller permanent.
- Cache det stabile, hent det dynamiske. Behandl ikke politikker og sagsdata som det samme.
- Mål blindhed og støj. Hvis omkostningerne falder, men omarbejdet stiger, var beskæringen en falsk besparelse.
| Type | Strategi | Risiko |
|---|---|---|
| stabil | cache | gammel version |
| situationsbestemt | indsæt pr. sag | manglende kontekst |
| hentet | RAG med tilladelser | forkert kilde |
| forbigående | udløb | forurenet hukommelse |
| forbudt | bloker | datalæk |
Relateret
- Token-to-Outcome: el KPI que separa IA usada de IA rentable
- Context Architecture: por que prompt engineering no escala negocio
- Enterprise AI Search: por que la busqueda interna se esta convirtiendo en sistema operativo
Konsulterede kilder
- Anthropic: Prompt caching
- AWS: Amazon Bedrock now supports 1-hour duration for prompt caching
- OpenAI Agents SDK: Memory
Næste skridt
Tag en dyr workflow, og mal dens kontekst i fem farver: stabil, situationsbestemt, hentet, forbigående og forbudt. Så ser du, hvad der skal caches, hvad der skal hentes, og hvad der er overflødigt.
Oversat fra den spanske original med AI-hjælp og gennemset for nøjagtighed. Læs originalen på spansk.