Context Budgeting: spar tokens uden at gøre agenten blind

Problema

Når AI-omkostningerne stiger, reagerer mange virksomheder ved at skære i tokens. Kortere prompts, mindre kontekst, færre eksempler, mindre hukommelse. Nogle gange virker det. Andre gange efterlader det agenten blind.

Kontekst er ikke fedt, man kan skære i uden at tænke sig om. Det er det informationsmiljø, hvor agenten træffer sine beslutninger. Fjerner du kritisk kontekst, bruger agenten mindre, men fejler mere. Putter du det hele ind, bruger den mere og kan blive forvirret.

Udfordringen er ikke “mindre kontekst”. Det er et bedre kontekstbudget.

Tesis

Context Budgeting bør være sin egen disciplin inden for AI-operationsmodellen.

Det handler om at beslutte, hvilken information der kommer ind, hvor den placeres, hvor længe den varer, hvornår den caches, hvornår den udløber, hvad der hentes on demand, og hvad der aldrig bør indgå.

Et godt kontekstbudget sænker omkostninger uden at ødelægge kvaliteten. Et dårligt sparer tokens ved at købe omarbejde.

Framework

Opdel konteksten i fem budgetter:

Stabil: instruktioner, politikker, kriterier, schemas og varige eksempler.
Situationsbestemt: data om sagen, brugeren, kunden, kanalen eller opgaven.
Hentet: dokumenter, tickets, hukommelse, viden eller kilder.
Forbigående: tool outputs, midlertidige logs og mellemliggende trin.
Forbudt: hemmeligheder, unødvendige data, støj og uautoriseret kontekst.

Mini-case: en juridisk agent modtager en kontrakt, interne politikker, kundens historik, eksempler på redlines og tool outputs. Hvis det hele indgår som én flad blok, stiger omkostningerne, og præcisionen falder. Hvis de stabile politikker caches, kontrakten indgår som sag, kilderne hentes med tilladelser, og tool outputs udløber, træffer systemet bedre beslutninger og koster mindre.

Målbart signal: omkostning pr. accepteret outcome efter at have adskilt stabil, situationsbestemt, hentet og forbigående kontekst.

Holdning: kontekst er inventar. Budgetterer du ikke med den, bliver den dyr skrald.

Hvorfor det er vigtigt nu

Anthropic dokumenterer prompt caching for at genbruge stabilt indhold som tool definitions, systeminstruktioner, kontekst og eksempler. AWS annoncerede i januar 2026 en TTL-mulighed på én time for prompt caching i Amazon Bedrock med udvalgte Claude-modeller, rettet mod lange agent-workflows, tool use, retrieval og orkestrering. OpenAI dokumenterer agenter og SDK’er, hvor værktøjer, hukommelse og eksekveringsstruktur bliver eksplicitte dele af systemet.

Alle disse dele peger mod det samme problem: lange agenter skal administrere kontekst som en operationel ressource – ikke som påklistret tekst.

Omkostningen ved kontekst viser sig ikke kun på regningen. Den viser sig i latenstid, fejl, dataeksponering og besvær med debugging.

Anti-eksempel

“Lad os proppe hele vidensbasen ind i konteksten, så den ikke fejler.”

Det går som regel galt – og dyrt. Det øger tokens, trækker forældede dokumenter ind, blander tilladelser og gør det svært at se, hvilken kilde der påvirkede svaret. En agent har ikke brug for alt; den har brug for tilstrækkelig, relevant, autoriseret og frisk kontekst.

Protokol (3 trin)

Markér kontekst efter levetid. Minutter, timer, dage, release, kontrakt eller permanent.
Cache det stabile, hent det dynamiske. Behandl ikke politikker og sagsdata som det samme.
Mål blindhed og støj. Hvis omkostningerne falder, men omarbejdet stiger, var beskæringen en falsk besparelse.

Type	Strategi	Risiko
stabil	cache	gammel version
situationsbestemt	indsæt pr. sag	manglende kontekst
hentet	RAG med tilladelser	forkert kilde
forbigående	udløb	forurenet hukommelse
forbudt	bloker	datalæk

Relateret

Konsulterede kilder

Næste skridt

Tag en dyr workflow, og mal dens kontekst i fem farver: stabil, situationsbestemt, hentet, forbigående og forbudt. Så ser du, hvad der skal caches, hvad der skal hentes, og hvad der er overflødigt.

Oversat fra den spanske original med AI-hjælp og gennemset for nøjagtighed. Læs originalen på spansk.

Context Budgeting: spar tokens uden at gøre agenten blind

Nøglepunkter

Problema

Tesis

Framework

Hvorfor det er vigtigt nu

Anti-eksempel

Protokol (3 trin)

Relateret

Konsulterede kilder

Næste skridt

Relateret læsning

MiniMax M3: el open weight que baja el umbral para agentes largos

MiniMax M3: The Open Weight That Lowers the Threshold for Long Agents

MiniMax M3: open weight-modellen der sænker tærsklen for lange agenter

ACI: la capa que faltaba entre agentes y personas

Context Budgeting: Saving Tokens Without Blinding the Agent