Fundamentos de Context Management

Star Wars: R2-D2, la Ventana de Contexto y los Holocrones de la Alianza

La Memoria de R2-D2

Cuando la Princesa Leia le cargo los planos de la Estrella de la Muerte a R2-D2, R2 tuvo que tomar decisiones criticas: que guardar, que descartar, que comprimir. Si llenaba su memoria con datos irrelevantes, los planos criticos quedarian afuera. La mision fallaria antes de empezar.

La ventana de contexto de Claude funciona exactamente igual: un espacio limitado de tokens donde todo compite — system prompt, historial de conversacion, definiciones de tools, resultados de herramientas, y la tarea actual. Context Management es la ciencia de decidir que entra, que sale, y como comprimir lo que no cabe.

Este es el Dominio 5 del examen CCA-F — 15% del total. No es el mas grande, pero es el que diferencia a los arquitectos que construyen sistemas que escalan de los que construyen sistemas que se rompen con conversaciones largas.

La Ventana de Contexto — Los Slots de Memoria de R2-D2

La ventana de contexto es todo el texto que Claude puede 'ver' al generar una respuesta. No es solo el ultimo mensaje — es TODO: el system prompt, cada turno de la conversacion, las definiciones de tools, y los resultados de cada herramienta. Todo al mismo tiempo.

Se mide en tokens. Un token es aproximadamente 3-4 caracteres en espanol. 'La Fuerza' es ~3 tokens. Una pagina de texto es ~500-700 tokens. Claude Sonnet tiene una ventana de 200,000 tokens — parece mucho hasta que empezas a construir sistemas agenticos con contexto acumulado.

Que Ocupa la Ventana de Contexto

[tabla]

⚠️ TRAMPA DE EXAMEN

Los 4 Problemas del Contexto — Las Amenazas a la Mision

Cuando la memoria de R2 se llena, la mision esta en peligro. En context management, los problemas no son suaves — son fallas de sistema. El examen testa los 4 directamente en preguntas de escenario.

[tabla]

Lost-in-the-Middle — El Mas Traicionero

El lost-in-the-middle es el mas peligroso porque no produce error — produce silencio. El sistema funciona, Claude responde, pero las instrucciones criticas del medio del system prompt simplemente son ignoradas. Es R2 funcionando perfectamente pero con parte de la mision olvidada.

Como funciona el lost-in-the-middle

Estrategia 1: Windowing — R2-D2 Solo Lleva lo Necesario

R2-D2 no lleva TODA su memoria de misiones pasadas a cada nueva mision. Lleva lo relevante — la informacion de la mision actual y los ultimos eventos criticos. Lo del pasado distante queda en el archivo de la Alianza.

Windowing es exactamente eso: en lugar de enviar toda la conversacion completa a Claude, envias solo los N mensajes mas recientes. Simple, rapido, sin costo adicional de API.

Implementacion Basica

Los 3 Tipos de Windowing

[tabla]

Limitacion del Windowing — Lo que R2 puede olvidar

Estrategia 2: Summarization — C-3PO Comprime la Historia

C-3PO es el maestro de la comunicacion y la traduccion. Puede tomar una conversacion larga y compleja entre especies con dialectos distintos, y comprimirla en un resumen preciso que preserva lo esencial. Eso es summarization en context management.

En lugar de enviar 20 turnos de conversacion (2000 tokens), usas Claude para generar un resumen de esos 20 turnos (200 tokens), y envias ese resumen mas los ultimos mensajes recientes. El historial lejano desaparece del contexto pero su esencia permanece.

El Patron de Summarization con Claude

Summarization vs Windowing — Cuando usar cada uno

Estrategia 3: Memoria Externa — Los Holocrones de la Alianza

La Alianza no guarda TODA su inteligencia en R2-D2. Tienen una sala de archivos — holocrones — donde se almacena todo el conocimiento acumulado. Cuando R2 necesita algo especifico, va a buscar SOLO ese dato. No carga todo el archivo en su memoria.

Memoria externa en context management es exactamente eso: almacenar informacion fuera del contexto (en una base de datos, vector DB, archivo) y recuperar SOLO lo que es relevante para el turno actual. El contexto siempre contiene informacion pertinente, no todo el corpus.

Los 3 Tipos de Almacenamiento Externo

[tabla]

El Patron RAG — El Mas Importante para el Examen

RAG — Retrieval-Augmented Generation — es el patron mas importante de memoria externa para el CCA-F. En lugar de cargar todos los holocrones en el contexto de R2, R2 busca SOLO los relevantes para la pregunta actual. El flujo es siempre el mismo:

• El usuario hace una pregunta

• Se vectoriza la pregunta y se busca en la vector DB los N chunks mas similares

• Esos chunks se inyectan en el contexto (en tags <retrieved>)

• Claude responde usando SOLO esa informacion especifica

• Ventaja: el contexto siempre contiene informacion RELEVANTE, no todo el corpus

✅ CONSEJO DE EXAMEN

Token Counting — R2-D2 Monitorea su Memoria en Tiempo Real

R2 no espera a que la memoria se llene para actuar. Monitorea el nivel constantemente y actua preventivamente. En context management, token counting te permite saber cuanto contexto estas usando ANTES de llamar a la API — y decidir si aplicar windowing o summarization antes de que el sistema se rompa.

La API de Token Counting

⚠️ TRAMPA DE EXAMEN

Demo: R2-D2 Context Manager

El demo integra las 3 estrategias en un unico flujo: token counting para monitoreo, windowing con anclaje para el historial, summarization cuando el contexto supera el umbral, y RAG para acceder a los holocrones sin cargarlos todos.

El Flujo Completo

Resumen — La Sabiduria del Contexto

"El tamano no importa. Lo que llevas contigo, si importa. Context Management es curar el contexto — no llenarlo."

Los 6 Conceptos Clave

1. La ventana de contexto es todo lo que Claude puede ver al responder: system prompt, mensajes, tool definitions, tool results, y documentos. Es acumulativa y limitada.

2. Los 4 problemas: overflow (limite superado = error de API), lost-in-the-middle (olvido del centro), context pollution (info irrelevante desplaza la importante), hallucination por vacio (inventa cuando no tiene datos).

3. Windowing: enviar solo los N mensajes recientes. Rapido y sin costo extra. Variante con anclaje: primeros K mensajes criticos + ultimos M recientes. Limitacion: pierde contexto del inicio.

4. Summarization: comprimir el historial largo con Claude (C-3PO). Preserva la esencia del historial completo. Requiere llamada adicional a la API — usar cuando windowing solo no alcanza.

5. Memoria externa / RAG: almacenar fuera del contexto, recuperar SOLO lo relevante. Patron optimo para conocimiento de dominio extenso que no cabe en la ventana. Los chunks van en tags <retrieved>.

6. Token counting: client.messages.count_tokens() — monitorear el nivel de contexto antes de enviar. Actuar preventivamente (al 75-80%) en lugar de reaccionar al error de overflow.

Tabla de Repaso para el Examen

[tabla]

Preguntas Tipo del Examen

[tabla]

Cierre del M5V1

La memoria de la Fuerza tiene sus limites. La sabiduria esta en administrarlos.

— Yoda, Context Management Master