Problema
Las empresas suelen evaluar modelos por inteligencia visible: razonamiento, escritura, vision, coding o precision. Pero cuando una organizacion empieza a poner agentes en workflows reales, aparece otra variable mas dura: cuanto cuesta esperar.
Un modelo puede ser excelente y aun asi inutil para una operacion que necesita ciclos rapidos, muchas llamadas, feedback continuo y coste controlado.
Tesis
Gemini 3.5 Flash importa porque desplaza la conversacion de “modelo mas capaz” a “modelo capaz de accionar a escala”. La latencia deja de ser una metrica tecnica y se convierte en una decision estrategica: que tareas pueden delegarse, que agentes pueden sostenerse y que workflows pueden operar sin romper margen.
El futuro del model routing no sera elegir el modelo mas inteligente. Sera elegir el modelo suficientemente fiable para cada decision, al coste y velocidad que el sistema puede gobernar.
Framework
En un operating model agentico, el modelo se evalua por cuatro tensiones:
- Calidad: puede tomar o preparar la decision con criterio.
- Velocidad: puede completar ciclos dentro del tiempo operativo real.
- Coste: puede ejecutarse muchas veces sin destruir margen.
- Supervision: puede sostener logs, escalado y evaluacion sin friccion excesiva.
Mini-caso: un agente de finanzas revisa facturas, detecta anomalías y propone acciones. Si usa un modelo lento y caro para cada microdecision, la iniciativa parece brillante en piloto y absurda en produccion. Si usa un modelo rapido para triage y reserva modelos mas caros para excepciones, el sistema empieza a tener economia operativa.
Señal medible: coste por decision aceptada, no coste por token ni coste por prompt.
Postura: la latencia es una politica de negocio cuando el workflow depende de agentes.
Respiracion: no todo necesita el modelo mas fuerte. Todo necesita el modelo correcto en el punto correcto.
La nueva pregunta de routing
Antes: que modelo responde mejor.
Ahora: que modelo permite que el sistema decida mejor sin disparar coste, espera o retrabajo.
Ese cambio obliga a diseñar rutas:
- modelo rapido para clasificar
- modelo fuerte para casos ambiguos
- agente especializado para accion repetible
- humano para excepciones de alto riesgo
Error comun
El anti-ejemplo es usar un unico modelo “premium” para todo. Parece seguro, pero muchas veces introduce latencia, coste y falsa confianza. Tambien bloquea el aprendizaje: si todo pasa por el mismo modelo, no sabes donde esta el cuello de botella real.
El modelo caro no sustituye una arquitectura de decision.
Protocolo (3 pasos)
- Clasifica decisiones por riesgo y frecuencia. Lo frecuente y reversible necesita economia; lo raro y critico necesita profundidad.
- Define rutas por umbral. Triage, decision normal, excepcion, escalado humano.
- Mide coste por outcome. Decision aceptada, retrabajo evitado, tiempo ahorrado, error revertido.
| Tipo de tarea | Modelo ideal | Riesgo de diseño |
|---|---|---|
| Triage masivo | rapido y barato | baja calidad de filtros |
| Decision ambigua | mas fuerte | latencia excesiva |
| Accion repetible | estable y auditable | ausencia de rollback |
| Excepcion critica | humano + modelo | escalado tardio |
Relacionado
- Model Routing as Governance: politica de modelos, no intuicion
- AI Evaluation Stack 2026: medir sin teatro
- AI Budget Allocation: invertir en casos de uso vs infraestructura
Fuentes consultadas
- Gemini 3.5: frontier intelligence with action
- Google I/O 2026: News and announcements
- Google unveils Gemini 3.5 models focused on agentic work
Proximo paso
Si tu estrategia de IA todavia decide modelos por intuicion o prestigio, vas a pagar de mas y aprender de menos. Empieza por mapear decisiones y rutas. Podemos hacerlo en un diagnostico.