Agent Reliability Score: como saber si un agente merece autonomia

Problema

Muchos equipos pasan de demo a autonomia sin una medida clara de fiabilidad. El agente funciona en diez pruebas, impresiona en una reunion y acaba tocando workflows donde un error no es un bug simpatico: es retrabajo, perdida de margen o daño reputacional.

El problema no es que el agente falle. El problema es no saber cuanto puede fallar antes de que deje de ser rentable.

Tesis

La autonomia de un agente no deberia aprobarse por percepcion. Deberia aprobarse por score operativo: calidad, estabilidad, reversibilidad, coste de supervision y claridad de escalado.

Un agente no merece mas autonomia porque parezca inteligente. La merece cuando su error es medible, reversible y economicamente aceptable.

Framework

Un Agent Reliability Score puede empezar con cinco dimensiones:

Task fit: el trabajo es repetible, observable y acotado.
Output quality: el resultado cumple criterios definidos, no gusto subjetivo.
Stability: el rendimiento se mantiene entre ciclos, inputs y casos limite.
Reversibility: el coste de corregir una accion fallida es bajo o controlado.
Escalation clarity: el agente sabe cuando pedir ayuda y a quien.

Cada dimension se puntua de 1 a 5. La autonomia no sube por la media. Sube por el peor punto critico.

Mini-caso: un agente de operaciones financieras genera borradores de conciliacion con buena precision, pero falla cuando el proveedor cambia el formato del archivo. Su score de quality es alto, pero stability y escalation son bajos. La decision correcta no es apagarlo. Es mantenerlo como copiloto hasta que detecte cambios de formato y escale antes de contaminar el workflow.

Senal medible: porcentaje de acciones autonomas que no requieren retrabajo, escalado tardio o rollback.

Postura: la autonomia sin score es delegacion emocional.

Respiracion: una demo puede tolerar magia. Una operacion necesita limites.

Matriz simple de autonomia

Score minimo	Nivel	Que puede hacer
1-2	Observador	leer, resumir, sugerir
3	Copiloto	preparar decisiones con aprobacion humana
4	Operador limitado	ejecutar acciones reversibles bajo threshold
5	Operador autonomo	ejecutar dentro de policy con auditoria continua

La clave no es subir rapido. Es no conceder autonomia en una dimension que el agente todavia no puede sostener.

Error comun

El anti-ejemplo es evaluar al agente por “accuracy” y olvidarse de la reversibilidad. Un agente con 95% de acierto puede ser inviable si el 5% restante rompe contratos, factura mal o obliga a senior staff a revisar todo.

La pregunta correcta no es “cuantas veces acierta”. Es “que pasa cuando se equivoca”.

Protocolo (3 pasos)

Define el trabajo exacto. Si no puedes describir la tarea en condiciones, inputs, outputs y limites, no esta lista para autonomia.
Puntua las cinco dimensiones. Task fit, quality, stability, reversibility y escalation clarity.
Asigna autonomia por el mayor riesgo residual. No por entusiasmo, no por presion interna, no por comparacion con la demo.

Cuando bajar autonomia

El score no se calcula una vez. Baja autonomia cuando:

sube el retrabajo dos ciclos seguidos
aparecen errores nuevos en casos ya conocidos
el agente escala tarde
el owner humano deja de confiar en el output
el coste de supervision supera el ahorro operativo

Un sistema maduro no solo promueve agentes. Tambien los degrada a tiempo.

Relacionado

Proximo paso

Antes de dar mas autonomia a un agente, puntua su peor dimension. Si no sabes cual es, la autonomia ya va por delante del sistema. Podemos revisarlo en un diagnostico.

Agent Reliability Score: como saber si un agente merece autonomia

Puntos clave

Problema

Tesis

Framework

Matriz simple de autonomia

Error comun

Protocolo (3 pasos)

Cuando bajar autonomia

Relacionado

Proximo paso

Lectura Relacionada

Agent Incident Response: como investigar un fallo cuando quien actuo fue un agente

Agent Incident Response: How to Investigate a Failure When an Agent Was Involved

Agent Incident Response: hvordan man undersøger en fejl, når det var en agent, der handlede

14-Day Playbook: AI Governance for Mid-Sized Companies — From Chaos to Operating System

Agent Reliability Score: How to Know if an Agent Deserves Autonomy