Si un consultor llega a tu empresa y en la primera reunión ya tiene una propuesta, no ha hecho una auditoría. Ha hecho una presentación de ventas con tu logo.
Una auditoría IA seria empieza con preguntas. Muchas preguntas. Las respuestas determinan si el problema que sientes es el problema real, y si la solución que imaginas es la que necesitas.
Estas son las 27 preguntas que estructuran una auditoría bien ejecutada. Si tu consultor actual no te ha hecho la mayoría, deberías saber por qué no.
1. Estrategia y portfolio (5 preguntas)
P1: ¿Cuántas iniciativas de IA están activas en tu empresa ahora mismo, incluyendo las que no pasan por IT?
Por qué importa: La mayoría de empresas subestiman su AI sprawl en un 40-60%. Los departamentos activan herramientas IA sin coordinación con IT. Antes de diseñar cualquier estrategia, necesitas saber cuántos frentes tienes abiertos.
Red flags: Si la respuesta es “unas cuantas” o no se puede dar en menos de 5 minutos, hay un problema de visibilidad que invalidará cualquier estrategia construida sobre ese vacío.
P2: ¿Cuáles de esas iniciativas tienen una métrica de negocio definida, con owner y fecha de revisión?
Por qué importa: Las iniciativas sin métrica de negocio son experimentos sin cierre. Pueden vivir indefinidamente consumiendo recursos sin producir evidencia de valor ni de fracaso.
Red flags: Si menos del 50% tienen métrica definida, el problema no es técnico. Es de governance de inversión. Añadir más IA antes de resolver esto multiplica el problema, no lo resuelve.
P3: ¿Cuándo fue la última vez que se cerró una iniciativa IA por no cumplir sus objetivos?
Por qué importa: La capacidad de cerrar es el indicador más fiable de que hay gobierno real. Sin cierres documentados, el portfolio solo crece. El AI sprawl no es un problema de herramientas: es un problema de que nadie tiene mandato para parar.
Red flags: Si la respuesta es “nunca” o “no recuerdo”, la empresa no tiene kill criteria operativos. Todo lo demás construido sobre esa base será frágil.
P4: ¿Hay alineación explícita entre las iniciativas IA activas y los objetivos de negocio del trimestre?
Por qué importa: La IA que no apunta a un objetivo de negocio concreto produce output, no valor. La diferencia entre output y valor se hace visible en los resultados trimestrales: ahí es donde suelen aparecer las preguntas incómodas.
Red flags: Si la respuesta requiere un documento de 30 páginas para justificarse, la alineación no existe: existe la narrativa de la alineación, que no es lo mismo.
P5: ¿Quién en la dirección puede decir formalmente “esto se para” sobre una iniciativa IA sin necesitar consenso de comité?
Por qué importa: El poder de cierre es el núcleo del gobierno de IA. Sin un responsable singular con autoridad de cierre, las iniciativas sobreviven por inercia política, no por mérito.
Red flags: Si la respuesta es “el comité de transformación digital” o “tendríamos que discutirlo”, no hay gobierno. Hay proceso.
2. Decision rights y governance (5 preguntas)
P6: ¿Existe un mapa de qué decisiones puede tomar un sistema IA sin supervisión humana?
Por qué importa: Sin ese mapa, la empresa no sabe cuánto poder ha delegado en sistemas automáticos. El riesgo no es hipotético: es operacional. Una decisión tomada por un sistema que nadie supervisaba puede tener consecuencias legales, financieras o reputacionales.
Red flags: Si no existe el mapa, las fronteras de autonomía se definieron por defecto (es decir, nadie las definió). Esto es especialmente crítico en procesos que tocan clientes, datos personales o decisiones financieras.
P7: ¿Qué pasa cuando un sistema IA toma una decisión incorrecta? ¿Quién es responsable y cuál es el protocolo de reversión?
Por qué importa: La accountability de los sistemas IA es uno de los requisitos del EU AI Act para sistemas de alto riesgo. Pero más allá del cumplimiento, es operativamente necesario: si nadie sabe qué hacer cuando el sistema falla, el tiempo de respuesta se multiplica.
Red flags: Respuestas vagas del tipo “lo revisaríamos” sin un protocolo documentado. La ausencia de protocolo de rollback en sistemas críticos es un riesgo operacional activo.
P8: ¿Con qué frecuencia revisa el equipo directivo el rendimiento del portfolio de IA? ¿Qué formatos usa?
Por qué importa: La gobernanza que no tiene ritmo de revisión ejecutiva no es gobernanza: es esperanza. La frecuencia y el formato de las revisiones determinan si hay capacidad real de corrección antes de que los problemas escalen.
Red flags: “Revisamos cuando hay problemas” es reactividad, no gobierno. “Tenemos un dashboard” sin decisiones ejecutivas asociadas es reporting, no governance.
P9: ¿Hay un proceso para aprobar nuevas iniciativas IA antes de que se activen en producción?
Por qué importa: Sin proceso de aprobación, el portfolio crece sin control y los recursos se asignan por urgencia percibida, no por criterio estratégico. La velocidad de activación sin criterio es la causa número uno del AI sprawl.
Red flags: “Cualquier departamento puede activar herramientas IA si tienen presupuesto” es una política, pero no es un proceso de gobierno. La diferencia es que el proceso incluye criterios de impacto, riesgo y reversibilidad.
P10: ¿Existen políticas documentadas sobre qué datos pueden usarse para entrenar o alimentar sistemas IA internos o externos?
Por qué importa: Muchas empresas están usando datos de clientes, datos financieros o datos de empleados para alimentar modelos de terceros sin tener claro si eso está permitido por sus contratos, por el RGPD o por el EU AI Act.
Red flags: “Creo que el contrato lo permite” sin documentación es exposición legal activa. Si el proveedor de IA usa tus datos para mejorar su modelo base y no tienes una cláusula de opt-out, tienes un problema de cumplimiento.
3. Data y observability (5 preguntas)
P11: ¿Puedes rastrear qué datos alimentaron una decisión específica tomada por un sistema IA hace 30 días?
Por qué importa: La trazabilidad de datos es un requisito del EU AI Act para sistemas de alto riesgo y una condición básica para auditorías internas. Sin trazabilidad, no puedes demostrar que un sistema funcionó correctamente ni investigar por qué falló.
Red flags: Si la respuesta es no, cualquier sistema IA de alto impacto (crédito, contratación, precios, compliance) está operando sin la infraestructura mínima de control.
P12: ¿Hay sistemas de monitorización activos que alerten cuando el rendimiento de un modelo de IA cae por debajo de un umbral?
Por qué importa: Los modelos de IA se degradan con el tiempo si el contexto de datos cambia (data drift). Sin monitorización activa, la degradación puede pasar desapercibida durante semanas o meses mientras el sistema sigue tomando decisiones incorrectas.
Red flags: “Lo revisamos manualmente” a intervalos variables no es monitorización: es suerte. El umbral de alerta debe estar definido antes de que el sistema entre en producción, no después de que haya fallado.
P13: ¿Qué porcentaje de las decisiones de tus sistemas IA son explicables para un auditor externo o para un cliente?
Por qué importa: La explicabilidad no es solo un requisito regulatorio: es un requisito operativo cuando alguien impugna una decisión. Si el sistema no puede explicar por qué tomó una decisión, el coste legal y reputacional de defenderla es desproporcionado.
Red flags: Sistemas de caja negra en áreas con exposición legal (scoring crediticio, selección de empleados, pricing dinámico) son una vulnerabilidad activa, no futura.
P14: ¿Cómo mides el impacto real de los sistemas IA en métricas de negocio, más allá de las métricas de uso?
Por qué importa: El número de queries procesadas, el tiempo de respuesta o la tasa de adopción son métricas de uso, no de impacto. El impacto real se mide contra métricas de negocio: reducción de tiempo, ahorro de coste, incremento de margen, reducción de errores.
Red flags: Si la respuesta incluye principalmente métricas de uso, el sistema puede estar muy usado y producir poco valor real. La adopción alta y el impacto bajo es una combinación frecuente en pilotos que se escalan prematuramente.
P15: ¿Hay un registro centralizado de incidentes causados por decisiones incorrectas de sistemas IA?
Por qué importa: Sin registro de incidentes, los patrones de fallo son invisibles. Un fallo puntual parece accidente. Diez fallos del mismo tipo en seis meses son un problema sistémico. Sin el registro, no puedes distinguir entre los dos.
Red flags: La ausencia de registro de incidentes en sistemas IA de producción indica que los fallos no se documentan, lo que a su vez indica que no se aprende de ellos. Es uno de los indicadores más fiables de gobernanza inmadura.
4. Tech stack y vendor lock-in (4 preguntas)
P16: ¿Puedes cambiar de proveedor de IA principal en menos de 3 meses sin interrumpir operaciones críticas?
Por qué importa: El vendor lock-in en IA tiene costes que se subestiman en el momento de la adopción y se hacen visibles cuando el proveedor cambia precios, modifica su modelo o desaparece. La capacidad de cambio es una medida directa de la flexibilidad estratégica real.
Red flags: Dependencia de un único proveedor para más del 60% de las iniciativas IA críticas, sin arquitectura de abstracción, es una vulnerabilidad estratégica que tiene un precio cuando el mercado se mueve.
P17: ¿Tienes visibilidad completa de los costes reales de tus sistemas IA (API calls, cómputo, licencias, tiempo interno)?
Por qué importa: El coste real de la IA en producción suele ser 2-3 veces el coste estimado en el piloto. Sin visibilidad de costes completos, el ROI calculado es ficticio y las decisiones de escala se toman sobre datos erróneos.
Red flags: “El coste es el de las licencias” sin incluir tiempo de ingeniería, coste de errores y retrabajo, ni overhead de coordinación. Si no puedes calcular el coste total de una iniciativa IA, no puedes calcular su rentabilidad.
P18: ¿Qué pasa con los datos y modelos propietarios de tu empresa si terminas el contrato con tu proveedor de IA principal?
Por qué importa: Muchos contratos de plataformas IA no incluyen cláusulas claras sobre portabilidad de datos, modelos fine-tuned o embeddings generados con datos propios. Perder ese activo al cambiar de proveedor es un coste que no aparece en el presupuesto inicial.
Red flags: No haber revisado las cláusulas de portabilidad y ownership de datos en los contratos de proveedores IA es un riesgo legal activo, especialmente con datos de clientes o datos financieros.
P19: ¿Tu arquitectura de IA te permite actualizar o sustituir un modelo base sin rediseñar toda la capa de aplicación?
Por qué importa: Los modelos base evolucionan rápido. Una arquitectura donde el modelo está acoplado directamente a la aplicación requiere trabajo de ingeniería mayor cada vez que cambia el modelo. El coste acumulado de ese acoplamiento es invisible hasta que toca actualizar.
Red flags: Si la respuesta es “habría que rehacer bastante”, el coste de mantenimiento futuro está subestimado. La arquitectura de abstracción (capas separadas entre aplicación, orquestación y modelo) no es sobreingeniería: es ingeniería mínima para sistemas que van a vivir más de 12 meses.
5. Talent y operating model (4 preguntas)
P20: ¿Quién en tu empresa tiene la responsabilidad explícita de que los sistemas IA produzcan los resultados esperados?
Por qué importa: Sin un owner claro de resultados, la responsabilidad se difumina entre el proveedor tecnológico, el equipo de IT, el departamento usuario y la dirección. Cuando algo falla, todos señalan en otra dirección. El ownership difuso es el patrón más frecuente detrás de los pilotos que nunca escalan.
Red flags: “Es responsabilidad compartida” sin un nombre singular de accountability es una señal de que nadie es responsable. En la práctica, “responsabilidad compartida” significa que nadie tiene incentivo suficiente para resolver los problemas difíciles.
P21: ¿Tienes identificado qué habilidades internas necesitas para operar los sistemas IA que ya tienes en producción?
Por qué importa: La dependencia total del proveedor para operar sistemas en producción es un riesgo operacional. Las habilidades mínimas internas (entender los outputs, detectar anomalías, ejecutar rollbacks básicos) son necesarias independientemente de quién haya construido el sistema.
Red flags: “El proveedor lo gestiona todo” para sistemas críticos de negocio es una externalización de conocimiento que crea vulnerabilidad operativa. Cuando el proveedor falla o se va, la empresa no sabe qué tiene ni cómo operarlo.
P22: ¿Cómo integras la evaluación de sistemas IA en los procesos de revisión de rendimiento de los equipos que los usan?
Por qué importa: Si los equipos son evaluados por KPIs que no capturan el impacto de la IA en su trabajo, no hay incentivo para adoptarla seriamente ni para reportar cuando falla. La adopción superficial y la sub-utilización tienen la misma causa: los incentivos no están alineados con el uso real.
Red flags: Procesos de revisión de rendimiento de equipos que no incluyen ningún indicador relacionado con la calidad de las decisiones asistidas por IA son una señal de que la empresa habla de IA como estrategia pero no la gestiona como operación.
P23: ¿Hay un proceso para capturar y distribuir aprendizajes cuando una iniciativa IA falla o tiene resultados inesperados?
Por qué importa: El conocimiento generado por los fallos de sistemas IA es uno de los activos más valiosos de la organización y el más frecuentemente desperdiciado. Sin un proceso de postmortem y distribución de aprendizajes, cada equipo repite los mismos errores.
Red flags: “Lo revisamos internamente y lo corregimos” sin documentación distribuida significa que el aprendizaje queda en una persona o en un equipo. Cuando esa persona se va o el equipo cambia, el conocimiento se pierde.
6. Compliance EU AI Act y RGPD (4 preguntas)
P24: ¿Has clasificado tus sistemas IA según los niveles de riesgo del EU AI Act (prohibido, alto riesgo, limitado, mínimo)?
Por qué importa: El EU AI Act es aplicable desde agosto de 2026 para sistemas de alto riesgo. Las empresas que operen sistemas de IA sin haber realizado esta clasificación pueden estar en incumplimiento sin saberlo, con sanciones de hasta 30 millones EUR o el 6% de la facturación global.
Red flags: No haber iniciado la clasificación a estas alturas no es solo un riesgo legal: es una señal de que la governance de la empresa no incluye el marco regulatorio en su ciclo de decisión. El AI Act no es una sorpresa de 2026: lleva años en borrador público.
P25: ¿Tienes documentación técnica y de conformidad para los sistemas IA que clasificarías como de alto riesgo?
Por qué importa: El EU AI Act exige documentación técnica específica para sistemas de alto riesgo: especificaciones del sistema, datos de entrenamiento, medidas de gestión de riesgos y registros de conformidad. Generar esa documentación retroactivamente es más costoso que crearla durante el desarrollo.
Red flags: Sistemas en producción que tocan selección de personal, scoring crediticio, acceso a servicios esenciales o aplicación de la ley sin documentación de conformidad son vulnerabilidades regulatorias activas.
P26: ¿Cómo garantizas que los datos personales utilizados en tus sistemas IA cumplen con las bases legales del RGPD?
Por qué importa: El RGPD requiere una base legal explícita para cada tratamiento de datos personales. Usar datos de clientes, empleados o usuarios para entrenar o alimentar sistemas IA sin base legal es una infracción que puede activar investigaciones de la AEPD con sanciones de hasta 20 millones EUR o el 4% de la facturación.
Red flags: “Tenemos consentimiento genérico en los términos de uso” no suele ser suficiente como base legal para tratamientos de IA. Las finalidades deben ser específicas, limitadas y conocidas por el usuario en el momento de la recogida.
P27: ¿Tienes un proceso para responder a derechos de los ciudadanos (acceso, rectificación, supresión) cuando la decisión que impugnan fue tomada o asistida por un sistema IA?
Por qué importa: El RGPD incluye el derecho a no ser objeto de decisiones automatizadas con efectos significativos, y el derecho a que esas decisiones sean revisadas por un humano. Si no tienes un proceso para responder a estas solicitudes en los plazos del RGPD (30 días), estás en incumplimiento operacional.
Red flags: La ausencia de un protocolo de respuesta a derechos RGPD para decisiones IA es especialmente crítica en sectores como banca, seguros, recursos humanos y salud, donde las decisiones tienen efectos directos sobre los individuos y la frecuencia de solicitudes es mayor.
Haz la auditoría completa con tu equipo en 30 minutos
Estas 27 preguntas son el esqueleto de una auditoría IA seria. Las respuestas honestas revelan exactamente dónde está el problema real y qué tipo de intervención tiene sentido: gobernanza, arquitectura, compliance, talent, o todo a la vez.
Si quieres hacer la auditoría estructurada con tu equipo directivo y salir con un mapa de riesgo priorizado, trabajamos con empresas de 50 a 500 empleados en sprints de diagnóstico de 2.500 a 6.000 EUR según el alcance.
Solicita la auditoría IA completa para tu empresa.