Este mapa es una opinión. Fechada Q2 2026. Para empresa mediana española de 50 a 500 personas que no tiene un equipo de ML interno y que necesita saber dónde poner el presupuesto y dónde no.
No es una comparativa imparcial. Es una postura informada por proyectos reales — y en doce meses algunos de los “ignorar” habrán madurado y algunos de los “usar ya” habrán decepcionado. Eso es parte del juego.
Por qué esto importa
El mercado de herramientas IA tiene un problema de señal. Cada semana aparecen tres nuevos agentes, dos frameworks de orquestación y un “autopilot” para tu función de negocio favorita. El LinkedIn de cualquier CTO español tiene más demos que casos de uso reales.
Para empresa mediana, el coste del error no es solo económico: es político. Un piloto fallido bloquea la siguiente iniciativa durante meses. Y en 2026, el número de herramientas que prometen resolver problemas que la empresa mediana ni siquiera tiene todavía es mayor que nunca.
Este mapa no filtra por hype. Filtra por madurez operativa en contexto mid-market español.
AI Hype Map Q2 2026 — Matriz por categoría
LLM Platforms
| USAR YA | VIGILAR Q3-Q4 2026 | IGNORAR |
|---|---|---|
| Claude Sonnet 4.x, GPT-4o, Gemini 2.x vía API o interfaz directa | Modelos open-source locales (Llama 3.x, Mistral) si privacidad o coste son constraint real | Modelos especializados verticales sin evidencia de benchmark en tu dominio concreto |
Justificación USAR: Los modelos frontier de Anthropic, OpenAI y Google tienen la mejor relación coste/calidad para tareas cognitivas generales. Para empresa mediana sin GPU propia, la API es la infraestructura más pragmática disponible. Ninguno de los tres tiene ventaja absoluta — elige por ecosistema de integración, no por benchmark abstracto.
Justificación VIGILAR: Los modelos locales son interesantes para casos donde los datos no pueden salir de la empresa (legal, fiscal, médico) o donde el volumen de llamadas hace la API cara. En H2 2026 la curva de calidad/facilidad-de-despliegue mejora. Todavía requieren infraestructura y mantenimiento que la mayoría de mid-market no tiene.
Justificación IGNORAR: El modelo “especializado en retail/legal/fintech” que ningún analista independiente ha benchmarked en condiciones reales casi siempre es un modelo general con fine-tuning y marketing vertical. No pagues el premium hasta ver evidencia.
AI Agents Frameworks
| USAR YA | VIGILAR Q3-Q4 2026 | IGNORAR |
|---|---|---|
| Agentes nativos de plataforma (Claude claude-sonnet-4-5 Projects, GPT Assistants, Copilot en herramientas que ya usas) | LangGraph, CrewAI — para equipos con capacidad técnica interna que quieren control total | AutoGen, frameworks de agentes multi-step sin evaluación en contexto de negocio real |
Justificación USAR: Los agentes integrados en plataformas que ya usas tienen el menor coste de adopción. Un “agente” que vive dentro de tu CRM o tu suite de productividad ya tiene acceso a los datos correctos y no requiere integración adicional.
Justificación VIGILAR: LangGraph y CrewAI tienen uso real en equipos técnicos maduros. Para mid-market sin equipo de ingeniería dedicado, el overhead de mantenimiento supera el valor en la mayoría de casos. En H2 2026 pueden aparecer capas de abstracción que cambien esa ecuación.
Justificación IGNORAR: Frameworks de agentes multi-step sin evaluación rigurosa en producción real generan fallos silenciosos que son muy difíciles de debuggear. En empresa mediana, un error no detectado en un flujo automatizado puede tener consecuencias operativas graves antes de que nadie lo note.
MCP / Conectores
| USAR YA | VIGILAR Q3-Q4 2026 | IGNORAR |
|---|---|---|
| MCP (Model Context Protocol) si ya usas Claude y tienes datos en sistemas propios | Conectores nativos de plataformas enterprise (Salesforce Einstein, Microsoft Copilot connectors) a medida que maduren | Conectores de terceros sin SLA claro para datos críticos de negocio |
Justificación USAR: MCP es el estándar emergente para conectar LLMs con fuentes de datos internas de forma gobernada. Si tienes Claude en el stack y datos en bases de datos propias, MCP reduce el coste de integración significativamente. Ya hay docenas de servidores MCP open-source para fuentes comunes (Postgres, Google Drive, GitHub, Notion).
Justificación VIGILAR: Los conectores nativos de plataformas enterprise maduran durante 2026. Salesforce Einstein, Microsoft Copilot y Google Workspace AI integran datos internos de formas cada vez más nativas. Si ya estás en esos ecosistemas, espera a Q4 antes de construir integración custom.
Justificación IGNORAR: Conectores de terceros sin SLA definido para datos de negocio críticos (contratos, datos financieros, datos de clientes) crean riesgo de compliance sin reducir coste operativo. El ahorro no compensa el riesgo hasta que el proveedor tenga historial de fiabilidad.
RAG Infraestructura
| USAR YA | VIGILAR Q3-Q4 2026 | IGNORAR |
|---|---|---|
| Implementaciones RAG sobre bases de datos vectoriales gestionadas (Pinecone, Supabase Vector, Weaviate Cloud) para knowledge bases internas | GraphRAG, RAG multi-hop — promisorio para documentación compleja con relaciones entre entidades | RAG custom sobre documentos no estructurados sin pipeline de limpieza — coste alto, calidad impredecible |
Justificación USAR: RAG sobre documentos internos bien estructurados (manuales, contratos tipo, políticas) funciona en producción con calidad predecible si el pipeline de ingestión está bien diseñado. Las bases vectoriales gestionadas eliminan el overhead de infraestructura.
Justificación VIGILAR: GraphRAG mejora la recuperación cuando los documentos tienen relaciones complejas entre entidades. En H2 2026 puede tener implementaciones más accesibles. Para la mayoría de mid-market, el RAG plano todavía cubre el 90% de casos.
Justificación IGNORAR: RAG sobre documentos no estructurados sin pipeline de limpieza (PDFs escaneados, emails sin normalizar, notas de reunión) produce alucinaciones con alta confianza aparente. El peor escenario: un agente que responde con certeza sobre contexto incorrecto.
Observabilidad LLM
| USAR YA | VIGILAR Q3-Q4 2026 | IGNORAR |
|---|---|---|
| Langfuse (self-hosted gratuito) o Helicone para tracing básico de llamadas LLM | Plataformas de evaluación automática de outputs (LLM-as-judge) a medida que mejoren la fiabilidad | Herramientas de observabilidad LLM enterprise con precio por evento para volúmenes bajos |
Justificación USAR: Sin tracing básico de llamadas LLM en producción, no puedes debuggear errores, medir latencia ni controlar coste. Langfuse self-hosted es gratis y suficiente para la mayoría de mid-market. Si no tienes esto, lo necesitas antes de cualquier otra inversión en tooling.
Justificación VIGILAR: La evaluación automática de outputs con LLM-as-judge tiene falsos positivos en Q2 2026. En H2 puede madurar hasta ser práctica para QA automático en producción.
Justificación IGNORAR: Herramientas de observabilidad enterprise que cobran por evento o por llamada API son caras para volúmenes bajos. El ROI no se justifica hasta que tienes decenas de miles de llamadas diarias.
AI Ops Platforms
| USAR YA | VIGILAR Q3-Q4 2026 | IGNORAR |
|---|---|---|
| n8n / Make para automatización de flujos con nodos LLM integrados | Plataformas AI Ops verticales (para sector legal, fiscal, manufactura) si tienen casos de uso documentados en empresa de tu tamaño | ”AI Platform” todo-en-uno que promete reemplazar tu ERP/CRM/BI de una vez |
Justificación USAR: n8n y Make tienen nodos LLM maduros y ecosistemas de integración amplios. Para automatización de flujos que incluyen un paso de LLM (clasificación, redacción, extracción), son la capa de orchestración más pragmática disponible sin equipo técnico.
Justificación VIGILAR: Las plataformas AI Ops verticales con casos de uso documentados en tu sector pueden tener ROI claro si el caso encaja. El criterio: ¿tienen clientes de tu tamaño y sector con resultados medibles? Si no, es producto en alpha disfrazado de enterprise.
Justificación IGNORAR: La plataforma que promete reemplazar tu ERP+CRM+BI con IA no existe en producción estable para mid-market. Cualquier migración de sistemas core requiere 12-18 meses de proyecto. No compres un vision deck.
Vertical AI (Legal / Medical / Finance)
| USAR YA | VIGILAR Q3-Q4 2026 | IGNORAR |
|---|---|---|
| LLM general con contexto específico vía RAG o fine-tuning ligero para tareas acotadas (revisión contratos tipo, extracción datos fiscales, clasificación) | Soluciones verticales con certificación regulatoria en tu sector — cuando aparezcan con auditoría real | Soluciones verticales sin transparencia sobre el modelo base, sin SLA de precisión y sin historial en empresas similares |
Justificación USAR: Para tareas legales, fiscales o médicas acotadas, un LLM general con contexto bien diseñado y validación humana sobre el output tiene mejor ROI que una solución vertical cara y difícil de auditar. El humano-en-el-loop no es una limitación — es el diseño correcto para tareas con consecuencias regulatorias.
Justificación VIGILAR: Las soluciones con certificación regulatoria real (ISO, certificación de precisión en jurisdicción específica) serán el estándar en H2 2026 y 2027. Cuando aparezcan con auditoría independiente, cambiarán la ecuación.
Justificación IGNORAR: Una solución “IA para despachos” o “IA para fintech” sin transparencia sobre qué modelo base usa, sin SLA de precisión documentado y sin referencia de cliente comparable no tiene más validación que su deck de ventas. En sectores regulados, el riesgo de output incorrecto con alta confianza aparente es real.
Patrón cruzado: madurez ≠ hype
Las categorías donde hay más ruido en 2026 (agentes autónomos, AI Ops platforms, vertical AI) son también las que tienen menor madurez operativa demostrada en mid-market. Las categorías con menos ruido (tracing/observabilidad, RAG gestionado, conectores nativos) son las que generan más impacto medible por euro invertido.
El hype se concentra donde la tecnología promete más pero ha demostrado menos. Y en empresa mediana, el coste de un fallo es siempre mayor que el coste de adoptar tarde.
Regla de oro mid-market
No compres tecnología que requiere un ML engineer a tiempo completo si no tienes uno.
Esto elimina de forma inmediata el 60% del catálogo de AI tools que aparece en Product Hunt cada semana. Si la herramienta requiere fine-tuning, gestión de infraestructura GPU, pipelines de datos custom o ingeniería de evaluación continua — no es para ti todavía.
El criterio práctico: si en 30 minutos no puedes tener un caso de uso real funcionando sobre datos reales de tu empresa, la herramienta no está madura para tu contexto.
La empresa mediana que gana en 2026 no es la que adoptó más herramientas. Es la que adoptó las correctas, las gobernó bien y supo cuándo parar las que no funcionaban.