En marzo de 2026, el precio por millón de tokens de un LLM oscila entre $0,014 (DeepSeek V3.2) y $30 (GPT-5.4 Pro). Un rango de x2.142. Eso no es una diferencia de precio. Es un mercado donde la misma categoría de producto tiene versiones que cuestan lo que un café y versiones que cuestan lo que una cena para cuatro.
Mientras tanto, la brecha de rendimiento entre los mejores modelos open source y los mejores propietarios se ha reducido a aproximadamente un 10%. En benchmarks como GPQA, SWE-bench y Chatbot Arena, modelos abiertos como DeepSeek y Kimi K2.5 compiten en el rango alto. Ya no es "bueno para ser open source". Es bueno, punto.
Esto cambia la naturaleza de la decisión. Cuando la diferencia de rendimiento era del 40-50%, elegir propietario era obvio si te lo podías permitir. Cuando es del 10%, la decisión deja de ser técnica y se convierte en estratégica: coste, privacidad, regulación, control, velocidad de iteración, dependencia.
Este artículo es un framework de decisión para CTOs y tech leads que necesitan tomar esta decisión -- o que ya la tomaron hace 6 meses y el mercado ha cambiado debajo de sus pies. Sin agenda comercial: los datos son los datos.
El panorama real en marzo de 2026
Olvidémonos de rankings marketinianos. Estos son los datos de Chatbot Arena, el benchmark más fiable porque se basa en evaluación humana ciega, no en benchmarks que los proveedores optimizan para aprobar.
Los 5 propietarios que lideran
- Claude Opus 4.6 (Anthropic): #1 global con 1.504 Elo. Contexto de 1M tokens, output de 128K tokens. $5/$25 por millón de tokens. El modelo más capaz en razonamiento complejo y coding, con la ventana de contexto más amplia en producción.
- Gemini 3.1 Pro (Google): #2 global con 1.500 Elo y un 94,3% en GPQA (el más alto registrado en ese benchmark). Dominio claro en razonamiento científico y análisis multimodal.
- GPT-5.4 (OpenAI): Lanzado el 5 de marzo de 2026 con 1M de contexto. Pricing en dos tiers: $2,50/$10 (standard) y $30/$180 (Pro). El tier Pro es, con diferencia, el modelo más caro del mercado.
- Grok 4.20 (xAI): #4 con 1.493 Elo. Diferenciador: sistema multi-agente nativo que ejecuta 4 agentes simultáneos en paralelo.
- Gemini 3 Pro (Google): #5 con 1.485 Elo. El mejor modelo multimodal del mundo, con capacidades nativas en imagen, vídeo y audio.
Los open source que han cambiado la conversación
- Llama 4 Scout/Maverick (Meta): 17B parámetros activos (MoE), 10M tokens de contexto -- el más largo de cualquier modelo, abierto o cerrado. $0,19/MTok en self-hosting.
- DeepSeek V3.2: Comparable a GPT-5. La variante V3.2-Speciale supera a GPT-5 en varias tareas. Entrenado por $6M (frente a los ~$100M estimados de GPT-4). API a $0,014/MTok. Eso no es un error tipográfico.
- Mistral Small 4: 119B parámetros totales, 6B activos (MoE). Lanzado en marzo de 2026. Unifica razonamiento, multimodal y coding. El enfoque europeo más serio.
- Qwen 3.5 (Alibaba): Febrero de 2026, licencia Apache 2.0. Fuerte en multilingüe y razonamiento.
- Kimi K2.5: HumanEval 99,0 -- el score más alto registrado en ese benchmark de coding. Para generación de código puro, es el mejor modelo que existe, abierto o cerrado.
| Modelo | Tipo | GPQA | SWE-bench | Arena Elo | Precio input/MTok |
|---|---|---|---|---|---|
| Claude Opus 4.6 | Propietario | 91,3% | 80,8% | 1.504 | $5,00 |
| Gemini 3.1 Pro | Propietario | 94,3% | 80,6% | 1.500 | Variable |
| GPT-5.4 Standard | Propietario | 92,8% | -- | ~1.490 | $2,50 |
| GPT-5.4 Pro | Propietario | -- | -- | -- | $30,00 |
| Kimi K2.5 | Open source | 87,6% | 76,8% | 1.447 | Self-hosted |
| DeepSeek R1 | Open source | -- | -- | 1.398 | $0,014 |
| Llama 4 Scout | Open source | -- | -- | -- | $0,19 |
Datos de Chatbot Arena (LMArena) y benchmarks públicos, marzo 2026
Un par de cosas saltan de esta tabla. La diferencia en Elo entre Claude Opus 4.6 (1.504) y Kimi K2.5 (1.447) es de 57 puntos. En SWE-bench, la diferencia es de 4 puntos porcentuales. En GPQA, la diferencia es más pronunciada (91,3% vs 87,6%), lo que sugiere que el razonamiento científico complejo sigue siendo terreno donde los propietarios llevan ventaja. Pero en HumanEval (coding puro), Kimi K2.5 tiene el mejor score absoluto con 99,0. El terreno es mucho más matizado de lo que cualquier "X es mejor que Y" puede capturar.
La matriz de decisión: 4 ejes que importan
La pregunta "propietario u open source" es incompleta. La decisión real tiene 4 dimensiones que interactúan entre sí. No se puede optimizar las 4 a la vez: hay que decidir cuál pesa más para cada caso de uso concreto.
Propietarios lideran en razonamiento complejo (+7pp en GPQA). Open source cierra la brecha al ~10% en tareas generales y lidera en coding puro.
Pregunta: ¿Necesitas el 100% de capacidad o el 90% es suficiente?
Rango x2.142. Breakeven self-hosting: 500M-1B tokens/mes. Una empresa ahorró 46% con routing inteligente entre modelos.
Pregunta: ¿Cuántos tokens/mes procesas y cuál es tu margen?
67% de empresas trabajan para evitar vendor lock-in. AI Act: 2 agosto 2026, multas hasta 35M EUR. Open source on-premise = datos que nunca salen.
Pregunta: ¿Tus datos pueden salir de tu infraestructura?
APIs propietarias: latencia variable. Self-hosted: latencia predecible pero requiere infra. MoE (6-17B activos) ofrecen el mejor compromiso.
Pregunta: ¿Aplicación interactiva o procesamiento batch?
Eje 1: Rendimiento
Los propietarios lideran en razonamiento complejo, coding agéntico y tareas multi-paso. Los open source han cerrado la brecha al ~10% en la mayoría de tareas generales, y en coding puro (HumanEval) ya superan a los propietarios.
¿Tu caso de uso requiere el 100% de capacidad del modelo, o el 90% es suficiente? Para la mayoría de aplicaciones empresariales -- RAG, clasificación, extracción, resumen, generación de contenido -- la diferencia del 10% no justifica una diferencia de precio de x100.
Para agentes que ejecutan workflows multi-etapa, la cosa cambia. Cada paso acumula error. Un modelo que es un 10% menos preciso en cada paso puede ser un 40% menos preciso al final de un workflow de 5 pasos. Ahí, el rendimiento marginal del propietario justifica el coste.
Eje 2: Coste
El rango de x2.142 entre DeepSeek ($0,014/MTok) y GPT-5.4 Pro ($30/MTok) es la mayor dispersión de precios en la historia de los LLMs. Las cuentas que importan:
- Bajo volumen (<100M tokens/mes): Las APIs propietarias son probablemente más baratas que el self-hosting. No hay infraestructura que mantener, no hay equipo de MLOps, no hay GPUs ociosas.
- Alto volumen (>500M-1B tokens/mes): El self-hosting de modelos open source empieza a ser rentable.
- Volumen medio (100M-500M tokens/mes): Zona gris. Depende del coste de tu equipo de infra y de cuánto control necesitas.
Un caso real: una empresa que procesaba 100% de requests con modelos propietarios a $50.000/mes redirigió el 60% de peticiones (las más simples) a modelos open source. Resultado: $27.000/mes. Un 46% de ahorro sin degradar calidad.
Eje 3: Privacidad y soberanía de datos
El 67% de empresas ya trabaja activamente para evitar vendor lock-in en IA. Y no es paranoia: es regulación.
El AI Act europeo tiene deadline el 2 de agosto de 2026 para sistemas de IA de alto riesgo. Las multas llegan hasta 35 millones de euros o el 7% de la facturación global. Si tu aplicación procesa datos de salud, finanzas, RRHH o decisiones que afectan a personas, esto te aplica directamente.
Con modelos open source desplegados on-premise, tus datos nunca salen de tu infraestructura. El proyecto OpenEuroLLM (consorcio europeo con centros en España, presupuesto de 7.000M EUR) tendrá primeras versiones a mediados de 2026.
Eje 4: Latencia y disponibilidad
Para aplicaciones interactivas (chatbots, coding assistants), la latencia importa. Para procesamiento batch, importa el throughput. Los modelos MoE como Mistral Small 4 (6B activos de 119B totales) y Llama 4 Scout (17B activos) ofrecen rendimiento comparable a modelos mucho más grandes con latencia de modelos pequeños.
Cuándo open source es la respuesta correcta
No es la respuesta para todo. Pero para estos casos, es la respuesta clara.
RAG y procesamiento de datos sensibles
Si tu sistema de RAG enterprise procesa documentación interna confidencial, contratos, datos de clientes o información financiera, quieres que esos datos no salgan de tu infraestructura.
Modelo recomendado: Llama 4 Scout para RAG con documentos largos (10M tokens de contexto). DeepSeek V3.2 como alternativa de bajo coste si el volumen es alto.
Alto volumen (>100M tokens/día)
Cuando procesas más de 100M tokens al día -- clasificación, extracción masiva, análisis de logs -- la factura con APIs propietarias escala linealmente. Con self-hosting, el coste es fijo independientemente del volumen.
Modelo recomendado: DeepSeek V3.2 para tareas generales. Mistral Small 4 si necesitas multimodal + razonamiento eficiente.
Fine-tuning para dominios especializados
Los modelos open source permiten fine-tuning sin restricciones y sin coste incremental de inferencia. Con LoRA en Together AI: $0,48/MTok. Si tienes datos de dominio (código de tu stack, documentación especializada, terminología sectorial), el fine-tuning te da un modelo que es tuyo.
Modelo recomendado: Qwen 3.5 (Apache 2.0) o Llama 4 Maverick como base.
Soberanía y compliance EU
Para sectores regulados por el AI Act o que necesitan demostrar que los datos nunca salen de la UE, el self-hosting en infraestructura europea es la ruta más directa.
Experimentación e iteración rápida
Para prototipar y evaluar viabilidad, DeepSeek a $0,014/MTok elimina la barrera económica. Tu equipo puede iterar sobre 50 variaciones de prompt por el coste de un café.
Cuándo propietario sigue siendo la mejor opción
El 10% de brecha de rendimiento importa más en unos casos que en otros.
Razonamiento complejo y multi-paso
Para tareas que requieren razonamiento profundo -- análisis legal, diagnóstico técnico complejo, planificación estratégica -- los modelos propietarios top mantienen ventaja medible. En GPQA, la diferencia entre el mejor propietario (94,3%) y el mejor open source (87,6%) es de casi 7 puntos.
En workflows agénticos donde cada paso depende del anterior, esos 7 puntos se componen. Un agente que planifica, ejecuta y verifica en 5 pasos necesita que cada paso sea lo más preciso posible.
Coding agéntico y agentes autónomos
En SWE-bench, Claude Opus 4.6 (80,8%) y Gemini 3.1 Pro (80,6%) lideran con ~4 puntos sobre el mejor open source. Para equipos que usan agentes de coding con autonomía, ese margen importa. Aunque Kimi K2.5 con 99,0 en HumanEval demuestra que para generación de código puro, open source ya es igual o superior. La diferencia está en entender un codebase completo y actuar sobre él.
Startups con bajo volumen
Si procesas menos de 50M tokens/mes, el coste de self-hosting no se justifica. GPT-5.4 Standard a $2,50/MTok o Claude Opus 4.6 a $5/MTok son costes marginales para volúmenes bajos. Cero infraestructura, cero mantenimiento, time-to-market en días.
Máxima calidad sin margen de error
Si el coste de un error es alto -- diagnósticos médicos, asesoramiento legal, decisiones financieras -- pagar el premium del modelo más capaz es una prima de seguro. La diferencia entre $5/MTok y $0,014/MTok es irrelevante cuando un error puede costar órdenes de magnitud más.
El coste real: más allá del precio por token
El precio por millón de tokens es la métrica que todos comparan y la que menos refleja el coste real.
TCO del self-hosting
Desplegar modelos open source en producción no es gratis. El Total Cost of Ownership incluye:
- Infraestructura GPU: Desde $125.000/año para un setup mínimo hasta $12M/año para despliegues enterprise a escala.
- Equipo de MLOps: Mantener la infra, gestionar versiones, monitorizar rendimiento. Un ingeniero senior de MLOps en España: 50-70K EUR/año.
- Coste de oportunidad: Cada hora que tu equipo dedica a infra de ML es una hora que no dedica a producto.
El breakeven
El self-hosting empieza a ser más barato que las APIs a partir de 500M a 1.000M de tokens/mes. Por debajo, las APIs son más económicas al incluir todos los costes. Y puedes usar APIs de modelos open source (DeepSeek, Together AI, Fireworks) sin hacer self-hosting: precios bajos del open source sin el TCO de la infra.
La estrategia que ahorra un 46%
Fine-tuning: la diferencia oculta
Con modelos open source, fine-tuning con LoRA cuesta $0,48/MTok y el modelo resultante se despliega sin recargo de inferencia. Con propietarios, hay coste de entrenamiento más recargo sobre la inferencia del modelo base. Si tienes datos de dominio, el fine-tuning de un open source puede darte un modelo que es 90% del rendimiento del mejor propietario para tu tarea específica, a una fracción del coste recurrente.
Los riesgos que nadie quiere discutir
Vendor lock-in: no es paranoia, es aritmética
El 67% de empresas ya trabaja para reducir dependencia de un único proveedor de IA. Cuando construyes contra la API de un proveedor, asumes que:
- Sus precios no subirán (solo en marzo de 2026, 115 modelos cambiaron de precio)
- Su modelo seguirá existiendo en la versión que usas (OpenAI ha deprecado modelos con 6 meses de aviso)
- Su rendimiento no se degradará (ha ocurrido y ocurrirá)
- Sus términos de servicio no cambiarán de forma que afecte a tu negocio
Ninguna de esas asunciones es segura.
AI Act: el deadline que muchos ignoran
2 de agosto de 2026: fecha límite para cumplir con el AI Act para sistemas de IA de alto riesgo. Multas: hasta 35M EUR o el 7% de la facturación global. Si tu sistema asiste en decisiones sobre contratación, crédito, seguros, diagnóstico médico o acceso a servicios públicos, esto te aplica.
El AI Act tiene requisitos de transparencia, trazabilidad y documentación que son más fáciles de cumplir cuando controlas el modelo que cuando dependes de una caja negra propietaria. No significa que los propietarios no puedan cumplir. Significa que la carga de demostración es diferente.
Obsolescencia acelerada
115 modelos cambiaron de precio solo en marzo de 2026. Nuevos modelos se lanzan cada semana. El modelo que elegiste hace 3 meses puede no ser la mejor opción hoy. Esto no es un argumento para la parálisis. Es un argumento para construir tu arquitectura de forma que cambiar de modelo no requiera reescribir tu aplicación.
La estrategia que funciona: multi-modelo con playbook de contexto
La respuesta no es "propietario" o "open source". Es "el modelo correcto para cada caso de uso". Y la clave para que eso funcione sin caos es tener dos capas: una técnica (routing) y una metodológica (contexto estructurado).
AI gateways: la capa técnica
Un AI gateway es un punto único de entrada a múltiples modelos. Tu aplicación habla con el gateway, y el gateway rutea cada petición al modelo óptimo según reglas que defines: coste, latencia, tipo de tarea, requisitos de privacidad. El 37% de empresas ya opera con una estrategia híbrida. El gateway es lo que la hace sostenible.
Context engineering: la capa que te hace independiente del modelo
La capa técnica resuelve el routing. Pero hay un problema más profundo: si cada interacción con un LLM depende de prompts ad hoc escritos para un modelo específico, cambiar de modelo implica reescribir esos prompts. Y eso no escala.
Aquí es donde context engineering entra como disciplina. La idea es simple: en lugar de depender de prompts sueltos optimizados para un modelo concreto, trabajas con contexto estructurado -- instrucciones, restricciones, formato de output y criterios de éxito definidos en un playbook que es agnóstico del modelo.
Ese playbook funciona igual con Claude Opus 4.6 que con DeepSeek V3.2. El nivel de detalle del resultado variará según la capacidad del modelo, pero la estructura de la petición, los guardrails y los criterios de calidad se mantienen. Cuando mañana un modelo nuevo sea mejor o más barato, cambias la configuración del gateway. No reescribes el playbook, no reentrenar a tu equipo, no redespliegas.
Esto aplica tanto a desarrollo de software (donde en onext lo implementamos como Spec-Driven Development) como a cualquier uso empresarial de LLMs: análisis de documentos legales, generación de informes, atención al cliente, procesamiento financiero. El principio es el mismo: si el contexto que alimenta al modelo está estructurado, el modelo se convierte en un detalle de implementación, no en una dependencia arquitectónica.
Esto es exactamente lo que vemos en los equipos que despliegan workflows multi-etapa: la ventaja no es el modelo que usan, es la arquitectura que les permite cambiar de modelo cuando el mercado cambia. Y el mercado cambia cada semana.
El playbook operativo
Identificar qué tareas necesitan el modelo top y cuáles funcionan con modelos más baratos. Distribución típica: 30-40% complejo, 60-70% simple o medio.
Un AI gateway que dirija cada petición al modelo óptimo. Puede ser reglas por endpoint o un clasificador de complejidad.
Crear un playbook con instrucciones, restricciones, formatos de output y criterios de calidad que funcione independientemente del modelo subyacente.
Medir calidad, coste y latencia por modelo y por tipo de tarea. Reasignar cuando los datos lo justifiquen.
Documentar qué modelos usas, con qué datos, con qué supervisión. La trazabilidad es requisito regulatorio, no buena práctica.
Los Centros de Excelencia de IA existen precisamente para esto: implementar esta arquitectura multi-modelo con las metodologías y la gobernanza que la hacen sostenible. No es algo que se improvisa equipo por equipo.
La decisión inteligente no es elegir un bando
El mercado de LLMs en marzo de 2026 se parece cada vez menos a "propietario vs open source" y cada vez más a un ecosistema donde ambos coexisten en la misma arquitectura. El 37% de empresas ya opera así. En 12 meses, será la norma.
- Rendimiento: Brecha reducida al ~10%, excepto en razonamiento complejo y agentes multi-paso donde los propietarios mantienen ventaja.
- Coste: De $0,014 a $30 por millón de tokens. La estrategia multi-modelo ahorra un 40-50% sin degradar calidad.
- Privacidad: El AI Act no es futuro, es agosto de 2026. 35M EUR de multa no es un riesgo teórico.
- Dependencia: 115 modelos cambiaron de precio solo en marzo. Apostar por uno es una decisión que caduca rápido.
La decisión inteligente es construir la arquitectura que te permita usar el modelo correcto para cada caso, cambiar cuando el mercado cambie, y cumplir con la regulación sin reescribir tu sistema. Eso requiere contexto estructurado, no prompts sueltos. Gobernanza, no improvisación.
Fuentes principales: Chatbot Arena (lmarena.ai), Artificial Analysis benchmark data (marzo 2026), AI Act (Regulation EU 2024/1689), Gartner "AI in the Enterprise 2026", OpenEuroLLM project, pricing data de Anthropic, OpenAI, Meta, DeepSeek, Mistral, Together AI.
Lectura complementaria: Spec-Driven Development | Context Engineering | Agentes IA en empresas 2026 | Multi-stage workflows | RAG enterprise
Metodología onext: Los Centros de Excelencia de IA de onext implementan estrategias multi-modelo con context engineering, AI gateways y gobernanza de modelos. El modelo cambia. El contexto estructurado se mantiene. Sin paralizar operaciones.