El 69% de equipos miden número de incidentes. Solo el 12% usa métricas custom que realmente predicen problemas. Resultado: sabes cuándo fallas, pero no por qué ni cómo evitarlo.
El dato que debería preocuparte
LeadDev acaba de publicar su Engineering Performance Report 2025 con datos de 400 líderes técnicos. Una pregunta destroza el autoengaño colectivo de la industria:
"¿Qué métricas usa tu equipo para medir performance de sistemas?"
Las respuestas:
- 69%: Número de incidentes
- 60%: Severidad de incidentes
- 51%: Cumplimiento de SLAs
- 46%: Uptime
- 44%: Costes operacionales
- 12%: Métricas custom
Traducción: 7 de cada 10 equipos miden cuántas veces se cae el sistema. Solo 1 de cada 10 mide lo que realmente predice si se va a caer.
Si tu dashboard principal es un contador de incidentes, no estás midiendo performance. Estás midiendo fracasos.
Por qué esto es un problema (más gordo de lo que parece)
1. Las métricas reactivas no previenen problemas
Medir incidentes es como medir accidentes de coche para mejorar la conducción. Te dice que chocaste, no por qué ni cómo evitarlo.
El ciclo vicioso:
- Incidente ocurre → contador sube
- Post-mortem → "necesitamos más monitoring"
- Añades más dashboards de... incidentes
- Siguiente incidente → repetir
Resultado: Más datos del pasado, cero capacidad de prevenir el futuro.
2. Ignoras las métricas que sí predicen (y cuestan menos)
Según el mismo report, solo el 39% rastrea "engineering time" (tiempo del equipo en tareas).
Esto es crítico porque:
- Un equipo que invierte 60% de tiempo en "apagar fuegos" va a tener incidentes
- Un equipo que invierte 40% en deuda técnica va a reducir incidentes
- Pero si no mides tiempo, no sabes dónde lo gastas
No necesitaban más monitoring de incidentes. Necesitaban medir dónde gastaban el tiempo.
3. La paradoja del uptime
46% de equipos miden uptime. Suena razonable, ¿no?
Problema: uptime es una métrica de resultado, no de causa.
Escenario típico:
- Tu sistema tiene 99.9% uptime (43 min downtime/mes)
- Crees que vas bien
- Pero ese 99.9% oculta que:
- 80% del equipo está en "modo bombero"
- Deploy tarda 6h por miedo a romper
- Deuda técnica crece sin control
Uptime alto ≠ sistema sano. Puede ser un equipo exhausto sosteniendo un castillo de naipes.
Las métricas que SÍ predicen (y nadie mide)
Según el LeadDev Report, estas son las métricas menos rastreadas pero más predictivas:
1. Engineering time breakdown (39% lo mide)
Qué medir:
- % tiempo en nuevas features
- % tiempo en bugs/parches
- % tiempo en deuda técnica
- % tiempo en "apagar fuegos"
Por qué importa: Si >50% del tiempo es reactivo (bugs + fuegos), tu sistema está enfermo aunque el uptime sea 99.9%.
2. MTTD - Mean Time To Detect (23% lo mide)
Qué es: Tiempo entre que ocurre un problema y lo detectas.
Por qué importa: Un bug que tarda 3 días en detectarse causa 10x más daño que uno detectado en 10 minutos.
3. Deployment frequency + lead time
Por qué importa: Equipos que deployean 10x/día tienen 60% menos incidentes que equipos que deployean 1x/semana (DORA metrics).
Paradoja: Más deploys = menos incidentes (porque cambios pequeños son menos riesgosos).
4. Custom metrics (solo 12% las usa)
Qué son: Métricas específicas de tu dominio que predicen problemas.
Ejemplos:
- E-commerce: "Checkout abandonment rate"
- Fintech: "Failed transaction retry rate"
- SaaS: "API error rate per client"
La métrica invisible (que explica todas las demás): Carga cognitiva del equipo
Hay una métrica que casi nadie rastreja pero explica por qué las otras métricas fallan: la carga cognitiva del equipo.
¿Qué es carga cognitiva en equipos de desarrollo?
Definición: La cantidad de información que un developer debe mantener en su cabeza para ser productivo.
Los 3 tipos de carga cognitiva (según Team Topologies):
- Carga intrínseca: Complejidad inherente de la tarea
- Carga extrínseca: Ruido del entorno (herramientas mal configuradas, deploys manuales)
- Carga pertinente: Aprendizaje útil que queda
Cómo medir carga cognitiva (sin encuestas complejas)
✅ Context switches por día:
- <3 cambios/día = carga manejable
- 5-7 cambios/día = carga alta (productividad -60%)
- >10 cambios/día = equipo colapsado
Cómo medir: Track Jira/Linear tasks por developer por día + reuniones en calendario.
✅ Time to productive (nuevo developer):
- <2 semanas = arquitectura simple, buena documentación
- 4-6 semanas = complejidad media
- >8 semanas = carga cognitiva brutal
✅ Tool proliferation:
- <5 herramientas = bien
- >10 herramientas = carga extrínseca brutal
La conexión oculta: Carga cognitiva → Incidentes
Por qué equipos con alta carga cognitiva tienen más incidentes:
- Developer exhausto comete errores: Carga cognitiva >80% → 3x más bugs introducidos
- Zero tiempo para prevención: Si 70% del tiempo es firefighting, no hay espacio mental para refactoring
- Pérdida de contexto: Cambiar de contexto 7x/día → olvidas edge cases, skippeas tests
DevEx: La métrica que unifica todas las demás
Developer Experience (DevEx) no es "tener Slack bonito". Es medir fricción en el trabajo diario del developer.
Las 3 dimensiones de DevEx (según SPACE framework):
- Feedback loops: ¿Cuánto tarda un developer en validar su cambio?
- Build time: <5 min = excelente, >15 min = fricción alta
- Flow state: ¿Cuántas horas de trabajo profundo sin interrupciones?
- <2h/día = equipo reactivo (carga cognitiva brutal)
- 4-6h/día = equipo sano
- Cognitive load: ¿Cuánta complejidad innecesaria carga el developer?
La cadena causal que nadie mide:
Alta carga cognitiva
→ Developer exhausto
→ Más bugs introducidos
→ Más incidentes
→ Más firefighting
→ Menos tiempo para refactoring
→ Deuda técnica crece
→ Deploy más arriesgado
→ Más carga cognitiva
→ [ciclo se repite]
Framework: Qué métricas rastrear (y en qué orden)
Nivel 1: Básico (si no tienes esto, empieza aquí)
- Uptime / downtime
- Número y severidad de incidentes
- MTTR (mean time to resolve)
Problema: Solo mides fracasos, no prevención.
Nivel 2: Intermedio (aquí mejoras de verdad)
- MTTD (mean time to detect)
- Engineering time breakdown
- Deployment frequency + lead time
- Operational costs por servicio
Beneficio: Empiezas a ver patrones ANTES de incidentes.
Nivel 3: Avanzado (aquí compites con top performers)
- Métricas custom de tu dominio
- Cost per feature
- % code coverage + mutation testing
- Change failure rate
- Context switches por developer (carga cognitiva)
- Feedback loop time (DevEx)
- Flow state hours (tiempo de trabajo profundo)
Beneficio: Predices problemas con semanas de antelación y mides salud del equipo, no solo del sistema.
Caso real: De apagar fuegos a 0 incidentes en 8 semanas
Cliente: Scaleup healthtech Series B, 15 developers
Problema: 6-8 incidentes/mes, equipo exhausto
Fase 1: Diagnóstico (Semana 1-2)
- Implementamos tracking engineering time
- Descubrimiento: 65% tiempo en hotfixes y parches
- Root cause: No medían MTTD ni deployment frequency
Fase 2: Métricas predictivas (Semana 3-4)
- Añadimos MTTD tracking: 4 horas promedio (malo)
- Añadimos deployment frequency: 2x/semana (bajo)
- Añadimos custom metric: "API timeout rate per endpoint"
Fase 3: Acción (Semana 5-8)
- Priorizaron reducir MTTD a <30 min (mejor alerting)
- Aumentaron deploys a 2x/día (CI/CD refactor)
- Monitorearon API timeout → detectaron 3 endpoints problemáticos antes de incidentes
Resultados (2 meses después):
• Incidentes: 6-8/mes → 0-1/mes (-87%)
• MTTD: 4h → 15 min (-93%)
• Time en hotfixes: 65% → 20% (-70%)
• Context switches: 8/día → 4/día (-50%)
• Flow state: 1.5h/día → 5h/día (+233%)
Inversión: 40h equipo + €200/mes tooling
ROI: ~120h/mes ahorradas = €12k/mes
"Finalmente trabajamos en features, no en fuegos"
Insight clave: Reducir context switches fue el cambio que permitió todo lo demás. Con más flow state, detectaron problemas antes, escribieron mejor código, redujeron bugs.
Acción inmediata: Qué hacer esta semana
Lunes (1h): Audita tus métricas actuales
Pregunta honesta: ¿Qué % de tus métricas son reactivas (incidentes) vs predictivas (MTTD, time breakdown, custom)?
Si >70% son reactivas, estás en modo bombero.
Martes (2h): Añade 1 métrica predictiva
Elige una:
- Engineering time breakdown (más fácil de empezar)
- MTTD (más impacto si tienes incidentes frecuentes)
- Deployment frequency (más impacto si deploys son dolorosos)
Miércoles-Viernes (3h): Primer análisis
- Trackea métrica durante 1 semana
- Analiza primeros datos
- Identifica 1 quick win
Conclusión: Deja de contar fracasos, empieza a predecir éxitos
El problema de medir solo incidentes:
- Sabes que fallaste
- No sabes por qué
- No puedes evitar el próximo
La solución:
- Mide tiempo del equipo (para saber si estás en modo reactivo)
- Mide MTTD (para detectar problemas antes de que escalen)
- Mide métricas custom de tu dominio (para predecir problemas con días de antelación)
- Mide carga cognitiva y DevEx (para entender la salud real de tu equipo)
El cambio de mentalidad: De "¿cuántos incidentes tuvimos?" a "¿cuántos incidentes evitamos?"
Fuente: LeadDev Engineering Performance Report 2025 (encuesta a 400 engineering leaders, Sep-Oct 2025)
Metodología: Análisis de datos públicos del report + experiencia de 12 implementaciones de performance engineering en startups Series A-C (2023-2024).