失敗の学び: Aprendizaje del Fallo
En Sanwa, realizamos un Post-Mortem tras cualquier incidente que afecte la disponibilidad de nuestros servicios o la integridad de la matriz 3x3. El objetivo es la 改善 (Kaizen), no el castigo.
🏛️ Los 5 "Por Qué" (Go-Naze)
Para llegar a la raíz de un problema, no nos quedamos en la superficie. Aplicamos la técnica de los 5 por qué:
- ¿Por qué falló el servidor? Porque el proceso de Rust se quedó sin memoria.
- ¿Por qué se quedó sin memoria? Porque hubo una fuga en un búfer de criptografía.
- ¿Por qué hubo una fuga? Porque no se cerró correctamente una conexión en el módulo de Akashi.
- ¿Por qué no se cerró? Porque el programador no conocía el patrón de cierre asincrónico.
- ¿Por qué no lo conocía? (Raíz) Porque no estaba documentado en los estándares de Gijutsu-Ron.
📝 Estructura del Informe de Incidente
Todo Post-Mortem en Sanwa debe incluir:
1. Resumen Ejecutivo
Qué pasó, durante cuánto tiempo y cuál fue el impacto en las dimensiones Social, Económica y Ambiental.
2. Cronología (年表)
Una línea de tiempo exacta desde la primera alerta hasta la resolución final.
3. Análisis Técnico
Logs, fragmentos de código o métricas que demuestren el fallo. Aquí es donde la ingeniería de Go/Rust se analiza bajo microscopio.
4. Acciones Correctivas (対策)
No aceptamos "tener más cuidado" como solución. Buscamos cambios sistémicos:
- Modificación de linters.
- Nuevas pruebas unitarias.
- Actualización de la 三和経典.
📐 Checklist del Post-Mortem Sanwa
- ¿El tono del documento es neutral y se centra en el sistema, no en la persona?
- ¿Se han identificado acciones concretas para evitar la recurrencia?
- ¿El informe es accesible para todos los integrantes del equipo?
- ¿Se ha extraído una lección de Triple Impacto?
"El verdadero 職人 (Artesano) se reconoce por cómo se levanta después de una caída, no por cuántas veces se mantiene de pie."