Skip to main content

失敗しっぱいまなび: Aprendizaje del Fallo

En Sanwa, realizamos un Post-Mortem tras cualquier incidente que afecte la disponibilidad de nuestros servicios o la integridad de la matriz 3x3. El objetivo es la 改善かいぜん (Kaizen), no el castigo.


🏛️ Los 5 "Por Qué" (Go-Naze)

Para llegar a la raíz de un problema, no nos quedamos en la superficie. Aplicamos la técnica de los 5 por qué:

  1. ¿Por qué falló el servidor? Porque el proceso de Rust se quedó sin memoria.
  2. ¿Por qué se quedó sin memoria? Porque hubo una fuga en un búfer de criptografía.
  3. ¿Por qué hubo una fuga? Porque no se cerró correctamente una conexión en el módulo de Akashi.
  4. ¿Por qué no se cerró? Porque el programador no conocía el patrón de cierre asincrónico.
  5. ¿Por qué no lo conocía? (Raíz) Porque no estaba documentado en los estándares de Gijutsu-Ron.

📝 Estructura del Informe de Incidente

Todo Post-Mortem en Sanwa debe incluir:

1. Resumen Ejecutivo

Qué pasó, durante cuánto tiempo y cuál fue el impacto en las dimensiones Social, Económica y Ambiental.

2. Cronología (年表ねんぴょう)

Una línea de tiempo exacta desde la primera alerta hasta la resolución final.

3. Análisis Técnico

Logs, fragmentos de código o métricas que demuestren el fallo. Aquí es donde la ingeniería de Go/Rust se analiza bajo microscopio.

4. Acciones Correctivas (対策たいさく)

No aceptamos "tener más cuidado" como solución. Buscamos cambios sistémicos:

  • Modificación de linters.
  • Nuevas pruebas unitarias.
  • Actualización de la 三和経典さんわきょうてん.

📐 Checklist del Post-Mortem Sanwa

  • ¿El tono del documento es neutral y se centra en el sistema, no en la persona?
  • ¿Se han identificado acciones concretas para evitar la recurrencia?
  • ¿El informe es accesible para todos los integrantes del equipo?
  • ¿Se ha extraído una lección de Triple Impacto?

"El verdadero 職人しょくにん (Artesano) se reconoce por cómo se levanta después de una caída, no por cuántas veces se mantiene de pie."