Recraftory

Post-mortem

Cara melakukan post-mortem yang efektif untuk belajar dari insiden tanpa blame

Apa itu Post-mortem

  • Dokumen dan proses review setelah insiden untuk memahami apa yang terjadi dan mencegahnya berulang
  • Bukan sidang untuk mencari siapa yang salah — melainkan investigasi untuk memperbaiki sistem
  • Disebut juga "incident review" atau "retrospective" di beberapa tim

Mengapa Post-mortem Penting

  • Insiden yang sama cenderung berulang jika tidak dipelajari dengan baik
  • Membangun institutional knowledge tentang bagaimana sistem bekerja (dan gagal)
  • Memberi tim rasa aman untuk melaporkan masalah tanpa takut dihukum
  • Menghasilkan action items konkret yang meningkatkan reliability

Prinsip Blameless Post-mortem

  • Asumsi dasar: semua orang yang terlibat bertindak dengan niat baik dan pengetahuan terbaik yang mereka miliki saat itu
  • Orang tidak gagal — sistem dan proses yang gagal, atau sistem tidak memberi cukup sinyal untuk mencegah kegagalan
  • Fokus pada "bagaimana kita bisa membuat ini tidak mungkin terjadi lagi" bukan "siapa yang deploy kode buggy ini"
  • Hukuman mendorong menyembunyikan masalah — blameless culture mendorong transparansi

Struktur Dokumen Post-mortem

1. Summary

  • Ringkasan singkat: apa yang terjadi, berapa lama, apa dampaknya

2. Impact

  • Berapa lama layanan down atau degradasi?
  • Berapa pengguna terdampak?
  • Dampak ke bisnis (revenue, SLA, reputasi)?

3. Timeline

  • Kronologi kejadian dengan timestamp
  • Termasuk: kapan mulai, kapan terdeteksi, setiap langkah respons, kapan resolved

4. Root Cause Analysis

  • Apa penyebab langsung insiden?
  • Gunakan teknik "5 Whys" untuk gali lebih dalam
  • Identifikasi contributing factors (bukan hanya satu penyebab)

5. Contributing Factors

  • Faktor apa yang memungkinkan insiden ini terjadi atau membuatnya lebih parah?
  • Contoh: tidak ada alerting, runbook tidak ada, test coverage kurang, deployment tanpa review

6. What Went Well

  • Apa yang berjalan baik dalam respons?
  • Penting untuk diakui agar praktik baik dipertahankan

7. Action Items

  • Apa yang akan dilakukan untuk mencegah insiden ini berulang?
  • Setiap action item harus memiliki: deskripsi, owner, deadline
  • Prioritaskan berdasarkan dampak potensial

Teknik 5 Whys

Teknik sederhana untuk menemukan root cause dengan bertanya "mengapa" secara berulang:

Insiden: API payment down selama 20 menit

Kenapa? → Database connection exhausted
Kenapa? → Aplikasi tidak menutup connection dengan benar
Kenapa? → Connection pool tidak dikonfigurasi dengan benar setelah upgrade library
Kenapa? → Tidak ada review konfigurasi sebelum deploy
Kenapa? → Tidak ada checklist deployment yang memeriksa konfigurasi kritis

Root cause: Tidak ada proses untuk memeriksa konfigurasi kritis sebelum deployment

Rapat Post-mortem

  • Lakukan dalam 48-72 jam setelah insiden, selagi memori masih segar
  • Durasi: 60-90 menit
  • Peserta: semua yang terlibat dalam respons + perwakilan stakeholder yang relevan
  • Fasilitator: sebaiknya bukan IC di insiden tersebut agar lebih objektif
  • Bagikan draft dokumen sebelum rapat agar peserta bisa persiapan

Tindak Lanjut Action Items

  • Masukkan action items ke backlog dengan prioritas yang jelas
  • Review progress action items di rapat mingguan
  • Jika action item tidak dikerjakan: eskalasi atau deprioritaskan secara eksplisit
  • Jangan biarkan action items menumpuk tanpa ditindaklanjuti — ini merusak kepercayaan proses

Praktik Terbaik

  • Publish post-mortem ke seluruh organisasi (bukan hanya tim) — transparansi membangun kepercayaan
  • Buat template standar agar konsisten dan mudah dikerjakan
  • Lakukan walaupun insiden "kecil" — pola baru terlihat dari akumulasi data
  • Rayakan post-mortem yang baik — ini tanda tim yang mature dan belajar