Recraftory

Pengenalan Incident Management

Memahami apa itu incident management dan mengapa penting bagi tim engineering

Apa itu Incident Management

  • Proses terstruktur untuk mendeteksi, merespons, dan memulihkan sistem dari gangguan yang tidak direncanakan
  • Mencakup seluruh siklus: deteksi → respons → pemulihan → pembelajaran
  • Bukan hanya soal "memperbaiki yang rusak" — tapi membangun sistem dan budaya yang lebih tangguh

Mengapa Incident Management Penting

  • Insiden pasti terjadi — tidak ada sistem yang 100% bebas masalah
  • Cara tim merespons insiden sangat mempengaruhi dampak ke pengguna dan bisnis
  • Tanpa proses yang baik, insiden yang sama bisa berulang
  • Insiden yang ditangani dengan baik membangun kepercayaan — internal maupun eksternal

Definisi Insiden

Insiden adalah kondisi yang menyebabkan:

  • Layanan tidak tersedia (downtime)
  • Degradasi performa yang signifikan
  • Data loss atau corruption
  • Pelanggaran keamanan
  • Berdampak ke pengguna atau operasional bisnis

Klasifikasi Tingkat Keparahan (Severity)

SeverityDefinisiContohResponse Time
SEV-1 / P1Layanan utama down, dampak luasSemua pengguna tidak bisa loginSegera, 24/7
SEV-2 / P2Fitur kritis terdampak sebagianCheckout gagal untuk 20% pengguna< 1 jam
SEV-3 / P3Degradasi, ada workaroundLaporan lambat di jam tertentu< 4 jam
SEV-4 / P4Minor, tidak mempengaruhi operasionalUI glitch yang tidak mempengaruhi fungsiJam kerja berikutnya

Setiap tim/perusahaan bisa mendefinisikan severity level berbeda.

Komponen Sistem Incident Management

Deteksi

  • Monitoring dan alerting yang dikonfigurasi dengan baik
  • On-call engineer yang siap merespons
  • Laporan dari pengguna atau customer support

Respons

  • Proses eskalasi yang jelas
  • Incident commander yang memimpin penanganan
  • Komunikasi internal dan eksternal

Pemulihan

  • Rollback, hotfix, atau mitigation
  • Verifikasi sistem kembali normal
  • Komunikasi "all clear" ke stakeholder

Pembelajaran

  • Post-mortem tanpa blame
  • Action items yang jelas dan ditindaklanjuti
  • Update runbook dan dokumentasi

Peran dalam Incident Response

  • Incident Commander (IC): memimpin respons, membuat keputusan, koordinasi tim
  • Tech Lead on Call: mengeksekusi perbaikan teknis
  • Communications Lead: update ke stakeholder dan pengguna
  • Scribe: mendokumentasikan timeline dan keputusan selama insiden

Praktik Terbaik

  • Dokumentasikan semua insiden, sekecil apapun — pola bisa terlihat dari data historis
  • Buat proses respons yang sederhana dan bisa diikuti saat stres tinggi
  • Latih tim dengan simulasi insiden (game day / chaos engineering)
  • Jangan hukum engineer yang terlibat dalam insiden — ini mendorong menyembunyikan masalah