Pengenalan Incident Management
Memahami apa itu incident management dan mengapa penting bagi tim engineering
Apa itu Incident Management
- Proses terstruktur untuk mendeteksi, merespons, dan memulihkan sistem dari gangguan yang tidak direncanakan
- Mencakup seluruh siklus: deteksi → respons → pemulihan → pembelajaran
- Bukan hanya soal "memperbaiki yang rusak" — tapi membangun sistem dan budaya yang lebih tangguh
Mengapa Incident Management Penting
- Insiden pasti terjadi — tidak ada sistem yang 100% bebas masalah
- Cara tim merespons insiden sangat mempengaruhi dampak ke pengguna dan bisnis
- Tanpa proses yang baik, insiden yang sama bisa berulang
- Insiden yang ditangani dengan baik membangun kepercayaan — internal maupun eksternal
Definisi Insiden
Insiden adalah kondisi yang menyebabkan:
- Layanan tidak tersedia (downtime)
- Degradasi performa yang signifikan
- Data loss atau corruption
- Pelanggaran keamanan
- Berdampak ke pengguna atau operasional bisnis
Klasifikasi Tingkat Keparahan (Severity)
| Severity | Definisi | Contoh | Response Time |
|---|---|---|---|
| SEV-1 / P1 | Layanan utama down, dampak luas | Semua pengguna tidak bisa login | Segera, 24/7 |
| SEV-2 / P2 | Fitur kritis terdampak sebagian | Checkout gagal untuk 20% pengguna | < 1 jam |
| SEV-3 / P3 | Degradasi, ada workaround | Laporan lambat di jam tertentu | < 4 jam |
| SEV-4 / P4 | Minor, tidak mempengaruhi operasional | UI glitch yang tidak mempengaruhi fungsi | Jam kerja berikutnya |
Setiap tim/perusahaan bisa mendefinisikan severity level berbeda.
Komponen Sistem Incident Management
Deteksi
- Monitoring dan alerting yang dikonfigurasi dengan baik
- On-call engineer yang siap merespons
- Laporan dari pengguna atau customer support
Respons
- Proses eskalasi yang jelas
- Incident commander yang memimpin penanganan
- Komunikasi internal dan eksternal
Pemulihan
- Rollback, hotfix, atau mitigation
- Verifikasi sistem kembali normal
- Komunikasi "all clear" ke stakeholder
Pembelajaran
- Post-mortem tanpa blame
- Action items yang jelas dan ditindaklanjuti
- Update runbook dan dokumentasi
Peran dalam Incident Response
- Incident Commander (IC): memimpin respons, membuat keputusan, koordinasi tim
- Tech Lead on Call: mengeksekusi perbaikan teknis
- Communications Lead: update ke stakeholder dan pengguna
- Scribe: mendokumentasikan timeline dan keputusan selama insiden
Praktik Terbaik
- Dokumentasikan semua insiden, sekecil apapun — pola bisa terlihat dari data historis
- Buat proses respons yang sederhana dan bisa diikuti saat stres tinggi
- Latih tim dengan simulasi insiden (game day / chaos engineering)
- Jangan hukum engineer yang terlibat dalam insiden — ini mendorong menyembunyikan masalah