Pengenalan Incident Management

Memahami apa itu incident management dan mengapa penting bagi tim engineering

Apa itu Incident Management

Proses terstruktur untuk mendeteksi, merespons, dan memulihkan sistem dari gangguan yang tidak direncanakan
Mencakup seluruh siklus: deteksi → respons → pemulihan → pembelajaran
Bukan hanya soal "memperbaiki yang rusak" — tapi membangun sistem dan budaya yang lebih tangguh

Mengapa Incident Management Penting

Insiden pasti terjadi — tidak ada sistem yang 100% bebas masalah
Cara tim merespons insiden sangat mempengaruhi dampak ke pengguna dan bisnis
Tanpa proses yang baik, insiden yang sama bisa berulang
Insiden yang ditangani dengan baik membangun kepercayaan — internal maupun eksternal

Definisi Insiden

Insiden adalah kondisi yang menyebabkan:

Layanan tidak tersedia (downtime)
Degradasi performa yang signifikan
Data loss atau corruption
Pelanggaran keamanan
Berdampak ke pengguna atau operasional bisnis

Klasifikasi Tingkat Keparahan (Severity)

Severity	Definisi	Contoh	Response Time
SEV-1 / P1	Layanan utama down, dampak luas	Semua pengguna tidak bisa login	Segera, 24/7
SEV-2 / P2	Fitur kritis terdampak sebagian	Checkout gagal untuk 20% pengguna	< 1 jam
SEV-3 / P3	Degradasi, ada workaround	Laporan lambat di jam tertentu	< 4 jam
SEV-4 / P4	Minor, tidak mempengaruhi operasional	UI glitch yang tidak mempengaruhi fungsi	Jam kerja berikutnya

Setiap tim/perusahaan bisa mendefinisikan severity level berbeda.

Komponen Sistem Incident Management

Deteksi

Monitoring dan alerting yang dikonfigurasi dengan baik
On-call engineer yang siap merespons
Laporan dari pengguna atau customer support

Respons

Proses eskalasi yang jelas
Incident commander yang memimpin penanganan
Komunikasi internal dan eksternal

Pemulihan

Rollback, hotfix, atau mitigation
Verifikasi sistem kembali normal
Komunikasi "all clear" ke stakeholder

Pembelajaran

Post-mortem tanpa blame
Action items yang jelas dan ditindaklanjuti
Update runbook dan dokumentasi

Peran dalam Incident Response

Incident Commander (IC): memimpin respons, membuat keputusan, koordinasi tim
Tech Lead on Call: mengeksekusi perbaikan teknis
Communications Lead: update ke stakeholder dan pengguna
Scribe: mendokumentasikan timeline dan keputusan selama insiden

Praktik Terbaik

Dokumentasikan semua insiden, sekecil apapun — pola bisa terlihat dari data historis
Buat proses respons yang sederhana dan bisa diikuti saat stres tinggi
Latih tim dengan simulasi insiden (game day / chaos engineering)
Jangan hukum engineer yang terlibat dalam insiden — ini mendorong menyembunyikan masalah

Incident Management

Previous Page

SLO dan SLA

Memahami Service Level Objectives dan Service Level Agreements sebagai dasar reliability engineering

On this page

Apa itu Incident Management Mengapa Incident Management Penting Definisi Insiden Klasifikasi Tingkat Keparahan (Severity)Komponen Sistem Incident Management Deteksi Respons Pemulihan Pembelajaran Peran dalam Incident Response Praktik Terbaik