SLO dan SLA

Memahami Service Level Objectives dan Service Level Agreements sebagai dasar reliability engineering

Definisi

SLI (pengukuran aktual)
  └── SLO (target internal, misal 99.9%)
        └── SLA (janji ke pelanggan, misal 99.5%)

SLO lebih ketat dari SLA agar tim punya buffer sebelum melanggar SLA.

Layanan: API Pembayaran

Komponen	Nilai
SLI	Persentase request yang berhasil dalam 30 hari terakhir
SLO	≥ 99.95% success rate
SLA	≥ 99.9% success rate (janji ke merchant)

Error budget = 1 - SLO
Jika SLO = 99.9%, error budget = 0.1% = 43.8 menit downtime per bulan
Error budget adalah "jatah" untuk downtime, deployment, dan eksperimen
Ketika error budget hampir habis: kurangi risiko (tunda release besar, fokus reliability)
Ketika error budget masih banyak: bisa lebih agresif dalam deployment dan eksperimen

Deployment baru berisiko → cek error budget tersisa sebelum deploy
Tim ingin coba chaos engineering → butuh error budget yang cukup
SLO konsisten tercapai dengan mudah → mungkin SLO terlalu longgar, bisa di-tighten

Mulai dengan SLO yang sederhana dan sedikit sebelum menambah kompleksitas
Tampilkan error budget di dashboard yang bisa dilihat semua engineer
Review SLO setiap kuartal — kondisi bisnis dan teknis berubah
Libatkan product dan bisnis dalam menentukan SLO — ini bukan keputusan teknis semata