Înapoi la listă
Inginerie··6 min de citit

Alerting pe SLO care nu te trezește la 3 AM

O abordare practică pentru alerte bazate pe simptome vizibile utilizatorului, nu pe cauze server-side.

Majoritatea setup-urilor de paging pe care le moștenim alertează pe cauze: CPU mare, pod care repornește, disc plin. Problema e că nici una nu contează direct pentru utilizator.

Alerting-ul pe SLO inversează asta: definești ce înseamnă "funcționează" pentru utilizatori, măsori, și suni doar când riști să arzi prea mult din budget-ul de erori.