SRE – SITE RILIABILITY ENGINEERING

Baza znanja


Site Reliability Engineering (SRE) je inženjerski pristup koji primjenjuje softverske principe na operacije kako bi osigurao pouzdanost, performanse i skalabilnost digitalnih usluga. Temelj čine SLI/SLO/SLA i error budget, koji uravnotežuju brzinu isporuke s razinom dostupnosti koju korisnici očekuju. Kroz automatizaciju, eliminaciju “toila”, IaC i CI/CD prakse, SRE smanjuje varijabilnost i vrijeme oporavka (MTTR). U incident responseu koristi se observability (logovi, metrike, tragovi), on-call rotacije, runbookovi i blameless postmortems za trajno učenje.

Rezultat su predvidljiviji uptime, brža i sigurnija izdanja, niži operativni troškovi i bolje korisničko iskustvo.

Site Reliability Engineering (SRE) baza znanja

Site Reliability Engineering (SRE) je pristup vođen inženjerstvom koji primjenjuje softverske principe na operacije kako bi digitalne usluge bile dostupne, brze i sigurne. Nastao je u Googleu početkom 2000-ih, a danas je standard u tvrtkama koje žele mjerljiviju pouzdanost i bržu isporuku promjena.

Osnovna SRE Ideja: Umjesto reaktivnog “gašenja požara”, SRE definira ciljeve razine usluge (SLO) koji odražavaju stvarno korisničko iskustvo, prati indikatore (SLI), postavlja budžet pogrešaka (error budget) i optimizira rad kroz automatizaciju, observability i kulturu učenja.

  • SLI (Service Level Indicator) – mjerljiva metrika usluge (npr. dostupnost, latencija p99, stopa grešaka).
  • SLO (Service Level Objective) – ciljna vrijednost SLI-ja (npr. dostupnost 99,9% mjesečno).
  • Error budget – dopuštena količina “nepouzdanosti” (npr. 0,1% nedostupnosti), kojom se upravlja tempom releasanja i prioritetima.
  • Toil – ponavljajući, manualni operativni rad koji se može automatizirati.
  • Blameless postmortem – analiza incidenta bez okrivljavanja, s konkretnim akcijama poboljšanja.
  • Upravljanje SLO/SLI: dizajn metrika po usluzi, kontinuirano praćenje i periodični review.
  • Observability: objedinjene metrike, logovi i tracing; jasni “golden signals” (latencija, promet, greške, zasićenje).
  • Incident management: detekcija, eskalacija, vođenje incidenta, komunikacija, postmortemi.
  • Automatizacija i smanjenje toila: CI/CD, Infrastructure as Code, runbookovi, auto-remediation.
  • Kapacitet, performanse i otpornost: testovi opterećenja, chaos engineering, degradirani načini rada
  • SRE inženjer: razvoj alata i automatizacije, dizajn SLO-ova, vođenje incidenata, smanjenje toila.
  • Product/Engineering timovi: usklađivanje značajki s error budgetom, kvalitetom i observabilityjem.
  • Voditelji/menadžeri: donošenje odluka temeljenih na SLO-ovima, balansiranje brzine i rizika.
  • Dostupnost (%) po regiji/usluzi
  • Latencija (p50/p90/p99) i timeouts
  • Stopa grešaka (4xx/5xx, gubici poruka)
  • MTTA/MTTR (vrijeme do reakcije/opravka)
  • Incident rate i ozbiljnost (sev)
  • Toil % i deployment frequency / change fail rate
  • Observability: Prometheus/Grafana, OpenTelemetry, Loki/ELK, Jaeger/Tempo
  • Incidenti/on-call: PagerDuty/Opsgenie
  • Automatizacija: GitHub/GitLab CI, ArgoCD/Flux, Terraform/Ansible
  • Cloud/Platforma: Kubernetes, AWS/Azure/GCP
  • DevOps naglašava kulturu i suradnju; SRE to operacionalizira kroz SLO-ove, proračun pogrešaka i inženjerske prakse.
  • U ITSM okruženju SRE ubrzava Incident/Problem/Change procese i povezuje SLO ↔ SLA.
  • Veća predvidljivost i manje prekida
  • Brži oporavak (niži MTTR) i kvalitetniji releasi
  • Transparentnost kroz jasne metrike i ciljeve
  • Niži operativni trošak kroz automatizaciju i manje toila
  • Kulturološka promjena → blameless pristup i jasna komunikacija.
  • Metrike “za sebe” → SLO-ovi moraju odražavati korisničko iskustvo, ne samo tehničke signale.
  • Previše alarma → tuning pragova, agregacija, runbookovi i paging higijena.
  • Otpor automatizaciji → mjeriti i prikazivati uštede (vrijeme, incidenti).
  1. Identificirajte kritične korisničke tokove i definirajte 3–5 SLI-jeva.
  2. Postavite SLO ciljeve i error budget politiku.
  3. Standardizirajte incident response i uvedite blameless postmorteme.
  4. Mapirajte i smanjite toil (brze automatizacije).
  5. Uvedite operativni ritam: mjesečni SLO review i plan poboljšanja.

Sažetak: SRE omogućuje da pouzdanost bude namjeran, mjerljiv ishod, a ne slučajnost. Kroz SLO-ove, observability, incident management i automatizaciju, timovi postižu stabilnost bez usporavanja razvoja – upravo suprotno, ubrzavaju isporuku uz kontrolirani rizik.