SRE – SITE RILIABILITY ENGINEERING

Baza znanja

Site Reliability Engineering (SRE) je inženjerski pristup koji primjenjuje softverske principe na operacije kako bi osigurao pouzdanost, performanse i skalabilnost digitalnih usluga. Temelj čine SLI/SLO/SLA i error budget, koji uravnotežuju brzinu isporuke s razinom dostupnosti koju korisnici očekuju. Kroz automatizaciju, eliminaciju “toila”, IaC i CI/CD prakse, SRE smanjuje varijabilnost i vrijeme oporavka (MTTR). U incident responseu koristi se observability (logovi, metrike, tragovi), on-call rotacije, runbookovi i blameless postmortems za trajno učenje.

Rezultat su predvidljiviji uptime, brža i sigurnija izdanja, niži operativni troškovi i bolje korisničko iskustvo.

Site Reliability Engineering (SRE) baza znanja

Site Reliability Engineering (SRE) je pristup vođen inženjerstvom koji primjenjuje softverske principe na operacije kako bi digitalne usluge bile dostupne, brze i sigurne. Nastao je u Googleu početkom 2000-ih, a danas je standard u tvrtkama koje žele mjerljiviju pouzdanost i bržu isporuku promjena.

Osnovna SRE Ideja: Umjesto reaktivnog “gašenja požara”, SRE definira ciljeve razine usluge (SLO) koji odražavaju stvarno korisničko iskustvo, prati indikatore (SLI), postavlja budžet pogrešaka (error budget) i optimizira rad kroz automatizaciju, observability i kulturu učenja.

Ključni pojmovi

SLI (Service Level Indicator) – mjerljiva metrika usluge (npr. dostupnost, latencija p99, stopa grešaka).
SLO (Service Level Objective) – ciljna vrijednost SLI-ja (npr. dostupnost 99,9% mjesečno).
Error budget – dopuštena količina “nepouzdanosti” (npr. 0,1% nedostupnosti), kojom se upravlja tempom releasanja i prioritetima.
Toil – ponavljajući, manualni operativni rad koji se može automatizirati.
Blameless postmortem – analiza incidenta bez okrivljavanja, s konkretnim akcijama poboljšanja.

Prakse i procesi u SRE-u

Upravljanje SLO/SLI: dizajn metrika po usluzi, kontinuirano praćenje i periodični review.
Observability: objedinjene metrike, logovi i tracing; jasni “golden signals” (latencija, promet, greške, zasićenje).
Incident management: detekcija, eskalacija, vođenje incidenta, komunikacija, postmortemi.
Automatizacija i smanjenje toila: CI/CD, Infrastructure as Code, runbookovi, auto-remediation.
Kapacitet, performanse i otpornost: testovi opterećenja, chaos engineering, degradirani načini rada

Uloge i odgovornosti

SRE inženjer: razvoj alata i automatizacije, dizajn SLO-ova, vođenje incidenata, smanjenje toila.
Product/Engineering timovi: usklađivanje značajki s error budgetom, kvalitetom i observabilityjem.
Voditelji/menadžeri: donošenje odluka temeljenih na SLO-ovima, balansiranje brzine i rizika.

Tipične metrike

Dostupnost (%) po regiji/usluzi
Latencija (p50/p90/p99) i timeouts
Stopa grešaka (4xx/5xx, gubici poruka)
MTTA/MTTR (vrijeme do reakcije/opravka)
Incident rate i ozbiljnost (sev)
Toil % i deployment frequency / change fail rate

Alati (primjeri)

Observability: Prometheus/Grafana, OpenTelemetry, Loki/ELK, Jaeger/Tempo
Incidenti/on-call: PagerDuty/Opsgenie
Automatizacija: GitHub/GitLab CI, ArgoCD/Flux, Terraform/Ansible
Cloud/Platforma: Kubernetes, AWS/Azure/GCP

Odnos s DevOps-om i ITSM-om

DevOps naglašava kulturu i suradnju; SRE to operacionalizira kroz SLO-ove, proračun pogrešaka i inženjerske prakse.
U ITSM okruženju SRE ubrzava Incident/Problem/Change procese i povezuje SLO ↔ SLA.

Prednosti za organizaciju

Veća predvidljivost i manje prekida
Brži oporavak (niži MTTR) i kvalitetniji releasi
Transparentnost kroz jasne metrike i ciljeve
Niži operativni trošak kroz automatizaciju i manje toila

Izazovi i kako ih adresirati

Kulturološka promjena → blameless pristup i jasna komunikacija.
Metrike “za sebe” → SLO-ovi moraju odražavati korisničko iskustvo, ne samo tehničke signale.
Previše alarma → tuning pragova, agregacija, runbookovi i paging higijena.
Otpor automatizaciji → mjeriti i prikazivati uštede (vrijeme, incidenti).

Kako početi (minimalni koraci)

Identificirajte kritične korisničke tokove i definirajte 3–5 SLI-jeva.
Postavite SLO ciljeve i error budget politiku.
Standardizirajte incident response i uvedite blameless postmorteme.
Mapirajte i smanjite toil (brze automatizacije).
Uvedite operativni ritam: mjesečni SLO review i plan poboljšanja.

Sažetak: SRE omogućuje da pouzdanost bude namjeran, mjerljiv ishod, a ne slučajnost. Kroz SLO-ove, observability, incident management i automatizaciju, timovi postižu stabilnost bez usporavanja razvoja – upravo suprotno, ubrzavaju isporuku uz kontrolirani rizik.