Senior Site Reliability Engineer (Praca zdalna)

projektowanie, rozwój i utrzymanie systemów monitoringu oraz observability (metrics, logs, tracing)
analiza incydentów, root cause analysis, prowadzenie post‑mortem i wdrażanie usprawnień
rozwój i utrzymanie narzędzi do alertowania, diagnostyki i automatyzacji operacji
monitorowanie i optymalizacja wydajności aplikacji oraz infrastruktury
rozwój infrastruktury wspierającej systemy produkcyjne (Kubernetes, IaC, CI/CD)
projektowanie i wdrażanie rozwiązań chmurowych dla systemów o dużej skali
współpraca z zespołami developerskimi i architektami w zakresie reliability, kosztów i bezpieczeństwa
doradztwo techniczne w obszarze chmury i automatyzacji, udział w projektowaniu nowych komponentów
rozwiązywanie złożonych problemów technicznych, których nie potrafią rozwiązać standardowe zespoły

min. 5-6 lat doświadczenia w SRE, DevOps lub Platform Engineering
bardzo dobra znajomość Kubernetes (operational level, mile widziane doświadczenie z dużymi klastrami)
praktyczna znajomość jednej z chmur Azure/GCP/AWS (architektura, usługi, best practices)
doświadczenie z IaC: Terraform, CloudFormation lub podobne
znajomość GitOps (Argo CD) i umiejętność tworzenia helm chartów
doświadczenie w budowie i utrzymaniu CI/CD (GitLab CI)
biegłość w narzędziach monitoringu i incident management: Prometheus, Grafana, ELK, Opsgenie/PagerDuty
dobra znajomość koncepcji sieciowych, systemów operacyjnych, optymalizacji wydajności
umiejętność programowania (Python, Go)
znajomość ITIL w obszarze zarządzania incydentami i problemami
bardzo dobre umiejętności komunikacyjne i zdolność współpracy z klientami oraz zespołami technicznymi

pełne zaangażowanie w projekt o dużej skali i wysokiej odpowiedzialności technicznej
praca zdalna lub hybrydowa - Warszawa Wola
elastyczne godziny 7-18.00
współpraca B2B

Senior Site Reliability Engineer