Платформенный SRE
Обязанности
- Участие в продуктовой RUN команде
- Методология наблюдаемости – формировать требования к данным и метрикам; внедрять стандарты надёжности данных и лучшие практики наблюдаемости
- Анализ потоков и метрик – работать с Prometheus, Loki, OpenTelemetry и др.; выявлять отклонения, узкие места и возможности оптимизации
- Data QA (контроль качества данных) – проверять полноту, корректность и соответствие требованиям; автоматизировать проверки через Quality Gates (правильность схемы, покрытие метрик, отсутствие дублирования, соответствие SLA/SLO) → оценка качества перед попаданием в прод
- Тестирование и R&D Ops- писать и поддерживать автоматические тесты компонентов мониторинга; проверять наличие и корректность метрик, логов, трассировок после деплоя; планировать тесты надёжности (отказы узлов, сетевые задержки, падения зависимостей) и канарейковые/теневые развертывания с автоматическим откатом; проводить нагрузочное тестирование, сравнивать результаты с базовым профилем; исследовать новые технологии, собирать метрики, готовить рекомендации; интегрировать Quality Gates в CI/CD – каждый релиз проходит проверку качества и надёжности; отслеживать эффективность через SRE‑KPIs (MTTR, доля неудачных изменений, коэффициент успешных хаос‑тестов, переход PoC → прод) и публиковать их в дашбордах.
- Разбор инцидентов и RCA – анализировать логи, трассировки, метрики, ETL‑pipeline; документировать причины, фиксировать ошибки, предлагать решения; вести базу знаний (post‑mortem, операционные руководства).
- Техническая документация – создавать и актуализировать схемы потоков данных, инструкции, описания архитектуры платформы.
- Развитие внутренней платформы мониторинга – улучшать функциональность и производительность; автоматизировать наблюдаемость и оповещения как код ); интегрировать пороги проверки качества в CI/CD для проверки перед деплоем.
- Обучение и передача знаний – готовить обучающие материалы, проводить воркшопы.
- Способствовать принятию единых практик наблюдаемости
Требования
- Знаете, как сделать отказоустойчивый масштабируемый сервис
- Имеете опыт написания и ревью технической документации
- Имеете опыт коммуникации с разработчиками и бизнесом (объяснение компромиссов между надёжностью и разработкой функций).
- Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
- Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в прод
- Знаете, как определять SLI\SLO для сервиса, у которого нет исторических данных о надежности
- Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
- Имеете опыт внедрения наблюдаемости как код (observability as code), оповещения как код (alerting as code)
Условия
Работа в Cloud.ru — это:
Комфортная среда
- Оформление в соответствии с трудовым законодательством РФ.
- Достойный уровень дохода: оклад + годовой бонус.
- Расширенный ДМС со стоматологией.
- Компенсация спорта.
- Штатный терапевт и психолог.
- Гибкий график работы, пятница — сокращенный рабочий день.
- Классный офис в Москве и коворкинги в разных городах России.
- Возможность работать удаленно. на территории РФ (зависит от функционала и позиции).
- Культура, в основе которой эмпатия, уважение, открытость и свобода строить рабочий процесс так, как считаешь нужным.
- Полезные перекусы.
Место, где ты растешь
- Индивидуальный план развития и обучение за счет компании.
- Возможность вертикального и горизонтального роста.
- Возможность развиваться как эксперту: выступать на мероприятиях, писать статьи.
Крутая команда
- Профессиональные сообщества и клубы по интересам.
- Неформальные мероприятия: от футбольного клуба до посиделок с пиццей.
Еще у нас
- Материальная помощь при рождении детей и других семейных обстоятельствах
- Бонусы за рекомендации кандидатов на открытые вакансии
- Бонусные программы от компаний партнеров
откликнуться
Подходит вакансия? Оставь нам свое резюме и контактные данные

№1 на рынке искусственного интеллекта
CNews Analytics, 2025

№1 на рынке IaaS
iKS-Consulting, 2025

№1 на рынке PaaS
iKS-Consulting, 2025

ТОП-15 работодателей среди крупных ИТ-компаний
hh.ru, 2025
