yandex

Технический лидер SRE

ИнженерыБолее 6 летГибрид
Оставить резюме//

Обязанности

  • Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов;
  • Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение
  • Участвовать в заполнении и разборе постмортемов
  • Расследовать причины инцидентов (RCA);
  • Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
  • Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг)
  • Автоматизировать рутинную работу
  • Ревьюить и помогать дорабатывать DRP, участвовать в качестве координатора в DRT, поддерживать DRP в актуальном состоянии;
  • участвовать в разработке и оптимизации процессов, используемых в работе
  • Встраивать в процессы практики: observability by default, alerting as code, runbooks, SLO/SLA/SLI
  • Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering
  • Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets

Требования

  • Экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... И умение применять это практически для обеспечения надежности сервисов
  • Умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы
  • Понимание, что такое load balancing, circuit breakers, disaster recovery, MTTR, RTO, и т.п.
  • Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть)
  • Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем;
  • Понимание, как работают сети и умение диагностировать проблемы в их работе
  • Практический опыт IaaC (Terraform/Ansible) и понимание принципов
  • Практический опыт построения CI/CD (Gitlab CI, Argo CD)
  • Умение писать автоматизацию и скрипты на Python/Go
  • Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK)
  • Практический опыт в SRE роли

Будет плюсом, если Вы:

  • Знаете, как сделать отказоустойчивый масштабируемый сервис
  • Имеете опыт написания и ревью технической документации
  • Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev)
  • Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
  • Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production
  • Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности
  • Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
  • Имеете опыт внедрения observability-as-code и alerting-as-code

Условия

Работа в Cloud.ru — это:

Комфортная среда

  • Оформление в соответствии с трудовым законодательством РФ
  • Достойный уровень дохода: оклад + годовой бонус
  • Расширенный ДМС со стоматологией
  • Компенсация спорта
  • Штатный терапевт и психолог
  • Гибкий график работы, пятница — сокращенный рабочий день
  • Классный офис в Москве и коворкинги в разных городах России
  • Возможность работать удаленно на территории РФ (зависит от функционала и позиции)
  • Культура, в основе которой эмпатия, уважение, открытость и свобода строить рабочий процесс так, как считаешь нужным
  • Полезные перекусы

Место, где ты растешь

  • Индивидуальный план развития и обучение за счет компании
  • Возможность вертикального и горизонтального роста
  • Возможность развиваться как эксперту: выступать на мероприятиях, писать статьи

Крутая команда

  • Профессиональные сообщества и клубы по интересам
  • Неформальные мероприятия: от футбольного клуба до посиделок с пиццей

Еще у нас

  • Материальная помощь при рождении детей и других семейных обстоятельствах
  • Бонусы за рекомендации кандидатов на открытые вакансии
  • Бонусные программы от компаний партнеров

откликнуться

Подходит вакансия? Оставь нам свое резюме и контактные данные