yandex

Технический лидер SRE

ИнженерыБолее 6 летГибрид
Оставить резюме//

Обязанности

- управление надежностью сервисов: проектирование, внедрение и поддержка SLO/SLI, error budget, координация процесса соблюдения SLO, управление использованием Error Budget;

- мониторинг и алертинг: разработка метрик, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг);

- capacity planning: прогнозирование нагрузки и планирование ресурсов;

- performance optimization: выявление и устранение bottleneck, оптимизация производительности;

- incident & problem management: участие в устранении инцидентов (роль Incident Commander), расследование причин (RCA); ревью postmortems, разработка и внедрение corrective actions, при необходимости

- заведение проблем и контроль их решения;

- повышение отказоустойчивости: улучшение observability (логи, трейсы, метрики: обогащение, добавление, ревизия...);

- ревью DRP, участие в качестве координатора в DRT, поддержание DRP в актуальном состоянии; автоматизация: устранение рутины

- IaC (Terraform/Ansible) и Python/Go/Bash;

- менторство и обучение: проведение внутренних воркшопов для команд разработки по темам надёжности, observability, помощь в развитии навыков SRE у других инженеров, code review внутри команды;

- активное участие в разработке модели здоровья продукта и quality gates.

Требования

- экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... умение применять это практически для обеспечения надежности сервисов;

- умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы;

- практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production;

- эксперт в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть); глубокие знания и понимание того, как работают сети на уровнях L2-L7;

- опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем.

Условия

Работа в Cloud.ru — это:

Комфортная среда

  • Оформление в соответствии с трудовым законодательством РФ
  • Достойный уровень дохода: оклад + годовой бонус
  • Расширенный ДМС со стоматологией
  • Компенсация спорта
  • Штатный терапевт и психолог
  • Гибкий график работы, пятница — сокращенный рабочий день
  • Классный офис в Москве и коворкинги в разных городах России
  • Возможность работать удаленно на территории РФ (зависит от функционала и позиции)
  • Культура, в основе которой эмпатия, уважение, открытость и свобода строить рабочий процесс так, как считаешь нужным
  • Полезные перекусы

Место, где ты растешь

  • Индивидуальный план развития и обучение за счет компании
  • Возможность вертикального и горизонтального роста
  • Возможность развиваться как эксперту: выступать на мероприятиях, писать статьи

Крутая команда

  • Профессиональные сообщества и клубы по интересам
  • Неформальные мероприятия: от футбольного клуба до посиделок с пиццей

Еще у нас

  • Материальная помощь при рождении детей и других семейных обстоятельствах
  • Бонусы за рекомендации кандидатов на открытые вакансии
  • Бонусные программы от компаний партнеров

откликнуться

Подходит вакансия? Оставь нам свое резюме и контактные данные