yandex

Технический эксперт по развитию наблюдаемости

Продуктовая командаОт 3 до 6 летГибрид
Оставить резюме//

Обязанности

  • Разработка методологии и требования к данным, для обеспечения наблюдаемости
  • Проводить анализ потоков данных и метрик в системах мониторинга и наблюдаемости;
  • Проверять данные на полноту, корректность и соответствие требованиям, использовать подходы Data QA для обеспечения качества и достоверности данных;
  • Детально разбирать инциденты и выявлять причины проблем с данными (исследование логов, трассировок, метрик, работа с ETL), документировать ошибки и вносить предложения по их устранению, вести структурированную базу знаний;
  • Оформлять и поддерживать техническую документацию: схемы потоков, чек-листы, инструкции, описание архитектуры;
  • Принимать участие во внедрении и поддержке стандартов и методик контроля качества данных (Data Reliability/Observability Best Practices);
  • Участвовать в развитии и поддержке in-house платформы мониторинга: вносить улучшения, автоматизировать процессы контроля и проверки данных.
  • Распространять и внедрять эти процессы и стандарты: делиться компетенциями, создавать обучающие материалы\инструкции, консультировать команды разработчиков и сопровождения;

Требования

  • Знаете, как сделать отказоустойчивый масштабируемый сервис
  • Имеете опыт написания и ревью технической документации
  • Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev)
  • Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
  • Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production
  • Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности
  • Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
  • Имеете опыт внедрения observability-as-code и alerting-as-code

    Будет плюсом, если вы:

  • Имеете практический опыт работы SRE
  • Знаете, как сделать отказоустойчивый масштабируемый сервис
  • Имеете опыт написания и ревью технической документации
  • Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения

Условия

  • Оформление в соответствии с трудовым законодательством РФ
  • Достойный уровень дохода: оклад + годовой бонус
  • Расширенный ДМС со стоматологией
  • Компенсация спорта
  • Штатный терапевт и психолог
  • Гибкий график работы, пятница — сокращенный рабочий день
  • Классный офис в Москве и
  • Возможность работать в гибридном формате
  • Культура, в основе которой эмпатия, уважение, открытость и свобода строить рабочий процесс так, как считаешь нужным
  • Полезные перекусы

откликнуться

Подходит вакансия? Оставь нам свое резюме и контактные данные