Технический эксперт по развитию наблюдаемости
Обязанности
- Разработка методологии и требования к данным, для обеспечения наблюдаемости
- Проводить анализ потоков данных и метрик в системах мониторинга и наблюдаемости;
- Проверять данные на полноту, корректность и соответствие требованиям, использовать подходы Data QA для обеспечения качества и достоверности данных;
- Детально разбирать инциденты и выявлять причины проблем с данными (исследование логов, трассировок, метрик, работа с ETL), документировать ошибки и вносить предложения по их устранению, вести структурированную базу знаний;
- Оформлять и поддерживать техническую документацию: схемы потоков, чек-листы, инструкции, описание архитектуры;
- Принимать участие во внедрении и поддержке стандартов и методик контроля качества данных (Data Reliability/Observability Best Practices);
- Участвовать в развитии и поддержке in-house платформы мониторинга: вносить улучшения, автоматизировать процессы контроля и проверки данных.
- Распространять и внедрять эти процессы и стандарты: делиться компетенциями, создавать обучающие материалы\инструкции, консультировать команды разработчиков и сопровождения;
Требования
- Знаете, как сделать отказоустойчивый масштабируемый сервис
- Имеете опыт написания и ревью технической документации
- Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev)
- Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
- Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production
- Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности
- Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
Имеете опыт внедрения observability-as-code и alerting-as-code
Будет плюсом, если вы:
- Имеете практический опыт работы SRE
- Знаете, как сделать отказоустойчивый масштабируемый сервис
- Имеете опыт написания и ревью технической документации
- Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
Условия
- Оформление в соответствии с трудовым законодательством РФ
- Достойный уровень дохода: оклад + годовой бонус
- Расширенный ДМС со стоматологией
- Компенсация спорта
- Штатный терапевт и психолог
- Гибкий график работы, пятница — сокращенный рабочий день
- Классный офис в Москве и
- Возможность работать в гибридном формате
- Культура, в основе которой эмпатия, уважение, открытость и свобода строить рабочий процесс так, как считаешь нужным
- Полезные перекусы
откликнуться
Подходит вакансия? Оставь нам свое резюме и контактные данные

№1 на рынке искусственного интеллекта
CNews Analytics, 2023

№1 по темпам роста IaaS-сервисов
Data Center Awards 2023

№1 по PaaS-сервисам
iKS-Consulting, 2022

№1 в рейтинге лучших работодателей в сфере облачных услуг
Telecom Daily, 2023
