Обзор Distributed Train
Distributed Train — сервис для распределенного обучения ML-моделей и совместной работы DS-команд. Сервис позволяет ускорить, оптимизировать и упростить процесс обучения моделей, препроцессинга данных и развертывания моделей на высокопроизводительной инфраструктуре с целью последующего обращения к этим моделям для распознавания или прогнозирования по новым данным.
Начните знакомство с Distributed Train, изучив:
как устроен профиль пользователя и как разграничивать доступы в разделе Управление профилем и воркспейсами в Distributed Train;
как начать работу и запустить первую задачу в разделе Начало работы с Distributed Train;
подробные инструкции по каждому модулю Distributed Train;
примеры запуска задач обучения на фреймворках Hugging Face, PyTorch Elastic Learning, PyTorch Lightning и других.