В этом разделе собраны практические материалы по работе с Distributed Train.
Курс поможет решать задачи машинного обучения на базе платформы Distributed Train и разбираться в платформенном функционале.
Курс расскажет о базовых принципах облачных технологий и подходах к их внедрению. Будет полезен тем, кто только погружается в мир облаков или готовится к миграции в облако.
Обучающие видео, чтобы познакомиться с Distributed Train.
pytorch-example — задача распределенного обучения Pytorch-модели с двумя типами запуска: стандартный horovod и дополнительный pytorch, он же Pytorch.Distributed.
hugging-face-llm-example — работа с языковой моделью методами LoRA и PEFT, а также распределенное обучение с PyTorch Distributed Data Parallel (DDP).
lightning-example — использование PyTorch и PyTorch Lightning для задачи классификации изображений.
pytorch-elastic-example — обучение модели на PyTorch и Elastic Learning с сохранением контрольных точек обучения (чекпоинтов).