Distributed Train

Обучить модель с использованием PyTorch Elastic Learning

PyTorch Elastic Learning позволяет при обучении моделей масштабировать вычислительные ресурсы в зависимости от их доступности.

Инструмент подходит для задач обучения, требующих динамического менеджмента ресурсов. Например, если необходимо запустить задачу на десяти выделенных серверах, а на момент запуска доступно только восемь, с PyTorch Elastic Learning возможно запустить задачу на восьми серверах Как только ресурсы высвободятся, добавятся оставшиеся два сервера.

Кроме того, PyTorch Elastic Learning обеспечивает отказоустойчивость. Если в ходе обучения отказал один из выделенных серверов, то задача перезапустится с последнего чекпоинта.

Подсказка

Сохраняйте чекпоинты, чтобы не потерять результаты обучения модели, если возникнут проблемы.

Чтобы запустить задачу с PyTorch Elastic Learning, используйте параметр type, равный pytorch_elastic в client_lib.

См.также

PyTorch Elastic Learning в документации client_lib

Особенности использования

Версия PyTorch
Установка параметров для обучения

См.также

PyTorch Elastic Learning в документации PyTorch

Предыдущая статья

Выбрать узлы для задачи обучения

Следующая статья

Обучить модель с использованием библиотеки Horovod

Была ли эта статья полезна?

Поддержка Юридические документы