/
DOCS
Облачная платформа
Evolution
Поиск
В этом документе
Эта статья полезна?
Обзор Distributed Train
Преимущества
Возможности
Ограничения и особенности
Что нового
Быстрый старт
Инструкции
Управление профилем и воркспейсами в Distributed Train
Создать или редактировать воркспейс
Редактировать воркспейс
Обновить воркспейс
Удалить воркспейс
Настроить правила для Jupyter Servers в воркспейсе
Посмотреть квоты Distributed Train на организацию
Посмотреть ключи для работы с Distributed Train
Заказать детализацию потребления
Подключение и работа с источниками данных
Создать и управлять сетевым хранилищем NFS
Создать коннектор
Создать коннектор к экземпляру Relational Database Service SQL Server в Advanced
Операции над коннекторами
Создать правило переноса
Операции над правилами переноса данных
Переместить данные между внешними S3 и NFS
Узнать или изменить квоты NFS на объем хранилища и количество объектов
Скопировать путь до объекта на NFS
Рекомендации по работе с архивами на NFS
Работа в Jupyter Server
Создать Jupyter Server и подключиться к нему через интерфейс Distributed Train
Подключить и управлять хранилищем S3 в Jupyter Server
Настроить автоматическое выключение Jupyter Server
Создать и активировать окружение в запущенном Jupyter Server
Подключиться к Jupyter Server по SSH из локальной IDE или терминала
Установить и обновить библиотеки в созданном Jupyter Server
Собрать и использовать кастомный Docker-образ для Jupyter Server
Подключить дополнительный File Browser
Работа с прокси-сервером в Jupyter Server
Остановить или удалить Jupyter Server
Задачи обучения
Примеры препроцессинга данных
Установить библиотеки из Git-репозитория
Запустить задачу обучения
Подключиться к задаче обучения по SSH
Выбрать узлы для задачи обучения
Обучить модель с использованием PyTorch Elastic Learning
Обучить модель с использованием библиотеки Horovod
Сохранить промежуточные результаты обучения (чекпоинты)
Собрать и использовать кастомный Docker-образ для задачи обучения на основе базового образа
Собрать и использовать кастомный Docker-образ для задачи обучения на основе внешнего образа
Мониторинг в Distributed Train
Посмотреть утилизацию ресурсов
Отслеживать обучение модели с помощью TensorBoard
Подключиться к MLflow и провести эксперимент
Получать уведомления о событиях Distributed Train
Аллокации
Подключить или управлять аллокацией
Посмотреть мониторинг аллокаций
Работа с Docker-образами
Пример операций над Docker-образом на платформе Distributed Train
Собрать кастомный Docker-образ для Deployments
Действия с образами в Docker registry
Переместить Docker-образ между воркспейсами
CLI-утилита и client_lib
Функция client_lib
Job
S3CopyJob
BuildImageJob
Общие команды
Команды для получения доступных конфигураций
Команды копирования
Отключенные функции, параметры и команды client_lib
CLI-утилита Distributed Train
Описание команд и параметров
Экспортировать окружение в виде yml-файла
Отправить и получить окружение
Установить PyTorch в текущее окружение
Обновить окружение с помощью yml-файла
Удалить окружение
Подключиться по SSH к задаче обучения
Использовать GitLab CI при работе с Environments
Развертывание и эксплуатация моделей
Начало работы с деплоями
Сериализовать модель для использования в Deployments
Скрипты для прогнозирования на основе обученных моделей
Провалидировать serving-скрипт
Развернуть модель (создать деплой)
Отправить синхронный HTTP-запрос к развернутой модели
Отправить асинхронный HTTP-запрос к развернутой модели
Практические руководства
Большие языковые модели (LLM)
Возможности языковых моделей
Как работают большие языковые модели?
Как Distributed Train может помочь с LLM?
Общие подходы к настройке и обучению языковой модели
Distributed Data Parallel (DDP) в PyTorch
Общий алгоритм работы с PyTorch DDP
Пример использования PyTorch DDP
Пример создания conda-окружения
Миграция данных из внешних S3 в хранилища Cloud.ru
Миграция данных из внешнего S3 в Advanced
Миграция данных из внешнего S3 в Evolution
Концепции
Модули Distributed Train
Data Transfer
Управление данными в Distributed Train
Data transfer service
Environments
Deployments
Типы деплоев
Карточка деплоя и образа
Docker registry
Воркспейсы
Доступы и роли
Регионы размещения ресурсов и зоны хранения
Аллокации
Типы и особенности Jupyter Servers
Переходы между статусами Jupyter Server
Образы для Jupyter Server
Образы для задач обучения
Образы для деплоев
Переменные окружения для задач обучения
Советы по оптимизации процесса обучения
Лицензии для компонентов Open Source
Мониторинг и управление
Метрики мониторинга
Дашборды мониторинга
Пример создания дашборда по аллокациям
Аудитные логи
Тарификация
Решение проблем
Решение проблем в сервисе Distributed Train при работе с данными
Ошибка «Got permission denied while trying to connect to the Docker daemon» при загрузке образа в Docker registry для Linux
Не получается найти файлы после переноса на один из NFS
Ошибка 503 «No healthy upstream» при скачивании большого файла из NFS
Решение проблем в сервисе Distributed Train при обучении моделей
Ошибка NCCL WARN в логах задачи обучения
Ошибка «Permission denied, please try again» при запуске задачи обучения
Tensorflow/Pytorch не видит GPU, низкая скорость обучения
При выполнении команды «torch.cuda.is_available()» возвращается «False»
Ошибка «CUDA error: an illegal memory access was encountered»
Задача завершилась с ошибкой OOMKilled
Решение проблем в сервисе Distributed Train при работе с Jupyter Servers
Ошибки при работе с окружениями, созданными с помощью CLI
Не получается установить CUDA средствами conda
Проблемы с подключением по SSH к Jupyter Server
Не могу создать Jupyter Server
Ошибки при недостатке места в NFS
Нестабильная работа терминала Jupyter Server из Яндекс.Браузера
При скачивании из Jupyter Server файлов свыше 1 ГБ пропадает доступ к интерфейсу
Нет доступа к GitLab из Jupyter Server
Решение проблем в сервисе Distributed Train при развертывании и эксплуатации моделей
Проблемы при выполнении асинхронного вызова
Не получается подключиться к GitLab Distributed Train через SSH
Справочник API
Аутентификация в API Distributed Train
Начало работы с API
Отправка API-запроса через Postman
Работа с Docker registry через API
Устаревшие методы API и client_lib
Вопросы и ответы
Общие вопросы Distributed Train
Вопросы по воркспейсам
Вопросы по регионам
Вопросы по подключению и работе с источниками данных
Docker registry
Вопросы по окружениям и Jupyter Server
Вопросы по задачам обучения
Вопросы по развертыванию и эксплуатации моделей
Вопросы по асинхронным вызовам
Обратиться в поддержку
Поддержка
Юридические документы
© 2026 Cloud.ru