Общие вопросы Distributed Train
Как получить тестовый доступ к Distributed Train?
Для получения тестового доступа необходимо оставить соответствующую заявку на нашем сайте. По факту заявки с вами свяжутся по телефону для уточнения деталей. После выдачи ресурсов Distributed Train в тест вы получите письмо с деталями доступа к личному кабинету Cloud.ru (console.cloud.ru) и инструкцией о том, как начать работу.
Какие условия пользовательского соглашения при подключении к Distributed Train?
Типовые документы представлены на нашем сайте.
Как обеспечивается конфиденциальность пользовательских данных?
Работа с пользовательскими данными регулируется законодательными актами федерального уровня и внутренней политикой компании Cloud.ru. Политика конфиденциальности опубликована на нашем сайте. Distributed Train соответствует требованиям федерального закона ФЗ-152 «О персональных данных», уровня УЗ-1.
Что делать, если пропал доступ к Distributed Train/Cloud.ru?
Если пропал доступ, попробуйте обновить пароль. В случае неуспешной авторизации нажмите Забыли пароль, указав в строке для логина почту, по которой осуществляли первичную авторизацию. После этих действий на вашу почту придет новое приглашение. Перейдите по ссылке из почты в Личный кабинет Cloud.ru и введите новый пароль.
Ссылка на смену пароля действует в течение 15 минут.
Как восстановить забытый пароль?
На странице входа console.cloud.ru введите свой логин или email, а затем воспользуйтесь ссылкой Восстановить пароль.
На почту придет письмо со ссылкой на сброс пароля и создание нового. Если письмо не пришло, проверьте папку «Спам».
Какие требования к браузеру для работы с Distributed Train?
Для оптимальной производительности рекомендуем использовать самую свежую версию одного из следующих браузеров:
Google Chrome (рекомендуемый)
Яндекс.Браузер. Нестабильная работа терминала Jupyter Server из Яндекс.Браузера в образах Jupyter Server версии 0.0.92 и выше.
Что делать, если задача долго находится в очереди?
Так как задачи от разных пользователей выполняются поочередно, в случае большой нагрузки на регион размещения вычислительных ресурсов время ожидания запуска задачи может быть увеличено.
Как оценить стоимость обучения модели?
Это сильно зависит от конкретной модели и данных, а также от количества задействованных DGX, заранее предсказать невозможно, можно сделать тестовый замер следующим образом:
Запустить модель на обучение на небольшой промежуток времени (например, на 3 минуты) и посмотреть по логам, за сколько посчитается одна эпоха.
Умножить на количество эпох, это будет примерная стоимость.
Какие сведения можно предоставить при обращении в техническую поддержку?
Для ускорения решения возникшей проблемы, при обращении в техническую поддержку советуем предоставить следующую информацию.
Общая информация для всех модулей Distributed Train:
Название воркспейса (подробнее в Воркспейсы).
Регион размещения ресурсов (подробнее в Регионы размещения ресурсов).
Информация по модулю Environments:
Название Jupyter Server/задачи (подробнее в Создать Jupyter Server и подключиться к нему через интерфейс Distributed Train).
Образ (если использовался кастомный образ, уточнить на основе какого образа он собирался и предоставить содержимое файла requirements или dockerfile) (подробнее в Собрать и использовать кастомный Docker-образ для Jupyter Server).
Информация по модулю Data Catalog:
Снимок экрана, на котором указаны источник и место назначения переноса.
Снимок экрана, на котором указано наличие ожидаемого файла в источнике.
Лог из Data transfer service.
Информация по модулю Deployments:
Название деплоя.
Образ, который был использован для создания (если использовался кастомный образ, уточнить на основе какого образа он собирался и предоставить содержимое файла requirements, serving-script, dockerfile) (подробнее в Собрать и использовать кастомный Docker-образ для Jupyter Server).
Можно ли экспортировать таблицу из раздела «Задачи и окружения»?
Да, можно.
Для этого перейдите на возле строки поиска и выберите требуемый формат файла для экспорта (CSV или XLS).
Можно ли осуществлять обработку транзакций по системе блок-чейн в Distributed Train?
Нет. Обработка транзакций по системе блок чейн, в том числе «майнинг», запрещены. Данное условие закреплено в договоре-оферте (Приложение № 3).
При открытии страницы сервиса возникает ошибка «Нет доступа». Что делать?
Проверьте права пользователя.
Нет прав на выполнение метода API. Что делать?
Если при выполнении метода API в ответе приходит ошибка Permission denied с кодом 403, проверьте права пользователя. При недостатке прав попросите администратора изменить роль.
Какие статусы существуют у Jupyter Server?
Статус | Описание |
---|---|
«Запускается» | Jupyter Server в процессе создания или запуска. |
«Подключен» | Jupyter Server запущен. |
«Останавливается» | Jupyter Server в процессе остановки. |
«На паузе» | Jupyter Server остановлен. |
«Предупреждение» | Jupyter Server создан некорректно. Попробуйте пересоздать его позднее. |
«Ошибка» | Jupyter Server создан с ошибкой. |
«Нет соединения» | Статус «Нет соединения» возникает в случае неполадок на стороне Distributed Train. Обратитесь в техническую поддержку. |
Какие статусы существуют у задач обучения?
Статус | Описание |
---|---|
«Pending» | Задача находится в ожидании ресурсов. |
«Inqueue» | Задача находится в очереди на запуск. |
«Starting» | Ресурсы аллоцированы, происходит скачивание образов и запуск воркеров. |
«Running» | Задача обучения выполняется. |
«Completed» | Задача обучения завершилась. |
«Completing» | Задача обучения завершается. |
«Failed» | Задача обучения завершилась с ошибкой, рекомендуется проверить логи задачи. |
«Deleted» или «Terminated» | Задача обучения удалена. |
«Stopped» или «Aborted» | Задача обучения остановлена. |
«Terminating» | Задача обучения останавливается. Освобождаются ресурсы, задача и поды удаляются. |
«Aborting» | Задача обучения останавливается. Освобождаются ресурсы, удаляются только поды. |
Какие статусы существуют у подов задач обучения?
Статус | Описание |
---|---|
«Pending» |
|
«Running» | Под в процессе работы. |
«Completed» | Под завершил работу. |
«Stopped» | Пользователь вручную остановил задачу и поэтому под остановился. |
«Failed» | Под завершил работу с ошибкой, рекомендуется проверить логи задачи. |
«Deleted» или «Terminated» | Под удален. |
Какие статусы существуют у экземпляров деплоев?
Статус | Описание |
---|---|
«Pending» | Экземпляр находится в очереди на выделение ресурсов, которые нужны для его работы. |
«Running» | Экземпляр принимает и обрабатывает запросы, но необязательно в данный момент. |
«Deleted» | Экземпляр удален. |
Можно ли обратиться из Jupyter Server к деплою, созданному в другом регионе?
Да. В регионах Christofari.A100, Cloud.Region.A100 (GPU Tesla A100), Cloud.Region.HP1 отправка запроса будет успешной.
Не получится отправить запрос из Jupyter Server региона Christofari.V100 к деплою, созданному в другом регионе.
Что произойдет, когда закончится баланс?
При достижении нулевого значения баланса будут удалены:
Jupyter Server с выделенными GPU,
задачи обучения,
деплои.
После пополнения баланса удаленные сущности нужно будет запускать заново.
Данные на NFS останутся нетронутыми.
Актуальный баланс можно посмотреть в профиле пользователя.
Как получить логи Jupyter Server, переносов данных и задач обучения в справочнике логов?
Чтобы посмотреть логи событий Distributed Train, необходимо выбрать в качестве сервиса-источника MLS-NTB (Jupyter Servers), MLS Data Transfer и MLSpace.Jobs. Список статусов приведен в Справочнике событий.
- Как получить тестовый доступ к Distributed Train?
- Какие условия пользовательского соглашения при подключении к Distributed Train?
- Как обеспечивается конфиденциальность пользовательских данных?
- Что делать, если пропал доступ к Distributed Train/Cloud.ru?
- Как восстановить забытый пароль?
- Какие требования к браузеру для работы с Distributed Train?
- Что делать, если задача долго находится в очереди?
- Как оценить стоимость обучения модели?
- Какие сведения можно предоставить при обращении в техническую поддержку?
- Можно ли экспортировать таблицу из раздела «Задачи и окружения»?
- Можно ли осуществлять обработку транзакций по системе блок-чейн в Distributed Train?
- При открытии страницы сервиса возникает ошибка «Нет доступа». Что делать?
- Нет прав на выполнение метода API. Что делать?
- Какие статусы существуют у Jupyter Server?
- Какие статусы существуют у задач обучения?
- Какие статусы существуют у подов задач обучения?
- Какие статусы существуют у экземпляров деплоев?
- Можно ли обратиться из Jupyter Server к деплою, созданному в другом регионе?
- Что произойдет, когда закончится баланс?
- Как получить логи Jupyter Server, переносов данных и задач обучения в справочнике логов?