Облачная платформаEvolution

Общие вопросы Distributed Train

Эта статья полезна?

Как получить тестовый доступ к Distributed Train?

Для получения тестового доступа необходимо оставить соответствующую заявку на нашем сайте. По факту заявки с вами свяжутся по телефону для уточнения деталей. После выдачи ресурсов Distributed Train в тест вы получите письмо с деталями доступа к личному кабинету Cloud.ru (console.cloud.ru) и инструкцией о том, как начать работу.

Какие условия пользовательского соглашения при подключении к Distributed Train?

Типовые документы представлены на нашем сайте.

Как обеспечивается конфиденциальность пользовательских данных?

Работа с пользовательскими данными регулируется законодательными актами федерального уровня и внутренней политикой компании Cloud.ru. Политика конфиденциальности опубликована на нашем сайте. Distributed Train соответствует требованиям федерального закона ФЗ-152 «О персональных данных», уровня УЗ-1.

Что делать, если пропал доступ к Distributed Train?

Если пропал доступ, попробуйте обновить пароль. В случае неуспешной авторизации нажмите Забыли пароль, указав в строке для логина почту, по которой осуществляли первичную авторизацию. После этих действий на вашу почту придет новое приглашение. Перейдите по ссылке из почты в Личный кабинет и введите новый пароль.

Примечание

Ссылка на смену пароля действует в течение 15 минут.

Как восстановить забытый пароль?

На странице входа console.cloud.ru введите свой логин или email, а затем воспользуйтесь ссылкой Восстановить пароль.

На почту придет письмо со ссылкой на сброс пароля и создание нового. Если письмо не пришло, проверьте папку «Спам».

Какие требования к браузеру для работы с Distributed Train?

Для оптимальной производительности рекомендуем использовать самую свежую версию одного из следующих браузеров:

Что делать, если задача долго находится в очереди?

Так как задачи от разных пользователей выполняются поочередно, в случае большой нагрузки на регион размещения вычислительных ресурсов время ожидания запуска задачи может быть увеличено.

Как оценить стоимость обучения модели?

Это сильно зависит от конкретной модели и данных, а также от количества задействованных DGX, заранее предсказать невозможно, можно сделать тестовый замер следующим образом:

  1. Запустить модель на обучение на небольшой промежуток времени (например, на 3 минуты) и посмотреть по логам, за сколько посчитается одна эпоха.

  2. Умножить на количество эпох, это будет примерная стоимость.

Какие сведения можно предоставить при обращении в техническую поддержку?

Для ускорения решения возникшей проблемы, при обращении в техническую поддержку советуем предоставить следующую информацию.

Общая информация для всех модулей Distributed Train:

Информация по модулю Environments:

Информация по модулю Data Transfer:

  • Снимок экрана, на котором указаны источник и место назначения переноса.

  • Снимок экрана, на котором указано наличие ожидаемого файла в источнике.

Информация по модулю Deployments:

Можно ли экспортировать таблицу из раздела «Задачи и окружения»?

Да, можно. Для этого перейдите на Кнопка с тремя вертикальными точками возле строки поиска и выберите требуемый формат файла для экспорта (CSV или XLS).

Можно ли осуществлять обработку транзакций по системе блок-чейн в Distributed Train?

Нет. Обработка транзакций по системе блок чейн, в том числе «майнинг», запрещены. Данное условие закреплено в договоре-оферте (Приложение № 3).

При открытии страницы сервиса возникает ошибка «Нет доступа». Что делать?

Нет прав на выполнение метода API. Что делать?

Если при выполнении метода API в ответе приходит ошибка Permission denied с кодом 403, проверьте права пользователя. При недостатке прав попросите администратора изменить роль.

Какие статусы существуют у Jupyter Server?

Статусы Jupyter Server

Статус

Описание

«Запускается»

Jupyter Server в процессе создания или запуска.

«Подключен»

Jupyter Server запущен.

«Подключен» Иконка правила остановки по расписанию

Jupyter Server запущен, ожидается автовыключение. При наведении на иконку отображается информация по установленному времени автовыключения.

«Подключен» Иконка правила перезагрузки

Jupyter Server запущен, требуется перезапуск. При наведении на иконку отображается информация по установленному времени перезагрузки. Чтобы избежать потери несохраненных данных, перезагрузите Jupyter Server до указанного времени.

«Останавливается»

Jupyter Server в процессе остановки.

«На паузе»

Jupyter Server остановлен.

«Остановлен по расписанию»

Jupyter Server остановлен по расписанию.

«Остановлен по нагрузке»

Jupyter Server остановлен по нагрузке.

«Предупреждение»

Jupyter Server создан некорректно. Попробуйте пересоздать его позднее.

«Ошибка»

Jupyter Server создан с ошибкой.

«Нет соединения»

Статус «Нет соединения» возникает в случае неполадок на стороне Distributed Train. Обратитесь в техническую поддержку.

Какие статусы существуют у задач обучения?

Статусы задач обучения

Статус

Описание

«Pending»

Задача находится в ожидании ресурсов.

«Inqueue»

Задача находится в очереди на запуск.

«Starting»

Ресурсы аллоцированы, происходит скачивание образов и запуск воркеров.

«Running»

Задача обучения выполняется.

«Completed»

Задача обучения завершилась.

«Completing»

Задача обучения завершается.

«Failed»

Задача обучения завершилась с ошибкой, рекомендуется проверить логи задачи.

«Deleted» или «Terminated»

Задача обучения удалена.

«Stopped» или «Aborted»

Задача обучения остановлена.

«Terminating»

Задача обучения останавливается. Освобождаются ресурсы, задача и поды удаляются.

«Aborting»

Задача обучения останавливается. Освобождаются ресурсы, удаляются только поды.

Какие статусы существуют у подов задач обучения?

Статусы подов задач обучения

Статус

Описание

«Pending»

  • Под находится в очереди на выделение ресурсов, которые нужны для его работы.

  • Ресурсы для выполнения пода были заняты, но еще скачивается образ.

«Running»

Под в процессе работы.

«Completed»

Под завершил работу.

«Stopped»

Пользователь вручную остановил задачу и поэтому под остановился.

«Failed»

Под завершил работу с ошибкой, рекомендуется проверить логи задачи.

«Deleted» или «Terminated»

Под удален.

Какие статусы существуют у экземпляров деплоев?

Статусы экземпляров деплоев

Статус

Описание

«Pending»

Экземпляр находится в очереди на выделение ресурсов, которые нужны для его работы.

«Running»

Экземпляр принимает и обрабатывает запросы, но необязательно в данный момент.

«Deleted»

Экземпляр удален.

Можно ли обратиться из Jupyter Server к деплою, созданному в другом регионе?

Да. В регионах Christofari.A100.part2 • SR004, Cloud.Region.A100 (GPU Tesla A100) • SR002, Cloud.Region.HP1 • SR003 отправка запроса будет успешной.

Не получится отправить запрос из Jupyter Server региона Christofari.V100 • DGX2-INF-001 к деплою, созданному в другом регионе.

Что произойдет, когда закончится баланс?

При достижении нулевого значения баланса будут удалены:

  • Jupyter Server с выделенными GPU,

  • задачи обучения,

  • деплои.

После пополнения баланса удаленные сущности нужно будет запускать заново.

Данные на NFS останутся нетронутыми.

Актуальный баланс можно посмотреть в профиле пользователя.

Как получить логи Jupyter Server, переносов данных и задач обучения в справочнике логов?

Чтобы посмотреть логи событий Distributed Train, необходимо выбрать в качестве сервиса-источника MLS-NTB (Jupyter Servers), MLS Data Transfer и MLSpace.Jobs. Список статусов приведен в Справочнике событий.