- tocdepth
2
В этом документе
- Обзор ML Space
- Быстрый старт
- Инструкции
- Профиль пользователя ML Space
- Просмотреть аудит-логи сервисов ML Space
- Работа с данными
- Создать бакет S3 ML Space
- Получить credentials к S3
- Получить ссылку на объект в S3 или NFS
- Создать коннектор
- Создать коннектор из ML Space на примере сервисов Advanced
- Операции над коннекторами
- Создать правило переноса
- Операции над правилами переноса данных
- Загрузить данные в хранилище S3 средствами платформы
- Загрузить данные на S3 с помощью сторонних инструментов
- Переместить данные между S3 и NFS
- Узнать или изменить квоты NFS на объем хранилища и количество файлов
- Рекомендации по работе с архивами на NFS
- Работа с Docker-образами
- Пример операций над Docker-образом на платформе ML Space
- Собрать и использовать кастомный Docker-образ для Jupyter Server
- Собрать и использовать кастомный Docker-образ для задачи обучения
- Собрать кастомный Docker-образ для Deployments
- Действия с образами в Docker registry
- Переместить Docker-образ между воркспейсами
- Работа с объектами Artifact Registry
- Работа в Jupyter Server
- Создать Jupyter Server
- Использовать инструменты, установленные в образе jupyter-server
- Подключиться к существующему Jupyter Server
- Перевод Jupyter Server из одного региона в другой
- Остановить или удалить Jupyter Server
- Работать из терминала Jupyter/JupyterLab
- Действия с библиотеками в образах Jupyter Server
- Использовать Jupyter Server со Spark
- Пример запуска задачи с использованием Spark
- Подключиться по SSH к Jupyter Server
- Создать окружение в Jupyter Server с требуемой версией Python
- Удалить виртуальное окружение
- Подключиться к Jupyter Server по SSH в PyCharm
- Подключиться к Jupyter Server по SSH в Visual Studio Code
- Обучение моделей
- Примеры препроцессинга данных
- Установить библиотеки из Git-репозитория
- Запустить процесс обучения
- Обучить модель с использованием PyTorch Elastic Learning
- Обучить модель с использованием библиотеки Horovod
- Сохранить промежуточные результаты обучения (чекпоинты)
- Провести эксперимент
- Подключиться по SSH к задаче обучения из терминала
- Мониторинг в ML Space
- Использовать GitLab CI при работе с Environments
- Развертывание и эксплуатация моделей
- Начало работы с деплоями
- Сериализовать модель для использования в Deployments
- Скрипты для прогнозирования на основе обученных моделей
- Провалидировать serving-скрипт
- Создать образ для деплоя
- Развернуть модель (создать деплой)
- Отправить синхронный HTTP-запрос к развернутой модели
- Отправить асинхронный HTTP-запрос к развернутой модели
- Пайплайны
- Data Catalog и Artifact Registry
- Environments
- Deployments
- Пайплайны
- AI Marketplace
- CLI-утилита и client_lib
- Функция client_lib
- CLI-утилита ML Space
- Описание команд и параметров
- Создание с помощью CLI-утилиты окружения с нужной версией Python и CUDA
- Активация окружения и установка пакетов
- Экспорт текущего окружения в виде yml-файла
- Отправка и получение окружения
- Установка PyTorch в текущее окружение
- Обновление текущего окружения с помощью yml-файла
- Удаление окружения
- Подключиться по SSH к задаче обучения
- Справочник API
- Обучающие материалы
- Решение проблем
- Решение проблем при работе с данными
- Решение проблем при обучении моделей
- Ошибка NCCL WARN в логах задачи обучения
- Ошибка «Permission denied, please try again» при запуске задачи обучения
- Tensorflow/Pytorch не видит GPU, низкая скорость обучения
- При выполнении команды «torch.cuda.is_available()» возвращается «False»
- Ошибка «CUDA error: an illegal memory access was encountered»
- Решение проблем при работе с Jupyter Servers
- Решение проблем при развертывании и эксплуатации моделей
- Не получается подключиться к GitLab ML Space через SSH
- Вопросы и ответы
- Тарификация
- Термины и сокращения
- Лицензии для компонентов Open Source
- Обратиться в поддержку
Была ли статья полезной?
Запустили Evolution free tier
для Dev & Test
Получить
для Dev & Test