Docs

Есть вопрос по ML Space? Спроси GPT-бота

Начать работу
Все документы
AI Cloud ML Space. Руководство пользователя
  • Обзор ML Space
    • Преимущества
    • Возможности
    • Параметры оборудования
    • Ограничения и особенности
    • Что нового
    • Навигация
    • Обзорная страница
      • Воркспейсы
      • Доступы и роли
  • Быстрый старт
  • Инструкции
    • Профиль пользователя ML Space
      • Создать воркспейс
      • Действия над воркспейсами
      • Совместная работа в воркспейсе
      • Удалить воркспейс
      • Просмотреть ключи для работы с платформой
      • Перенести данные и артефакты между воркспейсами
      • Заказать детализацию за период
    • Работа с данными
      • Создать пользовательский бакет
      • Использовать OBS Advanced в ML Space
      • Credentials S3 и путь до файла на S3
      • Создать коннектор
      • Создать коннектор из ML Space к базе данных SQL на примере сервиса Advanced
      • Операции над коннекторами
      • Правила переноса данных
      • Загрузить данные в хранилище S3
      • Загрузить файлы с помощью Boto3
      • Переместить данные между S3 и NFS
      • Расширить дисковое пространство NFS
      • Работа с архивами
    • Работа с Docker образами
      • Пример операций над Docker-образом на платформе ML Space
      • Работа с кастомными Docker-образами
      • Собрать кастомный образ на основе базового для деплоя
      • Пример сборки кастомного образа для деплоя
      • Действия с образами в Docker registry
      • Переместить docker-образ между воркспейсами
    • Работа с объектами Artifact Registry
      • Работа с готовыми датасетами из Dataset registry
      • Работа с готовыми моделями в Model registry
    • Работа в Jupyter Server
      • Создать Jupyter Server на основе базового образа или образа DataHub
      • Создать новый Jupyter Server на основе пользовательского образа
      • Создать новый Jupyter Server с доступом к кластеру Spark
      • Запустить задачу на кластере Spark
      • Подключиться к существующему Jupyter Server
      • Перевод Jupyter Server из одного региона в другой
      • Остановить или удалить Jupyter Server
      • Работать из терминала Jupyter/JupyterLab
      • Действия с библиотеками в образах Jupyter Server
      • Использовать Jupyter Server со Spark
      • Подключиться по SSH к Jupyter Server
      • Создать Jupyter Server с нужной версией Python
      • Удалить виртуальное окружение
      • Удаленная отладка в Pycharm по SSH
      • Удаленная отладка в Visual Studio Code по SSH
    • Обучение моделей
      • Препроцессинг данных
      • Установить библиотеки из склонированного Git-репозитория
      • Запустить процесс обучения
      • Обучить модель с использованием Pytorch Elastic Learning
      • Обучить модель с использованием библиотеки Horovod
      • Сохранить промежуточные результаты обучения (checkpoints)
      • Провести эксперимент
      • Подключиться по SSH к исполняемой задаче обучения из терминала
      • Обратная связь по задаче обучения
    • Мониторинг
      • Проверить статистику по задачам и Jupyter Server
      • Проверить загрузку оборудования
      • Проверить модели в TensorBoard
      • Мониторинг аллокаций
    • Использовать GitLab CI при работе с Environments
    • Развертывание и эксплуатация моделей
      • Загрузить файлы на S3-хранилище и собрать образ для деплоя
      • Создать образ для деплоя
      • Развернуть модель (создать деплой)
      • Использование обученной модели в рамках сервиса Deployments
      • Скрипты для прогнозирования на основе обученных моделей
      • Валидация serving-скрипта
      • Отправить синхронный HTTP-запрос к развернутой модели
      • Отправить асинхронный HTTP-запрос к развернутой модели
    • Пайплайны
      • Создать или отредактировать пайплайн
      • Работа с разными видами пайплайнов
      • Посмотреть логи пайплайна
  • Data Catalog
    • Обзор хранилища (Файловый менеджер)
      • Действия над папками и файлами
      • Работа с данными
    • Data transfer service
    • Artifact registry
      • Базовые концепции модуля Docker registry
  • Environments
    • Регионы размещения ресурсов
    • Образы для Jupyter Server
    • Советы по оптимизации процесса обучения
    • Использование ресурсов
    • Мониторинг моделей
  • Deployments
    • Типы деплоев
    • Регионы размещения ресурсов
    • Образы для деплоев и обучения моделей
    • Карточка деплоя и образа
  • Пайплайны
  • AI Marketplace
    • Подача заявки на размещение
    • DataHub
      • ruGPT-3 & family
    • AI Services
      • Сервис SaluteSpeech
      • Детекция номеров авто
      • Entity recognition
      • Text classification
  • Функция client_lib
    • Job
    • S3CopyJob
    • ImageBuildJob
    • EraserJob
    • Общие команды
      • Команды копирования
    • Отключенные параметры client_lib
  • Справочник API
    • Начало работы
    • Отправка запроса через Postman
    • Аутентификация
    • Работа с Docker registry через API
  • Обучающие материалы
  • Вопросы и ответы
    • Общие
    • Главная страница
    • Работа с разными регионами
    • Работа с данными
      • Artifact registry
    • Окружения и Jupyter Server
    • Задачи обучения
    • Spark
    • Развертывание и эксплуатация моделей
      • Асинхронные вызовы
    • Пайплайны
    • AI Marketplace
  • Тарификация
  • Термины и сокращения
  • Лицензии для компонентов Open Source
  • Обратиться в поддержку
AI Cloud ML Space. Руководство пользователя
  • Главная
  • Инструкции
  • Мониторинг
ML Space

Мониторинг

Мониторинг в рамках модуля Environments платформы ML Space.

В этом разделе

  • Проверить статистику по задачам и Jupyter Server
  • Проверить загрузку оборудования
  • Проверить модели в TensorBoard
  • Мониторинг аллокаций

Была ли статья полезной?

НазадОбратная связь по задаче обучения
ДалееПроверить статистику по задачам и Jupyter Server

© Авторские права 2023, Cloud.ru

Собрано при помощи Sphinx с использованием темы, предоставленной Read the Docs.