tocdepth

2

Что нового

2024

Июнь

Добавили возможность запуска Jupyter Server на CPU

Теперь вы можете создавать Jupyter Server на CPU в регионах Cloud.Region.HP (SR006), Christofari.A100 (A100-MT) от 8 vCPU и выше. Это позволит:

  • Использовать вычисления на CPU в Jupyter Server. Такие Jupyter Server могут быть использованы для обработки данных, обучения моделей, запуска Tensorboard и ботов.

  • Использовать Jupyter Server на CPU, если у вас закончились бесплатные Jupyter Server.

Расширили статусы задач обучения

В раздел Задачи и окружения выведены дополнительные статусы задачи:

  • «Inqueue» — задача находится в очереди на запуск;

  • «Starting» — ресурсы аллоцированы, скачивается образ, и запускаются воркеры.

Добавили индикатор загруженности ресурсов в аллокации задачами обучения

В разделе Задачи и окружения добавили возможность просматривать:

  • занятость ресурсов аллокации задачами обучения и Jupyter Server;

  • общий перечень выполняемых задач в аллокации;

  • свободные ресурсы аллокации.

Унифицированы названия регионов в интерфейсе

К названиям регионов в интерфейсе ML Space добавлены ключи регионов (cluster-key).

Май

В разделе Аудит-логирование доступны логи ноутбуков, переносов данных и задач обучения

Чтобы посмотреть логи событий ML Space, необходимо выбрать в качестве сервиса-источника MLS-NTB (Jupyter Servers), MLS Data Transfer и MLSpace.Jobs. Список статусов приведен в Справочнике событий.

Уведомления в колокольчике вне зависимости от платформы

Уведомления от ML Space появятся в колокольчике, даже если вы находитесь на другой платформе Cloud.ru.

Добавили новый параметр internet в client_lib

Использование параметра internet дает возможность доступа в интернет из задач обучения в регионах, где такая возможность прежде отсутствовала.

До 04.07.2024, если новый параметр internet не будет указан, то действие параметров forbid_internet и forbid_s3 при запуске задач обучения сохранится прежним.

После 04.07.2024 параметры forbid_internet и forbid_s3 будут отключены. Вместо них используйте параметр internet.

Подробнее см. описание параметра internet.

Обновлен образ jupyter-server

В новой версии 0.0.95:

  • убрали фантомные уведомления;

  • повысили стабильность работы Tensorboard;

  • оптимизировали авторизацию в Jupyter Server;

  • улучшили отзывчивость и скорость работы интерфейса Jupyter Server.

  • обновили версию mlspace-sdk до 0.23.2:

Апрель

Отключен полный лог для новых правил переноса

При создании правил переноса доступна единственная схема логирования. В ней события одного типа удобно группируются в одну запись, которая содержит общее количество объектов и путь до последнего из них.

Опубликованы универсальные образы для задач обучения, совместимые со всеми регионами

В образах py3.10-torch2.1.2:0.0.40 и py3.10-torch2.2.2:0.0.40 нет привязки к установленной версии CUDA. Это позволяет использовать образы для задач обучения в любом регионе.

Март

Перезапуск задачи из интерфейса

Задачу обучения можно перезапустить вручную через интерфейс. Будет создана новая наследуемая задача с теми же параметрами, что и у родительской.

Подробнее см. Перезапустить задачу.

Быстрый способ сообщить об ошибке с задачей

Создать заявку в техническую поддержку теперь можно из списка задач.

Подробнее см. Как быстро сообщить о проблеме с задачей обучения в техническую поддержку?

Публичные коннекторы

Сделать коннектор публичным, то есть доступным всем пользователям воркспейса, можно при создании через интерфейс платформы или с помощью публичного API v3.

Подробнее см. Поделиться коннектором.

Обучающие материалы по Distributed Data Parallel (DDP) в PyTorch

Опубликованы теоретические и практические материалы по использованию DDP в обучении моделей.

Обновлен образ jupyter-server

В новой версии 0.0.94:

  • вернули плагин Tensorboard;

  • обновили версию Jupyter Notebook до 7;

  • поправили проблемы использования переменных окружения при использовании SSH подключения к Jupyter Notebook;

  • обновили версию mlspace-sdk до 0.22.2;

  • добавили возможность использования SSH в задачах обучения;

  • поработали над компактностью, теперь образ весит 1,4 ГБ.

Февраль

Обучающие материалы по большим языковым моделям (LLM)

Опубликованы теоретические и практические материалы по обучению больших языковых моделей.

Новый регион Cloud.Region.HP

Для запуска задач обучения в этом регионе используйте образы версии 0.0.37 и тип 'pytorch2'.

Новый образ jupyter-server:0.0.92

В образе версии 0.0.92 повышены стабильность, скорость работы и удобство использования.

Январь

Обновления для работы с логами задач обучения

Для задач обучения с заданным количеством запусков теперь можно скачать логи отдельно по каждому запуску.

Сообщения в логах об изменении статусов воркеров стали более читаемыми.

Подробнее см. Проверить логи после запуска обучения.

Обновление публичных SSH-ключей Jupyter Server для повышения безопасности

Необходимо обновить публичные SSH-ключи на локальных машинах.

Подробнее см. Обновление публичных ключей для SSH.

2023

Декабрь

Информация о запусках задачи

В разделе Задачи и окружения можно узнать фактическое и максимально возможное количество запусков для каждой задачи обучения.

Подробнее см. Проверить статистику по задачам и Jupyter Server.

Переход на домен *.cloud.ru

С 12.12.2023 изменятся URL-адреса для доступа к Jupyter Servers, docker-образам, SSH, GitLab и public API. Переведите на новый домен технические решения, в которых используются эти ресурсы.

Подробнее см. Переход на домен cloud.ru.

Обновления в форме выбора образа при создании Jupyter Server

В интерфейсе отображается больше информации об образе: доступность в регионах, дата загрузки, версии установленных Python, CUDA, Tensorflow. Появилась возможность выбрать версию образа и найти нужный образ по названию.

Подробнее см. Создать Jupyter Server.

Ноябрь

Лимит на количество файлов в NFS

Узнать лимит на количество файлов в хранилище NFS теперь можно на главной странице или из раздела Воркспейсы.

Подробнее см. Узнать или изменить квоты NFS.

Добавили новый параметр legacy в пайплайнах

Через параметр legacy вы можете задать схему логирования при создании правила переноса в пайплайнах.

Подробнее см. Параметры корневого уровня.

Опубликованы образы, в которых установлены новая версия CUDA и Python

Образы для задач обучения с тегом 0.0.36, в которых установлены версии CUDA до 12.1, Python до 3.11, Torch до 2.0.

Подробнее см. Библиотеки в базовых образах для задач обучения.

Опубликован образ jupyter-server, в который можно установить требуемые версии Python и CUDA

В образ cr.ai.cloud.ru/aicloud-jupyter/jupyter-server версии 0.0.90 и выше можно установить требуемые версии CUDA и Python.

Октябрь

Мониторинг зависших задач в client_lib и API

С помощью health_params в client_lib и в API можно отслеживать зависшие задачи обучения и задавать, какие действия выполнять в случае зависания.

При указании несуществующего образа задача не запустится через client_lib или API

Если запустить задачу с несуществующим образом через client_lib или API, это вызовет ошибку. Задача не будет отправлена на выполнение в регион и не займет ресурсы.

Вы можете выбрать корректный образ из списка образов для задач обучения, а также создать или загрузить собственный кастомный образ.

Обновления в логах переносов

Появилась новая схема логирования. В ней события одного типа группируются в одну запись, которая содержит количество объектов и путь до последнего.

Подробнее см. Операции над правилами переноса данных.

Сентябрь

Новый параметр checkpoints_dir в client_lib

Использование параметра checkpoints_dir упрощает сохранение промежуточных результатов обучения модели, если в задаче обучения возникли технические ошибки.

Подробнее см. checkpoints_dir.

Индикация загруженности типа конфигурации при создании Jupyter Server

При создании Jupyter Server рядом с названием конфигурации отображается цветовая индикация, которая показывает загруженность ресурсов.

Подробнее см. Создать Jupyter Server.

Июль

Расширенный статус подов деплоя

Добавили в карточку деплоя новую вкладку с информацией о последних 200 экземплярах деплоя, включая статус и тарифицируемое время.

Подробнее см. Проверить состояние деплоя.

Запустили Evolution free tier
для Dev & Test
Получить