tocdepth

2

Что нового

2024

Декабрь

Подключение индивидуальных Jupyter Servers в старые воркспейсы

Для использования индивидуальных Jupyter Servers в воркспейсах, созданных до 01.11.2024, обновите воркспейс.

Мониторинг Jupyter Server

Добавлена вкладка мониторинга в карточке Jupyter Server. В нее также можно попасть, перейдя в Environments → Jupyter Servers и нажав Кнопка с тремя вертикальными точками.

Оповещения о зависании задач обучения

Автоматизировали параметр action из группы health_params в client-lib и публичном API. При зависании задача остановится или перезапустится в зависимости от того, какое значение параметра было задано.

Названия воркспейсов в профиле

Стали активными, и по ним можно перейти.

Завершение поддержки сервисов S3

28 февраля 2025 года прекратим поддержку и скроем из интерфейса

  • Объектное хранилище ML Space,

  • сервисы DataHub, Model Registry и Dataset Registry.

Сохраните метаинформацию из Dataset Registry и Model Registry, если она необходима вам для дальнейшей работы. Вместо S3 ML Space используйте другие сервисы Cloud.ru: Object Storage Service Advanced или Object Storage Evolution, вместо DataHub — Маркетплейс.

Переносы в приватные каталоги

Добавлена возможность переносить данные на NFS через Data Transfer Service в пространство индивидуальных Jupyter Server — NFS ML Space Personal Directory.

Ноябрь

Индивидуальные Jupyter Server

Индивидуальный Jupyter Server — изолированный Jupyter Server, который доступен только пользователю, создавшему его. Сейчас использовать такой сервер можно в новых воркспейсах, созданных после 1 ноября 2024.

Мониторинг утилизации ресурсов

Благодаря интеграции с сервисом клиентского мониторинга MonaaS появился мониторинг утилизации ресурсов. Это позволяет управлять загрузкой вычислительных мощностей и оптимизировать их во время работы с Jupyter Server и обучения моделей.

Обновления ролевой модели

Теперь можно назначать пользователям роли на воркспейсы.

Мониторинг зависания задач обучения

Появилась возможность настроить уведомления о зависании задач в Telegram или на email.

Обновлен образ jupyter-server

В новой версии 0.0.97:

  • Исправлены ошибки в функциях нового файлового браузера:

    • CopyPath;

    • ShowInBrowser;

    • скачивание, копирование, распаковка файлов;

    • загрузка файлов в JupyterLab.

  • Улучшено автодополнение команд в терминале.

  • Исправлена ошибка, при которой файловый браузер относился к нескольким Jupyter Server.

  • В конфигурации sshd по умолчанию увеличено количество возможных соединений SSH для стабильной одновременной работы нескольких пользователей.

Реорганизация документации

Переработали структуру, чтобы упростить дерево статей. Создали раздел Концепции и собрали в нем:

  • описания модулей, из которых состоит платформа, и логики работы с ней;

  • статьи про основные сущности и понятия платформы;

  • справочную информация — список образов, описание ролей, параметров, ограничений.

Обновления в API Data Transfer Service

Начинаем отказываться от устаревших API-методов и помечаем их как deprecated. В будущем не гарантируется их стабильная работа. Просим проверить наличие deprecated-методов по документации Data Transfer Service и обновить их на новые.

Изменения схемы логирования переносов

18 февраля 2025 года полностью отказываемся от старой схемы логирования переносов в Data Transfer Service. Обновите существующие периодические переносы и пайплайны, в которых используется API Data Transfer Service.

  • Если работаете через API, пересоздайте необходимые правила переносов с параметром legacy = false. Замените deprecated-методы GET /public/v2/data_transfer/v1/transfers/{transfer_id}/logs, GET /public/v2/data_transfer/v2/transfer/aicloud-logs/{transfer_id} на GET /public/v2/data_transfer/v2/events/list.

  • Если используете UI, перейдите в Data Catalog → Data transfer service → Правила переносов, найдите нужное правило переноса, откройте меню и нажмите Создать новую версию.

  • Если остаться на старой схеме логирования, в API response придут пустые логи и возникнет ошибка 404.

Октябрь

Готовимся к завершению поддержки хранилища S3 ML Space в декабре

Ресурсы в S3 теперь доступны только для чтения. Подготовили руководство по миграции файлов из S3 ML Space в Object Storage Service Advanced и Object Storage Evolution.

Отображение проектов с нулевым балансом

Проекты и воркспейсы ML Space остаются видимыми в меню личного кабинета независимо от состояния бюджета проекта.

Кастомные коннекторы в правилах переноса

Перенос данных из S3 ML Space в сторонние S3 теперь возможен не только по API, но и через интерфейс Data Transfer Service.

Проверки при запуске задач через API

Проверяем тип инстанса, на котором вы можете запустить задачу. Если нужного в регионе нет, оповещаем об этом.

Улучшение работы с задачами обучения

Повысили стабильность задач типа pytorch_elastic и улучшили отображение статуса задач с перезапуском.

Улучшенная навигация

Переключать воркспейс можно из меню по одному клику, а не только из профиля.

Сентябрь

Прекращение поддержки некоторых методов client_lib и публичного API

При использовании устаревших методов или параметров client-lib и публичного API вы получите сообщение с предупреждением и альтернативными вариантами.

Обновление образа jupyter-server

В новой версии 0.0.96 добавлены:

  • плагин jupyter-archive;

  • собственный плагин для работы с файловым браузером — можно добавлять браузеры для любой директории, создается браузер по умолчанию для каталогов /workspace и /home/jovyan;

  • плагин torch-tb-profiler;

  • пакет GigaChat;

  • переработаны права на удаление SSH-ключей.

Теперь можно отключать уведомления собственного плагина в JupyterLab.

Решены проблемы с cwd при внедрении мультибраузеров и удалением ключей в SSH.

Август

Новый образ без conda для Jupyter Server

Образ jupyter-cuda12.3-pt2.4.0:0.0.95 позволяет работать без conda. В нем:

  • установлены CUDA версии 12.3 и Pytorch версии 2.4.0;

  • переработаны права на удаление SSH-ключей;

  • добавлен tmux.

Список установленных пакетов в образе

Новые примеры запуска задач в документации

Обновили примеры запуска задач обучения на GitHub — добавили фреймворки Hugging Face, PyTorch Elastic Learning и PyTorch Lightning.

Обучающие материалы

Новый канал уведомлений об исчерпании лимитов NFS

Подключите уведомления на email о том, что использовано 80%, 90%, 98% и 100% от лимита на объем или количество файлов.

Бакеты S3 Evolution в правилах переноса

Вы можете указать бакет S3 Evolution в качестве источника или места назначения при создании правил переноса.

Новые образы 0.0.40 для задач обучения

В образах py3.10-torch2.3.0, py3.11-torch2.3.0, py3.11-torch2.4.0 обновлены версии Python и PyTorch.

Список установленных пакетов в образе

Июль

Просмотр имени пользователя, создавшего Jupyter Server

В интерфейсе ML Space при работе с Jupyter Server отображается имя пользователя, создавшего его.

Новый раздел в документации: решение проблем при работе с ML Space

В разделе собрали типовые ошибки и описали способы их решения.

Уведомления об исчерпании inodes и объема хранилища NFS

По умолчанию подключенные уведомления приходят только в личный кабинет. Чтобы быстрее реагировать на исчерпание места, подключите уведомления в Telegram.

Уведомления приходят, когда использовано 80%, 90%, 98% и 100% от лимита на объем или количество файлов.

Больше ресурсов в некоторых конфигурациях instance_type

В регионах Cloud.Region.HP1 и Cloud.Region.HP добавили instance_type, позволяющие использовать до 1,5 ТБ RAM.

Документация client_lib

Июнь

Запуск Jupyter Server на CPU

Теперь вы можете создавать Jupyter Server на CPU в регионах Cloud.Region.HP (SR006), Christofari.A100 (A100-MT) от 8 vCPU и выше. Это позволит:

  • Использовать вычисления на CPU в Jupyter Server. Такие Jupyter Server могут быть использованы для обработки данных, обучения моделей, запуска Tensorboard и ботов.

  • Использовать Jupyter Server на CPU, если у вас закончились бесплатные Jupyter Server.

Новые статусы задач обучения

В раздел Задачи и окружения выведены дополнительные статусы задачи:

  • «Inqueue» — задача находится в очереди на запуск;

  • «Starting» — ресурсы аллоцированы, скачивается образ, и запускаются воркеры.

Индикатор загруженности ресурсов задачами обучения в аллокации

В разделе Задачи и окружения добавили возможность просматривать:

  • занятость ресурсов аллокации задачами обучения и Jupyter Server;

  • общий перечень выполняемых задач в аллокации;

  • свободные ресурсы аллокации.

Унификация названий регионов в интерфейсе

К названиям регионов в интерфейсе ML Space добавлены ключи регионов (cluster-key).

Май

Логи ноутбуков, переносов данных и задач обучения в разделе Аудит-логирование

Чтобы посмотреть логи событий ML Space, необходимо выбрать в качестве сервиса-источника MLS-NTB (Jupyter Servers), MLS Data Transfer и MLSpace.Jobs. Список статусов приведен в Справочнике событий.

Уведомления в колокольчике вне зависимости от платформы

Уведомления от ML Space появятся в колокольчике, даже если вы находитесь на другой платформе Cloud.ru.

Новый параметр internet в client_lib

Использование параметра internet дает возможность доступа в интернет из задач обучения в регионах, где такая возможность прежде отсутствовала.

До 04.07.2024, если новый параметр internet не будет указан, то действие параметров forbid_internet и forbid_s3 при запуске задач обучения сохранится прежним.

После 04.07.2024 параметры forbid_internet и forbid_s3 будут отключены. Вместо них используйте параметр internet.

Описание параметра internet

Обновление образа jupyter-server

В новой версии 0.0.95:

  • убрали фантомные уведомления;

  • повысили стабильность работы Tensorboard;

  • оптимизировали авторизацию в Jupyter Server;

  • улучшили отзывчивость и скорость работы интерфейса Jupyter Server.

  • обновили версию mlspace-sdk до 0.23.2:

Апрель

Отключение полного лога для новых правил переноса

При создании правил переноса доступна единственная схема логирования. В ней события одного типа удобно группируются в одну запись, которая содержит общее количество объектов и путь до последнего из них.

Универсальные образы для задач обучения, совместимые со всеми регионами

В образах py3.10-torch2.1.2:0.0.40 и py3.10-torch2.2.2:0.0.40 нет привязки к установленной версии CUDA. Это позволяет использовать образы для задач обучения в любом регионе.

Март

Перезапуск задачи из интерфейса

Задачу обучения можно перезапустить вручную через интерфейс. Будет создана новая наследуемая задача с теми же параметрами, что и у родительской.

Как перезапустить задачу обучения

Быстрый способ сообщить об ошибке с задачей

Создать заявку в техническую поддержку теперь можно из списка задач.

Как быстро сообщить о проблеме с задачей обучения в техническую поддержку?

Публичные коннекторы

Сделать коннектор публичным, то есть доступным всем пользователям воркспейса, можно при создании через интерфейс платформы или с помощью публичного API v3.

Как поделиться коннектором

Обучающие материалы по Distributed Data Parallel (DDP) в PyTorch

Опубликованы теоретические и практические материалы по использованию DDP в обучении моделей.

Обновление образа jupyter-server

В новой версии 0.0.94:

  • вернули плагин Tensorboard;

  • обновили версию Jupyter Notebook до 7;

  • поправили проблемы использования переменных окружения при использовании SSH подключения к Jupyter Notebook;

  • обновили версию mlspace-sdk до 0.22.2;

  • добавили возможность использования SSH в задачах обучения;

  • поработали над компактностью, теперь образ весит 1,4 ГБ.

Февраль

Обучающие материалы по большим языковым моделям (LLM)

Опубликованы теоретические и практические материалы по обучению больших языковых моделей.

Новый регион Cloud.Region.HP

Для запуска задач обучения в этом регионе используйте образы версии 0.0.37 и тип 'pytorch2'.

Новый образ jupyter-server:0.0.92

В образе версии 0.0.92 повышены стабильность, скорость работы и удобство использования.

Январь

Обновления для логов задач обучения

Для задач обучения с заданным количеством запусков теперь можно скачать логи отдельно по каждому запуску.

Сообщения в логах об изменении статусов воркеров стали более читаемыми.

Как проверить логи после запуска обучения

Обновление публичных SSH-ключей Jupyter Server для повышения безопасности

Необходимо обновить публичные SSH-ключи на локальных машинах.

Ошибка WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

2023

Декабрь

Информация о запусках задачи

В разделе Задачи и окружения можно узнать фактическое и максимально возможное количество запусков для каждой задачи обучения.

Переход на домен *.cloud.ru

С 12.12.2023 изменятся URL-адреса для доступа к Jupyter Servers, docker-образам, SSH, GitLab и public API. Переведите на новый домен технические решения, в которых используются эти ресурсы.

Переход на домен cloud.ru

Обновления в форме выбора образа при создании Jupyter Server

В интерфейсе отображается больше информации об образе: доступность в регионах, дата загрузки, версии установленных Python, CUDA, Tensorflow. Появилась возможность выбрать версию образа и найти нужный образ по названию.

Создать Jupyter Server и подключиться к нему через интерфейс ML Space

Ноябрь

Лимит на количество файлов в NFS

Узнать лимит на количество файлов в хранилище NFS теперь можно на главной странице или из раздела Воркспейсы.

Узнать или изменить квоты NFS

Новый параметр legacy в пайплайнах

Через параметр legacy вы можете задать схему логирования при создании правила переноса в пайплайнах.

Описание параметров пайплайнов

Новые образы, в которых установлены новая версия CUDA и Python

Образы для задач обучения с тегом 0.0.36, в которых установлены версии CUDA до 12.1, Python до 3.11, Torch до 2.0.

Список библиотек в базовых образах для задач обучения

Новый образ jupyter-server, в который можно установить требуемые версии Python и CUDA

В образ cr.ai.cloud.ru/aicloud-jupyter/jupyter-server версии 0.0.90 и выше можно установить требуемые версии CUDA и Python.

Октябрь

Мониторинг зависших задач в client_lib и API

С помощью health_params в client_lib и в API можно отслеживать зависшие задачи обучения и задавать, какие действия выполнять в случае зависания.

При указании несуществующего образа задача не запустится через client_lib или API

Если запустить задачу с несуществующим образом через client_lib или API, это вызовет ошибку. Задача не будет отправлена на выполнение в регион и не займет ресурсы.

Вы можете выбрать корректный образ из списка образов для задач обучения, а также создать или загрузить собственный кастомный образ.

Обновления в логах переносов

Появилась новая схема логирования. В ней события одного типа группируются в одну запись, которая содержит количество объектов и путь до последнего.

Операции над правилами переноса данных

Сентябрь

Новый параметр checkpoints_dir в client_lib

Использование параметра checkpoints_dir упрощает сохранение промежуточных результатов обучения модели, если в задаче обучения возникли технические ошибки.

Описание параметра checkpoints_dir

Индикация загруженности типа конфигурации при создании Jupyter Server

При создании Jupyter Server рядом с названием конфигурации отображается цветовая индикация, которая показывает загруженность ресурсов.

Создать Jupyter Server и подключиться к нему через интерфейс ML Space

Июль

Расширенный статус подов деплоя

Добавили в карточку деплоя новую вкладку с информацией о последних 200 экземплярах деплоя, включая статус и тарифицируемое время.

Как проверить состояние деплоя

Запустили Evolution free tier
для Dev & Test
Получить