Что нового
2025
Март
- Обновлен образ jupyter-server
появились встроенные примеры ноутбуков, которые можно посмотреть на gitverse или отправить на NFS;
в интерфейс Jupyter Server добавлены виджеты мониторинга (CPU, RAM, хранилище);
JupyterLab обновлен до версии 4.3.5;
при возникновении ошибки Server Connection Error в JupyterLab ноутбук автоматически пытается восстановить связь.
Февраль
- Самостоятельное регулирование квот NFS
- Автовыключение Jupyter Server
- Остановка Jupyter Server с кастомными образами
- Метод для просмотра доступных ресурсов
- Причины ошибки OOMkilled в логах задачи
- Управление доступом пользователей воркспейса через личный кабинет
- Обновления мониторинга аллокаций
- Устаревшие методы API Data Transfer Service
Теперь вы можете изменять квоты на объем хранилища в зависимости от утилизации в каждом регионе. Максимальное значение указано в интерфейсе.
При создании Jupyter Server появилась возможность задавать для него расписание автоматической остановки выключения.
Появилась возможность останавливать Jupyter Server с пользовательским образом в интерфейсе JupyterLab.
Добавили в client_lib метод get_available_resources_count для определения количества воркеров, на которых можно запустить задачу обучения с учетом instance_type.
Добавили в логи статус задачи и информацию для случая, когда она завершилась с ошибкой OOMkilled, и описали возможные решения.
Теперь добавить или удалить пользователей из воркспейса может только администратор воркспейса в личном кабинете.
Добавили возможность просматривать общее количество GPU в Jupyter Server и общее количество Jupyter Server по фильтрам в разделе Environments → Аллокации.
Отказались от устаревших API-методов и пометили их как deprecated. Стабильная работа методов не гарантируется.
Январь
- Обновления в API Data Transfer Service
- Асинхронные версии API-методов Jupyter Server
- Документация по сборке образа для задачи на основе любого образа
Теперь в методах для создания (Create Transfer) и изменения (Update Transfer) правил переноса нет параметра legacy = truе и работает новая схема логирования. Замените устаревшие методы на новые — они указаны в описаниях к методам в документации Data Transfer Service.
18 февраля методы получения логов Get Transfer Logs и Transfer Logs станут недоступны. Получать логи необходимо через метод Event Logs по новой схеме логирования. Чтобы использовать ее, обновите существующие периодические переносы и пайплайны, иначе в API response будут пустые логи или ошибки 404.
В публичный API добавлены новые асинхронные методы для удаления и остановки Jupyter Servers. Старые методы удаления и остановки остаются доступными.
Описали, как собрать Docker-образ для задачи обучения на основе любого пользовательского образа, а не только базовых образов платформы.
2024
Декабрь
- Подключение индивидуальных Jupyter Servers в старые воркспейсы
- Мониторинг Jupyter Server
- Оповещения о зависании задач обучения
- Названия воркспейсов в профиле
- Завершение поддержки сервисов S3
Объектное хранилище ML Space,
сервисы DataHub, Model Registry и Dataset Registry.
- Переносы в приватные каталоги
Для использования индивидуальных Jupyter Servers в воркспейсах, созданных до 01.11.2024, обновите воркспейс.
Добавлена вкладка мониторинга в карточке Jupyter Server.
В нее также можно попасть, перейдя в Environments → Jupyter Servers и нажав .
Автоматизировали параметр action из группы health_params в client-lib и публичном API. При зависании задача остановится или перезапустится в зависимости от того, какое значение параметра было задано.
Стали активными, и по ним можно перейти.
28 февраля 2025 года прекратим поддержку и скроем из интерфейса
Сохраните метаинформацию из Dataset Registry и Model Registry, если она необходима вам для дальнейшей работы. Вместо S3 ML Space используйте другие сервисы Cloud.ru: Object Storage Service Advanced или Object Storage Evolution, вместо DataHub — Маркетплейс.
Добавлена возможность переносить данные на NFS через Data Transfer Service в пространство индивидуальных Jupyter Server — NFS ML Space Personal Directory.
Ноябрь
- Индивидуальные Jupyter Server
- Мониторинг утилизации ресурсов
- Обновления ролевой модели
- Мониторинг зависания задач обучения
- Обновлен образ jupyter-server
Исправлены ошибки в функциях нового файлового браузера:
CopyPath;
ShowInBrowser;
скачивание, копирование, распаковка файлов;
загрузка файлов в JupyterLab.
Улучшено автодополнение команд в терминале.
Исправлена ошибка, при которой файловый браузер относился к нескольким Jupyter Server.
В конфигурации sshd по умолчанию увеличено количество возможных соединений SSH для стабильной одновременной работы нескольких пользователей.
- Реорганизация документации
описания модулей, из которых состоит платформа, и логики работы с ней;
статьи про основные сущности и понятия платформы;
справочную информация — список образов, описание ролей, параметров, ограничений.
- Обновления в API Data Transfer Service
- Изменения схемы логирования переносов
Если работаете через API, пересоздайте необходимые правила переносов с параметром legacy = false. Замените deprecated-методы GET /public/v2/data_transfer/v1/transfers/{transfer_id}/logs, GET /public/v2/data_transfer/v2/transfer/aicloud-logs/{transfer_id} на GET /public/v2/data_transfer/v2/events/list.
Если используете UI, перейдите в Data Catalog → Data transfer service → Правила переносов, найдите нужное правило переноса, откройте меню и нажмите Создать новую версию.
Если остаться на старой схеме логирования, в API response придут пустые логи и возникнет ошибка 404.
Индивидуальный Jupyter Server — изолированный Jupyter Server, который доступен только пользователю, создавшему его. Сейчас использовать такой сервер можно в новых воркспейсах, созданных после 1 ноября 2024.
Благодаря интеграции с сервисом клиентского мониторинга MonaaS появился мониторинг утилизации ресурсов. Это позволяет управлять загрузкой вычислительных мощностей и оптимизировать их во время работы с Jupyter Server и обучения моделей.
Теперь можно назначать пользователям роли на воркспейсы.
Появилась возможность настроить уведомления о зависании задач в Telegram или на email.
Переработали структуру, чтобы упростить дерево статей. Создали раздел Концепции и собрали в нем:
Начинаем отказываться от устаревших API-методов и помечаем их как deprecated. В будущем не гарантируется их стабильная работа. Просим проверить наличие deprecated-методов по документации Data Transfer Service и обновить их на новые.
18 февраля 2025 года полностью отказываемся от старой схемы логирования переносов в Data Transfer Service. Обновите существующие периодические переносы и пайплайны, в которых используется API Data Transfer Service.
Октябрь
- Готовимся к завершению поддержки хранилища S3 ML Space в декабре
- Отображение проектов с нулевым балансом
- Кастомные коннекторы в правилах переноса
- Проверки при запуске задач через API
- Улучшение работы с задачами обучения
- Улучшенная навигация
Ресурсы в S3 теперь доступны только для чтения. Подготовили руководство по миграции файлов из S3 ML Space в Object Storage Service Advanced и Object Storage Evolution.
Проекты и воркспейсы ML Space остаются видимыми в меню личного кабинета независимо от состояния бюджета проекта.
Перенос данных из S3 ML Space в сторонние S3 теперь возможен не только по API, но и через интерфейс Data Transfer Service.
Проверяем тип инстанса, на котором вы можете запустить задачу. Если нужного в регионе нет, оповещаем об этом.
Повысили стабильность задач типа pytorch_elastic и улучшили отображение статуса задач с перезапуском.
Переключать воркспейс можно из меню по одному клику, а не только из профиля.
Сентябрь
- Прекращение поддержки некоторых методов client_lib и публичного API
- Обновление образа jupyter-server
плагин jupyter-archive;
собственный плагин для работы с файловым браузером — можно добавлять браузеры для любой директории, создается браузер по умолчанию для каталогов /workspace и /home/jovyan;
плагин torch-tb-profiler;
пакет GigaChat;
переработаны права на удаление SSH-ключей.
При использовании устаревших методов или параметров client-lib и публичного API вы получите сообщение с предупреждением и альтернативными вариантами.
В новой версии 0.0.96 добавлены:
Теперь можно отключать уведомления собственного плагина в JupyterLab.
Решены проблемы с cwd при внедрении мультибраузеров и удалением ключей в SSH.
Август
- Новый образ без conda для Jupyter Server
установлены CUDA версии 12.3 и Pytorch версии 2.4.0;
переработаны права на удаление SSH-ключей;
добавлен tmux.
- Новые примеры запуска задач в документации
- Новый канал уведомлений об исчерпании лимитов NFS
- Бакеты S3 Evolution в правилах переноса
- Новые образы 0.0.40 для задач обучения
Образ jupyter-cuda12.3-pt2.4.0:0.0.95 позволяет работать без conda. В нем:
Обновили примеры запуска задач обучения на GitHub — добавили фреймворки Hugging Face, PyTorch Elastic Learning и PyTorch Lightning.
Подключите уведомления на email о том, что использовано 80%, 90%, 98% и 100% от лимита на объем или количество файлов.
Вы можете указать бакет S3 Evolution в качестве источника или места назначения при создании правил переноса.
В образах py3.10-torch2.3.0, py3.11-torch2.3.0, py3.11-torch2.4.0 обновлены версии Python и PyTorch.
Июль
- Просмотр имени пользователя, создавшего Jupyter Server
- Новый раздел в документации: решение проблем при работе с ML Space
- Уведомления об исчерпании inodes и объема хранилища NFS
- Больше ресурсов в некоторых конфигурациях instance_type
В интерфейсе ML Space при работе с Jupyter Server отображается имя пользователя, создавшего его.
В разделе собрали типовые ошибки и описали способы их решения.
По умолчанию подключенные уведомления приходят только в личный кабинет. Чтобы быстрее реагировать на исчерпание места, подключите уведомления в Telegram.
Уведомления приходят, когда использовано 80%, 90%, 98% и 100% от лимита на объем или количество файлов.
В регионах Cloud.Region.HP1 и Cloud.Region.HP добавили instance_type, позволяющие использовать до 1,5 ТБ RAM.
Июнь
- Запуск Jupyter Server на CPU
Использовать вычисления на CPU в Jupyter Server. Такие Jupyter Server могут быть использованы для обработки данных, обучения моделей, запуска Tensorboard и ботов.
Использовать Jupyter Server на CPU, если у вас закончились бесплатные Jupyter Server.
- Новые статусы задач обучения
«Inqueue» — задача находится в очереди на запуск;
«Starting» — ресурсы аллоцированы, скачивается образ, и запускаются воркеры.
- Индикатор загруженности ресурсов задачами обучения в аллокации
занятость ресурсов аллокации задачами обучения и Jupyter Server;
общий перечень выполняемых задач в аллокации;
свободные ресурсы аллокации.
- Унификация названий регионов в интерфейсе
Теперь вы можете создавать Jupyter Server на CPU в регионах Cloud.Region.HP (SR006), Christofari.A100 (A100-MT) от 8 vCPU и выше. Это позволит:
В раздел Задачи и окружения выведены дополнительные статусы задачи:
В разделе Задачи и окружения добавили возможность просматривать:
К названиям регионов в интерфейсе ML Space добавлены ключи регионов (cluster-key).
Май
- Логи ноутбуков, переносов данных и задач обучения в разделе Аудит-логирование
- Уведомления в колокольчике вне зависимости от платформы
- Новый параметр internet в client_lib
- Обновление образа jupyter-server
убрали фантомные уведомления;
повысили стабильность работы Tensorboard;
оптимизировали авторизацию в Jupyter Server;
улучшили отзывчивость и скорость работы интерфейса Jupyter Server.
обновили версию mlspace-sdk до 0.23.2:
добавили возможность обновления client_lib независимо от версии Jupyter Server;
обновили механику подключения по SSH через CLI в задачах обучения;
поправили отображение версии CUDA и Python в CLI.
Чтобы посмотреть логи событий ML Space, необходимо выбрать в качестве сервиса-источника MLS-NTB (Jupyter Servers), MLS Data Transfer и MLSpace.Jobs. Список статусов приведен в Справочнике событий.
Уведомления от ML Space появятся в колокольчике, даже если вы находитесь на другой платформе Cloud.ru.
Использование параметра internet дает возможность доступа в интернет из задач обучения в регионах, где такая возможность прежде отсутствовала.
До 04.07.2024, если новый параметр internet не будет указан, то действие параметров forbid_internet и forbid_s3 при запуске задач обучения сохранится прежним.
После 04.07.2024 параметры forbid_internet и forbid_s3 будут отключены. Вместо них используйте параметр internet.
В новой версии 0.0.95:
Апрель
- Отключение полного лога для новых правил переноса
- Универсальные образы для задач обучения, совместимые со всеми регионами
При создании правил переноса доступна единственная схема логирования. В ней события одного типа удобно группируются в одну запись, которая содержит общее количество объектов и путь до последнего из них.
В образах py3.10-torch2.1.2:0.0.40 и py3.10-torch2.2.2:0.0.40 нет привязки к установленной версии CUDA. Это позволяет использовать образы для задач обучения в любом регионе.
Март
- Перезапуск задачи из интерфейса
- Быстрый способ сообщить об ошибке с задачей
- Публичные коннекторы
- Обучающие материалы по Distributed Data Parallel (DDP) в PyTorch
- Обновление образа jupyter-server
вернули плагин Tensorboard;
обновили версию Jupyter Notebook до 7;
поправили проблемы использования переменных окружения при использовании SSH подключения к Jupyter Notebook;
обновили версию mlspace-sdk до 0.22.2;
добавили возможность использования SSH в задачах обучения;
поработали над компактностью, теперь образ весит 1,4 ГБ.
Задачу обучения можно перезапустить вручную через интерфейс. Будет создана новая наследуемая задача с теми же параметрами, что и у родительской.
Создать заявку в техническую поддержку теперь можно из списка задач.
Как быстро сообщить о проблеме с задачей обучения в техническую поддержку?
Сделать коннектор публичным, то есть доступным всем пользователям воркспейса, можно при создании через интерфейс платформы или с помощью публичного API v3.
Опубликованы теоретические и практические материалы по использованию DDP в обучении моделей.
В новой версии 0.0.94:
Февраль
- Обучающие материалы по большим языковым моделям (LLM)
- Новый регион Cloud.Region.HP
- Новый образ jupyter-server:0.0.92
Опубликованы теоретические и практические материалы по обучению больших языковых моделей.
Для запуска задач обучения в этом регионе используйте образы версии 0.0.37 и тип 'pytorch2'.
В образе версии 0.0.92 повышены стабильность, скорость работы и удобство использования.
Январь
- Обновления для логов задач обучения
- Обновление публичных SSH-ключей Jupyter Server для повышения безопасности
Для задач обучения с заданным количеством запусков теперь можно скачать логи отдельно по каждому запуску.
Сообщения в логах об изменении статусов воркеров стали более читаемыми.
Необходимо обновить публичные SSH-ключи на локальных машинах.
2023
Декабрь
- Информация о запусках задачи
- Переход на домен *.cloud.ru
- Обновления в форме выбора образа при создании Jupyter Server
В разделе Задачи и окружения можно узнать фактическое и максимально возможное количество запусков для каждой задачи обучения.
С 12.12.2023 изменятся URL-адреса для доступа к Jupyter Servers, docker-образам, SSH, GitLab и public API. Переведите на новый домен технические решения, в которых используются эти ресурсы.
В интерфейсе отображается больше информации об образе: доступность в регионах, дата загрузки, версии установленных Python, CUDA, Tensorflow. Появилась возможность выбрать версию образа и найти нужный образ по названию.
Создать Jupyter Server и подключиться к нему через интерфейс ML Space
Ноябрь
- Лимит на количество файлов в NFS
- Новый параметр legacy в пайплайнах
- Новые образы, в которых установлены новая версия CUDA и Python
- Новый образ jupyter-server, в который можно установить требуемые версии Python и CUDA
Узнать лимит на количество файлов в хранилище NFS теперь можно на главной странице или из раздела Воркспейсы.
Через параметр legacy вы можете задать схему логирования при создании правила переноса в пайплайнах.
Образы для задач обучения с тегом 0.0.36, в которых установлены версии CUDA до 12.1, Python до 3.11, Torch до 2.0.
В образ cr.ai.cloud.ru/aicloud-jupyter/jupyter-server версии 0.0.90 и выше можно установить требуемые версии CUDA и Python.
Октябрь
- Мониторинг зависших задач в client_lib и API
- При указании несуществующего образа задача не запустится через client_lib или API
- Обновления в логах переносов
С помощью health_params в client_lib и в API можно отслеживать зависшие задачи обучения и задавать, какие действия выполнять в случае зависания.
Если запустить задачу с несуществующим образом через client_lib или API, это вызовет ошибку. Задача не будет отправлена на выполнение в регион и не займет ресурсы.
Вы можете выбрать корректный образ из списка образов для задач обучения, а также создать или загрузить собственный кастомный образ.
Появилась новая схема логирования. В ней события одного типа группируются в одну запись, которая содержит количество объектов и путь до последнего.
Сентябрь
- Новый параметр checkpoints_dir в client_lib
- Индикация загруженности типа конфигурации при создании Jupyter Server
Использование параметра checkpoints_dir упрощает сохранение промежуточных результатов обучения модели, если в задаче обучения возникли технические ошибки.
При создании Jupyter Server рядом с названием конфигурации отображается цветовая индикация, которая показывает загруженность ресурсов.
Создать Jupyter Server и подключиться к нему через интерфейс ML Space
Июль
- Расширенный статус подов деплоя
Добавили в карточку деплоя новую вкладку с информацией о последних 200 экземплярах деплоя, включая статус и тарифицируемое время.
- 2025
- 2024
- 2023