- tocdepth
2
Что нового
2024
Декабрь
- Подключение индивидуальных Jupyter Servers в старые воркспейсы
Для использования индивидуальных Jupyter Servers в воркспейсах, созданных до 01.11.2024, обновите воркспейс.
- Мониторинг Jupyter Server
Добавлена вкладка мониторинга в карточке Jupyter Server. В нее также можно попасть, перейдя в
и нажав .- Оповещения о зависании задач обучения
Автоматизировали параметр
action
из группыhealth_params
в client-lib и публичном API. При зависании задача остановится или перезапустится в зависимости от того, какое значение параметра было задано.- Названия воркспейсов в профиле
Стали активными, и по ним можно перейти.
- Завершение поддержки сервисов S3
28 февраля 2025 года прекратим поддержку и скроем из интерфейса
Объектное хранилище ML Space,
сервисы DataHub, Model Registry и Dataset Registry.
Сохраните метаинформацию из Dataset Registry и Model Registry, если она необходима вам для дальнейшей работы. Вместо S3 ML Space используйте другие сервисы Cloud.ru: Object Storage Service Advanced или Object Storage Evolution, вместо DataHub — Маркетплейс.
- Переносы в приватные каталоги
Добавлена возможность переносить данные на NFS через Data Transfer Service в пространство индивидуальных Jupyter Server — NFS ML Space Personal Directory.
Ноябрь
- Индивидуальные Jupyter Server
Индивидуальный Jupyter Server — изолированный Jupyter Server, который доступен только пользователю, создавшему его. Сейчас использовать такой сервер можно в новых воркспейсах, созданных после 1 ноября 2024.
- Мониторинг утилизации ресурсов
Благодаря интеграции с сервисом клиентского мониторинга MonaaS появился мониторинг утилизации ресурсов. Это позволяет управлять загрузкой вычислительных мощностей и оптимизировать их во время работы с Jupyter Server и обучения моделей.
- Обновления ролевой модели
Теперь можно назначать пользователям роли на воркспейсы.
- Мониторинг зависания задач обучения
Появилась возможность настроить уведомления о зависании задач в Telegram или на email.
- Обновлен образ
jupyter-server
-
Исправлены ошибки в функциях нового файлового браузера:
CopyPath;
ShowInBrowser;
скачивание, копирование, распаковка файлов;
загрузка файлов в JupyterLab.
Улучшено автодополнение команд в терминале.
Исправлена ошибка, при которой файловый браузер относился к нескольким Jupyter Server.
В конфигурации sshd по умолчанию увеличено количество возможных соединений SSH для стабильной одновременной работы нескольких пользователей.
- Реорганизация документации
Переработали структуру, чтобы упростить дерево статей. Создали раздел Концепции и собрали в нем:
описания модулей, из которых состоит платформа, и логики работы с ней;
статьи про основные сущности и понятия платформы;
справочную информация — список образов, описание ролей, параметров, ограничений.
- Обновления в API Data Transfer Service
Начинаем отказываться от устаревших API-методов и помечаем их как deprecated. В будущем не гарантируется их стабильная работа. Просим проверить наличие deprecated-методов по документации Data Transfer Service и обновить их на новые.
- Изменения схемы логирования переносов
18 февраля 2025 года полностью отказываемся от старой схемы логирования переносов в Data Transfer Service. Обновите существующие периодические переносы и пайплайны, в которых используется API Data Transfer Service.
Если работаете через API, пересоздайте необходимые правила переносов с параметром
legacy = false
. Замените deprecated-методыGET /public/v2/data_transfer/v1/transfers/{transfer_id}/logs
,GET /public/v2/data_transfer/v2/transfer/aicloud-logs/{transfer_id}
наGET /public/v2/data_transfer/v2/events/list
.Если используете UI, перейдите в Создать новую версию.
, найдите нужное правило переноса, откройте меню и нажмитеЕсли остаться на старой схеме логирования, в API response придут пустые логи и возникнет ошибка 404.
Октябрь
- Готовимся к завершению поддержки хранилища S3 ML Space в декабре
Ресурсы в S3 теперь доступны только для чтения. Подготовили руководство по миграции файлов из S3 ML Space в Object Storage Service Advanced и Object Storage Evolution.
- Отображение проектов с нулевым балансом
Проекты и воркспейсы ML Space остаются видимыми в меню личного кабинета независимо от состояния бюджета проекта.
- Кастомные коннекторы в правилах переноса
Перенос данных из S3 ML Space в сторонние S3 теперь возможен не только по API, но и через интерфейс Data Transfer Service.
- Проверки при запуске задач через API
Проверяем тип инстанса, на котором вы можете запустить задачу. Если нужного в регионе нет, оповещаем об этом.
- Улучшение работы с задачами обучения
Повысили стабильность задач типа
pytorch_elastic
и улучшили отображение статуса задач с перезапуском.- Улучшенная навигация
Переключать воркспейс можно из меню по одному клику, а не только из профиля.
Сентябрь
- Прекращение поддержки некоторых методов client_lib и публичного API
При использовании устаревших методов или параметров client-lib и публичного API вы получите сообщение с предупреждением и альтернативными вариантами.
- Обновление образа
jupyter-server
В новой версии 0.0.96 добавлены:
плагин jupyter-archive;
собственный плагин для работы с файловым браузером — можно добавлять браузеры для любой директории, создается браузер по умолчанию для каталогов
/workspace
и/home/jovyan
;плагин torch-tb-profiler;
пакет GigaChat;
переработаны права на удаление SSH-ключей.
Теперь можно отключать уведомления собственного плагина в JupyterLab.
Решены проблемы с cwd при внедрении мультибраузеров и удалением ключей в SSH.
Август
- Новый образ без conda для Jupyter Server
Образ jupyter-cuda12.3-pt2.4.0:0.0.95 позволяет работать без conda. В нем:
установлены CUDA версии 12.3 и Pytorch версии 2.4.0;
переработаны права на удаление SSH-ключей;
добавлен tmux.
- Новые примеры запуска задач в документации
Обновили примеры запуска задач обучения на GitHub — добавили фреймворки Hugging Face, PyTorch Elastic Learning и PyTorch Lightning.
- Новый канал уведомлений об исчерпании лимитов NFS
Подключите уведомления на email о том, что использовано 80%, 90%, 98% и 100% от лимита на объем или количество файлов.
- Бакеты S3 Evolution в правилах переноса
Вы можете указать бакет S3 Evolution в качестве источника или места назначения при создании правил переноса.
- Новые образы 0.0.40 для задач обучения
В образах
py3.10-torch2.3.0
,py3.11-torch2.3.0
,py3.11-torch2.4.0
обновлены версии Python и PyTorch.
Июль
- Просмотр имени пользователя, создавшего Jupyter Server
В интерфейсе ML Space при работе с Jupyter Server отображается имя пользователя, создавшего его.
- Новый раздел в документации: решение проблем при работе с ML Space
В разделе собрали типовые ошибки и описали способы их решения.
- Уведомления об исчерпании inodes и объема хранилища NFS
По умолчанию подключенные уведомления приходят только в личный кабинет. Чтобы быстрее реагировать на исчерпание места, подключите уведомления в Telegram.
Уведомления приходят, когда использовано 80%, 90%, 98% и 100% от лимита на объем или количество файлов.
- Больше ресурсов в некоторых конфигурациях instance_type
В регионах Cloud.Region.HP1 и Cloud.Region.HP добавили instance_type, позволяющие использовать до 1,5 ТБ RAM.
Июнь
- Запуск Jupyter Server на CPU
Теперь вы можете создавать Jupyter Server на CPU в регионах Cloud.Region.HP (SR006), Christofari.A100 (A100-MT) от 8 vCPU и выше. Это позволит:
Использовать вычисления на CPU в Jupyter Server. Такие Jupyter Server могут быть использованы для обработки данных, обучения моделей, запуска Tensorboard и ботов.
Использовать Jupyter Server на CPU, если у вас закончились бесплатные Jupyter Server.
- Новые статусы задач обучения
В раздел Задачи и окружения выведены дополнительные статусы задачи:
«Inqueue» — задача находится в очереди на запуск;
«Starting» — ресурсы аллоцированы, скачивается образ, и запускаются воркеры.
- Индикатор загруженности ресурсов задачами обучения в аллокации
В разделе Задачи и окружения добавили возможность просматривать:
занятость ресурсов аллокации задачами обучения и Jupyter Server;
общий перечень выполняемых задач в аллокации;
свободные ресурсы аллокации.
- Унификация названий регионов в интерфейсе
К названиям регионов в интерфейсе ML Space добавлены ключи регионов (cluster-key).
Май
- Логи ноутбуков, переносов данных и задач обучения в разделе Аудит-логирование
Чтобы посмотреть логи событий ML Space, необходимо выбрать в качестве сервиса-источника MLS-NTB (Jupyter Servers), MLS Data Transfer и MLSpace.Jobs. Список статусов приведен в Справочнике событий.
- Уведомления в колокольчике вне зависимости от платформы
Уведомления от ML Space появятся в колокольчике, даже если вы находитесь на другой платформе Cloud.ru.
- Новый параметр internet в client_lib
Использование параметра
internet
дает возможность доступа в интернет из задач обучения в регионах, где такая возможность прежде отсутствовала.До 04.07.2024, если новый параметр
internet
не будет указан, то действие параметров forbid_internet и forbid_s3 при запуске задач обучения сохранится прежним.После 04.07.2024 параметры forbid_internet и forbid_s3 будут отключены. Вместо них используйте параметр internet.
- Обновление образа
jupyter-server
В новой версии 0.0.95:
убрали фантомные уведомления;
повысили стабильность работы Tensorboard;
оптимизировали авторизацию в Jupyter Server;
улучшили отзывчивость и скорость работы интерфейса Jupyter Server.
обновили версию mlspace-sdk до 0.23.2:
добавили возможность обновления client_lib независимо от версии Jupyter Server;
обновили механику подключения по SSH через CLI в задачах обучения;
поправили отображение версии CUDA и Python в CLI.
Апрель
- Отключение полного лога для новых правил переноса
При создании правил переноса доступна единственная схема логирования. В ней события одного типа удобно группируются в одну запись, которая содержит общее количество объектов и путь до последнего из них.
- Универсальные образы для задач обучения, совместимые со всеми регионами
В образах py3.10-torch2.1.2:0.0.40 и py3.10-torch2.2.2:0.0.40 нет привязки к установленной версии CUDA. Это позволяет использовать образы для задач обучения в любом регионе.
Март
- Перезапуск задачи из интерфейса
Задачу обучения можно перезапустить вручную через интерфейс. Будет создана новая наследуемая задача с теми же параметрами, что и у родительской.
- Быстрый способ сообщить об ошибке с задачей
Создать заявку в техническую поддержку теперь можно из списка задач.
Как быстро сообщить о проблеме с задачей обучения в техническую поддержку?
- Публичные коннекторы
Сделать коннектор публичным, то есть доступным всем пользователям воркспейса, можно при создании через интерфейс платформы или с помощью публичного API v3.
- Обучающие материалы по Distributed Data Parallel (DDP) в PyTorch
Опубликованы теоретические и практические материалы по использованию DDP в обучении моделей.
- Обновление образа
jupyter-server
В новой версии 0.0.94:
вернули плагин Tensorboard;
обновили версию Jupyter Notebook до 7;
поправили проблемы использования переменных окружения при использовании SSH подключения к Jupyter Notebook;
обновили версию mlspace-sdk до 0.22.2;
добавили возможность использования SSH в задачах обучения;
поработали над компактностью, теперь образ весит 1,4 ГБ.
Февраль
- Обучающие материалы по большим языковым моделям (LLM)
Опубликованы теоретические и практические материалы по обучению больших языковых моделей.
- Новый регион Cloud.Region.HP
Для запуска задач обучения в этом регионе используйте образы версии 0.0.37 и тип
'pytorch2'
.- Новый образ
jupyter-server:0.0.92
В образе версии 0.0.92 повышены стабильность, скорость работы и удобство использования.
Январь
- Обновления для логов задач обучения
Для задач обучения с заданным количеством запусков теперь можно скачать логи отдельно по каждому запуску.
Сообщения в логах об изменении статусов воркеров стали более читаемыми.
- Обновление публичных SSH-ключей Jupyter Server для повышения безопасности
Необходимо обновить публичные SSH-ключи на локальных машинах.
2023
Декабрь
- Информация о запусках задачи
В разделе Задачи и окружения можно узнать фактическое и максимально возможное количество запусков для каждой задачи обучения.
- Переход на домен
*.cloud.ru
С 12.12.2023 изменятся URL-адреса для доступа к Jupyter Servers, docker-образам, SSH, GitLab и public API. Переведите на новый домен технические решения, в которых используются эти ресурсы.
- Обновления в форме выбора образа при создании Jupyter Server
В интерфейсе отображается больше информации об образе: доступность в регионах, дата загрузки, версии установленных Python, CUDA, Tensorflow. Появилась возможность выбрать версию образа и найти нужный образ по названию.
Создать Jupyter Server и подключиться к нему через интерфейс ML Space
Ноябрь
- Лимит на количество файлов в NFS
Узнать лимит на количество файлов в хранилище NFS теперь можно на главной странице или из раздела Воркспейсы.
- Новый параметр legacy в пайплайнах
Через параметр
legacy
вы можете задать схему логирования при создании правила переноса в пайплайнах.- Новые образы, в которых установлены новая версия CUDA и Python
Образы для задач обучения с тегом 0.0.36, в которых установлены версии CUDA до 12.1, Python до 3.11, Torch до 2.0.
- Новый образ jupyter-server, в который можно установить требуемые версии Python и CUDA
В образ
cr.ai.cloud.ru/aicloud-jupyter/jupyter-server
версии 0.0.90 и выше можно установить требуемые версии CUDA и Python.
Октябрь
- Мониторинг зависших задач в client_lib и API
С помощью
health_params
в client_lib и в API можно отслеживать зависшие задачи обучения и задавать, какие действия выполнять в случае зависания.- При указании несуществующего образа задача не запустится через client_lib или API
Если запустить задачу с несуществующим образом через client_lib или API, это вызовет ошибку. Задача не будет отправлена на выполнение в регион и не займет ресурсы.
Вы можете выбрать корректный образ из списка образов для задач обучения, а также создать или загрузить собственный кастомный образ.
- Обновления в логах переносов
Появилась новая схема логирования. В ней события одного типа группируются в одну запись, которая содержит количество объектов и путь до последнего.
Сентябрь
- Новый параметр checkpoints_dir в client_lib
Использование параметра
checkpoints_dir
упрощает сохранение промежуточных результатов обучения модели, если в задаче обучения возникли технические ошибки.- Индикация загруженности типа конфигурации при создании Jupyter Server
При создании Jupyter Server рядом с названием конфигурации отображается цветовая индикация, которая показывает загруженность ресурсов.
Создать Jupyter Server и подключиться к нему через интерфейс ML Space
Июль
- Расширенный статус подов деплоя
Добавили в карточку деплоя новую вкладку с информацией о последних 200 экземплярах деплоя, включая статус и тарифицируемое время.
для Dev & Test