- tocdepth
2
Что нового
2024
Ноябрь
- Обновления ролевой модели
Теперь можно назначать пользователям роли на воркспейсы.
- Мониторинг зависания задач обучения
Появилась возможность настроить уведомления о зависании задач.
- Обновлен образ
jupyter-server
-
Исправлены ошибки в функциях нового файлового браузера:
CopyPath;
ShowInBrowser;
скачивание, копирование, распаковка файлов;
загрузка файлов в JupyterLab.
Улучшено автодополнение команд в терминале.
Исправлена ошибка, при которой файловый браузер относился к нескольким Jupyter Server.
В конфигурации sshd по умолчанию увеличено количество возможных соединений SSH для стабильной одновременной работы нескольких пользователей.
- Реорганизация документации
Переработали структуру, чтобы упростить дерево статей. Создали раздел Концепции и собрали в нем:
описания модулей, из которых состоит платформа, и логики работы с ней;
статьи про основные сущности и понятия платформы;
справочную информация — список образов, описание ролей, параметров, ограничений.
Октябрь
- Готовимся к завершению поддержки хранилища S3 ML Space в декабре
Ресурсы в S3 теперь доступны только для чтения. Подготовили руководство по миграции файлов из S3 ML Space в Object Storage Service Advanced и Object Storage Evolution.
- Отображение проектов с нулевым балансом
Проекты и воркспейсы ML Space остаются видимыми в меню личного кабинета независимо от состояния бюджета проекта.
- Кастомные коннекторы в правилах переноса
Перенос данных из S3 ML Space в сторонние S3 теперь возможен не только по API, но и через интерфейс Data Transfer Service.
- Проверки при запуске задач через API
Проверяем тип инстанса, на котором вы можете запустить задачу. Если нужного в регионе нет, оповещаем об этом.
- Улучшение работы с задачами обучения
Повысили стабильность задач типа
pytorch_elastic
и улучшили отображение статуса задач с перезапуском.- Улучшенная навигация
Переключать воркспейс можно из меню по одному клику, а не только из профиля.
Сентябрь
- Прекращение поддержки некоторых методов client_lib и публичного API
При использовании устаревших методов или параметров client-lib и публичного API вы получите сообщение с предупреждением и альтернативными вариантами.
- Обновление образа
jupyter-server
В новой версии 0.0.96 добавлены:
плагин jupyter-archive;
собственный плагин для работы с файловым браузером — можно добавлять браузеры для любой директории, создается браузер по умолчанию для каталогов
/workspace
и/home/jovyan
;плагин torch-tb-profiler;
пакет GigaChat;
переработаны права на удаление SSH-ключей.
Теперь можно отключать уведомления собственного плагина в JupyterLab.
Решены проблемы с cwd при внедрении мультибраузеров и удалением ключей в SSH.
Август
- Новый образ без conda для Jupyter Server
Образ jupyter-cuda12.3-pt2.4.0:0.0.95 позволяет работать без conda. В нем:
установлены CUDA версии 12.3 и Pytorch версии 2.4.0;
переработаны права на удаление SSH-ключей;
добавлен tmux.
Подробнее о списке установленных пакетов в образе.
- Новые примеры запуска задач в документации
Обновили примеры запуска задач обучения на GitHub — добавили фреймворки Hugging Face, PyTorch Elastic Learning и PyTorch Lightning.
Подробнее в Обучающих материалах.
- Новый канал уведомлений об исчерпании лимитов NFS
Подключите уведомления на email о том, что использовано 80%, 90%, 98% и 100% от лимита на объем или количество файлов.
- Бакеты S3 Evolution в правилах переноса
Вы можете указать бакет S3 Evolution в качестве источника или места назначения при создании правил переноса.
- Новые образы 0.0.40 для задач обучения
В образах
py3.10-torch2.3.0
,py3.11-torch2.3.0
,py3.11-torch2.4.0
обновлены версии Python и PyTorch.Подробнее о списке установленных пакетов в образе.
Июль
- Просмотр имени пользователя, создавшего Jupyter Server
В интерфейсе ML Space при работе с Jupyter Server отображается имя пользователя, создавшего его.
- Новый раздел в документации: решение проблем при работе с ML Space
В разделе собрали типовые ошибки и описали способы их решения.
- Уведомления об исчерпании inodes и объема хранилища NFS
По умолчанию подключенные уведомления приходят только в личный кабинет. Чтобы быстрее реагировать на исчерпание места, подключите уведомления в Telegram.
Уведомления приходят, когда использовано 80%, 90%, 98% и 100% от лимита на объем или количество файлов.
- Больше ресурсов в некоторых конфигурациях instance_type
В регионах Cloud.Region.HP1 и Cloud.Region.HP добавили instance_type, позволяющие использовать до 1,5 ТБ RAM.
Подробнее в документации client_lib.
Июнь
- Запуск Jupyter Server на CPU
Теперь вы можете создавать Jupyter Server на CPU в регионах Cloud.Region.HP (SR006), Christofari.A100 (A100-MT) от 8 vCPU и выше. Это позволит:
Использовать вычисления на CPU в Jupyter Server. Такие Jupyter Server могут быть использованы для обработки данных, обучения моделей, запуска Tensorboard и ботов.
Использовать Jupyter Server на CPU, если у вас закончились бесплатные Jupyter Server.
- Новые статусы задач обучения
В раздел Задачи и окружения выведены дополнительные статусы задачи:
«Inqueue» — задача находится в очереди на запуск;
«Starting» — ресурсы аллоцированы, скачивается образ, и запускаются воркеры.
- Индикатор загруженности ресурсов задачами обучения в аллокации
В разделе Задачи и окружения добавили возможность просматривать:
занятость ресурсов аллокации задачами обучения и Jupyter Server;
общий перечень выполняемых задач в аллокации;
свободные ресурсы аллокации.
- Унификация названий регионов в интерфейсе
К названиям регионов в интерфейсе ML Space добавлены ключи регионов (cluster-key).
Май
- Логи ноутбуков, переносов данных и задач обучения в разделе Аудит-логирование
Чтобы посмотреть логи событий ML Space, необходимо выбрать в качестве сервиса-источника MLS-NTB (Jupyter Servers), MLS Data Transfer и MLSpace.Jobs. Список статусов приведен в Справочнике событий.
- Уведомления в колокольчике вне зависимости от платформы
Уведомления от ML Space появятся в колокольчике, даже если вы находитесь на другой платформе Cloud.ru.
- Новый параметр internet в client_lib
Использование параметра
internet
дает возможность доступа в интернет из задач обучения в регионах, где такая возможность прежде отсутствовала.До 04.07.2024, если новый параметр
internet
не будет указан, то действие параметров forbid_internet и forbid_s3 при запуске задач обучения сохранится прежним.После 04.07.2024 параметры forbid_internet и forbid_s3 будут отключены. Вместо них используйте параметр internet.
Подробнее см. описание параметра internet.
- Обновление образа
jupyter-server
В новой версии 0.0.95:
убрали фантомные уведомления;
повысили стабильность работы Tensorboard;
оптимизировали авторизацию в Jupyter Server;
улучшили отзывчивость и скорость работы интерфейса Jupyter Server.
обновили версию mlspace-sdk до 0.23.2:
добавили возможность обновления client_lib независимо от версии Jupyter Server;
обновили механику подключения по SSH через CLI в задачах обучения;
поправили отображение версии CUDA и Python в CLI.
Апрель
- Отключение полного лога для новых правил переноса
При создании правил переноса доступна единственная схема логирования. В ней события одного типа удобно группируются в одну запись, которая содержит общее количество объектов и путь до последнего из них.
- Универсальные образы для задач обучения, совместимые со всеми регионами
В образах py3.10-torch2.1.2:0.0.40 и py3.10-torch2.2.2:0.0.40 нет привязки к установленной версии CUDA. Это позволяет использовать образы для задач обучения в любом регионе.
Март
- Перезапуск задачи из интерфейса
Задачу обучения можно перезапустить вручную через интерфейс. Будет создана новая наследуемая задача с теми же параметрами, что и у родительской.
Подробнее см. Перезапустить задачу.
- Быстрый способ сообщить об ошибке с задачей
Создать заявку в техническую поддержку теперь можно из списка задач.
Подробнее см. Как быстро сообщить о проблеме с задачей обучения в техническую поддержку?
- Публичные коннекторы
Сделать коннектор публичным, то есть доступным всем пользователям воркспейса, можно при создании через интерфейс платформы или с помощью публичного API v3.
Подробнее см. Поделиться коннектором.
- Обучающие материалы по Distributed Data Parallel (DDP) в PyTorch
Опубликованы теоретические и практические материалы по использованию DDP в обучении моделей.
- Обновление образа
jupyter-server
В новой версии 0.0.94:
вернули плагин Tensorboard;
обновили версию Jupyter Notebook до 7;
поправили проблемы использования переменных окружения при использовании SSH подключения к Jupyter Notebook;
обновили версию mlspace-sdk до 0.22.2;
добавили возможность использования SSH в задачах обучения;
поработали над компактностью, теперь образ весит 1,4 ГБ.
Февраль
- Обучающие материалы по большим языковым моделям (LLM)
Опубликованы теоретические и практические материалы по обучению больших языковых моделей.
- Новый регион Cloud.Region.HP
Для запуска задач обучения в этом регионе используйте образы версии 0.0.37 и тип
'pytorch2'
.- Новый образ
jupyter-server:0.0.92
В образе версии 0.0.92 повышены стабильность, скорость работы и удобство использования.
Январь
- Обновления для логов задач обучения
Для задач обучения с заданным количеством запусков теперь можно скачать логи отдельно по каждому запуску.
Сообщения в логах об изменении статусов воркеров стали более читаемыми.
Подробнее см. Проверить логи после запуска обучения.
- Обновление публичных SSH-ключей Jupyter Server для повышения безопасности
Необходимо обновить публичные SSH-ключи на локальных машинах.
Подробнее см. Ошибка WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!.
2023
Декабрь
- Информация о запусках задачи
В разделе Задачи и окружения можно узнать фактическое и максимально возможное количество запусков для каждой задачи обучения.
- Переход на домен
*.cloud.ru
С 12.12.2023 изменятся URL-адреса для доступа к Jupyter Servers, docker-образам, SSH, GitLab и public API. Переведите на новый домен технические решения, в которых используются эти ресурсы.
Подробнее см. Переход на домен cloud.ru.
- Обновления в форме выбора образа при создании Jupyter Server
В интерфейсе отображается больше информации об образе: доступность в регионах, дата загрузки, версии установленных Python, CUDA, Tensorflow. Появилась возможность выбрать версию образа и найти нужный образ по названию.
Подробнее см. Создать Jupyter Server и подключиться к нему через интерфейс ML Space.
Ноябрь
- Лимит на количество файлов в NFS
Узнать лимит на количество файлов в хранилище NFS теперь можно на главной странице или из раздела Воркспейсы.
Подробнее см. Узнать или изменить квоты NFS.
- Новый параметр legacy в пайплайнах
Через параметр
legacy
вы можете задать схему логирования при создании правила переноса в пайплайнах.Подробнее см. Параметры корневого уровня.
- Новые образы, в которых установлены новая версия CUDA и Python
Образы для задач обучения с тегом 0.0.36, в которых установлены версии CUDA до 12.1, Python до 3.11, Torch до 2.0.
Подробнее см. Библиотеки в базовых образах для задач обучения.
- Новый образ jupyter-server, в который можно установить требуемые версии Python и CUDA
В образ
cr.ai.cloud.ru/aicloud-jupyter/jupyter-server
версии 0.0.90 и выше можно установить требуемые версии CUDA и Python.
Октябрь
- Мониторинг зависших задач в client_lib и API
С помощью
health_params
в client_lib и в API можно отслеживать зависшие задачи обучения и задавать, какие действия выполнять в случае зависания.- При указании несуществующего образа задача не запустится через client_lib или API
Если запустить задачу с несуществующим образом через client_lib или API, это вызовет ошибку. Задача не будет отправлена на выполнение в регион и не займет ресурсы.
Вы можете выбрать корректный образ из списка образов для задач обучения, а также создать или загрузить собственный кастомный образ.
- Обновления в логах переносов
Появилась новая схема логирования. В ней события одного типа группируются в одну запись, которая содержит количество объектов и путь до последнего.
Подробнее см. Операции над правилами переноса данных.
Сентябрь
- Новый параметр checkpoints_dir в client_lib
Использование параметра
checkpoints_dir
упрощает сохранение промежуточных результатов обучения модели, если в задаче обучения возникли технические ошибки.Подробнее см. checkpoints_dir.
- Индикация загруженности типа конфигурации при создании Jupyter Server
При создании Jupyter Server рядом с названием конфигурации отображается цветовая индикация, которая показывает загруженность ресурсов.
Подробнее см. Создать Jupyter Server и подключиться к нему через интерфейс ML Space.
Июль
- Расширенный статус подов деплоя
Добавили в карточку деплоя новую вкладку с информацией о последних 200 экземплярах деплоя, включая статус и тарифицируемое время.
Подробнее см. Проверить состояние деплоя.
для Dev & Test