- tocdepth
2
DataHub
Внимание
28 февраля 2025 года прекратим поддержку сервисов DataHub, Dataset Registry, Model Registry.
Сохраните метаинформацию из Dataset Registry и Model Registry при необходимости. Вместо DataHub используйте ресурсы Маркетплейса.
Хаб предобученных моделей, датасетов и контейнеров.
Работа с моделями и датасетами
Модели и датасеты можно перенести по кнопке Добавить на S3 хранилище ML Space. Для этого необходимо выбрать воркспейс и бакет, а также путь для переноса артефактов.
Работа с моделями ruGPT-3
ruGPT-3 & family — это семейство предобученных моделей-трансформеров, которые специализируются на работе с естественным языком: ruGPT-3, ruBERT, ruT5, ruRoBERTa, ruCLIP, ruDALL-E.
Более подробно с моделями можно познакомиться на GitHub или на лендинге. Примеры использования API приведены в разделе Обучающие материалы. Для тестирования модели перейдите по ссылке.
Модель ruGPT-3 (13 миллиардов параметров) можно развернуть на сервисе Deployments. Для этого:
Нажмите Создать деплой на карточке модели.
Задайте необходимое количество экземпляров деплоя.
Нажмите Создать деплой. Деплой будет создан автоматически.
Работа с датасетом Golos
Датасет Golos — это размеченный вручную набор речевых данных на русском языке. Включает в себя 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой.
Датасет можно добавить на бакет S3. Для этого:
Нажмите Добавить к себе.
Выберите воркспейс, бакет, место добавления датасета на S3.
Нажмите Добавить.
Работа с контейнерами
Контейнеры можно развернуть в виде пользовательского окружения (Jupyter Server) в Environments. Для этого нажмите на иконку в правом верхнем углу карточки контейнера.
Чтобы работать с контейнерами в ML Space дальше, нажмите на иконку в правом верхнем углу карточки контейнера и разверните Jupyter Server на необходимой конфигурации.
Также вы можете:
Скачать контейнер, используя консольную утилиту Docker CLI, с помощью команды pull.
Добавить контейнер в репозиторий Docker registry с помощью команды push. Обратите внимание на то, что наименование репозитория должно иметь префикс «jupyter-». Это позволит развернуть контейнер в виде пользовательского окружения (Jupyter Server) в Environments.
Работа со специальными контейнерами Nvidia NGC (NeMo, RAPIDS и др.)
В маркетплейсе для работы доступны специальные контейнеры Nvidia NGC (NeMo, RAPIDS и др.). Они адаптированы для использования в ML Space и решения задач обработки естественного языка (NLP), компьютерного зрения (CV), работы с данными (ETL), развертывания ML-моделей в облаке и многих других кейсов.
Контейнеры можно развернуть в виде пользовательского окружения (Jupyter Server) в Environments. Для этого нажмите на иконку в правом верхнем углу карточки контейнера и выберите необходимую конфигурацию.
для Dev & Test