tocdepth

2

DataHub

Внимание

28 февраля 2025 года прекратим поддержку сервисов DataHub, Dataset Registry, Model Registry.

Сохраните метаинформацию из Dataset Registry и Model Registry при необходимости. Вместо DataHub используйте ресурсы Маркетплейса.

Хаб предобученных моделей, датасетов и контейнеров.

Работа с моделями и датасетами

Модели и датасеты можно перенести по кнопке Добавить на S3 хранилище ML Space. Для этого необходимо выбрать воркспейс и бакет, а также путь для переноса артефактов.

Работа с моделями ruGPT-3

ruGPT-3 & family — это семейство предобученных моделей-трансформеров, которые специализируются на работе с естественным языком: ruGPT-3, ruBERT, ruT5, ruRoBERTa, ruCLIP, ruDALL-E.

Более подробно с моделями можно познакомиться на GitHub или на лендинге. Примеры использования API приведены в разделе Обучающие материалы. Для тестирования модели перейдите по ссылке.

Модель ruGPT-3 (13 миллиардов параметров) можно развернуть на сервисе Deployments. Для этого:

  1. Нажмите Создать деплой на карточке модели.

  2. Задайте необходимое количество экземпляров деплоя.

  3. Нажмите Создать деплой. Деплой будет создан автоматически.

Работа с датасетом Golos

Датасет Golos — это размеченный вручную набор речевых данных на русском языке. Включает в себя 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой.

Датасет можно добавить на бакет S3. Для этого:

  1. Нажмите Добавить к себе.

  2. Выберите воркспейс, бакет, место добавления датасета на S3.

  3. Нажмите Добавить.

Работа с контейнерами

Контейнеры можно развернуть в виде пользовательского окружения (Jupyter Server) в Environments. Для этого нажмите на иконку в правом верхнем углу карточки контейнера.

Чтобы работать с контейнерами в ML Space дальше, нажмите на иконку Новый Деплой из DataHub в правом верхнем углу карточки контейнера и разверните Jupyter Server на необходимой конфигурации.

Также вы можете:

  • Скачать контейнер, используя консольную утилиту Docker CLI, с помощью команды pull.

  • Добавить контейнер в репозиторий Docker registry с помощью команды push. Обратите внимание на то, что наименование репозитория должно иметь префикс «jupyter-». Это позволит развернуть контейнер в виде пользовательского окружения (Jupyter Server) в Environments.

Работа со специальными контейнерами Nvidia NGC (NeMo, RAPIDS и др.)

В маркетплейсе для работы доступны специальные контейнеры Nvidia NGC (NeMo, RAPIDS и др.). Они адаптированы для использования в ML Space и решения задач обработки естественного языка (NLP), компьютерного зрения (CV), работы с данными (ETL), развертывания ML-моделей в облаке и многих других кейсов.

Контейнеры можно развернуть в виде пользовательского окружения (Jupyter Server) в Environments. Для этого нажмите на иконку Новый Деплой из DataHub в правом верхнем углу карточки контейнера и выберите необходимую конфигурацию.

Запустили Evolution free tier
для Dev & Test
Получить