Облачная платформаEvolution

Создать датасет c помощью среды разработки


Перед созданием датасета с помощью среды разработки:

  • Сохраните ID проекта.

    Чтобы скопировать ID проекта:

    1. В верхней панели меню раскройте список всех проектов.

    2. В строке с проектом нажмите Кнопка с изображением трех вертикальных точек и выберите Скопировать ID проекта.

      ID будет скопирован в буфер обмена.

    Просмотреть и скопировать ID любого проекта можно также в разделе Администрирование, на вкладке Каталоги и проекты.

Чтобы создать датасет с помощью IDE:

  1. Сохраните датасет, который необходимо загрузить в Repo, в локальную папку с проектом.

  2. В IDE скопируйте фрагмент кода, указав ваши данные.

    from huggingface_hub import HfApi
    repo_id = "project_id/Dataset Registry name"
    repo_type = "dataset"
    token = "API-key"
    api = HfApi(token=Hugging_Face_access_token)
    api.create_repo(
    repo_id=repo_id,
    repo_type=repo_type,
    exist_ok=True
    )
    api.upload_folder(
    folder_path="local dataset folder",
    repo_id=repo_id,
    repo_type=repo_type
    )
  3. Задайте переменную окружения HF_ENDPOINT=https://mr-repo.cloud.ru

  4. Выполните код, используя переменную окружения.

    Датасет будет загружен из локальной папки в Dataset Registry в репозиторий с именем <название репозитория Dataset Registry>.

    Примечание

    Ограничение на размер одного файла датасета при использовании IDE составляет 20 ГБ.

    Этот объем не учитывается при ограничении размера репозитория Dataset Registry.

    Если такого датасета не существует, он будет создан.