Облачная платформаEvolution

Создать датасет c помощью среды разработки

Эта статья полезна?

Перед созданием датасета с помощью среды разработки:

Чтобы создать датасет с помощью IDE:

  1. Сохраните датасет, который необходимо загрузить в Repo, в локальную папку с проектом.

  2. В IDE скопируйте фрагмент кода, указав ваши данные.

    from huggingface_hub import HfApi
    repo_id = "id_пользователя/название_репозитория Dataset Registry"
    repo_type = "dataset"
    token = "токен_пользователя"
    api = HfApi(token=token)
    api.create_repo(
    repo_id=repo_id,
    repo_type=repo_type,
    exist_ok=True
    )
    api.upload_folder(
    folder_path="название папки с датасетом в локальном проекте",
    repo_id=repo_id,
    repo_type=repo_type
    )
  3. Задайте переменную окружения HF_ENDPOINT=https://repo.cloud.ru

  4. Выполните код, используя переменную окружения.

    Датасет будет загружен из локальной папки в Dataset Registry в репозиторий с именем <название репозитория Dataset Registry>.

    Примечание

    Ограничение на размер одного файла датасета при использовании IDE составляет 20 ГБ.

    Этот объем не учитывается при ограничении размера репозитория Dataset Registry.

    Если такого датасета не существует, он будет создан.