nav-img
Evolution

Быстрый старт

С помощью быстрого старта вы запустите задачу на дообучение текстовой модели из репозитория на Hugging Face.

Перед началом работы

  1. Зарегистрируйтесь в личном кабинете Cloud.ru.

    Если вы уже зарегистрированы, войдите под своей учетной записью.

  2. На верхней панели слева нажмите Кнопка с изображением девяти точек и убедитесь в наличии сервиса ML Finetuning в разделе AI Factory. Если сервиса ML Finetuning нет в списке, обратитесь в поддержку.

  3. Убедитесь в соблюдении необходимых акспектов для работы с моделями из Hugging Face:

    • у выбранной модели имеется подходящяя лицензия для вашего использования;

    • для работы с приватными моделями у вас должен быть аккаунт на Hugging Face и токен доступа с правом на чтение и запись данных.

Запустите дообучение модели

Примечание

В режиме Public Preview сервис работает с ограничениями.

Дообучение автоматически отменится, если превышено:

  • время дообучения модели — 4 часа;

  • количество дообучений для организации — 10.

Для запуска задачи на дообучение модели:

  1. На верхней панели слева нажмите Кнопка с изображением девяти точек и выберите AI Factory → ML Finetuning.

  2. Выберите тип базовой модели — Генерация текста.

  3. Выберите источник базовой модели — Hugging Face.

  4. Добавьте репозиторий с базовой моделью из Hugging Face:

    1. Нажмите Добавить из Hugging Face.

    2. В поле Репозиторий с моделью на Hugging Face укажите адрес репозитория, в котором расположена модель для дообучения. Например, seara/rubert-tiny2-russian-sentiment.

    3. (Опционально) Укажите токен доступа из Secret Management, если модель расположена в приватном репозитории. Чтобы добавить новый токен доступа, нажмите Добавить токен в Secret Management.

  5. Добавьте датасет Alpaca в формате JSON для дообучения модели:

    1. Выберите НазначениеHugging Face Datasets.

    2. В поле Репозиторий датасета на Hugging Face укажите адрес репозитория, в котором расположен датасет. Датасет должен быть в формате Alpaca и содержать следующие поля: instruction, input, output. Например, tatsu-lab/alpaca.

  6. Добавьте репозиторий для сохранения дообученной модели:

    1. Выберите НазначениеHugging Face Datasets.

    2. В поле Репозиторий с моделью на Hugging Face укажите адрес репозитория в формате user/model, в котором будет сохранена модель после дообучения.

  7. Настройте конфигурацию основных параметров:

    1. Выберите метод обучения — LoRA.

    2. Укажите значения для основных гиперпараметров дообучения:

      • Learning rate — начальная скорость обучения для алгоритма AdamW — 0.0001.

      • Epoch — общее количество эпох обучения — 3.

      • Gradient accumulation — количество шагов для накопления градиентов перед обновлением параметров — 4.

      • Batch size per device — количество образцов, обрабатываемых в каждом GPU — 32.

      • Training precision — использование смешанной точности при обучении модели — bf16.

      • Logging steps — количество шагов между записями логирования — 50.

      • Save steps — количество шагов между сохранением модели — 5.

      • Max samples — максимальное количество образцов для дообучения модели — 1000.

  8. Ресурсы, выделенные на дообучение модели, доступны в одной конфигурации — 1 GPU H100 80GB – 182 GB RAM.

  9. Нажмите Запустить дообучение.

Что дальше