Evolution
Тема интерфейса

Быстрый старт

С помощью быстрого старта вы запустите задачу на дообучение текстовой модели из репозитория на Hugging Face.

Перед началом работы

  1. Если вы уже зарегистрированы, войдите под своей учетной записью.

  2. На верхней панели слева нажмите Кнопка с изображением девяти точек и убедитесь в наличии сервиса ML Finetuning в разделе AI Factory. Если сервиса ML Finetuning нет в списке, обратитесь в поддержку.

  3. Убедитесь в соблюдении необходимых акспектов для работы с моделями из Hugging Face:

    • у выбранной модели имеется подходящяя лицензия для вашего использования;

    • для работы с приватными моделями у вас должен быть аккаунт на Hugging Face и токен доступа с правом на чтение и запись данных.

Запустите дообучение модели

Примечание

В режиме Public Preview сервис работает с ограничениями.

Дообучение автоматически отменится, если превышено:

  • время дообучения модели — 4 часа;

  • количество дообучений для организации — 10.

Для запуска задачи на дообучение модели:

  1. На верхней панели слева нажмите Кнопка с изображением девяти точек и выберите AI Factory → ML Finetuning.

  2. Выберите тип базовой модели — Генерация текста.

  3. Выберите источник базовой модели — Hugging Face.

  4. Добавьте репозиторий с базовой моделью из Hugging Face:

    1. Нажмите Добавить из Hugging Face.

    2. В поле Репозиторий с моделью на Hugging Face укажите адрес репозитория, в котором расположена модель для дообучения. Например, seara/rubert-tiny2-russian-sentiment.

    3. (Опционально) Укажите токен доступа из Secret Management, если модель расположена в приватном репозитории. Чтобы добавить новый токен доступа, нажмите Добавить токен в Secret Management.

  5. Добавьте датасет Alpaca в формате JSON для дообучения модели:

    1. Выберите НазначениеHugging Face Datasets.

    2. В поле Репозиторий датасета на Hugging Face укажите адрес репозитория, в котором расположен датасет. Датасет должен быть в формате Alpaca и содержать следующие поля: instruction, input, output. Например, tatsu-lab/alpaca.

  6. Добавьте репозиторий для сохранения дообученной модели:

    1. Выберите НазначениеHugging Face Datasets.

    2. В поле Репозиторий с моделью на Hugging Face укажите адрес репозитория в формате user/model, в котором будет сохранена модель после дообучения.

  7. Настройте конфигурацию основных параметров:

    1. Выберите метод обучения — LoRA.

    2. Укажите значения для основных гиперпараметров дообучения:

      • Learning rate — начальная скорость обучения для алгоритма AdamW — 0.0001.

      • Epoch — общее количество эпох обучения — 3.

      • Gradient accumulation — количество шагов для накопления градиентов перед обновлением параметров — 4.

      • Batch size per device — количество образцов, обрабатываемых в каждом GPU — 32.

      • Training precision — использование смешанной точности при обучении модели — bf16.

      • Logging steps — количество шагов между записями логирования — 50.

      • Save steps — количество шагов между сохранением модели — 5.

      • Max samples — максимальное количество образцов для дообучения модели — 1000.

  8. Ресурсы, выделенные на дообучение модели, доступны в одной конфигурации — 1 GPU H100 80GB – 182 GB RAM.

  9. Нажмите Запустить дообучение.

Что дальше