Evolution

Быстрый старт


С помощью быстрого старта вы запустите задачу на дообучение текстовой модели из репозитория на HuugingFace.

Перед началом работы

  1. Если вы уже зарегистрированы, войдите под своей учетной записью.

  2. На верхней панели слева нажмите Кнопка с изображением девяти точек и убедитесь в наличии сервиса ML Finetuning в разделе AI Factory. Если сервиса ML Finetuning нет в списке, обратитесь в поддержку.

  3. Убедитесь в соблюдении необходимых акспектов для работы с моделями из Hugging Face:

    • у выбранной модели имеется подходящая лицензия для вашего использования;

    • для работы с приватными моделями у вас должен быть аккаунт на Hugging Face и токен доступа с правом на чтение и запись данных.

Запустите дообучение модели

Для запуска задачи на дообучение модели:

  1. На верхней панели слева нажмите Кнопка с изображением девяти точек и выберите AI Factory → ML Finetuning.

  2. Нажмите Дообучить модель.

  3. Выберите тип базовой модели — Генерация текста.

  4. Выберите источник базовой модели — Добавить из Hugging Face.

  5. Добавьте репозиторий с базовой моделью из Hugging Face:

    1. В качестве источника оставьте Добавить из Hugging Face.

    2. В поле Репозиторий с моделью укажите адрес репозитория, в котором расположена модель для дообучения. Например, mistralai/Ministral-8B-Instruct-2410.

    3. (Опционально) Укажите токен доступа из Secret Management, если модель расположена в приватном репозитории. Чтобы добавить новый токен доступа, нажмите Добавить токен в Secret Management.

    4. Нажмите Добавить.

  6. Добавьте датасет Alpaca в формате JSON для дообучения модели:

    1. В поле Репозиторий датасета Hugging Face укажите адрес репозитория, в котором расположен датасет. Датасет должен быть в формате Alpaca и содержать следующие поля: instruction, input, output. Например, tatsu-lab/alpaca.

    2. (Опционально) Укажите токен доступа из Secret Management, если датасет расположен в приватном репозитории. Чтобы добавить новый токен доступа, нажмите Добавить токен в Secret Management.

  7. Добавьте репозиторий для сохранения дообученной модели:

    1. Оставьте для Назначение значение Hugging Face Datasets.

    2. В поле Репозиторий с моделью укажите адрес репозитория в формате user/model, в котором будет сохранена модель после дообучения.

    3. (Опционально) Укажите токен доступа из Secret Management, если указанный репозиторий приватный. Чтобы добавить новый токен доступа, нажмите Добавить токен в Secret Management.

  8. Настройте конфигурацию параметров:

    1. Выберите метод обучения — LoRa.

    2. Укажите значения для гиперпараметров дообучения:

      • Learning rate — начальная скорость обучения для алгоритма AdamW — 0.0001.

      • Epoch — общее количество эпох обучения — 3.

      • Gradient accumulation — количество шагов для накопления градиентов перед обновлением параметров — 4.

      • Batch size per device — количество образцов, обрабатываемых в каждом GPU — 32.

      • Training precision — использование смешанной точности при обучении модели — bf16.

      • Logging steps — количество шагов между записями логирования — 50.

      • Save steps — количество шагов между сохранением модели — 5.

      • Max samples — максимальное количество образцов для дообучения модели — 1000.

  9. Ресурсы, выделенные на дообучение модели, доступны в одной конфигурации — 1 GPU H100 80GB – 182 GB RAM.

  10. Нажмите Запустить дообучение.

Что дальше