Быстрый старт сервиса ML Finetuning

Эта статья полезна?

С помощью быстрого старта вы запустите задачу на дообучение текстовой модели из репозитория на HuggingFace.

Перед началом работы

Зарегистрируйтесь в личном кабинете Cloud.ru.

Если вы уже зарегистрированы, войдите под своей учетной записью.
На верхней панели слева нажмите и убедитесь в наличии сервиса ML Finetuning в разделе AI Factory. Если сервиса ML Finetuning нет в списке, обратитесь в поддержку.
Убедитесь в соблюдении необходимых акспектов для работы с моделями из Hugging Face:
- у выбранной модели имеется подходящая лицензия для вашего использования;
- для работы с приватными моделями у вас должен быть аккаунт на Hugging Face и токен доступа с правом на чтение и запись данных.

Запустите дообучение модели

Для запуска задачи на дообучение модели:

На верхней панели слева нажмите и выберите AI Factory → ML Finetuning.
Нажмите Дообучить модель.
Выберите тип базовой модели — Генерация текста.
Выберите источник базовой модели — Добавить из Hugging Face.
Добавьте репозиторий с базовой моделью из Hugging Face:
1. В качестве источника оставьте Добавить из Hugging Face.
2. В поле Репозиторий с моделью укажите адрес репозитория, в котором расположена модель для дообучения. Например, mistralai/Ministral-8B-Instruct-2410.
3. (Опционально) Укажите токен доступа из Secret Management, если модель расположена в приватном репозитории. Чтобы добавить новый токен доступа, нажмите Добавить токен в Secret Management.
4. Нажмите Добавить.
Добавьте датасет Alpaca в формате JSON для дообучения модели:
1. В поле Репозиторий датасета Hugging Face укажите адрес репозитория, в котором расположен датасет. Датасет должен быть в формате Alpaca и содержать следующие поля: instruction, input, output. Например, tatsu-lab/alpaca.
2. (Опционально) Укажите токен доступа из Secret Management, если датасет расположен в приватном репозитории. Чтобы добавить новый токен доступа, нажмите Добавить токен в Secret Management.
Добавьте репозиторий для сохранения дообученной модели:
1. Оставьте для Назначение значение Hugging Face Datasets.
2. В поле Репозиторий с моделью укажите адрес репозитория в формате user/model, в котором будет сохранена модель после дообучения.
3. (Опционально) Укажите токен доступа из Secret Management, если указанный репозиторий приватный. Чтобы добавить новый токен доступа, нажмите Добавить токен в Secret Management.
Настройте конфигурацию параметров:
1. Выберите метод обучения — LoRa.
2. Укажите значения для гиперпараметров дообучения:
  - Learning rate — начальная скорость обучения для алгоритма AdamW — 0.0001.
  - Epoch — общее количество эпох обучения — 3.
  - Gradient accumulation — количество шагов для накопления градиентов перед обновлением параметров — 4.
  - Batch size per device — количество образцов, обрабатываемых в каждом GPU — 16.
  - Training precision — использование смешанной точности при обучении модели — bf16.
  - Logging steps — количество шагов между записями логирования — 50.
  - Save steps — количество шагов между сохранением модели — 100.
  - Max samples — максимальное количество образцов для дообучения модели — 1000.
Ресурсы, выделенные на дообучение модели, доступны в одной конфигурации — 1 GPU H100 80GB – 182 GB RAM.
Нажмите Запустить дообучение.

Что дальше

Поддержка Юридические документы