
ruGPT-3 13B
Russian Generative Pretrained Transformer-3, 13 млрд параметров
Современная модель генерации текста для русского языка на основе архитектуры GPT-3 от
Модель ruGPT-3 13B содержит 13 миллиардов параметров и способна продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов + используется реализация sparse attention из
Other
52.1 GB
0.1
Продолжение текста (Generation)
Базовое использование модели подразумевает работу с уже обученной моделью в режиме инференса. Модель умеет продолжать переданный текст, дополняя его. В примерах ниже ответ модели при генерации выделен курсивом:
Диалоговые системы
system: Добрый день! Чем могу помочь?
user: Добрый день! С утра не работает интернет. Тариф 500мбит
system: хорошо, сейчас попробуем исправить. Ждите.
Рекомендательные системы с нуля
"Физик Максим, 28 лет, больше всего любит фильмы: «Улица Сезам», «Матрица».
Тематическая классификация текстов
Новость: В России выведен на полную мощность самый быстрый в мире суперкомпьютер «Кристофари»
Категория: Новости науки, техника и технологии.
Пример запуска генерации
#!/bin/bash
script_path=$(realpath $0)
script_dir=$(dirname $script_path)
config_json="$script_dir/path/to/config/gpt3_13b_sparse.json"
mpirun --np 1 python ${script_dir}/../../generate.py \
--load-weights-only /path/to/checkpoint/ \
--tokenizer-path /path/to/tokenizer \
--fp16 \
--make-vocab-size-divisible-by 16 \
--model-parallel-size 1 \
--num-layers 40 \
--hidden-size 5120 \
--num-attention-heads 40 \
--batch-size 4 \
--seq-length 512 \
--max-position-embeddings 2048 \
--temperature 0.9 \
--top_k 0 \
--top_p 0.95 \
--sparse-mode alternating \
--fix-sparsity-layout 4 \
--deepspeed \
--deepspeed_config ${config_json}
Colab-ноутбук с примером
Возможные примеры работы с затравками
- zero-shot - подается только начало текста (затравка), которое модели нужно продолжить
- one-shot - подается пример 1 затравки, спецтокен и корректного продолжения, через новую строку - целевая затравка, которую нужно продолжить
- few-shot - несколько примеров затравок и ихкорректных продолжений, затем целевая затравка.
Совет: чтобы улучшить качество работы систем one-shot и few-shot, ознакомьтесь со спецтокенами модели в словаре токенизатора. Такие токены, как <pad>
,<|endoftext|>
,<s>
,</s>
, вы можете использовать для форматирования своих примеров.
Совет: рассчитывайте количество примеров в few-shot таким образом, чтобы не выйти за максимальную длину последовательности контеката - 2048 токенов.
Подробнее о ruGPT-3
vc.ru:
Habr (tutorial):
Habr, статья про обучение модели:
Habr, статья про кейсы применения модели:
Вебинар, спикер Татьяна Шаврина:
Вебинар, спикер Татьяна Шаврина:
Модель ruGPT-3 13B обучена и развёрнута с помощью платформы Cloud.ru ML Space и суперкомпьютера «Christofari» от Cloud.ru.
Архитектура нейросети ruGPT-3 основывается на решении Generative Pretrained Transformer 3 от
Дообучение моделей ruGPT-3 Large и ruGPT-3 XL (Fine-tuning)
Дообучение с использованием GPU осмысленно в 4 случаях:
- вы работаете с данными в редком формате, модель не могла их увидеть при предобучении. Пример: вы хотите генерировать скрипты на brainfuck
- задача требует высокой степени обобщения, в обучающей выборке таких примеров скорее всего не было. Пример: машинный перевод с русского на маратхи
- задача требует очень специфических знаний, мало представленных в интернете. Пример: автосоставление документации для сталилитейного завода
- вы опробовали все форматы few-shot, и без дообучения ничего не выходит. Как показывает это исследование, качество few-shot сильно зависит от баланса классов в примерах few-shot, порядке следования примеров.
Скрипт с примером
Дисклеймер
При использовании модели ruGPT-3 13B ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данного сервиса.
Обратная связь
Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram