mGPT monolingual modelsБесплатно
Моноязычные модели для языков России на основе mGPT-XL
MIT
1.0
Возможности
Семейство моноязычных моделей на основе оригинальной mGPT для языков СНГ и малых народов России. Оригинальная модель mGPT была представлена ранее и поддерживает 61 язык, в частности стран СНГ и малых народов России. Чтобы улучшить качество генерации на отдельных языках, на дополнительных данных были обучены 23 модели для ряда языков.
Список языков для которых представлены моноязычные модели: азербайджанский, армянский, башкирский, белорусский, болгарский, бурятский, грузинский, казахский, калмыцкий, киргизский, марийский, монгольский, осетинский, персидский, румынский, таджикский, татарский, туркменский, тувинский, узбекский, украинский, чувашский, якутский.
Новые версии модели содержат 1.3 миллиарда параметров для языков стран СНГ и малых народов России. Длина контекста модели составляет 2048 токенов. Модель была обучена на открытых и очищенных данных для каждого отдельного языка, включая источники знаний (Википедия), веб-ресурсы, новости, открытые корпуса исследовательских институтов, народное творчество и художественную литературу.
Источники данных используемые для дообучения моделей
Для большинства языков мы использовали в обучении общие открытые источники:
- mC4
- OSCAR
- OpenSubtitles
- Wiki, Blogs, LibGen, Archive
Для части языков, мы также добавляли специальные открытые корпуса под язык.
Таблица с дополнительными источниками данных и объемами корпусов для дообучения моноязычных моделей представлены ниже:
Метрики
Замеры по языкам loss и перплексии на валидационном сете, моноязычные модели в сравнении с мультиязычной mGPT-XL.
Языки | моноязычный mGPT | мультиязычный mGPT |
---|---|---|
Армянский | loss: 0.55 ppl: 1.73 | loss: 1.83 ppl: 6.23 |
Азербайджанский | loss: 1.68 ppl: 5.37 | loss: 3.86 ppl: 47.46 |
Башкирский | loss: 1.95 ppl: 7.06 | loss: 3.56 ppl: 35.01 |
Белорусский | loss: 3.32 ppl: 27.65 | loss: 4.14 ppl: 62.73 |
Болгарский | loss: 2.72 ppl: 15.20 | loss: 4.45 ppl: 85.70 |
Бурятский | loss: 2.87 ppl: 17.63 | loss: 4.19 ppl: 65.70 |
Чувашский | loss: 3.36 ppl: 28.76 | loss: 4.79 ppl: 120.66 |
Грузинский | loss: 2.82 ppl: 16.85 | loss: 4.05 ppl: 57.20 |
Калмыцкий | loss: 2.64 ppl: 13.97 | loss: 4.30 ppl: 74.12 |
Казахский | loss: 1.22 ppl: 3.38 | loss: 3.27 ppl: 26.43 |
Киргизский | loss: 2.10 ppl: 8.20 | loss: 4.23 ppl: 68.44 |
Марийский | loss: 3.05 ppl: 21.19 | loss: 5.26 ppl: 193.193 |
Монгольский | loss: 1.47 ppl: 4.35 | loss: 3.32 ppl: 27.69 |
Осетинский | loss: 2.93 ppl: 18.70 | loss: 4.36 ppl: 78.17 |
Персидский | loss: 3.51 ppl: 33.44 | loss: 4.45 ppl: 86.05 |
Румынский | loss: 1.24 ppl: 3.44 | loss: 1.63 ppl: 5.08 |
Таджикский | loss: 1.88 ppl: 6.52 | loss: 4.09 ppl: 59.88 |
Татарский | loss: 1.31 ppl: 3.69 | loss: 3.17 ppl: 23.84 |
Туркменский | loss: 3.35 ppl: 28.47 | loss: 5.29 ppl: 199.11 |
Тувинский | loss: 3.71 ppl: 40.84 | loss: 5.10 ppl: 164.40 |
Украинский | loss: 1.96 ppl: 7.11 | loss: 4.00 ppl: 54.93 |
Узбекский | loss: 1.92 ppl: 6.84 | loss: 5.33 ppl: 206.85 |
Якутский | loss: 2.37 ppl: 10.65 | loss: 4.31 ppl: 74.74 |
Использование
При добавлении к себе данных появится папка с 23 моделями. Примеры запуска каждой отдельной модели аналогичен запуску обычной модели mGPT-XL, примеры доступны в официальном репозитории mgpt.
from transformers import GPT2LMHeadModel, GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("monolingual_model_folder")
model = GPT2LMHeadModel.from_pretrained("monolingual_model_folder")
text = "Александр Сергеевич Пушкин родился в "
input_ids = tokenizer.encode(text, return_tensors="pt").cuda(device)
out = model.generate(
input_ids,
min_length=100,
max_length=100,
eos_token_id=5,
pad_token=1,
top_k=10,
top_p=0.0,
no_repeat_ngram_size=5
)
generated_text = list(map(tokenizer.decode, out))[0]
print(generated_text)
Александр Сергеевич Пушкин родился в г. Санкт-Петербурге.
Ccылки
- Модель mGPT-XL на Hugging Face и академическая статья модели
- Статья про тестирование моделей от контент-менеджера "Модель-полиглот: как мы учили GPT-3 на 61 языке мира"
- Модель mGPT3-13B доступна в виде AI Service Cloud.
Лицензирование
Все модели предоставляются на основе открытой лицензии MIT.
- Размер файлов: 456G
- Tags: lms языковые модели NLP mgpt multilingual
- Формат: папка с 23 моделей
- Версия: v1.0
- Разработчик: AGI NLP
Обратная связь
Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram