Топ-100
mGPT monolingual models-image

mGPT monolingual models

Моноязычные модели для языков России на основе mGPT-XL

Лицензия

MIT

Версия

1.0

Возможности

mGPT monolingual models

Семейство моноязычных моделей на основе оригинальной mGPT для языков СНГ и малых народов России. Оригинальная модель mGPT была представлена ранее и поддерживает 61 язык, в частности стран СНГ и малых народов России. Чтобы улучшить качество генерации на отдельных языках, на дополнительных данных были обучены 23 модели для ряда языков.

Список языков для которых представлены моноязычные модели: азербайджанский, армянский, башкирский, белорусский, болгарский, бурятский, грузинский, казахский, калмыцкий, киргизский, марийский, монгольский, осетинский, персидский, румынский, таджикский, татарский, туркменский, тувинский, узбекский, украинский, чувашский, якутский.

Новые версии модели содержат 1.3 миллиарда параметров для языков стран СНГ и малых народов России. Длина контекста модели составляет 2048 токенов. Модель была обучена на открытых и очищенных данных для каждого отдельного языка, включая источники знаний (Википедия), веб-ресурсы, новости, открытые корпуса исследовательских институтов, народное творчество и художественную литературу.

Источники данных используемые для дообучения моделей

Для большинства языков мы использовали в обучении общие открытые источники:

Для части языков, мы также добавляли специальные открытые корпуса под язык.

Таблица с дополнительными источниками данных и объемами корпусов для дообучения моноязычных моделей представлены ниже:

Lang/SourceSpecial corporaЛицензияISOОбъем корпуса:
Armenianhttp://eanc.net/-hy16G
Azerbaijanihttps://paperswithcode.com/dataset/ted-talkshttps://creativecommons.org/licenses/by-nc-nd/4.0/az18G
Bashkirhttp://web-corpora.net/wsgi3/minorlangs/https://github.com/nevmenandr/bashkir-corpus/blob/master/LICENSEba953M
Belarusianhttps://huggingface.co/datasets/ted_talks_iwslthttps://creativecommons.org/licenses/by-nc-nd/4.0/be11G
Bulgarianhttps://huggingface.co/datasets/xnlihttps://github.com/facebookresearch/XNLI/blob/master/LICENSEbg112G
Buriathttp://web-corpora.net/wsgi3/minorlangs/download-bua13M
Chuvashhttps://huggingface.co/datasets/alexantonov/chuvash_parallel http://web-corpora.net/wsgi3/minorlangs/download https://github.com/AlAntonov/chv_corpusCC0cv106M
Georgianhttps://huggingface.co/datasets/ted_talks_iwslthttps://huggingface.co/datasets?license=license%3Acc-by-nc-nd-4.0ka19G
Kalmykhttp://web-corpora.net/wsgi3/minorlangs/download https://gitlab.com/Nomin-Ger.Ru/oyrad_corpusMITxal18M
Kazakhhttps://huggingface.co/datasets/ted_talks_iwslthttps://huggingface.co/datasets?license=license%3Acc-by-nc-nd-4.0kk20G
Kirghizhttps://wortschatz.uni-leipzig.de/en/download/Kirghiz-kir/ky5.5G
Marihttp://web-corpora.net/wsgi3/minorlangs/download-chm103M
Mongolianhttps://huggingface.co/datasets/udhr-mn13G
Ossetian--os/oss40M
Persianhttps://huggingface.co/datasets/ted_talks_iwslthttps://huggingface.co/datasets?license=license%3Acc-by-nc-nd-4.0fa211G
Romanianhttps://huggingface.co/datasets/ted_talks_iwslthttps://huggingface.co/datasets?license=license%3Acc-by-nc-nd-4.0ro228G
Tajikhttps://huggingface.co/datasets/ted_talks_iwslt https://huggingface.co/datasets/tanzilhttps://huggingface.co/datasets?license=license%3Acc-by-nc-nd-4.0tj/tg7.5G
Tatarhttps://huggingface.co/datasets/ted_talks_iwslthttps://huggingface.co/datasets?license=license%3Acc-by-nc-nd-4.0tt954M
Turkmen--tk44M
Tuvinianhttp://web-corpora.net/wsgi3/minorlangs/download-tyv44M
Ukrainianhttps://huggingface.co/datasets/ted_talks_iwslthttps://huggingface.co/datasets?license=license%3Acc-by-nc-nd-4.0uk211G
Uzbekhttps://huggingface.co/datasets/ted_talks_iwslthttps://huggingface.co/datasets?license=license%3Acc-by-nc-nd-4.0uz3.2G
Yakuthttp://web-corpora.net/wsgi3/minorlangs/download-sah103M

Метрики

Замеры по языкам loss и перплексии на валидационном сете, моноязычные модели в сравнении с мультиязычной mGPT-XL.

Языкимоноязычный mGPTмультиязычный mGPT
Армянскийloss: 0.55 ppl: 1.73loss: 1.83 ppl: 6.23
Азербайджанскийloss: 1.68 ppl: 5.37loss: 3.86 ppl: 47.46
Башкирскийloss: 1.95 ppl: 7.06loss: 3.56 ppl: 35.01
Белорусскийloss: 3.32 ppl: 27.65loss: 4.14 ppl: 62.73
Болгарскийloss: 2.72 ppl: 15.20loss: 4.45 ppl: 85.70
Бурятскийloss: 2.87 ppl: 17.63loss: 4.19 ppl: 65.70
Чувашскийloss: 3.36 ppl: 28.76loss: 4.79 ppl: 120.66
Грузинскийloss: 2.82 ppl: 16.85loss: 4.05 ppl: 57.20
Калмыцкийloss: 2.64 ppl: 13.97loss: 4.30 ppl: 74.12
Казахскийloss: 1.22 ppl: 3.38loss: 3.27 ppl: 26.43
Киргизскийloss: 2.10 ppl: 8.20loss: 4.23 ppl: 68.44
Марийскийloss: 3.05 ppl: 21.19loss: 5.26 ppl: 193.193
Монгольскийloss: 1.47 ppl: 4.35loss: 3.32 ppl: 27.69
Осетинскийloss: 2.93 ppl: 18.70loss: 4.36 ppl: 78.17
Персидскийloss: 3.51 ppl: 33.44loss: 4.45 ppl: 86.05
Румынскийloss: 1.24 ppl: 3.44loss: 1.63 ppl: 5.08
Таджикскийloss: 1.88 ppl: 6.52loss: 4.09 ppl: 59.88
Татарскийloss: 1.31 ppl: 3.69loss: 3.17 ppl: 23.84
Туркменскийloss: 3.35 ppl: 28.47loss: 5.29 ppl: 199.11
Тувинскийloss: 3.71 ppl: 40.84loss: 5.10 ppl: 164.40
Украинскийloss: 1.96 ppl: 7.11loss: 4.00 ppl: 54.93
Узбекскийloss: 1.92 ppl: 6.84loss: 5.33 ppl: 206.85
Якутскийloss: 2.37 ppl: 10.65loss: 4.31 ppl: 74.74

Использование

При добавлении к себе данных появится папка с 23 моделями. Примеры запуска каждой отдельной модели аналогичен запуску обычной модели mGPT-XL, примеры доступны в официальном репозитории mgpt.

from transformers import GPT2LMHeadModel, GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("monolingual_model_folder")
model = GPT2LMHeadModel.from_pretrained("monolingual_model_folder")

text = "Александр Сергеевич Пушкин родился в "
input_ids = tokenizer.encode(text, return_tensors="pt").cuda(device)
out = model.generate(
        input_ids, 
        min_length=100, 
        max_length=100, 
        eos_token_id=5, 
        pad_token=1,
        top_k=10,
        top_p=0.0,
        no_repeat_ngram_size=5
)
generated_text = list(map(tokenizer.decode, out))[0]
print(generated_text)
Александр Сергеевич Пушкин родился в  г. Санкт-Петербурге.

Ccылки

  • Модель mGPT-XL на Hugging Face и академическая статья модели
  • Статья про тестирование моделей от контент-менеджера "Модель-полиглот: как мы учили GPT-3 на 61 языке мира"
  • Модель mGPT3-13B доступна в виде AI Service Cloud.

Лицензирование

Все модели предоставляются на основе открытой лицензии MIT.

  • Размер файлов: 456G
  • Tags: lms языковые модели NLP mgpt multilingual
  • Формат: папка с 23 моделей
  • Версия: v1.0
  • Разработчик: AGI NLP

Обратная связь

Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram