Molotilka ruGPT-3 Large-image

Molotilka ruGPT-3 Large
Бесплатно

ruGPT-3 Large - это современная модель генерации текста для русского языка на основе архитектуры GPT-3 от OpenAI. Она была взята в качестве базовой модели для Molotilka ruGPT-3 Large - это модификация модели с использованием технологии adapters и разработанного инструмента Molotilka (ML Toolkit for continuous learning). Модель Molotilka ruGPT-3 Large содержит 760 миллионов параметров. Модель обучалась с длиной контекста 1536 токенов на данных нескольких новостных источников начиная с 1 мая 2022 года каждый день вплоть до 17 октября 2022 года на 4 gpu.

Лицензия

Other

Описание проблемы

В современном мире поток знаний непрерывен, каждый день происходит множество событий в спорте, науке, искусстве и т. д. Однако, когда мы обучаем большую нейросетевую языковую модель, мы обычно берем срез данных, доступных в интернете или других источниках на текущий момент, таким образом, наша модель не будет обладать знаниями о том, что произошло в 2021 году, если мы обучали ее в 2020. Поэтому мы хотим иметь такую языковую модель, которая обладает актуальными знаниями в каждый момент времени: сегодня, через неделю или даже через несколько месяцев, но при этом она должна помнить еще и старые знания. Однако обычный fine-tuning языковых моделей на новых данных приводит к проблеме катастрофического забывания - нейронная сеть теряет старые знания и переобучается.

Преимущества

Модель обладает актуальными знаниями на 17 октября 2022 года, и при этом помнит датасет, на котором обучалась базовая модель - перплексия на оригинальном датасете не выше 20 (базовая модель 13.6). Перплексия на валидационных датасетах новостных источников также в районе 20.

Далее планируется продолжить актуализировать модель каждый день/неделю.

Сценарии использования

Базовое использование модели подразумевает работу с уже обученной моделью в режиме инференса. Модель умеет продолжать переданный текст.

Входные параметры инференса:

Обязательные параметры:

text - текст для продолжения

Необязательные параметры:

top_k - параметр top_k текста для генерации. дефолтное значение 5

top_p - параметр top_p текста для генерации. дефолтное значение 0.95

repetition_penalty - штраф за повторные реплики. дефолтное значение 1.5

length - длина продолженного текста (не больше 1535). дефолтное значение 250

seed - random seed. дефолтное значение выбирается случайно

Выходные параметры инференса.

Возвращается словарь со следующими полями:

predictions- текст, продолженный моделью

Примеры:

Запрос:

{"instances": [{ "text": "Александр Сергеевич Пушкин родился в"}]}

Результат:

{'predictions': ['Александр Сергеевич Пушкин родился в 1799 году в селе Михайловское (ныне Пушкинский район Псковской области) в крестьянской семье. Его отец, Александр Сергеевич Пушкин, происходил из старинного дворянского рода. ']'}}

Запрос:

{"instances": [{ "text": " Заголовок: Минпросвещения запретило учителям использовать WhatsApp"}]}

Результат:

{'predictions': ['Заголовок: Минпросвещения запретило учителям использовать WhatsApp при работе в школах
Текст: Министр просвещения Ольга Васильева /tags/personsiya-olgaeva), возглавляющий ведомство, не дала своим подчиненным и их коллегам по министерству разрешения на использование мобильного телефона во время уроков. Об этом «Известиям» сообщил источник из министерства образования России. ']'}}

Дисклеймер

При использовании модели ruGPT-3 Large ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством модели.

Обратная связь

Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram