product
iconAI-сервис
Molotilka ruGPT-3 Large

Molotilka ruGPT-3 Large - это современная модель генерации текста для русского языка, содержит 760 миллионов параметров.

Лицензия
Other
Категории
NLPgpt3rugpt3pytorch
Разработчик
SberDevices
Контакты
gpt3support@sber.ru
Описание

Описание проблемы

В современном мире поток знаний непрерывен, каждый день происходит множество событий в спорте, науке, искусстве и т. д. Однако, когда мы обучаем большую нейросетевую языковую модель, мы обычно берем срез данных, доступных в интернете или других источниках на текущий момент, таким образом, наша модель не будет обладать знаниями о том, что произошло в 2021 году, если мы обучали ее в 2020. Поэтому мы хотим иметь такую языковую модель, которая обладает актуальными знаниями в каждый момент времени: сегодня, через неделю или даже через несколько месяцев, но при этом она должна помнить еще и старые знания. Однако обычный fine-tuning языковых моделей на новых данных приводит к проблеме катастрофического забывания - нейронная сеть теряет старые знания и переобучается.

Преимущества

Модель обладает актуальными знаниями на 17 октября 2022 года, и при этом помнит датасет, на котором обучалась базовая модель - перплексия на оригинальном датасете не выше 20 (базовая модель 13.6). Перплексия на валидационных датасетах новостных источников также в районе 20.

Далее планируется продолжить актуализировать модель каждый день/неделю.

Сценарии использования

Базовое использование модели подразумевает работу с уже обученной моделью в режиме инференса. Модель умеет продолжать переданный текст.

Входные параметры инференса:

Обязательные параметры:

text - текст для продолжения

Необязательные параметры:

top_k - параметр top_k текста для генерации. дефолтное значение 5

top_p - параметр top_p текста для генерации. дефолтное значение 0.95

repetition_penalty - штраф за повторные реплики. дефолтное значение 1.5

length - длина продолженного текста (не больше 1535). дефолтное значение 250

seed - random seed. дефолтное значение выбирается случайно

Выходные параметры инференса.

Возвращается словарь со следующими полями:

predictions- текст, продолженный моделью

Примеры:

Запрос:

{"instances": [{ "text": "Александр Сергеевич Пушкин родился в"}]}

Результат:

{'predictions': ['Александр Сергеевич Пушкин родился в 1799 году в селе Михайловское (ныне Пушкинский район Псковской области) в крестьянской семье. Его отец, Александр Сергеевич Пушкин, происходил из старинного дворянского рода. ']'}}

Запрос:

{"instances": [{ "text": " Заголовок: Минпросвещения запретило учителям использовать WhatsApp"}]}

Результат:

{'predictions': ['Заголовок: Минпросвещения запретило учителям использовать WhatsApp при работе в школах Текст: Министр просвещения Ольга Васильева /tags/personsiya-olgaeva), возглавляющий ведомство, не дала своим подчиненным и их коллегам по министерству разрешения на использование мобильного телефона во время уроков. Об этом «Известиям» сообщил источник из министерства образования России. ']'}}

Дисклеймер

При использовании модели ruGPT-3 Large ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством модели.