Molotilka ruGPT-3 LargeБесплатно
ruGPT-3 Large - это современная модель генерации текста для русского языка на основе архитектуры GPT-3 от OpenAI. Она была взята в качестве базовой модели для Molotilka ruGPT-3 Large - это модификация модели с использованием технологии adapters и разработанного инструмента Molotilka (ML Toolkit for continuous learning). Модель Molotilka ruGPT-3 Large содержит 760 миллионов параметров. Модель обучалась с длиной контекста 1536 токенов на данных нескольких новостных источников начиная с 1 мая 2022 года каждый день вплоть до 17 октября 2022 года на 4 gpu.
Other
Описание проблемы
В современном мире поток знаний непрерывен, каждый день происходит множество событий в спорте, науке, искусстве и т. д. Однако, когда мы обучаем большую нейросетевую языковую модель, мы обычно берем срез данных, доступных в интернете или других источниках на текущий момент, таким образом, наша модель не будет обладать знаниями о том, что произошло в 2021 году, если мы обучали ее в 2020. Поэтому мы хотим иметь такую языковую модель, которая обладает актуальными знаниями в каждый момент времени: сегодня, через неделю или даже через несколько месяцев, но при этом она должна помнить еще и старые знания. Однако обычный fine-tuning языковых моделей на новых данных приводит к проблеме катастрофического забывания - нейронная сеть теряет старые знания и переобучается.
Преимущества
Модель обладает актуальными знаниями на 17 октября 2022 года, и при этом помнит датасет, на котором обучалась базовая модель - перплексия на оригинальном датасете не выше 20 (базовая модель 13.6). Перплексия на валидационных датасетах новостных источников также в районе 20.
Далее планируется продолжить актуализировать модель каждый день/неделю.
Сценарии использования
Базовое использование модели подразумевает работу с уже обученной моделью в режиме инференса. Модель умеет продолжать переданный текст.
Входные параметры инференса:
Обязательные параметры:
text
- текст для продолжения
Необязательные параметры:
top_k
- параметр top_k текста для генерации. дефолтное значение 5
top_p
- параметр top_p текста для генерации. дефолтное значение 0.95
repetition_penalty
- штраф за повторные реплики. дефолтное значение 1.5
length
- длина продолженного текста (не больше 1535). дефолтное значение 250
seed
- random seed. дефолтное значение выбирается случайно
Выходные параметры инференса.
Возвращается словарь со следующими полями:
predictions
- текст, продолженный моделью
Примеры:
Запрос:
{"instances": [{ "text": "Александр Сергеевич Пушкин родился в"}]}
Результат:
{'predictions': ['Александр Сергеевич Пушкин родился в 1799 году в селе Михайловское (ныне Пушкинский район Псковской области) в крестьянской семье. Его отец, Александр Сергеевич Пушкин, происходил из старинного дворянского рода. ']'}}
Запрос:
{"instances": [{ "text": " Заголовок: Минпросвещения запретило учителям использовать WhatsApp"}]}
Результат:
{'predictions': ['Заголовок: Минпросвещения запретило учителям использовать WhatsApp при работе в школах
Текст: Министр просвещения Ольга Васильева /tags/personsiya-olgaeva), возглавляющий ведомство, не дала своим подчиненным и их коллегам по министерству разрешения на использование мобильного телефона во время уроков. Об этом «Известиям» сообщил источник из министерства образования России. ']'}}
Дисклеймер
При использовании модели ruGPT-3 Large ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством модели.
Обратная связь
Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram