На маркетплейсе платформы ML Space появился инструмент для непрерывного обучения языковых моделей
Новость
Время чтения
1 минута
На электронной витрине AI-сервисов, доступных в платформе ML Space, появилась новая версия модели ruGPT-3 large, обученная инструментом Molotilka (ML Toolkit for Continuous Learning). В модели реализована автоматизация постоянного дообучения с минимальным забыванием старых знаний.
Поток информации непрерывен, а события в мире напрямую отражаются на языке, в частности — делают высказывания правдивыми или ложными.
Так языковая модель, обученная в 2021 году не будет знать, что в 2022-ом Аргентина проиграла матч Саудовской Аравии, соответственно не сможет сгенерировать адекватные высказывания на эту тему.
Molotilka ruGPT-3 large создана для того, чтобы проводить непрерывное обучение языковых моделей с повторением заранее заданных этапов. Например, таких как скачивание актуальных данных из новостных источников, их препроцессинг, создание датасета для дообучения языковой модели и ее оценка на разных задачах.
В основе сервиса лежит архитектура ruGPT-3, ранее обученная разработчиками на большом корпусе текстов из различных источников. Далее сеть дообучили и модифицировали с использованием технологии adapters, это помогло преодолеть проблему “забывания” знаний.
Данное решение может применяться в следующих случаях:
- стандартное применение ruGPT-3 как языковой модели, обладающей актуальными знаниями о мире;
- создание кастомизированных задач с постоянным дообучением на новых данных: классификация, извлечение информации, диалоговые системы и пр.
Пользователи платформы ML Space, желающие применить сервис для своих задач, могут развернуть деплой модели по кнопке и взаимодействовать с ней по API.