Эксклюзивные модели ruCLIP стали доступны в DataHub ML Space
Пресс-релиз
Время чтения
2 минуты
Sber AI и SberDevices выложили в открытый доступ на GitHub линейку моделей ruCLIP в дополнение к ранее опубликованной модели ruCLIP Small. Модели предназначены для ранжирования изображений и подписей к ним на русском языке, а также оценки семантической близости изображений и текстов.
Эксклюзивный доступ к промышленным версиям моделей с наивысшим качеством и количеством параметров получили пользователи платформы ML Space: ruCLIP Base exclusive и ruCLIP Large exclusive уже размещены в хабе предобученных моделей, датасетов и контейнеров DataHub.
Обучение строилось на самостоятельно собранном датасете из 240 млн пар «изображение — текстовое описание» и заняло 12 полных дней на 256 Tesla GPU A100 80GB суперкомпьютера Christofari Neo на платформе SberCloud ML Space. Результатом работы стали 6 моделей ruCLIP, различающихся размером входных изображений и патчей.
Успешное обучение ruCLIP и доступность моделей в open source позволит эффективно решать многие задачи компьютерного зрения в различных продуктах и сервисах в режиме «zero-shot», то есть без необходимости дорогостоящего дообучения.
На практике это означает, что каждый разработчик может воспользоваться предобученными моделями машинного обучения создания различных AI-сервисов. Например, модели ruCLIP могут быть полезны для автоматизированного создания описаний к товарам интернет-магазинов, создания подписей к фотографиям на новостных ресурсах или выполнения поиска по картинкам.
Уже сейчас вы можете воспользоваться грантом на тестовый доступ к платформе ML Space в 180 000 рублей и создать AI-сервис на основе моделей линейки ruCLIP. Также модель можно дообучить и приспособить под специфические запросы вашего бизнеса.