Эксклюзивные модели ruCLIP стали доступны в DataHub ML Space

Sber AI и SberDevices выложили в открытый доступ на GitHub линейку моделей ruCLIP в дополнение к ранее опубликованной модели ruCLIP Small. Модели предназначены для ранжирования изображений и подписей к ним на русском языке, а также оценки семантической близости изображений и текстов.

Эксклюзивный доступ к промышленным версиям моделей с наивысшим качеством и количеством параметров получили пользователи платформы ML Space: ruCLIP Base exclusive и ruCLIP Large exclusive уже размещены в хабе предобученных моделей, датасетов и контейнеров DataHub.

Обучение строилось на самостоятельно собранном датасете из 240 млн пар «изображение — текстовое описание» и заняло 12 полных дней на 256 Tesla GPU A100 80GB на платформе Cloud.ru ML Space. Результатом работы стали 6 моделей ruCLIP, различающихся размером входных изображений и патчей.

Успешное обучение ruCLIP и доступность моделей в open source позволит эффективно решать многие задачи компьютерного зрения в различных продуктах и сервисах в режиме «zero-shot», то есть без необходимости дорогостоящего дообучения.

На практике это означает, что каждый разработчик может воспользоваться предобученными моделями машинного обучения создания различных AI-сервисов. Например, модели ruCLIP могут быть полезны для автоматизированного создания описаний к товарам интернет-магазинов, создания подписей к фотографиям на новостных ресурсах или выполнения поиска по картинкам.

Уже сейчас вы можете воспользоваться грантом на тестовый доступ к платформе ML Space в 180 000 рублей и создать AI-сервис на основе моделей линейки ruCLIP. Также модель можно дообучить и приспособить под специфические запросы вашего бизнеса.

Дарим до 20 000 бонусов

4 000 бонусов — физическим лицам, 20 000 бонусов — юридическим

22 января 2022