Маркетплейс AI Services пополнился новой версией нейросети для генерации изображений по текстовому запросу — Kandinsky

Команды Sber AI и SberDevices разместили на маркетплейсе AI Services улучшенную версию мультимодальной нейросети ruDALL-E. Нейросеть получила название Kandinsky, она способна генерировать картинки по описанию на русском языке и может быть использована для создания любых видов изображений: от иллюстраций до промышленного дизайна c высокой степенью детализации создаваемых изображений.

Иллюстрация для статьи на тему «Маркетплейс AI Services пополнился новой версией нейросети для генерации изображений по текстовому запросу — Kandinsky »

Содержание

За полгода предыдущими моделями ruDALL-E воспользовались более 2 млн уникальных пользователей.

На данный момент это самая большая модель генерации изображений по текстовому описанию на русском языке, продолжение нейросетевого вычислительного проекта прошлого года ruDALL-E. В ноябре была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Код был выложен в открытый доступ, а на его основе запущен сервис генерации изображений.

Также в ноябре была анонсирована эксклюзивная модель ruDALL-E XXL c 12 миллиардами параметров, в декабре её опубликовали на маркетплейсе AI Services.

За полгода предыдущими моделями ruDALL-E воспользовались более 2 млн уникальных пользователей.

В этом году команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив её на 179 млн изображений, снабженных текстовыми описаниями. Обучение велось на платформе ML Space.

Обновленная модель Kandinsky доступна по API и умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок. Дообученная модель также значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.

Создание изображений при помощи модели Kandinsky происходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky), используя текстовое описание, генерирует заданное число изображений. Затем вторая (ruCLIP Large) выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки, а потом третья (Diffusion Model, или Real ESRGAN) увеличивает их в размере. Итогом работы модели является набор сгенерированных изображений высокого качества.

Ключевым отличительным преимуществом модели Kandinsky по сравнению с моделью XL и XXL является более высокая степень детализации создаваемых изображений.

На данный момент оценить возможности модели могут все пользователи, зарегистрированные на платформе ML Space, а также обладатели умных устройств с ассистентом «Салют»: для генерации изображения, достаточно сказать «включи художника».

Получить тестовый доступ к Kandinsky могут юридические лица и ИП, заполнив форму по ссылке с пометкой «Kandinsky» в поле комментария.

Дарим до 20 000 бонусов

4 000 бонусов — физическим лицам, 20 000 бонусов — юридическим

Подробная техническая статья про обучение модели и ее возможности представлена по️ ссылке.

16 июня 2022