Маркетплейс AI Services пополнился новой версией нейросети для генерации изображений по текстовому запросу — Kandinsky
AI Services
Время чтения
2 минуты
Команды Sber AI и SberDevices разместили на маркетплейсе AI Services улучшенную версию мультимодальной нейросети ruDALL-E. Нейросеть получила название Kandinsky, она способна генерировать картинки по описанию на русском языке и может быть использована для создания любых видов изображений: от иллюстраций до промышленного дизайна c высокой степенью детализации создаваемых изображений.
На данный момент это самая большая модель генерации изображений по текстовому описанию на русском языке, продолжение нейросетевого вычислительного проекта прошлого года ruDALL-E. В ноябре была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Код был выложен в открытый доступ, а на его основе запущен сервис генерации изображений.
Также в ноябре была анонсирована эксклюзивная модель ruDALL-E XXL c 12 миллиардами параметров, в декабре её опубликовали на маркетплейсе AI Services.
За полгода предыдущими моделями ruDALL-E воспользовались более 2 млн уникальных пользователей.
В этом году команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив её на 179 млн изображений, снабженных текстовыми описаниями. Обучение велось на платформе ML Space.
Обновленная модель Kandinsky доступна по API и умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок. Дообученная модель также значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.
Создание изображений при помощи модели Kandinsky происходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky), используя текстовое описание, генерирует заданное число изображений. Затем вторая (ruCLIP Large) выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки, а потом третья (Diffusion Model, или Real ESRGAN) увеличивает их в размере. Итогом работы модели является набор сгенерированных изображений высокого качества.
Ключевым отличительным преимуществом модели Kandinsky по сравнению с моделью XL и XXL является более высокая степень детализации создаваемых изображений.
На данный момент оценить возможности модели могут все пользователи, зарегистрированные на платформе ML Space, а также обладатели умных устройств с ассистентом «Салют»: для генерации изображения, достаточно сказать «включи художника».
Получить тестовый доступ к Kandinsky могут юридические лица и ИП, заполнив форму по ссылке с пометкой «Kandinsky» в поле комментария.
Подробная техническая статья про обучение модели и ее возможности представлена по️ ссылке.