Нашумевшая модель Kandinsky обновилась до версии 2.0, новая версия уже на ML Space

Виртуальная машина
бесплатно навсегда

Забрать

Новость

Время чтения

2 минуты

Летом 2022 разработчики представили широкой публике модель для генерации изображений на основе текстового описания Kandinsky. Сейчас маркетплейс AI Services, доступный через платформу ML Space, пополнился обновленной версией нейрохудожника — Kandinsky 2.0. Модель научилась качественно обрабатывать запросы на 101 языке, дорисовывать недостающие части картинки и создавать арты в разных стилях. 

Выход Kandinsky 2.0 анонсировали на международной конференции по искусственному интеллекту (ИИ) Artificial Intelligence Journey как первую российскую мультиязычную диффузионную модель, содержащую 2 млрд параметров. 

img

Традиционно для задач генерации используются авторегрессионные (как в случае с предшественником модели) и GAN-подобные архитектуры сетей. Однако такие модели на выходе обладают рядом недостатков, например, требуют сложного подбора гиперпараметров и страдают нестабильностью обучения. На этот раз разработчики решили воспользоваться набирающим популярность диффузионным подходом, хорошо зарекомендовавшим себя в вопросах генерации мультимедийного контента. 

Непосредственное обучение модели проходило на платформе ML Space, в качестве инфраструктуры использовали 196 GPU-карт суперкомпьютера Christofari Neo с 80 Гб памяти на каждой карте. Процесс занял 2 недели или 65 856 GPU-часов. 

Kandinsky 2.0 генерирует более насыщенные и детализированные образы, а также предоставляет пользователям дополнительные возможности: например, замену любой части изображения на фрагмент сгенерированный нейросетью или возможность дорисовать неполную картинку. 

Протестировать возможности нейросети можно на портале FusionBrain, там же реализована возможность сгенерировать изображения в 20 различных стилях от мультипликации до хохломы. Также пользователи могут оценить, как идентичные по сути лингвистические конструкции дают неожиданный результат в зависимости от языка. Например, если сформулировать запрос «самое известное животное в дикой природе» на русском языке, нейросеть нарисует тигра, а на испанском это будет альпака.

Вам может понравиться