• Главная
  • Warp
  • Новости
  • Нашумевшая модель Kandinsky обновилась до версии 2.0, новая версия уже на ML Space

Выход Kandinsky 2.0 анонсировали на международной конференции по искусственному интеллекту (ИИ) Artificial Intelligence Journey как первую российскую мультиязычную диффузионную модель, содержащую 2 млрд параметров. 

Картинка

Традиционно для задач генерации используются авторегрессионные (как в случае с предшественником модели) и GAN-подобные архитектуры сетей. Однако такие модели на выходе обладают рядом недостатков, например, требуют сложного подбора гиперпараметров и страдают нестабильностью обучения. На этот раз разработчики решили воспользоваться набирающим популярность диффузионным подходом, хорошо зарекомендовавшим себя в вопросах генерации мультимедийного контента. 

Непосредственное обучение модели проходило на платформе ML Space, в качестве инфраструктуры использовали 196 GPU-карт суперкомпьютера Christofari Neo с 80 Гб памяти на каждой карте. Процесс занял 2 недели или 65 856 GPU-часов. 

Kandinsky 2.0 генерирует более насыщенные и детализированные образы, а также предоставляет пользователям дополнительные возможности: например, замену любой части изображения на фрагмент сгенерированный нейросетью или возможность дорисовать неполную картинку. 

Протестировать возможности нейросети можно на портале FusionBrain, там же реализована возможность сгенерировать изображения в 20 различных стилях от мультипликации до хохломы. Также пользователи могут оценить, как идентичные по сути лингвистические конструкции дают неожиданный результат в зависимости от языка. Например, если сформулировать запрос «самое известное животное в дикой природе» на русском языке, нейросеть нарисует тигра, а на испанском это будет альпака.

Запросите бесплатную консультацию по вашему проекту

Оставить заявку