Выход Kandinsky 2.0 анонсировали на международной конференции по искусственному интеллекту (ИИ) Artificial Intelligence Journey как первую российскую мультиязычную диффузионную модель, содержащую 2 млрд параметров. 

    Картинка

    Традиционно для задач генерации используются авторегрессионные (как в случае с предшественником модели) и GAN-подобные архитектуры сетей. Однако такие модели на выходе обладают рядом недостатков, например, требуют сложного подбора гиперпараметров и страдают нестабильностью обучения. На этот раз разработчики решили воспользоваться набирающим популярность диффузионным подходом, хорошо зарекомендовавшим себя в вопросах генерации мультимедийного контента. 

    Непосредственное обучение модели проходило на платформе ML Space, в качестве инфраструктуры использовали 196 GPU-карт суперкомпьютера Christofari Neo с 80 Гб памяти на каждой карте. Процесс занял 2 недели или 65 856 GPU-часов. 

    Kandinsky 2.0 генерирует более насыщенные и детализированные образы, а также предоставляет пользователям дополнительные возможности: например, замену любой части изображения на фрагмент сгенерированный нейросетью или возможность дорисовать неполную картинку. 

    Протестировать возможности нейросети можно на портале FusionBrain, там же реализована возможность сгенерировать изображения в 20 различных стилях от мультипликации до хохломы. Также пользователи могут оценить, как идентичные по сути лингвистические конструкции дают неожиданный результат в зависимости от языка. Например, если сформулировать запрос «самое известное животное в дикой природе» на русском языке, нейросеть нарисует тигра, а на испанском это будет альпака.

    Запросите бесплатную консультацию по вашему проекту

    Оставить заявку