• Главная
  • Warp
  • Блог
  • Kandinsky 2.1: новый уровень в генерации изображений по текстовому описанию
Картинка

Kandinsky 2.1 наследует веса своего «предшественника» – Kandinsky 2.0. Новая модель была дополнительно обучена на одном из самых мощных датасетов, содержащих более 170 млн пар «текст–изображение». А также дообучена на отдельно собранном датасете из 2 млн качественных изображений, включающих сложные домены: тексты и лица людей.

Kandinsky 2.1 использует специальное представление изображения по модели CLIP:  модель формирует изображение на основе текстовой информации и подает его на вход основной генеративной модели. Создатели модели улучшили автоэнкодер изображений, чтобы модель могла генерировать изображения с высокой детализацией, включая такие сложные объекты, как лица. Теперь новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.

Kandinsky 2.1 может визуализировать любой контент и применяться в различных отраслях. Например, ее можно использовать для создания персонализированных маркетинговых решений, ярких промо-кампаний или привлечения и удержания внимания клиентов. 

Модель Kandinsky 2.1 доступна для промышленной эксплуатации в бизнесе. Вы легко найдете ее на платформе Cloud ML Space в хабе предобученных моделей и датасетов DataHub.

Если у вас нет доступа в Cloud ML Space, оставляйте заявку на подключение как юрлицо. 

Запросите бесплатную консультацию по вашему проекту

Оставить заявку