Поиск
ruDALL-E XXL 12B-image

ruDALL-E XXL 12B

Zero-Shot Text-to-Image Generation

Русская text-to-image модель, генерирующая изображения по тексту, 12 млрд параметров.

ruDALL-E XXL 12B + ruCLIP + SuperResolution

Лицензия

Other

Размер файлов

24 GB

Версия

0.1

Новости

Подробнее о модели

Примеры кода с использованием модели: GitHub

Статья OpenAI: ссылка

Галерея ruDALL-E: ссылка

Применение

Генерация изображений решает две важные задачи, которые не может решить поиск:

  • позволяет учесть точное описание желаемого

  • создаёт изображение, которое раньше не существовало.

Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.

Код в деплое решает следующие задачи:

  1. генерация изображений по текстовому описанию
  2. выбор (ранжирование) самого релеватного и качественного изображения из сгенерированных с помощью модели ruCLIP
  3. увеличение разрешения изображения в 2, 4, 8 раз - super resolution

Пример: "шикарная гостиная с зелеными креслами у окна"

Untitled

Описание работы с моделью

Шаг 0. Создание деплоя

Шаг 1. Обращение к API

import base64
import requests
from io import BytesIO
from IPython.display import display
from PIL import Image

response = requests.post(
    'http://localhost:8080/v1/models/kfserving-default:predict', 
    json={
        "instances": [
            {
                "text": "пейзаж со снежными горами и озером розового цвета", 
                "top_k": 1500,
                "top_p": 0.99,
                "images_num": 4,
                "rerank_top": 2,
                "hi_res": True
            }
        ]
    })
for imgtext in response.json()['images']:
    msg = base64.b64decode(imgtext.encode('ascii'))
    img = Image.open(BytesIO(msg))
    display(img)

Результат:

Untitled (1).png

💡 подсказка: Вы можете делать перебор параметров top_k и top_p, меняя степень абстрактности изображения. Рекомендуемые параметры: top_k=1536, top_p=0.98; top_k=1000, top_p=0.95; top_k=0, top_p=0.95

Пример минимального вызова:

response = requests.post('http://localhost:8080/v1/models/kfserving-default:predict',  
	json={"instances": [{"text": "рыжий котик"}]})
imgtext = response.json()['images'][0].encode('ascii')
display(Image.open(BytesIO(base64.b64decode(imgtext))))

Галерея примеров:

"шикарная гостиная с зелеными креслами у окна", top_k=1400, top_p=0.97

Untitled

"Рыжик котик" + ruCLIP

Untitled

"современное кресло фиолетового цвета" + ruCLIP

Untitled

"деловой человек, работающий на ноутбуке" + ruCLIP

Untitled

Самая большая вычислительная задача в России

На платформе Cloud.ru ML Space и суперкомпьютере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Самая большая обученная модель ruDALL-E XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!

Попробуйте быструю генерацию в приложении Салют. Для активации навыка скажите «Включи художника». Или попробуйте Телеграм бота @sber_rudalle_xl_bot

Дисклеймер

При использовании модели ruDALL-E XXL 12B ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данной модели.

Обратная связь

Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram