

Русская text-to-image модель, генерирующая изображения по тексту
Zero-Shot Text-to-Image Generation
Русская text-to-image модель, генерирующая изображения по тексту, 12 млрд параметров.
ruDALL-E XXL 12B + ruCLIP + SuperResolution
Новости
- Habr: ruDALL-E - генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России
- VC: Вы синиц показываете? Красивое!: что сгенерировали пользователи с помощью нейросети ruDALL-E
Подробнее о модели
Примеры кода с использованием модели: GitHub
Статья OpenAI: ссылка
Галерея ruDALL-E: ссылка
Технические параметры
- Размер файлов:
- ruDALL-E XXL 12B - 24 GB
- Модель GPU: V 100
- Фреймворк: pytorch
- Tags: DALL-E, ruDALL-e, pytorch, text2image, image generation, NLP, CV
- Формат: checkpoint
- Версия: 0.1
Применение
Генерация изображений решает две важные задачи, которые не может решить поиск:
-
позволяет учесть точное описание желаемого
-
создаёт изображение, которое раньше не существовало.
Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.
Код в деплое решает следующие задачи:
- генерация изображений по текстовому описанию
- выбор (ранжирование) самого релеватного и качественного изображения из сгенерированных с помощью модели ruCLIP
- увеличение разрешения изображения в 2, 4, 8 раз - super resolution
Пример: "шикарная гостиная с зелеными креслами у окна"
Описание работы с моделью
Шаг 0. Создание деплоя
Шаг 1. Обращение к API
import base64
import requests
from io import BytesIO
from IPython.display import display
from PIL import Image
response = requests.post(
'http://localhost:8080/v1/models/kfserving-default:predict',
json={
"instances": [
{
"text": "пейзаж со снежными горами и озером розового цвета",
"top_k": 1500,
"top_p": 0.99,
"images_num": 4,
"rerank_top": 2,
"hi_res": True
}
]
})
for imgtext in response.json()['images']:
msg = base64.b64decode(imgtext.encode('ascii'))
img = Image.open(BytesIO(msg))
display(img)
Результат:
Пример минимального вызова:
response = requests.post('http://localhost:8080/v1/models/kfserving-default:predict',
json={"instances": [{"text": "рыжий котик"}]})
imgtext = response.json()['images'][0].encode('ascii')
display(Image.open(BytesIO(base64.b64decode(imgtext))))
Галерея примеров:
"шикарная гостиная с зелеными креслами у окна", top_k=1400, top_p=0.97
"Рыжик котик" + ruCLIP
"современное кресло фиолетового цвета" + ruCLIP
"деловой человек, работающий на ноутбуке" + ruCLIP
Самая большая вычислительная задача в России
На платформе ML Space и суперкомпьютере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Самая большая обученная модель ruDALL-E XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!
Попробуйте быструю генерацию в приложении Салют. Для активации навыка скажите «Включи художника». Или попробуйте Телеграм бота @sber_rudalle_xl_bot
Дисклеймер
При использовании модели ruDALL-E XXL 12B ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данной модели.