ruDALL-E XXL 12BБесплатно
Zero-Shot Text-to-Image Generation
Русская text-to-image модель, генерирующая изображения по тексту, 12 млрд параметров.
ruDALL-E XXL 12B + ruCLIP + SuperResolution
Other
24 GB
0.1
Новости
- Habr: ruDALL-E - генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России
- VC: Вы синиц показываете? Красивое!: что сгенерировали пользователи с помощью нейросети ruDALL-E
Подробнее о модели
Примеры кода с использованием модели: GitHub
Статья OpenAI: ссылка
Галерея ruDALL-E: ссылка
Применение
Генерация изображений решает две важные задачи, которые не может решить поиск:
-
позволяет учесть точное описание желаемого
-
создаёт изображение, которое раньше не существовало.
Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.
Код в деплое решает следующие задачи:
- генерация изображений по текстовому описанию
- выбор (ранжирование) самого релеватного и качественного изображения из сгенерированных с помощью модели ruCLIP
- увеличение разрешения изображения в 2, 4, 8 раз - super resolution
Пример: "шикарная гостиная с зелеными креслами у окна"
Описание работы с моделью
Шаг 0. Создание деплоя
Шаг 1. Обращение к API
import base64
import requests
from io import BytesIO
from IPython.display import display
from PIL import Image
response = requests.post(
'http://localhost:8080/v1/models/kfserving-default:predict',
json={
"instances": [
{
"text": "пейзаж со снежными горами и озером розового цвета",
"top_k": 1500,
"top_p": 0.99,
"images_num": 4,
"rerank_top": 2,
"hi_res": True
}
]
})
for imgtext in response.json()['images']:
msg = base64.b64decode(imgtext.encode('ascii'))
img = Image.open(BytesIO(msg))
display(img)
Результат:
💡 подсказка: Вы можете делать перебор параметров top_k и top_p, меняя степень абстрактности изображения. Рекомендуемые параметры: top_k=1536, top_p=0.98; top_k=1000, top_p=0.95; top_k=0, top_p=0.95
Пример минимального вызова:
response = requests.post('http://localhost:8080/v1/models/kfserving-default:predict',
json={"instances": [{"text": "рыжий котик"}]})
imgtext = response.json()['images'][0].encode('ascii')
display(Image.open(BytesIO(base64.b64decode(imgtext))))
Галерея примеров:
"шикарная гостиная с зелеными креслами у окна", top_k=1400, top_p=0.97
"Рыжик котик" + ruCLIP
"современное кресло фиолетового цвета" + ruCLIP
"деловой человек, работающий на ноутбуке" + ruCLIP
Самая большая вычислительная задача в России
На платформе Cloud.ru ML Space и суперкомпьютере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Самая большая обученная модель ruDALL-E XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!
Попробуйте быструю генерацию в приложении Салют. Для активации навыка скажите «Включи художника». Или попробуйте Телеграм бота @sber_rudalle_xl_bot
Дисклеймер
При использовании модели ruDALL-E XXL 12B ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данной модели.
Обратная связь
Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram