Облачная платформаEvolution

Циклический старт в Ollama

Эта статья полезна?

Ollama не загружает модель в память до первого запроса. Сам запрос может занимать до 30–40 секунд. Поэтому запуск большой модели из статуса «Ожидание запроса» в Ollama может занять 40 секунд, после чего модель снова перейдет в режим ожидания.

Решение

Оставить Ollama, но настроить минимальное количество экземпляров равным 1. Это гарантирует постоянное присутствие модели в памяти, исключая задержки старта. Экземпляр будет тарифицироваться.
Для больших моделей рекомендуется переход на vLLM. Модель считается запущенной только после полной загрузки в память, что решает проблему циклического старта.

См.также

Масштабирование инференса

Предыдущая статья

Ошибка 502 при старте из статуса «Ожидание запроса»

Следующая статья

Справочник API сервиса ML Inference

Эта статья полезна?

Поддержка Юридические документы Политика конфиденциальности