Циклический старт в Ollama
Ollama не загружает модель в память до первого запроса. Сам запрос может занимать до 30–40 секунд. Поэтому запуск большой модели из статуса «Ожидание запроса» в Ollama может занять 40 секунд, после чего модель снова перейдет в режим ожидания.
Решение
-
Оставить Ollama, но настроить минимальное количество экземпляров равным 1. Это гарантирует постоянное присутствие модели в памяти, исключая задержки старта. Экземпляр будет тарифицироваться.
-
Для больших моделей рекомендуется переход на vLLM. Модель считается запущенной только после полной загрузки в память, что решает проблему циклического старта.
См.также
- Решение