Режимы работы с Foundation Models
Существует несколько режимов работы с базовыми моделями ИИ для разных сценариев использования. Ниже приведены основные подходы и их особенности.
Синхронный режим
Приложение отправляет запрос и ожидает полного завершения операции перед продолжением работы.
Рекомендуется для:
-
простых скриптов и демонстраций;
-
сценариев с низкой нагрузкой;
-
последовательной обработки запросов.
Асинхронный режим
Позволяет параллельно выполнять другие операции во время ожидания ответа от модели.
Преимущества:
-
оптимальное использование ресурсов;
-
поддержка высоконагруженных систем;
-
интеграция с веб-фреймворками (FastAPI, Django).
Пакетный режим
Одновременная отправка группы запросов через API.
Особенности:
-
лимит — 20 параллельных запросов на ключ API;
-
автоматическое управление таймаутами;
-
оптимизация для ETL-процессов и дата-пайпов.
-
Для пакетных операций используйте параметр batch_size в клиентских библиотеках.
-
Асинхронный режим требует поддержки цикла обработки событий в вашей среде выполнения.
-
Все режимы поддерживают тонкую настройку через параметры temperature и max_tokens.
- Синхронный режим
- Асинхронный режим
- Пакетный режим