Режимы работы с Foundation Models
Существует несколько режимов работы с базовыми моделями ИИ для разных сценариев использования. Ниже приведены основные подходы и их особенности.
Синхронный режим
Приложение отправляет запрос и ожидает полного завершения операции перед продолжением работы.
Рекомендуется для:
простых скриптов и демонстраций;
сценариев с низкой нагрузкой;
последовательной обработки запросов.
Асинхронный режим
Позволяет параллельно выполнять другие операции во время ожидания ответа от модели.
Преимущества:
оптимальное использование ресурсов;
поддержка высоконагруженных систем;
интеграция с веб-фреймворками (FastAPI, Django).
Пакетный режим
Одновременная отправка группы запросов через API.
Особенности:
лимит — 20 параллельных запросов на ключ API;
автоматическое управление таймаутами;
оптимизация для ETL-процессов и дата-пайпов.
Для пакетных операций используйте параметр batch_size в клиентских библиотеках.
Асинхронный режим требует поддержки цикла обработки событий в вашей среде выполнения.
Все режимы поддерживают тонкую настройку через параметры temperature и max_tokens.
- Синхронный режим
- Асинхронный режим
- Пакетный режим