Сервис Managed RAG предоставляет возможность отправлять запросы к определенной версии базы знаний.
Запросы можно отправить прямо в интерфейсе или из терминала, используя публичный URL-адрес версии. Публичный адрес генерируется автоматически при создании версии базы знаний и позволяет любому пользователю отправлять запрос из интернета.
Запросы к базам знаний на основе Foundation Models и ML Inference различаются параметрами внутри model__settings.
Отправить запрос в интерфейсе
Перейдите в AI Factory → Managed RAG.
Перейдите в нужную базу знаний.
Нажмите на номер нужной версии базы знаний и перейдите на вкладку API.
Выберите вид запроса из четырех доступных:
поисковая выдача — поиск по запросу и выдача релевантных документов;
генеративный ответ по поисковой выдаче — генерация ответа на основе поиска по документам;
переранжированная поисковая выдача — переранжирование результатов поиска с использованием специализированной модели;
генеративный ответ по переранжированной поисковой выдаче — полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.
При необходимости введите собственное значение параметра query и нажмите Отправить.
Отправить запрос в терминале
Скопируйте публичный URL версии:
Перейдите в AI Factory → Managed RAG и откройте нужную базу знаний.
На вкладке Версии рядом с нужной версией нажмите Копировать URL.
Отправьте нужный запрос:
поисковая выдача — поиск по запросу и выдача релевантных документов;
генеративный ответ по поисковой выдаче — генерация ответа на основе поиска по документам;
переранжированная поисковая выдача — переранжирование результатов поиска с использованием специализированной модели;
генеративный ответ по переранжированной поисковой выдаче — полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.
Примеры запросов представлены ниже.
Используйте Описание сложных составных параметров.
Пример запроса: поисковая выдача
curl -X POST "<knowledge_base_public_url>/api/v1/retrieve" \-H "Content-Type: application/json" \-H "Authorization: Bearer <access_token>" \-d '{"query": "Как работает RAG-система?","retrieve_limit": 50,"rag_version": "<rag_version>"}'
Где:
<knowledge_base_public_url> — публичный URL базы знаний;
<access_token> — полученный токен доступа с помощью public API Cloud.ru;
"query" — текст запроса;
"retrieve_limit" — количество возвращаемых чанков в поисковой выдаче, значение по умолчанию — 50;
"rag_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.
В ответе вы получите "results" — поисковую выдачу из найденных чанков.
Пример запроса: генеративный ответ по поисковой выдаче
curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_generate" \-H "Content-Type: application/json" \-H "Authorization: Bearer <access_token>" \-d '{"rag_version": "<rag_version>","query": "Как работает RAG-система?","llm_settings": {"model_settings": {"model": "t-tech/T-lite-it-1.0"},"system_prompt": "Вы полезный помощник, который отвечает на вопросы, основываясь на предоставленном контексте."},"retrieve_limit": 3,"n_chunks_in_context": 3}'
Где:
<knowledge_base_public_url> — публичный URL базы знаний;
<access_token> — полученный токен доступа с помощью public API Cloud.ru;
"query" — текст запроса;
"llm_settings" — настройки LLM-модели из списка параметров, в том числе model — из списка поддерживаемых моделей;
"system_prompt" — промпт для LLM-модели;
"retrieve_limit" — количество возвращаемых чанков в поисковой выдаче, значение по умолчанию — 50;
"n_chunks_in_context" — количество чанков из поисковой выдачи для контекста LLM, значение по умолчанию — 3;
"rag_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.
В ответе вы получите:
"llm_answer" — ответ LLM-модели;
"retrieve_result" — поисковая выдача из найденных чанков.
Пример запроса: переранжированная поисковая выдача
curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_rerank" \-H "Content-Type: application/json" \-H "Authorization: Bearer <access_token>" \-d '{"query": "Как работает RAG-система?","reranker_settings": {"model": "<model_name>"},"retrieve_limit": 50,"rag_version": "<rag_version>"}'
Где:
<knowledge_base_public_url> — публичный URL базы знаний;
<access_token> — полученный токен доступа с помощью public API Cloud.ru;
"query" — текст запроса для переранжирования;
"reranker_settings" — настройки модели-реранкера из списка параметров, в том числе model — из списка поддерживаемых моделей;
"retrieve_limit" — количество возвращаемых чанков в поисковой выдаче, значение по умолчанию — 50;
"rag_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.
В ответе вы получите "results" — поисковую выдачу из найденных чанков.
Пример запроса: генеративный ответ по переранжированной поисковой выдаче
curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_rerank_generate" \-H "Content-Type: application/json" \-H "Authorization: Bearer <access_token>" \-d '{"query": "Как работает RAG-система?","llm_settings": {"model_settings": {"model": "<model_name>"},"system_prompt": "Вы полезный помощник, который отвечает на вопросы, основываясь на предоставленном контексте."},"reranker_settings": {"model": "BAAI/bge-reranker-v2-m3"},"retrieve_limit": 50,"n_chunks_in_context": 3,"rag_version": "<rag_version>"}'
Где:
<knowledge_base_public_url> — публичный URL базы знаний;
<access_token> — полученный токен доступа с помощью public API Cloud.ru;
"query" — текст запроса;
"llm_settings" — настройки LLM-модели из списка параметров, в том числе model — из списка поддерживаемых моделей;
"reranker_settings" — настройки LLM-модели из списка параметров, в том числе model — из списка поддерживаемых моделей;
"system_prompt" — промпт для LLM-модели;
"retrieve_limit" — количество возвращаемых чанков в поисковой выдаче, значение по умолчанию — 50;
"n_chunks_in_context" — количество чанков из поисковой выдачи для контекста LLM, значение по умолчанию — 3;
"rag_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.
В ответе вы получите:
"llm_answer" — ответ LLM-модели;
"retrieve_result" — поисковая выдача из найденных чанков.
- Отправить запрос в интерфейсе
- Отправить запрос в терминале