Отправить запрос к версии базы знаний
Сервис Managed RAG предоставляет возможность отправлять запросы к определенной версии базы знаний. Для этого используется сервисный аккаунт, который автоматически создается при создании базы знаний.
Запросы отправляются через HTTP с помощью публичного URL-адреса прямо в интерфейсе. Публичный адрес генерируется автоматически при создании версии базы знаний и позволяет любому пользователю отправлять запрос из интернета.
Копировать публичный URL версии
Перейдите в ML/AI Инструменты → Managed RAG.
На вкладке Версии рядом с нужной версией нажмите Копировать URL.
Отправить запрос к версии
Перейдите в ML/AI Инструменты → Managed RAG.
Перейдите в нужную базу знаний.
Нажмите на номер нужной версии базы знаний и перейдите на вкладку API.
Введите тестовый запрос в поле Запрос и нажмите Отправить.
Доступно четыре вида запросов.
Поисковая выдача
Поиск по запросу и выдача релевантных документов.
Пример запроса:
curl --location 'http://knowledge_base_public_url/api/v1/retrieve' \--header 'accept: application/json' \--header 'Content-Type: application/json' \--data '{"query": "Какова главная тема, которая объединяет пользовательские документы?","retrieveLimit": 50,"ragVersion": "e96ef0f5-724f-43c5-9046-f0c79348be70"}'
Где:
knowledge_base_public_url — публичный URL базы знаний;
"query" — текст запроса;
"retrieveLimit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;
"ragVersion" — версия RAG-системы.
В ответе вы получите "results" — массив найденных документов.
Генеративный ответ по поисковой выдаче
Генерация ответа на основе поиска по документам.
Пример запроса:
curl --location 'http://knowledge_base_public_url/api/v1/retrieve_generate' \--header 'accept: application/json' \--header 'Content-Type: application/json' \--data '{"query": "Как работает RAG-система?","llmSettings": {"modelSettings": {"model": "Qwen/QwQ-32B"},"systemPrompt": "You are a helpful assistant that answers questions based on provided context.","temperature": 1,"topP": 1,"maxCompletionTokens": 512,"frequencyPenalty": 0,"lengthPenalty": 1,"presencePenalty": 0,"repetitionPenalty": 1,"stop": "\n,###,Human:"},"retrieveLimit": 50,"nChunksInContext": 3,"ragVersion": "e96ef0f5-724f-43c5-9046-f0c79348be70"}'
Где:
knowledge_base_public_url — публичный URL базы знаний;
"query" — текст запроса;
"llmSettings" — настройки языковой модели, полный список параметров;
"retrieveLimit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;
"nChunksInContext" — количество чанков из поисковой выдачи для контекста LLM (top K), значение по умолчанию — 3;
"ragVersion" — версия RAG-системы.
В ответе вы получите:
"llmAnswer" — сгенерированный моделью ответ;
"retrieveResult" — использованные в ответе документы из базы знаний.
Переранжированная поисковая выдача
Переранжирование результатов поиска с использованием специализированной модели.
Пример запроса:
curl --location 'http://knowledge_base_public_url/api/v1/retrieve_rerank' \--header 'accept: application/json' \--header 'Content-Type: application/json' \--data '{"query": "Как работает RAG-система?","rerankerSettings": {"model": "BAAI/bge-reranker-v2-m3"},"retrieveLimit": 50,"ragVersion": "e96ef0f5-724f-43c5-9046-f0c79348be70"}'
Где:
knowledge_base_public_url — публичный URL базы знаний;
"query" — текст запроса для переранжирования;
"rerankerSettings" — настройки модели для реранжирования;
"retrieveLimit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;
"ragVersion" — версия RAG-системы;
"searchResults" — результаты первичного поиска для реранжирования.
В ответе вы получите "results" — массив переранжированных документов.
Генеративный ответ по переранжированной поисковой выдаче
Полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.
Пример запроса:
curl --location 'http://knowledge_base_public_url/api/v1/retrieve_rerank_generate' \--header 'accept: application/json' \--header 'Content-Type: application/json' \--data '{"query": "Как работает RAG система?","llmSettings": {"modelSettings": {"model": "Qwen/QwQ-32B"},"systemPrompt": "You are a helpful assistant that answers questions based on provided context.","temperature": 1,"topP": 1,"maxCompletionTokens": 512,"frequencyPenalty": 0,"lengthPenalty": 1,"presencePenalty": 0,"repetitionPenalty": 1,"stop": "\n,###,Human:"},"rerankerSettings": {"model": "BAAI/bge-reranker-v2-m3"},"retrieveLimit": 50,"nChunksInContext": 3,"ragVersion": "e96ef0f5-724f-43c5-9046-f0c79348be70"}'
Где:
knowledge_base_public_url — публичный URL базы знаний;
"query" — текст запроса;
"llmSettings" — настройки языковой модели, полный список параметров;
"rerankerSettings" — настройки модели для реранжирования;
"retrieveLimit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;
"nChunksInContext" — количество чанков из поисковой выдачи для контекста LLM (top K), значение по умолчанию — 3;
"ragVersion" — версия RAG-системы.
В ответе вы получите:
"llmAnswer" — сгенерированный моделью ответ;
"retrieveResult" — использованные в ответе документы из базы знаний после переранжирования.
- Копировать публичный URL версии
- Отправить запрос к версии