nav-img
Evolution

Отправить запрос к версии базы знаний

Сервис Managed RAG предоставляет возможность отправлять запросы к определенной версии базы знаний. Для этого используется сервисный аккаунт, который автоматически создается при создании базы знаний.

Запросы отправляются через HTTP с помощью публичного URL-адреса прямо в интерфейсе. Публичный адрес генерируется автоматически при создании версии базы знаний и позволяет любому пользователю отправлять запрос из интернета.

Копировать публичный URL версии

  1. Перейдите в ML/AI Инструменты → Managed RAG.

  2. На вкладке Версии рядом с нужной версией нажмите Копировать URL.

Отправить запрос к версии

  1. Перейдите в ML/AI Инструменты → Managed RAG.

  2. Перейдите в нужную базу знаний.

  3. Нажмите на номер нужной версии базы знаний и перейдите на вкладку API.

  4. Введите тестовый запрос в поле Запрос и нажмите Отправить.

    Доступно четыре вида запросов.

Поисковая выдача

Поиск по запросу и выдача релевантных документов.

Пример запроса:

curl --location 'http://knowledge_base_public_url/api/v1/retrieve' \
--header 'accept: application/json' \
--header 'Content-Type: application/json' \
--data '{
"query": "Какова главная тема, которая объединяет пользовательские документы?",
"retrieveLimit": 50,
"ragVersion": "e96ef0f5-724f-43c5-9046-f0c79348be70"
}'

Где:

  • knowledge_base_public_url — публичный URL базы знаний;

  • "query" — текст запроса;

  • "retrieveLimit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;

  • "ragVersion" — версия RAG-системы.

В ответе вы получите "results" — массив найденных документов.

Генеративный ответ по поисковой выдаче

Генерация ответа на основе поиска по документам.

Пример запроса:

curl --location 'http://knowledge_base_public_url/api/v1/retrieve_generate' \
--header 'accept: application/json' \
--header 'Content-Type: application/json' \
--data '{
"query": "Как работает RAG-система?",
"llmSettings": {
"modelSettings": {
"model": "Qwen/QwQ-32B"
},
"systemPrompt": "You are a helpful assistant that answers questions based on provided context.",
"temperature": 1,
"topP": 1,
"maxCompletionTokens": 512,
"frequencyPenalty": 0,
"lengthPenalty": 1,
"presencePenalty": 0,
"repetitionPenalty": 1,
"stop": "\n,###,Human:"
},
"retrieveLimit": 50,
"nChunksInContext": 3,
"ragVersion": "e96ef0f5-724f-43c5-9046-f0c79348be70"
}'

Где:

  • knowledge_base_public_url — публичный URL базы знаний;

  • "query" — текст запроса;

  • "llmSettings" — настройки языковой модели, полный список параметров;

  • "retrieveLimit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;

  • "nChunksInContext" — количество чанков из поисковой выдачи для контекста LLM (top K), значение по умолчанию — 3;

  • "ragVersion" — версия RAG-системы.

В ответе вы получите:

  • "llmAnswer" — сгенерированный моделью ответ;

  • "retrieveResult" — использованные в ответе документы из базы знаний.

Переранжированная поисковая выдача

Переранжирование результатов поиска с использованием специализированной модели.

Пример запроса:

curl --location 'http://knowledge_base_public_url/api/v1/retrieve_rerank' \
--header 'accept: application/json' \
--header 'Content-Type: application/json' \
--data '{
"query": "Как работает RAG-система?",
"rerankerSettings": {
"model": "BAAI/bge-reranker-v2-m3"
},
"retrieveLimit": 50,
  "ragVersion": "e96ef0f5-724f-43c5-9046-f0c79348be70"
}'

Где:

  • knowledge_base_public_url — публичный URL базы знаний;

  • "query" — текст запроса для переранжирования;

  • "rerankerSettings" — настройки модели для реранжирования;

  • "retrieveLimit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;

  • "ragVersion" — версия RAG-системы;

  • "searchResults" — результаты первичного поиска для реранжирования.

В ответе вы получите "results" — массив переранжированных документов.

Генеративный ответ по переранжированной поисковой выдаче

Полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.

Пример запроса:

curl --location 'http://knowledge_base_public_url/api/v1/retrieve_rerank_generate' \
--header 'accept: application/json' \
--header 'Content-Type: application/json' \
--data '{
"query": "Как работает RAG система?",
"llmSettings": {
"modelSettings": {
"model": "Qwen/QwQ-32B"
},
"systemPrompt": "You are a helpful assistant that answers questions based on provided context.",
"temperature": 1,
"topP": 1,
"maxCompletionTokens": 512,
"frequencyPenalty": 0,
"lengthPenalty": 1,
"presencePenalty": 0,
"repetitionPenalty": 1,
"stop": "\n,###,Human:"
},
  "rerankerSettings": {
"model": "BAAI/bge-reranker-v2-m3"
},
"retrieveLimit": 50,
"nChunksInContext": 3,
  "ragVersion": "e96ef0f5-724f-43c5-9046-f0c79348be70"
}'

Где:

  • knowledge_base_public_url — публичный URL базы знаний;

  • "query" — текст запроса;

  • "llmSettings" — настройки языковой модели, полный список параметров;

  • "rerankerSettings" — настройки модели для реранжирования;

  • "retrieveLimit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;

  • "nChunksInContext" — количество чанков из поисковой выдачи для контекста LLM (top K), значение по умолчанию — 3;

  • "ragVersion" — версия RAG-системы.

В ответе вы получите:

  • "llmAnswer" — сгенерированный моделью ответ;

  • "retrieveResult" — использованные в ответе документы из базы знаний после переранжирования.