Evolution
Тема интерфейса

Отправить запрос к версии базы знаний

Эта статья полезна?

Сервис Managed RAG предоставляет возможность отправлять запросы к определенной версии базы знаний.

Запросы можно отправить прямо в интерфейсе или из терминала, используя публичный URL-адрес версии. Публичный адрес генерируется автоматически при создании версии базы знаний и позволяет любому пользователю отправлять запрос из интернета.

Примечание

Запросы к базам знаний на основе Foundation Models и ML Inference различаются параметрами внутри model__settings.

Отправить запрос в интерфейсе

  1. Перейдите в AI Factory → Managed RAG.

  2. Перейдите в нужную базу знаний.

  3. Нажмите на номер нужной версии базы знаний и перейдите на вкладку API.

  4. Выберите вид запроса из четырех доступных:

    • поисковая выдача — поиск по запросу и выдача релевантных документов;

    • генеративный ответ по поисковой выдаче — генерация ответа на основе поиска по документам;

    • переранжированная поисковая выдача — переранжирование результатов поиска с использованием специализированной модели;

    • генеративный ответ по переранжированной поисковой выдаче — полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.

  5. При необходимости введите собственное значение параметра query и нажмите Отправить.

Отправить запрос в терминале

  1. Скопируйте публичный URL версии:

    1. Перейдите в AI Factory → Managed RAG и откройте нужную базу знаний.

    2. На вкладке Версии рядом с нужной версией нажмите Копировать URL.

  2. Отправьте нужный запрос:

    • поисковая выдача — поиск по запросу и выдача релевантных документов;

    • генеративный ответ по поисковой выдаче — генерация ответа на основе поиска по документам;

    • переранжированная поисковая выдача — переранжирование результатов поиска с использованием специализированной модели;

    • генеративный ответ по переранжированной поисковой выдаче — полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.

    Примеры запросов представлены ниже.

Пример запроса: поисковая выдача


curl -X POST "<knowledge_base_public_url>/api/v1/retrieve" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <access_token>" \
-d '{
"query": "Как работает RAG-система?",
"retrieve_limit": 50,
"rag_version": "<rag_version>"
}'

Где:

  • <knowledge_base_public_url> — публичный URL базы знаний;

  • <access_token> — полученный токен доступа с помощью public API Cloud.ru;

  • "query" — текст запроса;

  • "retrieve_limit" — количество возвращаемых чанков в поисковой выдаче, значение по умолчанию — 50;

  • "rag_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.

В ответе вы получите "results" — поисковую выдачу из найденных чанков.

Пример запроса: генеративный ответ по поисковой выдаче


curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_generate" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <access_token>" \
-d '{
"rag_version": "<rag_version>",
"query": "Как работает RAG-система?",
"llm_settings": {
"model_settings": {
"model": "t-tech/T-lite-it-1.0"
},
"system_prompt": "Вы полезный помощник, который отвечает на вопросы, основываясь на предоставленном контексте."
},
"retrieve_limit": 3,
"n_chunks_in_context": 3
}'

Где:

  • <knowledge_base_public_url> — публичный URL базы знаний;

  • <access_token> — полученный токен доступа с помощью public API Cloud.ru;

  • "query" — текст запроса;

  • "llm_settings" — настройки LLM-модели из списка параметров, в том числе model — из списка поддерживаемых моделей;

  • "system_prompt" — промпт для LLM-модели;

  • "retrieve_limit" — количество возвращаемых чанков в поисковой выдаче, значение по умолчанию — 50;

  • "n_chunks_in_context" — количество чанков из поисковой выдачи для контекста LLM, значение по умолчанию — 3;

  • "rag_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.

В ответе вы получите:

  • "llm_answer" — ответ LLM-модели;

  • "retrieve_result" — поисковая выдача из найденных чанков.

Пример запроса: переранжированная поисковая выдача


curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_rerank" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <access_token>" \
-d '{
"query": "Как работает RAG-система?",
"reranker_settings": {
"model": "<model_name>"
},
"retrieve_limit": 50,
  "rag_version": "<rag_version>"
}'

Где:

  • <knowledge_base_public_url> — публичный URL базы знаний;

  • <access_token> — полученный токен доступа с помощью public API Cloud.ru;

  • "query" — текст запроса для переранжирования;

  • "reranker_settings" — настройки модели-реранкера из списка параметров, в том числе model — из списка поддерживаемых моделей;

  • "retrieve_limit" — количество возвращаемых чанков в поисковой выдаче, значение по умолчанию — 50;

  • "rag_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.

В ответе вы получите "results" — поисковую выдачу из найденных чанков.

Пример запроса: генеративный ответ по переранжированной поисковой выдаче


curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_rerank_generate" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <access_token>" \
-d '{
"query": "Как работает RAG-система?",
"llm_settings": {
"model_settings": {
"model": "<model_name>"
},
"system_prompt": "Вы полезный помощник, который отвечает на вопросы, основываясь на предоставленном контексте."
},
  "reranker_settings": {
"model": "BAAI/bge-reranker-v2-m3"
},
"retrieve_limit": 50,
"n_chunks_in_context": 3,
  "rag_version": "<rag_version>"
}'

Где:

  • <knowledge_base_public_url> — публичный URL базы знаний;

  • <access_token> — полученный токен доступа с помощью public API Cloud.ru;

  • "query" — текст запроса;

  • "llm_settings" — настройки LLM-модели из списка параметров, в том числе model — из списка поддерживаемых моделей;

  • "reranker_settings" — настройки LLM-модели из списка параметров, в том числе model — из списка поддерживаемых моделей;

  • "system_prompt" — промпт для LLM-модели;

  • "retrieve_limit" — количество возвращаемых чанков в поисковой выдаче, значение по умолчанию — 50;

  • "n_chunks_in_context" — количество чанков из поисковой выдачи для контекста LLM, значение по умолчанию — 3;

  • "rag_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.

В ответе вы получите:

  • "llm_answer" — ответ LLM-модели;

  • "retrieve_result" — поисковая выдача из найденных чанков.