Evolution
Тема интерфейса

Отправить запрос к версии базы знаний

Сервис Managed RAG предоставляет возможность отправлять запросы к определенной версии базы знаний.

Запросы можно отправить прямо в интерфейсе или из терминала, используя публичный URL-адрес версии. Публичный адрес генерируется автоматически при создании версии базы знаний и позволяет любому пользователю отправлять запрос из интернета.

Отправить запрос в интерфейсе

  1. Перейдите в AI Factory → Managed RAG.

  2. Перейдите в нужную базу знаний.

  3. Нажмите на номер нужной версии базы знаний и перейдите на вкладку API.

  4. Выберите вид запроса из четырех доступных:

    • поисковая выдача — поиск по запросу и выдача релевантных документов;

    • генеративный ответ по поисковой выдаче — генерация ответа на основе поиска по документам;

    • переранжированная поисковая выдача — переранжирование результатов поиска с использованием специализированной модели;

    • генеративный ответ по переранжированной поисковой выдаче — полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.

  5. При необходимости введите собственное значение параметра query и нажмите Отправить.

Отправить запрос в терминале

  1. Скопируйте публичный URL версии:

    1. Перейдите в AI Factory → Managed RAG и откройте нужную базу знаний.

    2. На вкладке Версии рядом с нужной версией нажмите Копировать URL.

  2. Отправьте нужный запрос:

    • поисковая выдача — поиск по запросу и выдача релевантных документов;

    • генеративный ответ по поисковой выдаче — генерация ответа на основе поиска по документам;

    • переранжированная поисковая выдача — переранжирование результатов поиска с использованием специализированной модели;

    • генеративный ответ по переранжированной поисковой выдаче — полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.

    Примеры запросов представлены ниже.

Пример запроса: поисковая выдача


curl -X POST "<knowledge_base_public_url>/api/v1/retrieve" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <access_token>" \
-d '{
"project_id" : "<project_id>",
"query": "Как работает RAG-система?",
"retrieve_limit": 50,
"rag_version": "<rag_version>"
}'

Где:

  • <knowledge_base_public_url> — публичный URL базы знаний;

  • <access_token> — полученный токен доступа с помощью public API Cloud.ru;

  • "project_id" — ID проекта.

  • "query" — текст запроса;

  • "retrieve_limit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;

  • "rag_version" — ID версии базы знаний, который можно скопировать, перейдя в нужную версию базы знаний на вкладку Информация.

В ответе вы получите "results" — массив найденных документов.

Пример запроса: генеративный ответ по поисковой выдаче


curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_generate" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <access_token>" \
-d '{
"project_id": "<project_id>",
"rag_version": "<rag_version>",
"query": "Как работает RAG-система?",
"llm_settings": {
"model_settings": {
"model": "t-tech/T-lite-it-1.0"
},
"system_prompt": "Вы полезный помощник, который отвечает на вопросы, основываясь на предоставленном контексте.",
"temperature": 1,
"top_p": 1,
"max_completion_tokens": 0,
"frequency_penalty": 0,
"length_penalty": 1,
"presence_penalty": 0,
"repetition_penalty": 1,
"stop": "\n,###,Human:"
},
"retrieve_limit": 3,
"n_chunks_in_context": 3
}'

Где:

  • <knowledge_base_public_url> — публичный URL базы знаний;

  • <access_token> — полученный токен доступа с помощью public API Cloud.ru;

  • "project_id" — ID проекта.

  • "query" — текст запроса;

  • "llm_settings" — настройки языковой модели из списка параметров, в том числе model_name — из списка поддерживаемых моделей;

  • "retrieve_limit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;

  • "n_chunks_in_context" — количество чанков из поисковой выдачи для контекста LLM (top K), значение по умолчанию — 3;

  • "rag_version" — ID версии базы знаний, который можно скопировать, перейдя в нужную версию базы знаний на вкладку Информация.

В ответе вы получите:

  • "llm_answer" — сгенерированный моделью ответ;

  • "retrieve_result" — использованные в ответе документы из базы знаний.

Пример запроса: переранжированная поисковая выдача


curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_rerank" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <access_token>" \
-d '{
"project_id" : "<project_id>",
"query": "Как работает RAG-система?",
"reranker_settings": {
"model": "<model_name>"
},
"retrieve_limit": 50,
  "rag_version": "<rag_version>"
}'

Где:

  • <knowledge_base_public_url> — публичный URL базы знаний;

  • <access_token> — полученный токен доступа с помощью public API Cloud.ru;

  • "project_id" — ID проекта.

  • "query" — текст запроса для переранжирования;

  • "reranker_settings" — настройки языковой модели из списка параметров, в том числе model_name — из списка поддерживаемых моделей;

  • "retrieve_limit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;

  • "rag_version" — ID версии базы знаний, который можно скопировать, перейдя в нужную версию базы знаний на вкладку Информация.

  • "search_results" — результаты первичного поиска для реранжирования.

В ответе вы получите "results" — массив переранжированных документов.

Пример запроса: генеративный ответ по переранжированной поисковой выдаче


curl -X POST "<knowledge_base_public_url>/api/v1/retrieve_rerank_generate" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <access_token>" \
-d '{
"project_id" : "<project_id>",
"query": "Как работает RAG-система?",
"llm_settings": {
"model_settings": {
"model": "<model_name>"
},
"system_prompt": "You are a helpful assistant that answers questions based on provided context.",
"temperature": 1,
"top_p": 1,
"max_completion_tokens": 512,
"frequency_penalty": 0,
"length_penalty": 1,
"presence_penalty": 0,
"repetition_penalty": 1,
"stop": "\n,###,Human:"
},
  "reranker_settings": {
"model": "BAAI/bge-reranker-v2-m3"
},
"retrieve_limit": 50,
"n_chunks_in_context": 3,
  "rag_version": "<rag_version>"
}'

Где:

  • <knowledge_base_public_url> — публичный URL базы знаний;

  • <access_token> — полученный токен доступа с помощью public API Cloud.ru;

  • "project_id" — ID проекта.

  • "query" — текст запроса;

  • "llm_settings" — настройки языковой модели из списка параметров, в том числе model_name — из списка поддерживаемых моделей;

  • "reranker_settings" — настройки языковой модели из списка параметров, в том числе model_name — из списка поддерживаемых моделей;

  • "retrieve_limit" — количество возвращаемых результатов (top N), значение по умолчанию — 50;

  • "n_chunks_in_context" — количество чанков из поисковой выдачи для контекста LLM (top K), значение по умолчанию — 3;

  • "rag_version" — ID версии базы знаний, который можно скопировать, перейдя в нужную версию базы знаний на вкладку Информация.

В ответе вы получите:

  • "llm_answer" — сгенерированный моделью ответ;

  • "retrieve_result" — использованные в ответе документы из базы знаний после переранжирования.