Сервис Managed RAG предоставляет возможность отправлять запросы к определенной версии базы знаний.
Запросы можно отправить прямо в интерфейсе или из терминала, используя публичный URL-адрес версии. Публичный адрес генерируется автоматически при создании версии базы знаний и позволяет любому пользователю отправлять запрос из интернета.
Запросы к базам знаний на основе Foundation Models и ML Inference различаются параметрами внутри model__settings.
Отправить запрос в интерфейсе
Перейдите в AI Factory → Managed RAG.
Перейдите в нужную базу знаний.
Нажмите на номер нужной версии базы знаний и перейдите на вкладку API.
Выберите вид запроса из четырех доступных:
поисковая выдача — поиск по запросу и выдача релевантных документов;
генеративный ответ по поисковой выдаче — генерация ответа на основе поиска по документам;
переранжированная поисковая выдача — переранжирование результатов поиска с использованием специализированной модели;
генеративный ответ по переранжированной поисковой выдаче — полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.
При необходимости введите собственное значение параметра query и нажмите Отправить.
Отправить запрос в терминале
Скопируйте публичный URL версии:
Перейдите в AI Factory → Managed RAG и откройте нужную базу знаний.
На вкладке Версии рядом с нужной версией нажмите Копировать URL.
Отправьте нужный запрос:
поисковая выдача — поиск по запросу и выдача релевантных документов;
генеративный ответ по поисковой выдаче — генерация ответа на основе поиска по документам;
переранжированная поисковая выдача — переранжирование результатов поиска с использованием специализированной модели;
генеративный ответ по переранжированной поисковой выдаче — полный RAG-пайплайн: поиск, переранжирование и генерация ответа в одном запросе.
Примеры запросов представлены ниже.
Используйте Описание сложных составных параметров.
Пример запроса: поисковая выдача
curl -X POST "<knowledge_base_public_url>/api/v2/retrieve" \-H "Content-Type: application/json" \-H "Authorization: Bearer <access_token>" \-d '{"knowledge_base_version": "<knowledge_base_version_id>","query": "Что такое сервис Evolution Managed Kubernetes?","retrieval_configuration": {"number_of_results": 3,"retrieval_type": "SEMANTIC"}}'
Где:
<knowledge_base_public_url> — публичный URL базы знаний;
<access_token> — полученный токен доступа с помощью public API Cloud.ru;
"knowledge_base_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.
"query" — текст запроса;
"retrieval_configuration" — настройки поисковой выдачи:
"number_of_results" — количество возвращаемых
в поисковой выдаче;"retrieval_type" — тип поиска. В данном случае используется семантический поиск;
В ответе вы получите "results" — поисковую выдачу из найденных чанков.
Пример запроса: генеративный ответ по поисковой выдаче
curl -X POST "<knowledge_base_public_url>/api/v2/retrieve_generate" \-H "Content-Type: application/json" \-H "Authorization: Bearer <access_token>" \-d '{"knowledge_base_version": "<knowledge_base_version_id>","query": "Что такое сервис Evolution Managed Kubernetes?","retrieval_configuration": {"number_of_results": 3,"retrieval_type": "SEMANTIC"},"generation_configuration": {"model_name": "t-tech/T-lite-it-1.0","model_source": "FOUNDATION_MODELS","number_of_chunks_in_context": 3,"system_prompt": "Вы полезный помощник, который отвечает на вопросы, основываясь на предоставленном контексте."}}'
Где:
<knowledge_base_public_url> — скопированный публичный URL базы знаний;
<access_token> — полученный токен доступа с помощью Public API Cloud.ru;
"knowledge_base_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.
"query" — текст запроса;
"retrieval_configuration" — настройки поисковой выдачи:
"number_of_results" — количество возвращаемых
в поисковой выдаче;"retrieval_type" — тип поиска. В данном случае используется семантический поиск;
"generation_configuration" — настройки языковой модели из списка параметров:
"model_name" — LLM-модель списка поддерживаемых моделей;
"model_source" — источник модели. В данном случае используется модель из Foundation Models;
"system_prompt" — промпт для LLM-модели;
"number_of_chunks_in_context" — количество чанков из поисковой выдачи для контекста LLM.
В ответе вы получите:
"results" — поисковая выдача из найденных чанков;
"llm_answer" — ответ LLM-модели;
"reasoning_content" — размышления модели.
Пример запроса: переранжированная поисковая выдача
curl -X POST "<knowledge_base_public_url>/api/v2/retrieve" \-H "Content-Type: application/json" \-H "Authorization: Bearer <access_token>" \-d '{"knowledge_base_version": "<knowledge_base_version_id>","query": "Что такое сервис Evolution Managed Kubernetes?","retrieval_configuration": {"number_of_results": 5,"retrieval_type": "SEMANTIC"},"reranking_configuration": {"model_name": "BAAI/bge-reranker-v2-m3","model_source": "FOUNDATION_MODELS","number_of_reranked_results": 5}}'
Где:
<knowledge_base_public_url> — публичный URL базы знаний;
<access_token> — полученный токен доступа с помощью public API Cloud.ru;
"knowledge_base_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.
"query" — текст запроса;
"retrieval_configuration" — настройки поисковой выдачи:
"number_of_results" — количество возвращаемых
в поисковой выдаче;"retrieval_type" — тип поиска. В данном случае используется семантический поиск;
"reranking_configuration" — настройки модели-реранкера из списка параметров:
"model_name" — модель-реранкер из списка поддерживаемых моделей;
"model_source" — источник модели. В данном случае используется модель из Foundation Models;
"number_of_reranked_results" — количество чанков из поисковой выдачи после переранжирования. Не может превышать значение параметра "number_of_results".
В ответе вы получите "results" — поисковую выдачу из найденных чанков.
Пример запроса: генеративный ответ по переранжированной поисковой выдаче
curl -X POST "<knowledge_base_public_url>/api/v2/retrieve_generate" \-H "Content-Type: application/json" \-H "Authorization: Bearer <access_token>" \-d '{"query": "Как работает RAG система?","knowledge_base_version": "b47ca934-19d1-45d9-aefb-8b22f10c2efe","retrieval_configuration": {"number_of_results": 5,"retrieval_type": "SEMANTIC"},"reranking_configuration": {"model_name": "BAAI/bge-reranker-v2-m3","model_source": "FOUNDATION_MODELS","number_of_reranked_results": 5},"generation_configuration": {"model_name": "t-tech/T-lite-it-1.0","model_source": "FOUNDATION_MODELS","number_of_chunks_in_context": 3,"system_prompt": "Ты — продвинутый AI-ассистент, получающий достоверную информацию из документов базы знаний."}}'
Где:
<knowledge_base_public_url> — публичный URL базы знаний;
<access_token> — полученный токен доступа с помощью public API Cloud.ru;
"knowledge_base_version" — идентификатор версии базы знаний. Его можно получить на вкладке Информация нужной версии базы знаний.
"query" — текст запроса;
"retrieval_configuration" — настройки поисковой выдачи:
"number_of_results" — количество возвращаемых
в поисковой выдаче;"retrieval_type" — тип поиска. В данном случае используется семантический поиск;
"reranking_configuration" — настройки модели-реранкера из списка параметров:
"model_name" — модель-реранкер из списка поддерживаемых моделей;
"model_source" — источник модели. В данном случае используется модель из Foundation Models;
"number_of_reranked_results" — количество чанков в поисковой выдаче после переранжирования. Не может превышать значение параметра "number_of_results";
"generation_configuration" — настройки LLM-модели из списка параметров:
"model_name" — LLM-модель списка поддерживаемых моделей;
"model_source" — источник модели. В данном случае используется модель из Foundation Models;
"system_prompt" — промпт для LLM-модели;
"number_of_chunks_in_context" — количество чанков из поисковой выдачи для контекста LLM.
В ответе вы получите:
"results" — поисковая выдача из найденных чанков;
"llm_answer" — ответ LLM-модели;
"reasoning_content" — размышления модели.