Облачная платформаEvolution

Создать базу знаний

Эта статья полезна?

С помощью этой инструкции вы создадите базу знаний для использования в RAG-пайплайне в сервисе Managed RAG.

Каждая база знаний представляет набор собственных версий. При создании базы знаний появляется первая версия.

Перед началом работы

Авторизуйтесь в личном кабинете.
Подготовьте документы для базы знаний в Evolution Object Storage.
1. Создайте бакет.
2. Создайте папку в бакете и загрузите в нее файлы.
  
  Список поддерживаемых типов файлов.
  
  Внимание
  При создании базы знаний промежуточные результаты сохраняются в тот же бакет. Если в нем будет недостаточно места, создание базы знаний завершится с ошибкой.
  Убедитесь, что свободное место в бакете после загрузки данных составляет размер данных * 4.
На верхней панели слева нажмите и выберите AI Factory → Managed RAG.
Нажмите Создать базу знаний.

Создайте базу знаний с версией

Введите название базы знаний.
(Опционально) Заполните описание базы знаний.
Активируйте опцию Создать первую версию, если хотите создать версию базы знаний.
Введите Название версии.
В блоке Источники из S3 нажмите Выбрать.
Выберите папку с документами в бакете Object Storage.

Вы можете добавлять источники только из одного бакета.
В поле Расширения документов выберите расширения тех файлов, которые будут обработаны и сохранены в базе знаний.

Например, если в вашем бакете есть txt- и JSON-файлы, вы можете выбрать только .json — тогда txt-файлы не будут затронуты.
(Опционально) Чтобы настроить экстрактор для извлечения данных из документов базы знаний и выбрать модель-эмбеддер, активируйте опцию Вручную настроить обработку данных и модель.

При использовании JSON-файлов рекомендуется:
- проверять корректность файлов, например с помощью сервиса JSONLint;
- всегда настраивать параметры JSON-экстрактора.
(Опционально) Для логирования запросов активируйте опцию Логирование запросов.

Выберите или создайте лог-группу.
(Опционально) Для аутентификации пользователя при отправке запросов к базе знаний через публичный URL активируйте опцию Аутентификация.
Нажмите Продолжить.
Выберите и заполните параметры обработки документов для каждого экстрактора.

Полный список поддерживаемых расширений для файлов
Нажмите Продолжить.
Выберите источник модели:
- Foundation Models — одна из готовых моделей сервиса Foundation Models;
- ML Inference — инференс, предварительно созданный вами в сервисе ML Inference.
  Примечание
  При создании инференса для базы знаний нужно правильно задать параметры:
  
  Runtime:
  
  «vLLM» — для любых типов моделей;
  
  «vLLM» или «SGLang» — только для LLM.
  
  Задача ML-модели:
  
  «Embedding» — для модели-эмбеддера;
  
  «Score» — для модели-реранкера;
  
  «Generate» — для LLM.
  Работа моделей и инференсов тарифицируется.
Нажмите Создать.

Дождитесь, пока база знаний и ее первая версия перейдут в статус «Активная».

Примечание

При создании базы знаний автоматически будет создан сервисный аккаунт для управления вашими файлами в Object Storage.

Что дальше

Отправьте HTTP-запрос к вашей базе знаний.

См.также

Посмотреть чанки и эмбеддинги

Предыдущая статья

Инструкции для сервиса Managed RAG

Следующая статья

Выбрать параметры экстракторов

Эта статья полезна?

Поддержка Юридические документы Политика конфиденциальности