Облачная платформаEvolution

Создать базу знаний

Эта статья полезна?

С помощью этой инструкции вы создадите базу знаний для использования в RAG-пайплайне в сервисе Managed RAG.

Каждая база знаний представляет набор собственных версий. При создании базы знаний появляется первая версия.

Перед началом работы

  1. Подготовьте документы для базы знаний в Evolution Object Storage.

    1. Создайте папку в бакете и загрузите в нее файлы.

      Внимание

      При создании базы знаний промежуточные результаты сохраняются в тот же бакет. Если в нем будет недостаточно места, создание базы знаний завершится с ошибкой.

      Убедитесь, что свободное место в бакете после загрузки данных составляет размер данных * 4.

  2. Перейдите в AI Factory → Managed RAG и нажмите Создать базу знаний.

Шаг 1. Заполните параметры базы знаний

  1. Введите название базы знаний.

  2. (Опционально) Заполните описание базы знаний.

  3. В поле Путь к папке с документами на S3 выберите папку в бакете Object Storage, куда вы загрузили файлы.

  4. В поле Расширения документов перечислите расширения тех файлов, которые будут обработаны и сохранены в базе знаний.

    Например, если в вашем бакете есть txt- и JSON-файлы, вы можете выбрать только .json — тогда txt-файлы не будут затронуты.

  5. (Опционально) Чтобы настроить экстрактор для извлечения данных из документов базы знаний и выбрать модель-эмбеддер, активируйте опцию Вручную настроить обработку данных и модель. Если опция активирована, необходимо выполнить шаги 2 и 3.

    При использовании JSON-файлов рекомендуется:

  6. (Опционально) Для аутентификации пользователя при отправке запросов к базе знаний через публичный URL активируйте опцию Аутентификация.

Шаг 2. Настройте параметры экстрактора

Выберите и заполните параметры обработки документов для каждого экстрактора.

Шаг 3. Выберите модель-эмбеддер

  1. Выберите источник модели:

    • Foundation Models — одна из готовых моделей сервиса Foundation Models;

    • ML Inference — инференс, предварительно созданный вами в сервисе ML Inference.

      Примечание

      При создании инференса для базы знаний нужно правильно задать параметры:

      • Runtime:

        • «vLLM» — для любых типов моделей;

        • «vLLM» или «SGLang» — только для LLM.

      • Задача ML-модели:

        • «Embedding» — для модели-эмбеддера;

        • «Score» — для модели-реранкера;

        • «Generate» — для LLM.

      Работа моделей и инференсов тарифицируется.

  2. Нажмите Создать.

Дождитесь, пока база знаний и ее первая версия перейдут в статус «Активная».

Примечание

При создании базы знаний автоматически будет создан сервисный аккаунт для управления вашими файлами в Object Storage.

Что дальше

Отправьте HTTP-запрос к вашей базе знаний.