Облачная платформаEvolution

Создание базы знаний из смешанного PDF-файла


С помощью этого руководства вы научитесь создавать базу знаний из PDF-файла, который состоит из текста и изображений.

Вы будете использовать следующие сервисы:

Шаги:

Перед началом работы

  1. Убедитесь, что у вас есть доступ к Foundation Models и Object Storage.

  2. Подготовьте PDF-файл.

1. Подготовьте контент для базы знаний

Добавьте источник для базы знаний в Evolution Object Storage:

  1. В бакете cоздайте папку rag-hybrid-ocr и загрузите в нее файл, подготовленный ранее.

2. Создайте базу знаний

  1. Перейдите в AI Factory → Managed RAG.

  2. Нажмите Создать базу знаний.

  3. В поле Название введите hybrid-ocr-kb.

  4. Активируйте опцию Создать первую версию.

  5. В поле Название версии введите hybrid-ocr-version.

  6. В блоке Источники из S3 нажмите Выбрать и выберите папку rag-hybrid-ocr с PDF-файлом.

  7. В поле Расширения документов выберите расширение pdf.

  8. Активируйте опцию Вручную настроить обработку данных и модель.

  9. Нажмите Продолжить.

  10. Настройте PDF-экстрактор:

    1. В поле Метод выберите Гибридный OCR.

    2. В поле Режим выберите Полный.

    3. В поле Формат вывода введите С форматированием.

      Это позволит сохранить сложные структурные элементы в чанках.

  11. Нажмите Продолжить.

  12. Выберите модель Qwen/Qwen3-Embedding-0.6B.

  13. Нажмите Создать.

    Дождитесь, пока версия перейдет в статус «Активна».

Результат

Вы научились создавать базу знаний Managed RAG из PDF-файла со смешанной структурой.