Облачная платформаEvolution

Создание базы знаний из смешанного PDF-файла

Эта статья полезна?

С помощью этого руководства вы научитесь создавать базу знаний из PDF-файла, который состоит из текста и изображений.

Вы будете использовать следующие сервисы:

Managed RAG для создания и управления базами знаний.
Object Storage — объектное S3-хранилище с бесплатным хранением файлов объемом до 15 ГБ.
Foundation Models — сервис для доступа к API популярных фундаментальных моделей машинного обучения с открытым исходным кодом.

Шаги:

Перед началом работы

Добавьте источник для базы знаний в Evolution Object Storage:

Создайте бакет.
В бакете cоздайте папку rag-hybrid-ocr и загрузите в нее файл, подготовленный ранее.

Перейдите в AI Factory → Managed RAG.
Нажмите Создать базу знаний.
В поле Название введите hybrid-ocr-kb.
Активируйте опцию Создать первую версию.
В поле Название версии введите hybrid-ocr-version.
В блоке Источники из S3 нажмите Выбрать и выберите папку rag-hybrid-ocr с PDF-файлом.
В поле Расширения документов выберите расширение pdf.
Активируйте опцию Вручную настроить обработку данных и модель.
Нажмите Продолжить.
Настройте PDF-экстрактор:
1. В поле Метод выберите Гибридный OCR.
2. В поле Режим выберите Полный.
3. В поле Формат вывода введите С форматированием.
  
  Это позволит сохранить сложные структурные элементы в чанках.
Нажмите Продолжить.
Выберите модель Qwen/Qwen3-Embedding-0.6B.
Нажмите Создать.

Дождитесь, пока версия перейдет в статус «Активна».

Вы научились создавать базу знаний Managed RAG из PDF-файла со смешанной структурой.

Эта статья полезна?