С помощью этого руководства вы научитесь создавать базу знаний из PDF-файла, который состоит из сканированного текста.
Вы будете использовать следующие сервисы:
Managed RAG для создания и управления базами знаний.
Object Storage — объектное S3-хранилище с бесплатным хранением файлов объемом до 15 ГБ.
Foundation Models — сервис для доступа к API популярных фундаментальных моделей машинного обучения с открытым исходным кодом.
Шаги:
Убедитесь, что у вас есть доступ к Foundation Models и Object Storage.
Подготовьте PDF-файл.
Добавьте источник для базы знаний в Evolution Object Storage:
В бакете cоздайте папку rag-full-ocr и загрузите в нее файл, подготовленный ранее.
Перейдите в AI Factory → Managed RAG.
Нажмите Создать базу знаний.
В поле Название введите full-ocr-kb.
Активируйте опцию Создать первую версию.
В поле Название версии введите full-ocr-version.
В блоке Источники из S3 нажмите Выбрать и выберите папку rag-full-ocr с PDF-файлом.
В поле Расширения документов выберите расширение pdf.
Активируйте опцию Вручную настроить обработку данных и модель.
Нажмите Продолжить.
Настройте PDF-экстрактор:
В поле Метод выберите Полный OCR.
Метод подходит для сканированных файлов и при низком качестве исходного текста.
В поле Режим выберите Полный.
В поле Формат вывода введите С форматированием.
Это позволит сохранить сложные структурные элементы в чанках.
Нажмите Продолжить.
Выберите модель Qwen/Qwen3-Embedding-0.6B.
Нажмите Создать.
Дождитесь, пока версия перейдет в статус «Активна».
Вы научились создавать базу знаний Managed RAG из сканированного PDF-файла.