С помощью этого руководства вы научитесь создавать базу знаний из JSON-файлов с использованием пользовательских метаданных. Они позволяют хранить дополнительные параметры объекта и улучшают ответы модели.
Все манипуляции в руководстве выполняются над файлом catalog.json. Это каталог с двумя продуктами: телефоном и планшетом. Каждый продукт извлекается как чанк, содержащий его название и описание. Информация об идентификаторе продукта и каталоге добавляются в виде метаданных.
Вы будете использовать следующие сервисы:
Managed RAG для создания и управления базами знаний.
Object Storage — объектное S3-хранилище с бесплатным хранением файлов объемом до 15 ГБ.
Foundation Models — сервис для доступа к API популярных фундаментальных моделей машинного обучения с открытым исходным кодом.
Шаги:
Убедитесь, что у вас есть доступ к Foundation Models и Object Storage.
Добавьте источник для базы знаний в Evolution Object Storage:
Создайте папку rag-metadata-json-kb в бакете и загрузите в нее файл catalog.json, скачанный ранее.
Перейдите в AI Factory → Managed RAG.
Нажмите Создать базу знаний.
В поле Название введите metadata-json-files-kb-concat.
Активируйте опцию Создать первую версию.
В поле Название версии введите metadata-json-files-concat-version.
В блоке Источники из S3 нажмите Выбрать и выберите папку rag-metadata-json-kb с файлом catalog.json.
В поле Расширения документов выберите расширение json.
Активируйте опцию Вручную настроить обработку данных и модель.
Нажмите Продолжить.
Настройте JSON-экстрактор:
Скопируйте jq-схему и проверьте ее корректность с помощью сайта https://play.jqlang.org:
. as $root | .products[] | . + {cat: $root.catalog_info}
Поскольку извлекаемое содержимое является текстом, активируйте опцию Парсер вернет строковое представление.
В поле Content key введите:
.name + ": " + .description
В чанки будут извлечены значения параметров name и description продукта.
Активируйте опцию Content key доступен для парсинга.
В поле JQ-схема для метаданных введите:
{product_id: .id, catalog_version: .cat.version}
Выберите Тип сплиттера — Рекурсивный JSON сплиттер.
Нажмите Продолжить.
Выберите модель Qwen/Qwen3-Embedding-0.6B.
Нажмите Создать.
Дождитесь, пока версия перейдет в статус «Активна».
Посмотрите получившиеся чанки. Они должны быть вида:
{"chunks": [{"id": "e0d63376-99d6-46ab-********","metadata": {"source": "/tmp/rag-metadata-json-kb/catalog.json","seq_num": 1,"category": "electronics","product_name": "Phone","filetype": "text/json","filename": "catalog.json","source_path": "igor-bucket-multipart/rag-metadata-json-kb/catalog.json","source_type": "s3","parent_id": "026b3a95-b4c6-48db-********","position": 0,"size_in_tokens": 11},"page_content": "Smartphone with 6.1\" display.","type": "Document"},{"id": "ab4ee947-e579-4e9c-********","metadata": {"source": "/tmp/rag-metadata-json-kb/catalog.json","seq_num": 2,"category": "electronics","product_name": "Tablet","filetype": "text/json","filename": "catalog.json","source_path": "igor-bucket-multipart/rag-metadata-json-kb/catalog.json","source_type": "s3","parent_id": "304ee0e7-98e1-43f1-********","position": 0,"size_in_tokens": 10},"page_content": "10\" tablet for work and entertainment.","type": "Document"}]}
Вы научились:
создавать базу знаний Managed RAG из JSON-файлов с пользовательскими метаданными;
просматривать получившиеся чанки.