С помощью этого руководства вы научитесь создавать базу знаний из JSON-файлов с использованием пользовательских метаданных. Они позволяют хранить дополнительные параметры объекта и улучшают ответы модели.
Все манипуляции в руководстве выполняются над файлом catalog.json. Это каталог с двумя продуктами: телефоном и планшетом. Каждый продукт извлекается как чанк, содержащий его описание. Остальные параметры продукта добавляются в виде метаданных.
Вы будете использовать следующие сервисы:
Managed RAG для создания и управления базами знаний.
Object Storage — объектное S3-хранилище с бесплатным хранением файлов объемом до 15 ГБ.
Foundation Models — сервис для доступа к API популярных фундаментальных моделей машинного обучения с открытым исходным кодом.
Шаги:
Убедитесь, что у вас есть доступ к Foundation Models и Object Storage.
Добавьте источник для базы знаний в Evolution Object Storage:
Создайте папку rag-metadata-json-kb в бакете и загрузите в нее файл catalog.json, скачанный ранее.
Перейдите в AI Factory → Managed RAG.
Нажмите Создать базу знаний.
В поле Название введите metadata-json-files-kb.
Активируйте опцию Создать первую версию.
В поле Название версии введите metadata-json-files-version-1.
В блоке Источники из S3 нажмите Выбрать и выберите папку rag-metadata-json-kb с файлом catalog.json.
В поле Расширения документов выберите расширение json.
Активируйте опцию Вручную настроить обработку данных и модель.
Нажмите Продолжить.
Настройте JSON-экстрактор:
Скопируйте jq-схему и проверьте ее корректность с помощью сайта https://play.jqlang.org:
.products[]
Поскольку извлекаемое содержимое является текстом, активируйте опцию Парсер вернет строковое представление.
В поле Content key введите description.
В базу знаний будут извлечены значения параметра description.
В поле JQ-схема для метаданных введите:
{product_id: .id, product_name: .name, category: .category}
Выберите Тип сплиттера — Рекурсивный символьный сплиттер.
Нажмите Продолжить.
Выберите модель Qwen/Qwen3-Embedding-0.6B.
Нажмите Создать.
Дождитесь, пока база знаний и ее версия перейдет в статус «Активна».
Посмотрите получившиеся чанки. Они должны быть вида:
{"chunks": [{"id": "9aed4119-555a-4d48-********","metadata": {"source": "/tmp/rag-metadata-json-kb/catalog.json","seq_num": 1,"product_id": "P1","product_name": "Phone","category": "electronics","filetype": "text/json","filename": "catalog.json","source_path": "bucket/rag-metadata-json-kb/catalog.json","source_type": "s3","parent_id": "87bff088-15f9-445b-********","position": 0,"size_in_tokens": 11},"page_content": "Smartphone with 6.1\" display.","type": "Document"},{"id": "5ae369a7-a92d-464d-********","metadata": {"source": "/tmp/rag-metadata-json-kb/catalog.json","seq_num": 2,"product_id": "P2","product_name": "Tablet","category": "electronics","filetype": "text/json","filename": "catalog.json","source_path": "bucket/rag-metadata-json-kb/catalog.json","source_type": "s3","parent_id": "fe7114b0-b91e-4c9b-********","position": 0,"size_in_tokens": 10},"page_content": "10\" tablet for work and entertainment.","type": "Document"}]}
Вы научились:
создавать базу знаний Managed RAG из JSON-файлов с пользовательскими метаданными;
просматривать получившиеся чанки.