С помощью этого руководства вы научитесь создавать базу знаний из JSON-файла и добавлять к документам в ней пользовательские метаданные. Они позволяют хранить дополнительные параметры объекта и улучшают ответы модели.
Все манипуляции в руководстве выполняются над файлом catalog.json. Это каталог с двумя продуктами: телефоном и планшетом. Каждый продукт извлекается как чанк, содержащий его название и описание. Информация об идентификаторе продукта и каталоге добавляются в виде метаданных.
Вы будете использовать следующие сервисы:
Managed RAG для создания и управления базами знаний.
Object Storage — объектное S3-хранилище с бесплатным хранением файлов объемом до 15 ГБ.
Foundation Models — сервис для доступа к API популярных фундаментальных моделей машинного обучения с открытым исходным кодом.
Шаги:
Убедитесь, что у вас есть доступ к Foundation Models и Object Storage.
Добавьте источник для базы знаний в Evolution Object Storage:
Создайте папку rag-metadata-json-kb в бакете и загрузите в нее файл catalog.json, скачанный ранее.
Перейдите в AI Factory → Managed RAG.
Нажмите Создать базу знаний.
В поле Название введите metadata-json-files-kb-common.
Активируйте опцию Создать первую версию.
В поле Название версии введите metadata-json-files-common-version.
В блоке Источники из S3 нажмите Выбрать и выберите папку rag-metadata-json-kb с файлом catalog.json.
В поле Расширения документов выберите расширение json.
Активируйте опцию Вручную настроить обработку данных и модель.
Нажмите Продолжить.
Настройте JSON-экстрактор:
Скопируйте jq-схему и проверьте ее корректность с помощью сайта https://play.jqlang.org:
. as $root | .products[] | . + {_catalog: $root.catalog_info}
Поскольку извлекаемое содержимое является текстом, активируйте опцию Парсер вернет строковое представление.
В поле Content key введите name.
В базу знаний будут извлечены значения параметра name.
В поле JQ-схема для метаданных введите:
{product_id: .id, catalog_version: ._catalog.version, catalog_updated: ._catalog.updated}
Выберите Тип сплиттера — Рекурсивный JSON сплиттер.
Нажмите Продолжить.
Выберите модель Qwen/Qwen3-Embedding-0.6B.
Нажмите Создать.
Дождитесь, пока версия перейдет в статус «Активна».
Посмотрите получившиеся чанки. Они должны быть вида:
{"chunks": [{"id": "350ece0b-3d94-49c0-********","metadata": {"source": "/tmp/rag-metadata-json-kb/catalog.json","seq_num": 1,"product_id": "P1","catalog_version": "2024.1","catalog_updated": "2024-01-15","filetype": "text/json","filename": "catalog.json","source_path": "bucket/rag-metadata-json-kb/catalog.json","source_type": "s3","parent_id": "a176f012-68dd-42f2-********","position": 0,"size_in_tokens": 2},"page_content": "Phone","type": "Document"},{"id": "e08e191b-e280-4ea0-********","metadata": {"source": "/tmp/rag-metadata-json-kb/catalog.json","seq_num": 2,"product_id": "P2","catalog_version": "2024.1","catalog_updated": "2024-01-15","filetype": "text/json","filename": "catalog.json","source_path": "bucket/rag-metadata-json-kb/catalog.json","source_type": "s3","parent_id": "ba816263-c94f-4f2d-********","position": 0,"size_in_tokens": 3},"page_content": "Tablet","type": "Document"}]}
Вы научились:
создавать базу знаний Managed RAG из JSON-файлов с пользовательскими метаданными;
просматривать получившиеся чанки.