Облачная платформаEvolution

Создание базы знаний из JSON с добавлением пользовательских метаданных в чанки


С помощью этого руководства вы научитесь создавать базу знаний из JSON-файлов с использованием пользовательских метаданных. Они позволяют хранить дополнительные параметры объекта и улучшают ответы модели.

Все манипуляции в руководстве выполняются над файлом catalog.json. Это каталог с двумя продуктами: телефоном и планшетом. Каждый продукт извлекается как чанк, содержащий его описание. Остальные параметры продукта добавляются в виде метаданных.

Вы будете использовать следующие сервисы:

Шаги:

Перед началом работы

  1. Убедитесь, что у вас есть доступ к Foundation Models и Object Storage.

1. Подготовьте контент для базы знаний

Добавьте источник для базы знаний в Evolution Object Storage:

  1. Создайте папку rag-metadata-json-kb в бакете и загрузите в нее файл catalog.json, скачанный ранее.

2. Создайте базу знаний

  1. Перейдите в AI Factory → Managed RAG.

  2. Нажмите Создать базу знаний.

  3. В поле Название введите metadata-json-files-kb.

  4. Активируйте опцию Создать первую версию.

  5. В поле Название версии введите metadata-json-files-version-1.

  6. В блоке Источники из S3 нажмите Выбрать и выберите папку rag-metadata-json-kb с файлом catalog.json.

  7. В поле Расширения документов выберите расширение json.

  8. Активируйте опцию Вручную настроить обработку данных и модель.

  9. Нажмите Продолжить.

  10. Настройте JSON-экстрактор:

    1. Скопируйте jq-схему и проверьте ее корректность с помощью сайта https://play.jqlang.org:

      .products[]
    2. Поскольку извлекаемое содержимое является текстом, активируйте опцию Парсер вернет строковое представление.

    3. В поле Content key введите description.

      В базу знаний будут извлечены значения параметра description.

    4. В поле JQ-схема для метаданных введите:

      {product_id: .id, product_name: .name, category: .category}
    5. Выберите Тип сплиттераРекурсивный символьный сплиттер.

  11. Нажмите Продолжить.

  12. Выберите модель Qwen/Qwen3-Embedding-0.6B.

  13. Нажмите Создать.

    Дождитесь, пока база знаний и ее версия перейдет в статус «Активна».

  14. Посмотрите получившиеся чанки. Они должны быть вида:

    {
    "chunks": [
    {
    "id": "9aed4119-555a-4d48-********",
    "metadata": {
    "source": "/tmp/rag-metadata-json-kb/catalog.json",
    "seq_num": 1,
    "product_id": "P1",
    "product_name": "Phone",
    "category": "electronics",
    "filetype": "text/json",
    "filename": "catalog.json",
    "source_path": "bucket/rag-metadata-json-kb/catalog.json",
    "source_type": "s3",
    "parent_id": "87bff088-15f9-445b-********",
    "position": 0,
    "size_in_tokens": 11
    },
    "page_content": "Smartphone with 6.1\" display.",
    "type": "Document"
    },
    {
    "id": "5ae369a7-a92d-464d-********",
    "metadata": {
    "source": "/tmp/rag-metadata-json-kb/catalog.json",
    "seq_num": 2,
    "product_id": "P2",
    "product_name": "Tablet",
    "category": "electronics",
    "filetype": "text/json",
    "filename": "catalog.json",
    "source_path": "bucket/rag-metadata-json-kb/catalog.json",
    "source_type": "s3",
    "parent_id": "fe7114b0-b91e-4c9b-********",
    "position": 0,
    "size_in_tokens": 10
    },
    "page_content": "10\" tablet for work and entertainment.",
    "type": "Document"
    }
    ]
    }

Результат

Вы научились:

  • создавать базу знаний Managed RAG из JSON-файлов с пользовательскими метаданными;

  • просматривать получившиеся чанки.