Облачная платформаEvolution

Создание базы знаний из JSON с чанками из нескольких полей по ключам объекта в файле


С помощью этого руководства вы научитесь создавать базу знаний из JSON-файлов с использованием пользовательских метаданных. Они позволяют хранить дополнительные параметры объекта и улучшают ответы модели.

Все манипуляции в руководстве выполняются над файлом catalog.json. Это каталог с двумя продуктами: телефоном и планшетом. Каждый продукт извлекается как чанк, содержащий его название и описание. Информация об идентификаторе продукта и каталоге добавляются в виде метаданных.

Вы будете использовать следующие сервисы:

Шаги:

Перед началом работы

  1. Убедитесь, что у вас есть доступ к Foundation Models и Object Storage.

1. Подготовьте контент для базы знаний

Добавьте источник для базы знаний в Evolution Object Storage:

  1. Создайте папку rag-metadata-json-kb в бакете и загрузите в нее файл catalog.json, скачанный ранее.

2. Создайте базу знаний

  1. Перейдите в AI Factory → Managed RAG.

  2. Нажмите Создать базу знаний.

  3. В поле Название введите metadata-json-files-kb-concat.

  4. Активируйте опцию Создать первую версию.

  5. В поле Название версии введите metadata-json-files-concat-version.

  6. В блоке Источники из S3 нажмите Выбрать и выберите папку rag-metadata-json-kb с файлом catalog.json.

  7. В поле Расширения документов выберите расширение json.

  8. Активируйте опцию Вручную настроить обработку данных и модель.

  9. Нажмите Продолжить.

  10. Настройте JSON-экстрактор:

    1. Скопируйте jq-схему и проверьте ее корректность с помощью сайта https://play.jqlang.org:

      . as $root | .products[] | . + {cat: $root.catalog_info}
    2. Поскольку извлекаемое содержимое является текстом, активируйте опцию Парсер вернет строковое представление.

    3. В поле Content key введите:

      .name + ": " + .description

      В чанки будут извлечены значения параметров name и description продукта.

    4. Активируйте опцию Content key доступен для парсинга.

    5. В поле JQ-схема для метаданных введите:

      {product_id: .id, catalog_version: .cat.version}
    6. Выберите Тип сплиттераРекурсивный JSON сплиттер.

  11. Нажмите Продолжить.

  12. Выберите модель Qwen/Qwen3-Embedding-0.6B.

  13. Нажмите Создать.

    Дождитесь, пока версия перейдет в статус «Активна».

  14. Посмотрите получившиеся чанки. Они должны быть вида:

    {
    "chunks": [
    {
    "id": "e0d63376-99d6-46ab-********",
    "metadata": {
    "source": "/tmp/rag-metadata-json-kb/catalog.json",
    "seq_num": 1,
    "category": "electronics",
    "product_name": "Phone",
    "filetype": "text/json",
    "filename": "catalog.json",
    "source_path": "igor-bucket-multipart/rag-metadata-json-kb/catalog.json",
    "source_type": "s3",
    "parent_id": "026b3a95-b4c6-48db-********",
    "position": 0,
    "size_in_tokens": 11
    },
    "page_content": "Smartphone with 6.1\" display.",
    "type": "Document"
    },
    {
    "id": "ab4ee947-e579-4e9c-********",
    "metadata": {
    "source": "/tmp/rag-metadata-json-kb/catalog.json",
    "seq_num": 2,
    "category": "electronics",
    "product_name": "Tablet",
    "filetype": "text/json",
    "filename": "catalog.json",
    "source_path": "igor-bucket-multipart/rag-metadata-json-kb/catalog.json",
    "source_type": "s3",
    "parent_id": "304ee0e7-98e1-43f1-********",
    "position": 0,
    "size_in_tokens": 10
    },
    "page_content": "10\" tablet for work and entertainment.",
    "type": "Document"
    }
    ]
    }

Результат

Вы научились:

  • создавать базу знаний Managed RAG из JSON-файлов с пользовательскими метаданными;

  • просматривать получившиеся чанки.