Облачная платформаEvolution

Создание базы знаний из JSON с добавлением пользовательских метаданных в чанки из корня файла


С помощью этого руководства вы научитесь создавать базу знаний из JSON-файла и добавлять к документам в ней пользовательские метаданные. Они позволяют хранить дополнительные параметры объекта и улучшают ответы модели.

Все манипуляции в руководстве выполняются над файлом catalog.json. Это каталог с двумя продуктами: телефоном и планшетом. Каждый продукт извлекается как чанк, содержащий его название и описание. Информация об идентификаторе продукта и каталоге добавляются в виде метаданных.

Вы будете использовать следующие сервисы:

Шаги:

Перед началом работы

  1. Убедитесь, что у вас есть доступ к Foundation Models и Object Storage.

1. Подготовьте контент для базы знаний

Добавьте источник для базы знаний в Evolution Object Storage:

  1. Создайте папку rag-metadata-json-kb в бакете и загрузите в нее файл catalog.json, скачанный ранее.

2. Создайте базу знаний

  1. Перейдите в AI Factory → Managed RAG.

  2. Нажмите Создать базу знаний.

  3. В поле Название введите metadata-json-files-kb-common.

  4. Активируйте опцию Создать первую версию.

  5. В поле Название версии введите metadata-json-files-common-version.

  6. В блоке Источники из S3 нажмите Выбрать и выберите папку rag-metadata-json-kb с файлом catalog.json.

  7. В поле Расширения документов выберите расширение json.

  8. Активируйте опцию Вручную настроить обработку данных и модель.

  9. Нажмите Продолжить.

  10. Настройте JSON-экстрактор:

    1. Скопируйте jq-схему и проверьте ее корректность с помощью сайта https://play.jqlang.org:

      . as $root | .products[] | . + {_catalog: $root.catalog_info}
    2. Поскольку извлекаемое содержимое является текстом, активируйте опцию Парсер вернет строковое представление.

    3. В поле Content key введите name.

      В базу знаний будут извлечены значения параметра name.

    4. В поле JQ-схема для метаданных введите:

      {product_id: .id, catalog_version: ._catalog.version, catalog_updated: ._catalog.updated}
    5. Выберите Тип сплиттераРекурсивный JSON сплиттер.

  11. Нажмите Продолжить.

  12. Выберите модель Qwen/Qwen3-Embedding-0.6B.

  13. Нажмите Создать.

    Дождитесь, пока версия перейдет в статус «Активна».

  14. Посмотрите получившиеся чанки. Они должны быть вида:

    {
    "chunks": [
    {
    "id": "350ece0b-3d94-49c0-********",
    "metadata": {
    "source": "/tmp/rag-metadata-json-kb/catalog.json",
    "seq_num": 1,
    "product_id": "P1",
    "catalog_version": "2024.1",
    "catalog_updated": "2024-01-15",
    "filetype": "text/json",
    "filename": "catalog.json",
    "source_path": "bucket/rag-metadata-json-kb/catalog.json",
    "source_type": "s3",
    "parent_id": "a176f012-68dd-42f2-********",
    "position": 0,
    "size_in_tokens": 2
    },
    "page_content": "Phone",
    "type": "Document"
    },
    {
    "id": "e08e191b-e280-4ea0-********",
    "metadata": {
    "source": "/tmp/rag-metadata-json-kb/catalog.json",
    "seq_num": 2,
    "product_id": "P2",
    "catalog_version": "2024.1",
    "catalog_updated": "2024-01-15",
    "filetype": "text/json",
    "filename": "catalog.json",
    "source_path": "bucket/rag-metadata-json-kb/catalog.json",
    "source_type": "s3",
    "parent_id": "ba816263-c94f-4f2d-********",
    "position": 0,
    "size_in_tokens": 3
    },
    "page_content": "Tablet",
    "type": "Document"
    }
    ]
    }

Результат

Вы научились:

  • создавать базу знаний Managed RAG из JSON-файлов с пользовательскими метаданными;

  • просматривать получившиеся чанки.