Evolution
Тема интерфейса

Создание инференса для использования в Managed RAG

Эта статья полезна?

С помощью этого руководства вы последовательно создадите три типа инференса в ML Inference для использования их в базе знаний Managed RAG, затем проверите работоспособность базы знаний.

Вы будете использовать следующие сервисы:

  • Evolution Managed RAG — сервис для создания и управления базами знаний, используемыми при генерации ответов языковыми моделями.

  • Evolution Object Storage — объектное хранилище для размещения документов, из которых будет формироваться база знаний.

  • Evolution ML Inference — сервис для запуска ML-моделей в облаке.

  • Huggingface — платформа для публикации и использования моделей машинного обучения.

Шаги:

Перед началом работы

  1. Если вы уже зарегистрированы, войдите под своей учетной записью.

  2. Убедитесь, что в личном кабинете Cloud.ru подключены сервисы Managed RAG, ML Inference, Object Storage.

1. Создайте бакет и загрузите файл

    1. Укажите название бакета, например rag-inference-bucket. Остальные параметры оставьте по умолчанию.

    2. Нажмите Создать.

  1. Создайте папку в бакете со следующими параметрами:

    1. Перейдите в бакет rag-inference-bucket.

    2. Нажмите Создать папку.

    3. Укажите название rag-inference-kb/ и нажмите Создать.

  2. Загрузите папку текстовый файл faq_products.txt.

2. Получите токен Huggingface

  1. Войдите или зарегистрируйтесь на https://huggingface.co.

  2. Перейдите в раздел Access Tokens.

    Раздел "Access Token"
  3. Нажмите Create new token.

  4. Выберите тип Write.

  5. Введите название токена, например rag_with_mlinference.

    Создание токена
  6. Нажмите Create token.

  7. Скопируйте токен и сохраните его, например в блокнот. После закрытия страницы он будет недоступен.

3. Создайте инференс для модели-эмбеддера

Инференс создаетcя на примере модели с Huggingface Qwen/Qwen3-Embedding-0.6B.

  1. Перейдите в личный кабинет Cloud.ru, AI Factory → ML Inference.

  2. На вкладке Model RUN нажмите Создать.

  3. Укажите название embedder-for-rag.

  4. Выберите для Runtime значение vLLM.

  5. Добавьте модель.

    1. Нажмите Добавить из Hugging Face.

    2. В поле Репозиторий с моделью Hugging Face вставьте скопированное название модели Qwen/Qwen3-Embedding-0.6B.

    3. Нажмите Добавить токен в Secret Management, если токен еще не добавлен.

    4. Укажите путь, например rag_with_mlinferece.

    5. Введите описание, например Huggingface access token.

    6. В поле Значение секрета выберите Стандартный режим и вставьте токен Huggingface, полученный на шаге 2.

    7. Нажмите Создать.

      Токен сохранен в Secret Management. Вернитесь к созданию инференса.

  6. В поле Токен доступа в Hugging Face выберите созданный токен rag_with_mlinferece версия 1.

  7. Нажмите Добавить.

    Дождитесь расчета ресурсов.

  8. В поле Задача ML модели выберите Embedding — отличительная черта инференса такого типа.

  9. Остальные параметры оставьте по умолчанию и нажмите Продолжить.

  10. Включите опцию Не выключать модель.

  11. (Опционально) Настройте масштабирование.

  12. (Опционально) В настройке Аутентификация выберите сервисный аккаунт.

  13. (Опционально) В настройке Логирование укажите лог‑группу.

  14. Нажмите Создать.

    Дождитесь, когда инференс перейдет в статус «Запущен».

  15. Перейдите на вкладку Информация и скопируйте идентификатор инференса — часть публичного URL между https:// и .modelrun.

    Например, в публичном URL https://12345c60-xxx-4527-xxxx-f789f789fb11.modelrun.inference.cloud.ru нужный идентификатор — 12345c60-xxx-4527-xxxx-f789f789fb11.

4. Создайте инференс для модели-реранкера

Инференс создаетcя на примере модели с Huggingface Qwen/Qwen3-Reranker-0.6B.

  1. Перейдите в личный кабинет Cloud.ru, AI Factory → ML Inference.

  2. На вкладке Model RUN нажмите Создать.

  3. Укажите название reranker-for-rag.

  4. Выберите для Runtime значение vLLM.

  5. Добавьте модель.

    1. Нажмите Добавить из Hugging Face.

    2. В поле Репозиторий с моделью Hugging Face вставьте скопированное название модели Qwen/Qwen3-Reranker-0.6B.

    3. Нажмите Добавить токен в Secret management, если токен еще не добавлен.

    4. Укажите путь, например rag_with_mlinferece.

    5. Введите описание.

    6. В поле Значение секрета выберите Стандартный режим и вставьте токен Huggingface, полученный на шаге 2.

    7. Нажмите Создать.

      Токен сохранен в Secret Management. Вернитесь к созданию инференса.

  6. В поле Токен доступа в Hugging Face выберите созданный токен rag_with_mlinferece версия 1.

  7. Нажмите Добавить.

    Дождитесь расчета ресурсов.

  8. В поле Задача ML модели выберите Score — отличительная черта инференса такого типа.

  9. Остальные параметры оставьте по умолчанию и нажмите Продолжить.

  10. Включите опцию Не выключать модель.

  11. (Опционально) Настройте масштабирование.

  12. (Опционально) В настройке Аутентификация выберите сервисный аккаунт.

  13. (Опционально) В настройке Логирование укажите лог‑группу.

  14. Нажмите Создать.

    Дождитесь, когда инференс перейдет в статус «Запущен».

  15. Перейдите на вкладку Информация и скопируйте идентификатор инференса — часть публичного URL между https:// и .modelrun.

    Например, в публичном URL https://12345c60-xxx-4527-xxxx-f789f789fb11.modelrun.inference.cloud.ru нужный идентификатор — 12345c60-xxx-4527-xxxx-f789f789fb11.

5. Создайте инференс для LLM

Инференс создаетcя на примере модели с Huggingface t-tech/T-lite-it-1.0.

  1. Перейдите в личный кабинет Cloud.ru, AI Factory → ML Inference.

  2. На вкладке Model RUN нажмите Создать.

  3. Укажите название llm-for-rag.

  4. Выберите для Runtime значение vLLM.

  5. Добавьте модель.

    1. Нажмите Добавить из Hugging Face.

    2. В поле Репозиторий с моделью Hugging Face вставьте скопированное название модели t-tech/T-lite-it-1.0.

    3. Нажмите Добавить токен в Secret Management, если токен еще не добавлен.

    4. Укажите путь, например rag_with_mlinferece.

    5. Введите описание.

    6. В поле Значение секрета выберите Стандартный режим и вставьте токен Huggingface, полученный на шаге 2.

    7. Нажмите Создать.

      Токен сохранен в Secret Management. Вернитесь к созданию инференса.

  6. В поле Токен доступа в Hugging Face выберите созданный токен rag_with_mlinferece версия 1.

  7. Нажмите Добавить.

    Дождитесь расчета ресурсов.

  8. В поле Задача ML модели выберите Generate — отличительная черта инференса такого типа.

  9. Остальные параметры оставьте по умолчанию и нажмите Продолжить.

  10. Включите опцию Не выключать модель.

  11. (Опционально) Настройте масштабирование.

  12. (Опционально) В настройке Аутентификация выберите сервисный аккаунт.

  13. (Опционально) В настройке Логирование укажите лог‑группу.

  14. Нажмите Создать.

    Дождитесь, когда инференс перейдет в статус «Запущен».

  15. Перейдите на вкладку Информация и скопируйте идентификатор инференса — часть публичного URL между https:// и .modelrun.

    Например, в публичном URL https://12345c60-xxx-4527-xxxx-f789f789fb11.modelrun.inference.cloud.ru нужный идентификатор — 12345c60-xxx-4527-xxxx-f789f789fb11.

6. Создайте базу знаний с использованием инференса

На этом шаге вы создадите базу знаний на основе загруженных документов и проиндексируете ее для использования с языковыми моделями.

  1. В личном кабинете перейдите в AI Factory → Managed RAG.

  2. Нажмите Создать базу знаний.

  3. В поле Название укажите имя базы знаний, например kb-rag-with-inference.

  4. При необходимости введите описание.

  5. В поле Путь к папке в бакете выберите папку rag-inference-kb, в бакете Object Storage, куда вы загрузили файл faq_products.txt.

  6. В поле Расширение файлов введите txt и выберите его.

  7. Включите опцию Вручную настроить обработку документов и модель.

  8. (Опционально) В настройке Аутентификация выберите сервисный аккаунт.

  9. (Опционально) В настройке Логирование укажите лог‑группу.

  10. Нажмите Продолжить.

  11. Пропустите настройку экстрактора и нажмите Продолжить.

  12. Выберите источник модели ML Inference.

  13. В списке выберите созданный инференс embedder-for-rag.

  14. Нажмите Создать.

    Дождитесь завершения индексации базы знаний и ее версии — это займет несколько минут.

  15. Перейдите в созданную версию базы знаний.

  16. Скопируйте значения полей ID версии и ID базы знаний.

7. Проверьте работу базы знаний

Вы можете дополнительно проверить работу с базой знаний с помощью личного кабинета или API. Рекомендуется использовать оба способа.


  1. Перейдите в созданную версию базы знаний.

  2. Перейдите на вкладку Чат.

  3. Включите опцию Использовать модель-реранкер.

  4. В качестве источника модели‑реранкера выберите ML Inference.

  5. Выберите созданный инференс reranker-for-rag.

  6. В качестве Модель‑LLM выберите ML Inference и из списка выберите инференс llm-for-rag.

  7. Отправьте сообщение в чате и получите ответ.

Что дальше

С этим руководством вы создали базу знаний на основе нескольких инференсов моделей.

Узнавайте больше о прикладных сценариях и примерах решения бизнес-задач, получайте навыки управления облаком, выполняя практические руководства.