nav-img
Evolution

Большие языковые модели (LLM)

Большие языковые модели (также называемые LLM) – это очень большие модели глубокого обучения, предварительно обученные на огромных объемах данных с большим количеством параметров.

Для оптимизации использования больших языковых моделей используются движки (среды исполнения), которые снижают задержки обработки и повышают производительность запросов.

Среди наиболее распространенных движков:

  • vLLM — среда исполнения vLLM, предназначенная для эффективного использования GPU при работе с большими текстовыми моделями. Среда поддерживает генеративные модели и пулинг.

  • Ollama — открытый инференс-движок, содержащий большой репозиторий готовых моделей.

  • TGI — оптимизируемая среда запуска инференса, интегрированная с Hugging Face.

Большие языковые модели запускаются в ML Inference при выборе одной из следующих сред исполнения:

  • Ollama. ML Inference поддерживает все виды моделей, представленые в библиотеке Ollama, а также позволяет запускать пользовательские модели.

  • vLLM. В ML Inference поддерживается среда исполнения vLLM, предназначенная для эффективного использования GPU при работе с большими текстовыми моделям.

  • TGI. Оптимизируемая среда запуска инференса, интегрированная с Hugging Face.