Большие языковые модели (LLM)
Большие языковые модели (также называемые LLM) – это очень большие модели глубокого обучения, предварительно обученные на огромных объемах данных с большим количеством параметров.
Для оптимизации использования больших языковых моделей используются движки (среды исполнения), которые снижают задержки обработки и повышают производительность запросов.
Среди наиболее распространенных движков:
vLLM — среда исполнения vLLM, предназначенная для эффективного использования GPU при работе с большими текстовыми моделями. Среда поддерживает генеративные модели и пулинг.
Ollama — открытый инференс-движок, содержащий большой репозиторий готовых моделей.
TGI — оптимизируемая среда запуска инференса, интегрированная с Hugging Face.
Большие языковые модели запускаются в ML Inference при выборе одной из следующих сред исполнения:
Ollama. ML Inference поддерживает все виды моделей, представленые в библиотеке Ollama, а также позволяет запускать пользовательские модели.
vLLM. В ML Inference поддерживается среда исполнения vLLM, предназначенная для эффективного использования GPU при работе с большими текстовыми моделям.
TGI. Оптимизируемая среда запуска инференса, интегрированная с Hugging Face.