Foundation Models

Быстрый старт

С помощью этой статьи вы авторизуетесь и отправите первый запрос к модели для генерации текста.

Перед началом работы

Зарегистрируйтесь в личном кабинете Cloud.ru.

Если вы уже зарегистрированы, войдите под своей учетной записью.
Убедитесь, что у вас есть доступ к Evolution Foundation Models.

Авторизуйтесь и получите токен

Создайте сервисный аккаунт и сгенерируйте ключи доступа для него. Выбирайте максимальное время жизни ключа.
Отправьте помощью ключа запрос на авторизацию, чтобы получить токен — используйте его для параметра token.
Скопируйте ID проекта, в котором регистрировались — это значение x-project-id.

Отправьте запрос к модели

Отправьте запрос к одной из моделей, например DeepSeek-R1-Distill-Llama-70B. С помощью дистилляции знаний она «сжимает» логику больших моделей, таких как GPT-4, в относительно компактный формат (70 млрд параметров), сохраняя высокую точность на уровне state-of-the-art решений.

Запрос при помощи библиотеки requests на стандартный эндпоинт, содержащий chat.completions из спецификации OpenAI.

import requests
import json

project_id = '<project_id>'
token = "<token>"
url = "https://foundation-models.api.cloud.ru/api/gigacube/openai/v1/chat/completions"

headers = {
    'Authorization': f'Bearer {token}',
    'x-project-id': project_id,
    'Content-Type': 'application/json'
}

payload = {
      "model": "deepseek-ai/DeepSeek-R1-Distill-Llama-70B",
      "temperature": 0.7,
      "top_p": 0.9,
      "max_tokens": 300,
      "frequency_penalty": 0.5,
      "presence_penalty": 0.3,
      "messages": [
          {
              "role": "user",
              "content": "Объясни, как работает механизм внимания в трансформерах на уровне junior-разработчика."
          }
        ]
      }

response = requests.post(
           url,
           headers=headers,
           data=json.dumps(data)
          )
print(response.json())

Пример ответа

Где:

your_token — Bearer-токен доступа, полученный при отправке запроса на авторизацию.
your_project_id — скопированный в интерфейсе ID проекта.

Примечание

При каждом запросе к сервису в заголовке запроса необходимо передавать идентификатор проекта.

Ниже описано, какие параметры использованы и почему выбраны конкретные значения:

temperature = 0.7 — баланс между детерминированностью (0) и креативностью (1). Значение 0.7 позволяет модели предлагать неочевидные аналогии, сохраняя техническую точность.
top_p = 0.9 — ограничивает выбор токенов до 90% наиболее вероятных вариантов. Позволяет избегать абсурдных ответов, сохраняя разнообразие.
max_tokens = 300 — оптимальная длина для подробного объяснения без избыточности. Ограничивает размер ответа для быстрого получения результата.
frequency_penalty = 0.5 — снижает повторение одинаковых фраз: 0 — без штрафа, 2 — максимальный штраф. Помогает избегать зацикливания на одних и тех же формулировках.
presence_penalty = 0.3 — поощряет введение новых тем при отрицательном значении или фокусировку на текущем контексте. Значение 0.3 стимулирует приводить дополнительные примеры.

Что дальше

Посмотрите пошаговые инструкции для работы с моделями.

Была ли эта статья полезна?

Поддержка Юридические документы