Быстрый старт
С помощью этой статьи вы авторизуетесь и отправите первый запрос к модели для генерации текста.
Перед началом работы
-
Если вы уже зарегистрированы, войдите под своей учетной записью.
Убедитесь, что у вас есть доступ к Evolution Foundation Models.
Авторизуйтесь и получите токен
Создайте сервисный аккаунт и сгенерируйте ключи доступа для него. Выбирайте максимальное время жизни ключа.
Отправьте помощью ключа запрос на авторизацию, чтобы получить токен — используйте его для параметра token.
Скопируйте ID проекта, в котором регистрировались — это значение x-project-id.
Отправьте запрос к модели
Отправьте запрос к одной из моделей, например DeepSeek-R1-Distill-Llama-70B. С помощью дистилляции знаний она «сжимает» логику больших моделей, таких как GPT-4, в относительно компактный формат (70 млрд параметров), сохраняя высокую точность на уровне state-of-the-art решений.
Запрос при помощи библиотеки requests на стандартный эндпоинт, содержащий chat.completions из спецификации OpenAI.
import requestsimport jsonproject_id = '<project_id>'token = "<token>"url = "https://foundation-models.api.cloud.ru/api/gigacube/openai/v1/chat/completions"headers = {'Authorization': f'Bearer {token}','x-project-id': project_id,'Content-Type': 'application/json'}payload = {"model": "deepseek-ai/DeepSeek-R1-Distill-Llama-70B","temperature": 0.7,"top_p": 0.9,"max_tokens": 300,"frequency_penalty": 0.5,"presence_penalty": 0.3,"messages": [{"role": "user","content": "Объясни, как работает механизм внимания в трансформерах на уровне junior-разработчика."}]}response = requests.post(url,headers=headers,data=json.dumps(data))print(response.json())
Где:
your_token — Bearer-токен доступа, полученный при отправке запроса на авторизацию.
your_project_id — скопированный в интерфейсе ID проекта.
При каждом запросе к сервису в заголовке запроса необходимо передавать идентификатор проекта.
Ниже описано, какие параметры использованы и почему выбраны конкретные значения:
temperature = 0.7 — баланс между детерминированностью (0) и креативностью (1). Значение 0.7 позволяет модели предлагать неочевидные аналогии, сохраняя техническую точность.
top_p = 0.9 — ограничивает выбор токенов до 90% наиболее вероятных вариантов. Позволяет избегать абсурдных ответов, сохраняя разнообразие.
max_tokens = 300 — оптимальная длина для подробного объяснения без избыточности. Ограничивает размер ответа для быстрого получения результата.
frequency_penalty = 0.5 — снижает повторение одинаковых фраз: 0 — без штрафа, 2 — максимальный штраф. Помогает избегать зацикливания на одних и тех же формулировках.
presence_penalty = 0.3 — поощряет введение новых тем при отрицательном значении или фокусировку на текущем контексте. Значение 0.3 стимулирует приводить дополнительные примеры.
Что дальше
Посмотрите пошаговые инструкции для работы с моделями.
- Перед началом работы
- Авторизуйтесь и получите токен
- Отправьте запрос к модели
- Что дальше