Evolution
Тема интерфейса

Подключиться к MLflow и провести эксперимент

Эксперименты с ML-моделями позволяют фиксировать и сравнивать запуски обучения моделей с разными параметрами, результаты обучения и выходные метрики.

В Distributed Train управлять экспериментами возможно с помощью утилиты MLflow.

Примечание

Для работы с MLflow рекомендуем использовать образ jupyter server версии 0.0.96 и выше.

Существует несколько способов для подключения.

Способ 1

  1. Перейдите в Environments → Jupyter Servers

  2. На странице New Launcher выберите MLflow.

  3. В открывшемся окне укажите требуемые настройки.

Подробнее — в документации MLflow.

../../../_images/s__mlflow.png

Способ 2

  1. Проверьте, что создан создан хотя бы один Jupyter Server. Если нет, создайте новый Jupyter Server.

  2. Перейдите в Environments → Эксперименты. Если создано несколько Jupyter Server, то, когда вы переходите на указанную вкладку, утилита открывается на ресурсах первого по списку Jupyter Server.

    Запуск MLflow может занимать до 60 секунд.

Экземпляр MLflow работает на тех же ресурсах, что и Jupyter Server. MLflow перестанет отображаться в разделе Эксперименты, если удалить все Jupyter Server.

Примечание

Не рекомендуется обновлять MLflow.

Если вы обновили MLflow, и обновление прошло некорректно, необходимо:

  1. Удалить каталог /home/jovyan/.local командой:

    rm -r .local

Сохранить эксперимент в MLflow

Чтобы использовать MLflow:

  1. Оберните код обучения модели в точке входа скрипта (if __name__ == "__main__") в конструкцию:

    with mlflow.start_run():
  2. Настройте логируемые в MLflow параметры, метрики и модель. Используйте пример на Github.

    mlflow.log_param(..)
    mlflow.log_metric(..)
    mlflow.sklearn.log_model(..)

    Все эксперименты и артефакты, созданные утилитой и моделью, можно найти в интерфейсе утилиты.

Примечание

Не рекомендуется удалять файлы в каталоге mlflow. Это может вызывать проблемы при запуске MLflow.