Главная

Классическое машинное обучение

Классическое машинное обучение

Классическое машинное обучение (Classical Machine Learning, ML) — набор техник и методик анализа данных, позволяющих обучать аналитические системы с помощью решения повторяющихся типовых задач, но без использования программирования.

Машинное обучение базируется на принципе выявления закономерностей или скрытых паттернов и принятия решений с минимальным участием человека. Процесс классического обучения похож на обучение ребенка — чем больше сделано попыток и получено опыта, тем точнее результат. Назначение ML — автоматизация ресурсоемких, сложных процессов с целью повышения скорости и точности операций.

Примечание: Модели ML применяются в разных отраслях. Например, для прогнозирования финансовых рисков, классификации объектов, разработки персональных предложений, поиска мест залегания полезных ископаемых и других задач.

Для обучения необходим набор данных с метками — тренировочные данные, где содержатся примеры решения задач. Алгоритмы искусственного интеллекта изучают их, основываясь на выявленных закономерностях, и, как только способны повторить результат на неразмеченных данных, могут использоваться на практике в схожих ситуациях.

Примечание: Модели машинного обучения не могут быть переучены — для каждой отдельной задачи нужна своя модель.

Типы обучения

Выделяют четыре типа машинного обучения.

  1. Контролируемое обучение или обучение с учителем. Процесс контролируется разработчиком, который отвечает за маркировку данных, установку правил и границ работы алгоритмов. Для обучения используются наборы размеченных данных, которые легко классифицировать.
    Задачи обучения с учителем: классификация и регрессия.
  2. Обучение без учителя. Процесс не контролируется разработчиком, а желаемые результаты обработки неизвестны и определяются алгоритмом. Для обучения используются неразмеченные наборы данных.
    Задачи обучения без учителя: кластеризация, поиск ассоциативных правил, обнаружение аномалий.
  3. Обучение с частичным привлечением учителя. Метод сочетает преимущества контролируемого и неконтролируемого обучения. Процесс разделяется на два этапа:

    • обучение на наборах размеченных данных для настройки и распознавания признаков;
    • самостоятельное обучение модели на наборах неразмеченных данных.
    То есть, модель самостоятельно обучается, придерживаясь изначально заданного набора правил. Метод используется, когда обозначить метки и признаки невозможно.
  4. Обучение с подкреплением. Метод подразумевает обучение с помощью техники исследования и освоения, при которой алгоритмы совершают действия, анализируют полученные результаты и выполняют следующие действия с учетом полученного опыта.

Для решения задач классического машинного обучения важно использовать высокопроизводительные платформы и инструменты, соответствующие целям. Такие, например, предлагает Cloud.ru. Клиенты облачного провайдера могут использовать платформу для совместной ML-разработки с ускорением до +1700 GPU Tesla v100 и A100 ML Space, хаб предобученных моделей, датасетов и контейнеров DataHub ML Space и другие сервисы, повышающие скорость и точность машинного обучения.

Персональный менеджер

Преимущества

Поддержка для каждого клиента

Личный менеджер грамотно проконсультирует, окажет поддержку при запуске новых продуктов и сэкономит ваше рабочее время.

manager
Круглосуточная техническая поддержка

Мы готовы решать ваши вопросы и оказывать поддержку 24/7.

Задачи классического машинного обучения

arrow

Каждый из типов обучения предназначен для решения определенных задач. Обучение с учителем — для масштабирования тренировочных данных и последующей разработки прогнозов, а без учителя — для сортировки и фильтрации данных.

Классификация

Классификация — процесс группирования объектов по категориям в соответствии с навыками, полученными при обработке классифицированного тренировочного набора данных. Классификация относится к алгоритмам контролируемого обучения.


Задачи классификации:

  • предсказание категории объекта;
  • разделение объектов по признакам;
  • выделение данных, не вписывающихся в стандартные классы.

Например, классификация используется для сегментации клиентов, сортировки электронных писем, выявления нетипичных показателей.

Регрессия

Регрессия — процесс определения значения некоторой целевой переменной на базе заданного набора признаков. То есть, регрессия позволяет прогнозировать изменения показателей при влиянии разных факторов.

На практике регрессия применяется для предсказания загруженности дорог в зависимости от времени суток, объема продаж через полгода в зависимости от покупательской способности, скорости развития заболеваний в зависимости от текущих показателей.

Примечание: Для решения задач регрессии могут использоваться и модели классификации. В таком случае объекты будут одновременно и разделяться на классы и проверяться на близость к тому или иному показателю. Например, целый или поврежденный предмет, и на сколько процентов поврежден.

Кластеризация

Кластеризация — задача разделения объектов и данных на отдельные кластеры, каждый из которых включает только схожие между собой объекты. Например, кластеризация помогает выявить из выборки все желтые круги или красные квадраты. Кластеризация относится к методу обучения без учителя, поэтому пользователь заранее не знает, на сколько кластеров будут разделены исходные данные и по каким признакам или скрытым зависимостям.

Примечание: В отличие от классификации, при кластеризации нет заранее обозначенных классов — алгоритм сам выявляет и создает их.

Поиск ассоциативных правил

Поиск ассоциативных правил — задача нахождения закономерностей в потоке данных и определения вероятности нахождения нескольких предметов в одном наборе данных.


Поиск ассоциативных правил часто используется в маркетинге для изучения поведенческих паттернов и повышения точности систем рекомендации. Например, используя ассоциативные правила, онлайн-кинотеатры предлагают третий фильм на основе двух просмотренных, а интернет-магазины — третий товар на основе двух, добавленных в корзину.