Главная

Машинное обучение без учителя

Машинное обучение без учителя

Машинное обучение без учителя или неконтролируемое обучение (Unsupervised Learning) — метод машинного обучения (Machine Learning, ML), при котором модель обучается выявлять закономерности и скрытые взаимосвязи на наборах неразмеченных данных без контроля со стороны пользователя.

При неконтролируемом обучении алгоритму не сообщается конечная цель или шаблоны, а только предоставляются массивы данных — общие признаки распознаются автоматически.

Примечание: Алгоритмы неконтролируемого обучения могут использоваться для решения более сложных задач обработки по сравнению с контролируемым обучением. Вместе с тем, результат обучения без учителя часто непредсказуем и не имеет очевидных закономерностей.

Типы систематизации данных

В неконтролируемом машинном обучении используется три алгоритма обработки данных:

  • Ассоциативные алгоритмы. Предназначены для нахождения данных или параметров, которые часто используются вместе. Например, ассоциативные алгоритмы помогают предлагать клиенту третий товар на основе двух выбранных.
  • Снижение размерности. Подразумевает преобразование данных для уменьшения их числа и выделения основных переменных. Метод используется для удаления из выборки неинформативных и избыточных данных, усложняющих обработку.
  • Кластеризация. Подразумевает разделение объектов (данных) из выборки на отдельные кластеры. То есть, при кластеризации алгоритмы изучают исходные данные, находят между ними взаимосвязи и создают на их основе группы.

Типы кластеризации

По типам кластеризацию принято делить на:

  • восходящую — есть кластеры и подкластеры с четкой иерархией;
  • нисходящую — объекты сразу делятся на классы;
  • исключающую — каждый объект относится только к одному классу;
  • перекрывающую — объект относится к нескольким группам или находится между двумя кластерами;
  • нечетную — отношение некоторых объектов невозможно определить;
  • полную — каждый объект непременно относится к одному из кластеров;
  • частичную — некоторые объекты могут не относиться к группам.

Сценарии применения обучения без учителя

Неконтролируемое обучение может применяться для:

  • автоматического разделения наборов данных на группы в соответствии с выявленным сходством;
  • обнаружения аномалий и нетипичных показателей в наборах данных;
  • определения наборов элементов, показателей и признаков, которые часто встречаются в обрабатываемых данных;
  • предварительной обработки данных, в том числе для разделения наборов на части и уменьшения количества объектов в наборах.

Примечание: Результаты обучения зависят от количества обработанных данных — чем их больше, тем больше шанс обнаружить новые зависимости.

Неконтролируемое машинное обучение может использоваться для выполнения задач любой сложности — главное собрать достаточный массив данных и использовать специализированные инструменты или сервисы. Например, можно использовать платформу для совместной ML-разработки с ускорением до +1700 GPU Tesla v100 и A100 ML Space, на которой разработчикам доступны наборы сервисов для переноса данных и управления артефактами, готовые окружения для препроцессинга и обучения, а также инструменты для деплоя и тестирования моделей.

Персональный менеджер

Преимущества

Поддержка для каждого клиента

Личный менеджер грамотно проконсультирует, окажет поддержку при запуске новых продуктов и сэкономит ваше рабочее время.

manager
Круглосуточная техническая поддержка

Мы готовы решать ваши вопросы и оказывать поддержку 24/7.

Недостатки Unsupervised Learning

arrow

Недостатки метода:


  1. Точность результатов может быть низкой из-за сложности обработки неразмеченных данных.
  2. Результат обработки неизвестен заранее.
  3. Пользователь должен сам интерпретировать результаты неконтролируемого обучения.

Польза для бизнеса

arrow

С помощью моделей неконтролируемого обучения можно с успехом решать различные бизнес-задачи:


  • Сегментирование клиентов. Используя наборы записей, алгоритмы могут выявить клиентов со схожими, но неочевидными предпочтениями или зависимостями. Например, на основе данных о покупках могут быть сформированы группы «путешественники», «экстремалы», «любители искусства». Такая сегментация дает возможность персонализировать предложения и разрабатывать таргетированные маркетинговые кампании.
  • Обнаружение аномальной активности. На основе файлов логирования и информации о трафике алгоритмы могут выявить поведение пользователей, отличающееся от привычного, для обнаружения попыток взлома и уязвимых мест в защите.
  • Оценка достоверности информации. Самостоятельно обученные алгоритмы могут применяться для распознавания недостоверных статей и новостей. Для этого используются алгоритмы классификации, способные выделить отдельные фрагменты текста, содержащие фразы или даже предложения, характерные для обмана.
  • Фильтрация спама. Проверяя содержимое электронных писем, данные об отправителе и тему письма, инструменты на основе интеллектуальных алгоритмов сортируют входящие письма, очищая их от спама и угроз.