Машинное обучение без учителя
Машинное обучение без учителя или неконтролируемое обучение (Unsupervised Learning) — метод машинного обучения (Machine Learning, ML), при котором модель обучается выявлять закономерности и скрытые взаимосвязи на наборах неразмеченных данных без контроля со стороны пользователя.
При неконтролируемом обучении алгоритму не сообщается конечная цель или шаблоны, а только предоставляются массивы данных — общие признаки распознаются автоматически.
Примечание: Алгоритмы неконтролируемого обучения могут использоваться для решения более сложных задач обработки по сравнению с контролируемым обучением. Вместе с тем, результат обучения без учителя часто непредсказуем и не имеет очевидных закономерностей.
Типы систематизации данных
В неконтролируемом машинном обучении используется три алгоритма обработки данных:
- Ассоциативные алгоритмы. Предназначены для нахождения данных или параметров, которые часто используются вместе. Например, ассоциативные алгоритмы помогают предлагать клиенту третий товар на основе двух выбранных.
- Снижение размерности. Подразумевает преобразование данных для уменьшения их числа и выделения основных переменных. Метод используется для удаления из выборки неинформативных и избыточных данных, усложняющих обработку.
- Кластеризация. Подразумевает разделение объектов (данных) из выборки на отдельные кластеры. То есть, при кластеризации алгоритмы изучают исходные данные, находят между ними взаимосвязи и создают на их основе группы.
Типы кластеризации
По типам кластеризацию принято делить на:
- восходящую — есть кластеры и подкластеры с четкой иерархией;
- нисходящую — объекты сразу делятся на классы;
- исключающую — каждый объект относится только к одному классу;
- перекрывающую — объект относится к нескольким группам или находится между двумя кластерами;
- нечетную — отношение некоторых объектов невозможно определить;
- полную — каждый объект непременно относится к одному из кластеров;
- частичную — некоторые объекты могут не относиться к группам.
Сценарии применения обучения без учителя
Неконтролируемое обучение может применяться для:
- автоматического разделения наборов данных на группы в соответствии с выявленным сходством;
- обнаружения аномалий и нетипичных показателей в наборах данных;
- определения наборов элементов, показателей и признаков, которые часто встречаются в обрабатываемых данных;
- предварительной обработки данных, в том числе для разделения наборов на части и уменьшения количества объектов в наборах.
Примечание: Результаты обучения зависят от количества обработанных данных — чем их больше, тем больше шанс обнаружить новые зависимости.
Неконтролируемое машинное обучение может использоваться для выполнения задач любой сложности — главное собрать достаточный массив данных и использовать специализированные инструменты или сервисы. Например, можно использовать платформу для совместной ML-разработки с ускорением до +1700 GPU Tesla v100 и A100 ML Space, на которой разработчикам доступны наборы сервисов для переноса данных и управления артефактами, готовые окружения для препроцессинга и обучения, а также инструменты для деплоя и тестирования моделей.