Машинное обучение без учителя

Виртуальная машина
бесплатно навсегда

Забрать

Статья

Время чтения

2 минуты

Машинное обучение без учителя или неконтролируемое обучение (Unsupervised Learning) — метод машинного обучения (Machine Learning, ML), при котором модель обучается выявлять закономерности и скрытые взаимосвязи на наборах неразмеченных данных без контроля со стороны пользователя.

Гипервизор — программное обеспечение для создания, запуска и контроля виртуальных машин. На них могут быть установлены разные операционные системы (ОС). Они изолированы от аппаратных систем и используют ресурсы виртуального компьютера, на котором запущены.

При неконтролируемом обучении алгоритму не сообщается конечная цель или шаблоны, а только предоставляются массивы данных — общие признаки распознаются автоматически.

Примечание: Алгоритмы неконтролируемого обучения могут использоваться для решения более сложных задач обработки по сравнению с контролируемым обучением. Вместе с тем, результат обучения без учителя часто непредсказуем и не имеет очевидных закономерностей.

Типы систематизации данных

В неконтролируемом машинном обучении используется три алгоритма обработки данных:

  • Ассоциативные алгоритмы. Предназначены для нахождения данных или параметров, которые часто используются вместе. Например, ассоциативные алгоритмы помогают предлагать клиенту третий товар на основе двух выбранных.

  • Снижение размерности. Подразумевает преобразование данных для уменьшения их числа и выделения основных переменных. Метод используется для удаления из выборки неинформативных и избыточных данных, усложняющих обработку.

  • Кластеризация. Подразумевает разделение объектов (данных) из выборки на отдельные кластеры. То есть, при кластеризации алгоритмы изучают исходные данные, находят между ними взаимосвязи и создают на их основе группы.

Типы кластеризации

По типам кластеризацию принято делить на:

  • восходящую — есть кластеры и подкластеры с четкой иерархией;

  • нисходящую — объекты сразу делятся на классы;

  • исключающую — каждый объект относится только к одному классу;

  • перекрывающую — объект относится к нескольким группам или находится между двумя кластерами;

  • нечетную — отношение некоторых объектов невозможно определить;

  • полную — каждый объект непременно относится к одному из кластеров;

  • частичную — некоторые объекты могут не относиться к группам.

Сценарии применения обучения без учителя

Неконтролируемое обучение может применяться для:

  • автоматического разделения наборов данных на группы в соответствии с выявленным сходством;

  • обнаружения аномалий и нетипичных показателей в наборах данных;

  • определения наборов элементов, показателей и признаков, которые часто встречаются в обрабатываемых данных;

  • предварительной обработки данных, в том числе для разделения наборов на части и уменьшения количества объектов в наборах.

Примечание: Результаты обучения зависят от количества обработанных данных — чем их больше, тем больше шанс обнаружить новые зависимости.

Неконтролируемое машинное обучение может использоваться для выполнения задач любой сложности — главное собрать достаточный массив данных и использовать специализированные инструменты или сервисы. Например, можно использовать платформу для совместной ML-разработки с ускорением до +1700 GPU Tesla v100 и A100 ML Space, на которой разработчикам доступны наборы сервисов для переноса данных и управления артефактами, готовые окружения для препроцессинга и обучения, а также инструменты для деплоя и тестирования моделей.

Содержание

  • Типы систематизации данных
  • Типы кластеризации
  • Сценарии применения обучения без учителя

Вам может понравиться