Поиск

    Машинное обучение без учителя

    Машинное обучение без учителя или неконтролируемое обучение (Unsupervised Learning) — метод машинного обучения (Machine Learning, ML), при котором модель обучается выявлять закономерности и скрытые взаимосвязи на наборах неразмеченных данных без контроля со стороны пользователя.

    При неконтролируемом обучении алгоритму не сообщается конечная цель или шаблоны, а только предоставляются массивы данных — общие признаки распознаются автоматически.

    Примечание: Алгоритмы неконтролируемого обучения могут использоваться для решения более сложных задач обработки по сравнению с контролируемым обучением. Вместе с тем, результат обучения без учителя часто непредсказуем и не имеет очевидных закономерностей.

    Типы систематизации данных

    В неконтролируемом машинном обучении используется три алгоритма обработки данных:

    • Ассоциативные алгоритмы. Предназначены для нахождения данных или параметров, которые часто используются вместе. Например, ассоциативные алгоритмы помогают предлагать клиенту третий товар на основе двух выбранных.
    • Снижение размерности. Подразумевает преобразование данных для уменьшения их числа и выделения основных переменных. Метод используется для удаления из выборки неинформативных и избыточных данных, усложняющих обработку.
    • Кластеризация. Подразумевает разделение объектов (данных) из выборки на отдельные кластеры. То есть, при кластеризации алгоритмы изучают исходные данные, находят между ними взаимосвязи и создают на их основе группы.

    Типы кластеризации

    По типам кластеризацию принято делить на:

    • восходящую — есть кластеры и подкластеры с четкой иерархией;
    • нисходящую — объекты сразу делятся на классы;
    • исключающую — каждый объект относится только к одному классу;
    • перекрывающую — объект относится к нескольким группам или находится между двумя кластерами;
    • нечетную — отношение некоторых объектов невозможно определить;
    • полную — каждый объект непременно относится к одному из кластеров;
    • частичную — некоторые объекты могут не относиться к группам.

    Сценарии применения обучения без учителя

    Неконтролируемое обучение может применяться для:

    • автоматического разделения наборов данных на группы в соответствии с выявленным сходством;
    • обнаружения аномалий и нетипичных показателей в наборах данных;
    • определения наборов элементов, показателей и признаков, которые часто встречаются в обрабатываемых данных;
    • предварительной обработки данных, в том числе для разделения наборов на части и уменьшения количества объектов в наборах.

    Примечание: Результаты обучения зависят от количества обработанных данных — чем их больше, тем больше шанс обнаружить новые зависимости.

    Неконтролируемое машинное обучение может использоваться для выполнения задач любой сложности — главное собрать достаточный массив данных и использовать специализированные инструменты или сервисы. Например, можно использовать платформу для совместной ML-разработки с ускорением до +1700 GPU Tesla v100 и A100 ML Space, на которой разработчикам доступны наборы сервисов для переноса данных и управления артефактами, готовые окружения для препроцессинга и обучения, а также инструменты для деплоя и тестирования моделей.

    Персональный менеджер

    Преимущества

    Поддержка для каждого клиента

    Личный менеджер грамотно проконсультирует, окажет поддержку при запуске новых продуктов и сэкономит ваше рабочее время.

    manager
    Круглосуточная техническая поддержка

    Мы готовы решать ваши вопросы и оказывать поддержку 24/7.

    Недостатки Unsupervised Learning

    arrow

    Недостатки метода:


    1. Точность результатов может быть низкой из-за сложности обработки неразмеченных данных.
    2. Результат обработки неизвестен заранее.
    3. Пользователь должен сам интерпретировать результаты неконтролируемого обучения.

    Польза для бизнеса

    arrow

    С помощью моделей неконтролируемого обучения можно с успехом решать различные бизнес-задачи:


    • Сегментирование клиентов. Используя наборы записей, алгоритмы могут выявить клиентов со схожими, но неочевидными предпочтениями или зависимостями. Например, на основе данных о покупках могут быть сформированы группы «путешественники», «экстремалы», «любители искусства». Такая сегментация дает возможность персонализировать предложения и разрабатывать таргетированные маркетинговые кампании.
    • Обнаружение аномальной активности. На основе файлов логирования и информации о трафике алгоритмы могут выявить поведение пользователей, отличающееся от привычного, для обнаружения попыток взлома и уязвимых мест в защите.
    • Оценка достоверности информации. Самостоятельно обученные алгоритмы могут применяться для распознавания недостоверных статей и новостей. Для этого используются алгоритмы классификации, способные выделить отдельные фрагменты текста, содержащие фразы или даже предложения, характерные для обмана.
    • Фильтрация спама. Проверяя содержимое электронных писем, данные об отправителе и тему письма, инструменты на основе интеллектуальных алгоритмов сортируют входящие письма, очищая их от спама и угроз.