Задачей классификации часто является предсказание

Содержание

Разница между классификацией и регрессией в машинном обучении
Обзор учебника
Функция приближения
Классификация прогнозирующего моделирования
Прогнозирующее регрессионное моделирование
Классификация против регрессии
Преобразование между проблемами классификации и регрессии
Дальнейшее чтение
Резюме
Задачей классификации часто является предсказание

Разница между классификацией и регрессией в машинном обучении

Дата публикации 2017-12-11

Существует важное различие между проблемами классификации и регрессии.

По сути, классификация — это предсказание метки, а регрессия — это предсказание количества.

Я часто вижу такие вопросы, как:

Как рассчитать точность для моей проблемы регрессии?

Подобные вопросы являются признаком неправильного понимания разницы между классификацией и регрессией и того, какую точность пытаются измерить.

В этом уроке вы обнаружите различия между классификацией и регрессией.

После завершения этого урока вы узнаете:

Это интеллектуальное моделирование связано с проблемой изучения функции отображения от входов к выходам, называемой приближением функции.
Эта классификация является проблемой прогнозирования вывода метки дискретного класса для примера.
Эта регрессия является проблемой прогнозирования непрерывного количества продукции для примера.

Обзор учебника

Этот урок состоит из 5 частей; они есть:

Функция приближения
классификация
регрессия
Классификация против регрессии
Преобразование между проблемами классификации и регрессии

Функция приближения

Прогнозирующее моделирование — это проблема разработки модели с использованием исторических данных для прогнозирования новых данных, когда у нас нет ответа.

Подробнее о прогнозирующем моделировании читайте в посте:

Прогнозирующее моделирование может быть описано как математическая проблема приближения функции отображения (f) от входных переменных (X) к выходным переменным (y). Это называется проблемой приближения функций.

Задача алгоритма моделирования состоит в том, чтобы найти лучшую функцию отображения, которую мы можем, учитывая время и ресурсы.

Подробнее об аппроксимирующих функциях в прикладном машинном обучении читайте в посте:

Как правило, мы можем разделить все задачи приближения функций на задачи классификации и задачи регрессии.

Классификация прогнозирующего моделирования

Классификационное прогнозирующее моделирование — это задача приближения функции отображения (f) от входных переменных (X) к дискретным выходным переменным (y).

Выходные переменные часто называют метками или категориями. Функция отображения предсказывает класс или категорию для данного наблюдения.

Например, электронное письмо с текстом может быть классифицировано как принадлежащее одному из двух классов: «спам»«а также «не спам«.

Задача классификации требует, чтобы примеры были классифицированы в один или два класса.
Классификация может иметь действительные или дискретные входные переменные.
Проблема с двумя классами часто называется проблемой двухклассной или двоичной классификации.
Проблема с более чем двумя классами часто называется проблемой классификации нескольких классов.
Проблема, когда для примера назначается несколько классов, называется проблемой классификации по нескольким меткам.

Для классификационных моделей характерно предсказывать непрерывное значение как вероятность данного примера, принадлежащего каждому выходному классу. Вероятности могут быть интерпретированы как вероятность или достоверность данного примера, принадлежащего каждому классу. Прогнозируемая вероятность может быть преобразована в значение класса путем выбора метки класса, которая имеет наибольшую вероятность.

Например, конкретному текстовому электронному письму могут быть присвоены вероятности 0,1 как «спама» и 0,9 как «не спама». Мы можем преобразовать эти вероятности в метку класса, выбрав метку «не спам», поскольку она имеет наибольшую прогнозируемую вероятность.

Существует много способов оценить мастерство модели прогнозирования классификации, но, возможно, наиболее распространенным является расчет точности классификации.

Точность классификации — это процент правильно классифицированных примеров от всех сделанных прогнозов.

Например, если модель прогнозирования классификации сделала 5 прогнозов и 3 из них были правильными, а 2 из них были неправильными, то точность классификации модели, основанной только на этих прогнозах, была бы:

Алгоритм, способный изучать модель прогнозирования классификации, называется алгоритмом классификации.

Прогнозирующее регрессионное моделирование

Прогнозирующее регрессионное моделирование — это задача приближения функции отображения (f) от входных переменных (X) к непрерывной выходной переменной (y).

Непрерывная выходная переменная — это действительное значение, такое как целое число или значение с плавающей запятой. Это часто количества, такие как суммы и размеры.

Например, можно предположить, что дом будет продаваться по определенной долларовой стоимости, возможно, в диапазоне от 100 000 до 200 000 долларов.

Задача регрессии требует предсказания количества.
Регрессия может иметь действительные или дискретные входные переменные.
Проблема с несколькими входными переменными часто называется проблемой многомерной регрессии.
Задача регрессии, в которой входные переменные упорядочены по времени, называется задачей прогнозирования временных рядов.

Поскольку прогнозирующая модель регрессии предсказывает количество, навык модели должен быть указан как ошибка в этих прогнозах.

Есть много способов оценить мастерство модели прогнозирования регрессии, но, возможно, наиболее распространенным является вычисление среднеквадратичной ошибки, сокращенно обозначаемой как RMSE.

Например, если модель прогнозирования регрессии сделала 2 прогноза: одно из 1,5, где ожидаемое значение равно 1,0, а другое — 3,3 и ожидаемое значение — 3,0, тогда среднеквадратическое отклонение будет:

Преимущество RMSE состоит в том, что единицы оценки ошибки находятся в тех же единицах, что и прогнозируемое значение.

Алгоритм, который способен изучать модель прогнозирования регрессии, называется алгоритмом регрессии.

Некоторые алгоритмы имеют в своем названии слово «регрессия», например, линейная регрессия и логистическая регрессия, что может привести к путанице, поскольку линейная регрессия является алгоритмом регрессии, тогда как логистическая регрессия является алгоритмом классификации.

Классификация против регрессии

Классификация задач прогнозного моделирования отличается от задач регрессионного прогнозного моделирования.

Классификация — это задача прогнозирования метки дискретного класса.
Регрессия — это задача прогнозирования непрерывного количества.

Существует некоторое совпадение между алгоритмами классификации и регрессии; например:

Алгоритм классификации может прогнозировать непрерывное значение, но непрерывное значение имеет форму вероятности для метки класса.
Алгоритм регрессии может прогнозировать дискретное значение, но дискретное значение в виде целочисленной величины.

Некоторые алгоритмы могут использоваться как для классификации, так и для регрессии с небольшими модификациями, такими как деревья решений и искусственные нейронные сети. Некоторые алгоритмы не могут или не могут быть легко использованы для обоих типов задач, таких как линейная регрессия для прогнозирующего моделирования регрессии и логистическая регрессия для прогнозного моделирования классификации.

Важно отметить, что способ, которым мы оцениваем прогнозы классификации и регрессии, варьируется и не перекрывается, например:

Классификационные прогнозы могут быть оценены с использованием точности, тогда как регрессионные прогнозы не могут.
Прогнозы регрессии могут быть оценены с использованием среднеквадратической ошибки, тогда как прогнозы классификации не могут.

Преобразование между проблемами классификации и регрессии

В некоторых случаях можно преобразовать проблему регрессии в задачу классификации. Например, прогнозируемое количество может быть преобразовано в отдельные сегменты.

Например, суммы в непрерывном диапазоне от $ 0 до $ 100 могут быть преобразованы в 2 сегмента:

Класс 0: от 0 до 49 долларов
Класс 1: от 50 до 100 долларов

Это часто называется дискретизацией, а результирующая выходная переменная представляет собой классификацию, в которой метки имеют упорядоченное отношение (называемое порядковым номером).

В некоторых случаях проблема классификации может быть преобразована в проблему регрессии. Например, метка может быть преобразована в непрерывный диапазон.

Некоторые алгоритмы уже делают это, предсказывая вероятность для каждого класса, которая, в свою очередь, может быть масштабирована до определенного диапазона:

Кроме того, значения классов могут быть упорядочены и сопоставлены с непрерывным диапазоном:

От 0 до 49 долларов для класса 1
От 50 до 100 долларов за класс 2

Если метки классов в задаче классификации не имеют естественного порядкового отношения, преобразование из классификации в регрессию может привести к удивительной или плохой производительности, поскольку модель может узнать ложное или несуществующее отображение из входных данных в непрерывный выходной диапазон.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться.

Резюме

В этом уроке вы обнаружили разницу между проблемами классификации и регрессии.

В частности, вы узнали:

Это интеллектуальное моделирование связано с проблемой изучения функции отображения от входов к выходам, называемой приближением функции.
Эта классификация является проблемой прогнозирования вывода метки дискретного класса для примера.
Эта регрессия является проблемой прогнозирования непрерывного количества продукции для примера.

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Источник

Задачей классификации часто является предсказание

Классификация – наиболее часто встречающаяся задача машинного обучения, и заключается в построении моделей, выполняющих отнесение интересующего нас объекта к одному из нескольких известных классов. Существуют сотни методов классификации (см. Fernandez-Delgado et al., 2014), которые можно использовать для предсказания значения отклика с двумя и более классами. Возникает вопрос: отвечает ли такое множество потребностям реально решаемых задач?

Попробуем выделить основные характерные черты, отличающие эти методы. Во-первых, многое зависит от того, что является поставленной целью исследования: объяснение внутренних механизмов изучаемых процессов или только прогнозирование отклика. Если ставится задача “вскрытия” структуры взаимосвязей между независимыми переменными и откликом, то создаваемая модель должна в явном виде отображать их в виде наглядной схемы, либо осуществлять сравнительную оценку силы влияния отдельных переменных. Примерами хорошо интерпретируемых моделей классификации являются деревья решений, логистическая регрессия и модели дискриминации.

Если же основной задачей является достижение высокой общей точности предсказаний (overall accuracy) значения целевого признака $y$ для объекта $a$ , то представление модели в явном виде не требуется. Изучаемый процесс, который часто имеет объективно сложный характер, представляется в виде “черного ящика”, а решающие процедуры могут иметь большое (до десятков тысяч) или неопределенное число трудно интерпретируемых параметров. Эффективными методами прогнозирования классов являются случайные леса, бустинг, бэггинг, искусственные нейронные сети, машины опорных векторов, групповой учет аргументов МГУА и др.

Во-вторых, некоторую систематичность в типизацию моделей классификации может внести их связь с тремя основными парадигмами машинного обучения: геометрической, вероятностной и логической. Обычно множество объектов имеет некую геометрическую структуру: каждый из них, описанный числовыми признаками, можно рассматриваться как точка в многомерной системе координат. Геометрическая модель разделения на классы строится в пространстве признаков с применением таких геометрических понятий, как прямые, плоскости и криволинейные поверхности (в общем виде “гиперплоскости”). Примеры моделей, реализующих геометрическую парадигму: логистическая регрессия, метод опорных векторов и дискриминантный анализ. Другим важным геометрическим понятием является функция расстояния между объектами, которая приводит к классификатору по ближайшим соседям.

Вероятностный подход заключается в предположении о существовании некоего случайного процесса, который порождает значения целевых переменных, подчиняющиеся вполне определенному, но неизвестному нам распределению вероятностей. Примером модели вероятностного характера является байесовский классификатор, формирующий решающее правило по принципу апостериорного максимума. Модели логического типа по своей природе наиболее алгоритмичны, поскольку легко выражаются на языке правил, понятных человеку, таких как: if = 1 then Y = . Примером таких моделей являются ассоциативные правила и деревья классификации. Некоторые авторы (Mount, Zumel, 2014, р. 91) подчеркивают различие терминов “предсказание” (prediction) и “прогнозирование” (forecasting). Предсказание лишь озвучивает результат (например, «Завтра будет дождь»), а при прогнозировании итог связывается с вероятностью события («Завтра с шансом 80% будет дождь»). Мы считаем, что на практике трудно провести между этими терминами четкую границу. К тому же, часто эта разница в совершенно не принципиальна – главное понимать контекст задачи.

Наконец, третьим основанием для группировки методов является природа наблюдаемых признаков, которые можно разделить на четыре типа: бинарные (0/1), категориальные, счетные и метрические. Имеются определенные нюансы при использовании перечисленных типов признаков в качестве предикторов, которые оговариваются нами ниже в рекомендациях по применению каждого метода моделирования. Например, бинарное пространство переменных некорректно использовать для линейного дискриминантного анализа. Однако принципиально важное значение имеет, к какому типу признаков относится отклик: задача классификации предполагает, что он измерен в бинарных, категориальных или, отчасти, порядковых шкалах.

Бинарный классификатор формирует некоторое диагностическое правило и оценивает, к какому из двух возможных классов следует отнести изучаемый объект (согласно медицинской терминологии условно назовем эти классы “норма” или “патология”). Группы точек “патология/норма” в заданном пространстве предикторов, как правило, статистически неразделимы: например, повышение температуры тела до 37.5C часто свидетельствует о заболевании, хотя не всегда болезнь может сопровождаться высокой температурой. Поэтому при тестировании модели вероятны ошибочные ситуации, такие как пропуск положительного (патологического) заключения FN или его “гипердиагностика” FP , т.е. отнесение нормального состояния к патологическому.

Результаты теста на некоторой контрольной выборке можно представить обычной таблицей сопряженности, которую часто называют матрицей неточностей (confusion matrix):

Результаты теста:
Истинное состояние тест-объектов:	Предсказана патология (1)	Предсказана норма (0)
Патология (1)	Истинно-положительные TP (True positives)	Ложно-отрицательные FN (False negatives)
Норма (1)	Ложно-положительные FP (False positives)	Истинно-отрицательные TN (True negatives)

В этих обозначениях объективная ценность рассматриваемого бинарного классификатора определяется следующими показателями:

Чувствительность (sensitivity) $SE = Err_ = TP / (TP + FN)$ , определяющая насколько хорош тест для выявления патологических экземпляров;
Специфичность (specificity) $SP = Err_ = FP / (FP + TN)$ , показывающая эффективность теста для правильной диагностики отклонений от нормального состояния;

Точность (accuracy) $AC = (TP + TN) / (TP + FP + FN + TN)$ , определяющая общую вероятность теста давать правильные результаты.

По аналогии с классической проверкой статистических гипотез специфичность $Err_I$ определяет ошибку I рода и, соответственно, вероятность нулевой гипотезы, тогда как чувствительность $Err_$ — мощность теста. Точность является, безусловно, наиболее широко известной мерой производительности классификатора, которая становится катастрофически некорректной в случае несбалансированных частот классов. Если, например, число пациентов, заболевших лихорадкой, составляет менее 1% от числа обследованных, то полный пропуск патологии даст вполне приличный результат тестирования 99%.

Рассмотрим популярный пример выделения спама (“spam” от слияния двух слов — “spiced” и “ham”, или “пряная ветчина”, как образец некачественного пищевого продукта) в электронных письмах в зависимости от встречаемости тех или иных слов (всего 58 частотных показателей). Выборка по спаму представлена в обширной коллекции наборов данных Центра машинного обучения и интеллектуальных систем Калифорнийского университета (UCI Machine Learning Repository) и после некоторой предварительной обработки используется для иллюстрации в книге Mount, Zumel (2014). Скачаем этот файл с сайта ее авторов и разделим исходные данные в соотношении 10:1 на обучающую и проверочную выборки:

Компоненты матрицы неточностей и перечисленные показатели легко получить с использованием обычной функции table() — например, так:

Источник