Машинное обучение гауссовские процессы для предсказания новых точек временного ряда

Содержание

Интуитивно понятное руководство по гауссовским процессам
Что такое машинное обучение?
Думая о неопределенности
Байесовский вывод
Что такое гауссовский процесс?
Преимущества и недостатки ВОП
Будущее гауссовских процессов
Быстрый старт Гауссовой регрессии процесса
Задний план
Dataset
Выбор модели
вывод

Интуитивно понятное руководство по гауссовским процессам

Дата публикации Jan 15, 2019

Гауссовские процессы являются мощным алгоритмом как регрессии, так и классификации. Их наибольшее практическое преимущество заключается в том, что они могут дать надежную оценку своей собственной неопределенности. К концу этого поста высокого уровня, посвященного математике, я хочу дать вам интуитивное представление о том, что такое гауссовский процесс и что делает его уникальным среди других алгоритмов.

Резюме на машинное обучение
Как бороться с неопределенностью
Байесовский вывод в двух словах
Гауссовские процессы

Что такое машинное обучение?

Машинное обучение — это линейная регрессия на стероидах.

Машинное обучение использует данные, которые мы имеем (известные как данные обучения), для изучения функции, которую мы можем использовать для прогнозирования данных, которых у нас еще нет. Простейшим примером этого является линейная регрессия, где мы изучаем наклон и точку пересечения линии, чтобы мы могли предсказать вертикальное положение точек из их горизонтального положения. Это показано ниже, данные обучения — это синие точки, а изученная функция — красная линия.

Машинное обучение является продолжением линейной регрессии несколькими способами. Во-первых, современный ML имеет дело с гораздо более сложными данными, вместо того, чтобы изучать функцию для вычисления одного числа из другого числа, как в линейной регрессии, мы могли бы иметь дело с различными входами и выходами, такими как:

цена дома(выход) зависит от его местоположения, количества комнат и т. д. (входы)
содержание изображения(вывод) на основе интенсивности и цвета пикселей в изображении (входные данные)
лучший ход(вывод) в зависимости от состояния платы Go (вход)
изображение с более высоким разрешением(вывод) на основе изображения с низким разрешением (ввод)

Во-вторых, современный ML использует гораздо более мощные методы для извлечения паттернов, из которых глубокое обучение является лишь одним из многих. Гауссовские процессы являются еще одним из этих методов, и их основным отличием является их отношение к неопределенности.

Думая о неопределенности

Неопределенность может быть представлена в виде набора возможных результатов и их соответствующей вероятности, называемой распределением вероятностей.

Мир вокруг нас полон неопределенности — мы не знаем точно, сколько времени займет поездка на работу или какая погода будет завтра в полдень. Некоторая неопределенность из-за нашей нехватки знанийсвойственныйк миру, независимо от того, сколько знаний у нас есть. Поскольку мы не можем полностью устранить неопределенность из вселенной, у нас лучше всего с ней справиться.Распределения вероятностейименно это и оказывается, что это ключ к пониманию гауссовских процессов.

Наиболее очевидным примером распределения вероятностей является результат бросания справедливой шестигранной кости, то есть шанса один на шесть с любым конкретным лицом.

Это примердискретныйраспределения вероятностей, поскольку существует конечное число возможных результатов. В дискретном случае распределение вероятностей — это просто список возможных результатов и вероятность их возникновения. Во многих реальных сценарияхнепрерывныйРаспределение вероятностей является более подходящим, поскольку результатом может быть любое действительное число, и пример одного из них рассматривается в следующем разделе.

Еще одна ключевая концепция, которая будет полезна позжеотбор пробиз распределения вероятностей. Это означает переход от набора возможных результатов к одному реальному результату — бросание игральных костей в этом примере.

Байесовский вывод

Байесовский вывод может быть пугающей фразой, но он сводится к методу обновления наших представлений о мире на основе данных, которые мы наблюдаем. В байесовском умозаключении наши представления о мире обычно представлены в виде распределения вероятностей иПравило Байесаговорит нам, как обновить эти распределения вероятностей.

Байесовская статистика предоставляет нам инструменты для обновления наших убеждений (представленных в виде распределения вероятностей) на основе новых данных

Давайте рассмотрим наглядный пример байесовского умозаключения — мы собираемся скорректировать наши представления о высоте Барака Обамы на основе некоторых доказательств.

Давайте рассмотрим, что мы никогда не слышали о Бараке Обаме (терпите меня), или, по крайней мере, мы не знаем, какой у него рост. Однако мы знаем, что он мужчина, проживающий в США. Отсюда наша вера в рост Обамы до того, как мы увидим какие-либо доказательства (в байесовском смысле это нашепредварительное убеждение) должно быть просто распределение высот американских самцов.

Теперь давайте притворимся, что Википедии не существует, поэтому мы не можем просто посмотреть на рост Обамы и вместо этого наблюдать за некоторымидоказательствов виде фото

Наше обновленное убеждение (заднийв байесовском выражении) выглядит примерно так.

Мы можем видеть, что Обама определенно выше среднего, немного превосходя некоторых других мировых лидеров, однако мы не можем быть точно уверены, насколько конкретно он высок. Показанное распределение вероятностей по-прежнему отражает малую вероятность того, что Обама среднего роста, а все остальные на фотографии необычайно короткие.

Что такое гауссовский процесс?

Теперь, когда мы знаем, как представить неопределенность числовых значений, таких как высота или результат броска костей, мы готовы узнать, что такое гауссовский процесс.

Гауссовский процесс — это распределение вероятностей по возможным функциям.

Поскольку гауссовские процессы опишем распределения вероятностей по функциям, мы можем использоватьПравило Байесаобновить наше распределение функций, наблюдая данные обучения.

Чтобы укрепить эту интуицию, я приведу пример байесовского вывода о гауссовских процессах, который в точности аналогичен примеру из предыдущего раздела. Вместо того, чтобы обновлять нашу веру в рост Обамы на основе фотографий, мы обновим нашу веру в неизвестную функцию, учитывая некоторые примеры из этой функции.

нашпредварительное убеждениео неизвестной функции визуализируется ниже. Справа — среднее значение и стандартное отклонение нашего гауссовского процесса — у нас нет никаких знаний о функции, поэтому наилучшее предположение для нашего среднего значения находится в середине действительных чисел, то есть 0.

Слева каждая строка представляет собой образец распределения функций, и наше отсутствие знаний отражено в широком спектре возможных функций и разнообразных форм функций на дисплее. Выборка из гауссовского процесса подобна бросанию игральных костей, но каждый раз, когда вы получаете другую функцию, существует бесконечное число возможных функций, которые могут возникнуть.

Вместо того, чтобы наблюдать некоторые фотографии Обамы, мы будем наблюдать некоторые результаты неизвестной функции в различных точках. Для гауссовских процессов нашдоказательствоэто данные обучения,

Теперь, когда мы увидели некоторые доказательства, давайте использовать правило Байеса, чтобы обновить наше мнение о функции, чтобы получитьзаднийГауссовский процесс AKA наше обновленное мнение о функции, которую мы пытаемся приспособить.

Подобно суженному распределению возможных высот Обамы, вы можете видеть более узкое распределение функций. Обновленный гауссовский процесс ограничен возможными функциями, которые соответствуют нашим обучающим данным — среднее значение нашей функции перехватывает все обучающие точки, как и каждая выбранная функция. Мы также можем видеть, что стандартное отклонение выше от наших данных обучения, что отражает наше отсутствие знаний об этих областях.

Преимущества и недостатки ВОП

Гауссовские процессы знают то, чего не знают.

Это звучит просто, но многие, если не большинство методов ОД, не разделяют этого. Ключевым преимуществом является то, что неопределенность подобранной ВОП увеличивается по мере удаления от обучающих данных — это является прямым следствием корней ВОП в вероятности и байесовского вывода.

Выше мы можем видеть функции классификации, изученные различными методами на простой задаче разделения синих и красных точек. Обратите внимание, что два широко используемых и мощных метода поддерживают высокую достоверность своих прогнозов вдали от обучающих данных — это может быть связано с явлениемсостязательныйПримерыгде мощные классификаторы дают очень неправильные прогнозы по странным причинам. Эта характеристика гауссовских процессов особенно важна для верификации личности и критически важного использования, так как вы хотите быть полностью уверены, что ваши модели выводятся по уважительной причине.

Гауссовские процессы позволяют использовать экспертные знания.

Когда вы используете ГП для моделирования своей проблемы, вы можете сформировать свое прежнее убеждение, выбравядро(Полное объяснение этого выходит за рамки этого поста).

Это позволяет вам формировать свои функции различными способами. Наблюдатель среди вас, возможно, задавался вопросом, как гауссовские процессы когда-либо должны обобщать за пределы своих обучающих данных, учитывая свойство неопределенности, обсужденное выше. Хорошо, ответ заключается в том, что обобщающие свойства GP лежат почти полностью в пределах выбора ядра.

Гауссовские процессы вычислительно дороги.

Гауссовские процессы являются непараметрическим методом. Параметрические подходы объединяют знания о тренировочных данных в набор чисел. Для линейной регрессии это всего два числа: наклон и точка пересечения, тогда как другие подходы, такие как нейронные сети, могут иметь десятки миллионов. Это означает, что после их обучения стоимость прогнозирования составляетзависит только от количества параметров

Однако, поскольку гауссовские процессы являются непараметрическими (хотя гиперпараметры ядра размывают картину), они должны учитывать целые обучающие данные каждый раз, когда делают прогноз. Это означает не только то, что данные обучения должны храниться во время вывода, но также означает, что вычислительная стоимость прогнозов масштабируется (в кубическом выражении!) С количеством обучающих выборок.

Будущее гауссовских процессов

Мир гауссовских процессов останется захватывающим в обозримом будущем, поскольку проводятся исследования, чтобы принести их вероятностные выгоды в проблемы, в которых в настоящее время доминирует глубокое обучение -редкийа такжеminibatchГауссовские процессы увеличивают их масштабируемость для больших наборов данных, в то время какглубокоа такжесверточногоГауссовские процессы обеспечивают доступ к многомерным данным и изображениям. Смотреть это пространство.

Источник

Быстрый старт Гауссовой регрессии процесса

Дата публикации Jun 19, 2019

Гауссовская регрессия процесса (GPR) — это непараметрический, байесовский подход к регрессии, который делает волну в области машинного обучения. GPR имеет несколько преимуществ: он хорошо работает с небольшими наборами данных и способен обеспечивать измерения неопределенности прогнозов.

Задний план

В отличие от многих популярных контролируемых алгоритмов машинного обучения, которые изучают точные значения для каждого параметра в функции, байесовский подход определяет распределение вероятностей по всем возможным значениям. Давайте предположим линейную функцию:у = WX + ε, Как работает байесовский подход, указавпредварительное распределение,р (ш),по параметру,веси перемещение вероятностей на основе доказательств (то естьнаблюдаемые данные) с использованием правила Байеса:

Обновленный дистрибутивp (w | y, X), называетсязаднее распределение, таким образом, включает информацию как из предыдущего распределения, так и из набора данных. Чтобы получить прогнозы в невидимых точках интереса,Икс*,прогнозное распределениеможно рассчитать путем взвешивания всех возможных прогнозов по их вычисленному апостериорному распределению [1]:

Приоритет и вероятность, как правило, предполагаются гауссовскими, чтобы интеграция была поддающейся обработке. Используя это предположение и решение для прогнозирующего распределения, мы получаем гауссовское распределение, из которого мы можем получить точечный прогноз, используя его среднее значение, и количественное определение неопределенности, используя его дисперсию.

Гауссовский процесс регрессиинепараметрический (то естьне ограничивается функциональной формой), поэтому вместо вычисления распределения вероятностей параметров конкретной функции GPR рассчитывает распределение вероятностей по всем допустимым функциям, которые соответствуют данным. Однако, как и выше, мы указываем априор (в функциональном пространстве), вычисляем апостериор с использованием данных обучения и вычисляем прогнозирующее апостериорное распределение по интересующим нас точкам.

Существует несколько библиотек для эффективной реализации регрессии гауссовских процессов (напримерscikit-learn, Gpytorch, GPy), но для простоты в этом руководстве будет использован гауссовский пакет процессов scikit-learn [2].

В георадаре мы сначала предполагаемГауссовский процесс до, который может быть указан с помощью средней функции,м (х),и ковариационная функция,k (x, x ’):

Более конкретно, гауссовский процесс подобен бесконечномерному многомерному распределению Гаусса, где любая коллекция меток набора данных является совместным распределением Гаусса. В рамках этого предварительного GP мы можем включить предварительные знания о пространстве функций посредством выбора среднего и ковариационных функций. Мы также можем легко включить независимо, одинаково распределенные(I.i.d)Гауссовский шум, ϵ ∼N(0, σ²),к меткам путем суммирования распределения меток и распределения шума:

Dataset

Набор данных состоит из наблюдений,ИКС,и их ярлыки,у, сВложить в «обучающие» и «проверочные» подмножества:

Из предшествующего гауссовского процесса набор обучающих точек и контрольных точек является совместным многомерным распределением Гаусса, и поэтому мы можем записать их распределение следующим образом [1]:

Здесь K — матрица ковариационного ядра, где ее записи соответствуют ковариационной функции, оцененной в наблюдениях. Написанный таким образом, мы можем взять обучающее подмножество, чтобы выполнить выбор модели.

Выбор модели

Форма средней функции и функции ядра ковариации в GP выбирается и настраивается во времявыбор модели, Средняя функция, как правило, постоянная, либо ноль, либо среднее значение обучающего набора данных. Существует много опций для ковариационной функции ядра: она может иметь много форм, если она соответствует свойствам ядра (то естьполуположительно определен и симметричен). Некоторые общие функции ядра включают в себя постоянное, линейное, квадратное экспоненциальное и ядро Matern, а также состав из нескольких ядер.

Популярное ядро - это композиция ядра с постоянным ядром с радиальной базисной функцией (RBF), которая кодирует для гладкости функций (то естьСходство входов в пространстве соответствует сходству выходов):

Это ядро имеет два гиперпараметра: дисперсия сигнала, σ² и длина шкалы,L, В scikit-learn мы можем выбирать из множества ядер и указывать начальное значение и границы для их гиперпараметров.

После указания функции ядра мы можем указать другие варианты для модели GP в scikit-learn. Например, альфа является дисперсиейi.i.d.шум на метках, а normalize_y относится к функции постоянного среднего — либо ноль, если False, либо обучающие данные означают, если True.

Популярный подход к настройке гиперпараметров функции ядра ковариации заключается в максимизации логарифмической вероятности обучающих данных. Градиентный оптимизатор обычно используется для эффективности; если не указано выше, оптимизатором по умолчанию является ‘fmin_l_bfgs_b», Поскольку предельная вероятность журнала не обязательно является выпуклой, используется несколько перезапусков оптимизатора с различными инициализациями (n_restarts_optimizer).

Настроенные гиперпараметры функции ядра могут быть получены при желании путем вызоваmodel.kernel_.get_params (),

вывод

Для расчета прогнозирующего апостериорного распределения данные и тестовое наблюдение обусловлены апостериорным распределением. Опять же, поскольку ранее мы выбрали гауссовский процесс, вычисление предиктивного распределения является поддающимся обработке и приводит к нормальному распределению, которое может быть полностью описано средним значением и ковариацией [1]:

Предсказания являются средними значениями f_bar *, а дисперсии могут быть получены из диагонали ковариационной матрицы Σ *. Обратите внимание, что для вычисления среднего значения и дисперсии требуется инверсия K-матрицы, которая масштабируется в зависимости от количества тренировочных точек в кубе. Вывод прост в реализации с помощью функции прогнозирования GPR Sci-Kit Learn.

Обратите внимание, что стандартное отклонение возвращается, но вся ковариационная матрица может быть возвращена, еслиreturn_cov = True.Затем можно рассчитать 95% доверительный интервал: в 1,96 раза больше стандартного отклонения для гауссианы.

Чтобы измерить эффективность регрессионной модели на тестовых наблюдениях, мы можем рассчитать среднеквадратичную ошибку (MSE) на прогнозах.

Ссылки:

[2] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., et. и др.,Scikit-learn: машинное обучение на питоне(2011), журнал исследований машинного обучения

Источник