§ 7. Доверительные интервалы для зависимой переменной
Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных.
Рассмотрим предсказание среднего значеі—
Пусть построено уравнение парной регрессии
нове которого необходимо предсказать условное математическое ожидание M(Y(X = xp) переменной Y при X = xp. Сначала определим точечную оценку математического ожидания зависимой переменной:
Тогда, с заданной надежностью 1-а, при любом конкретном значении xp объясняющей переменной доверительный интервал
для M (Y( X = x Л=В,+ В. x_ имеет вид:
Предсказание индивидуальных значений зависимой переменной.
Пусть нас интересует некоторое возможное значение ур переменной Y при определенном значении xp объясняющей переменной X. Тогда интервал:
определяет границы, за пределами которых могут оказаться не более 100а% точек наблюдений значений Y при X = x .
данный интервал шире доверительного интервала для условного математического ожидания.
Построенные интервалы наиболее узкими будут при xp = x . По
мере удаления xp от среднего значения доверительные интервалы расширяются. Поэтому необходимо достаточно осторожно экстраполировать полученные результаты на прогнозные области. С другой стороны, с ростом числа наблюдений n эти интервалы сужаются к линии регрессии при n .
Вернемся к примеру 2.1. Пусть x„ =160, тогда:
Рассмотрим предсказание индивидуальных значений зависимой переменной. Пусть xp =160, тогда:
Источник
Доверительные интервалы для зависимой переменной
Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной при определенных значениях объясняющих переменных (предсказание среднего значения), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения).
Предсказание среднего значения. Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание
переменной Y при X = x0. В данном случае значение
является оценкой
. Тогда естественным является вопрос, как сильно может уклониться модельное среднее значение
, рассчитанное по эмпирическому уравнению регрессии, от соответствующего условного математического ожидания. Ответ на этот вопрос дается на основе интервальных оценок, построенных с заданной надежностью
при любом конкретном значении
объясняющей переменной.
Доверительный интервал для имеет вид:
(1.6)
Предсказание индивидуальных значений зависимой переменной.
На практике иногда более важно знать дисперсию Y, чем ее средние значения или доверительные интервалы для условных математических ожиданий.
Пусть нас интересует некоторое возможное значение переменной Y при определенном значении
объясняющей переменной X. Предсказанное по уравнению регрессии значение Y при X = x0 составляет
. Тогда интервал
определяет границы, за пределами которых могут оказаться не более 100α% точек наблюдений при X = x0. Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (на рис. 6 границы этого интервала отмечены пунктирной линией).
Проводя анализ построенных интервалов, несложно заметить, что наиболее узкими они будут при X = x0. По мере удаления от среднего значения доверительные интервалы расширяются (см. рис. 7). Поэтому необходимо достаточно осторожно экстраполировать полученные результаты на прогнозные области. С другой стороны, с ростом числа наблюдений n эти интервалы сужаются к линии регрессии при
.
Источник
Предсказание индивидуального значения зависимой переменной
2.4. Проверка адекватности регрессионной модели
2.4.1. Коэффициент детерминации
В классическом регрессионном анализе предполагается, что функция регрессии известна (специфицирована) с точностью до параметров, то есть набор регрессоров (независимых переменных) определен. В эмпирических исследованиях экономических и социальных процессов, из множества возможных вариантов регрессионных уравнений, которые отличаются набором регрессоров, необходимо выбрать наиболее адекватную модель (регрессионную функцию). Такая модель наилучшим образом объясняет поведение реального процесса. Для оценки качества модели линейной регрессии в классическом регрессионном анализе используется показатель, который называется коэффициентом детерминации R 2 (читается R — квадрат). Коэффициент детерминации играет важную роль в регрессионном анализе. Ниже приведены три эквивалентных определения этого показателя, которые отличаются формой записи и способом интерпретации.
Представим отклонение зависимой переменной от ее выборочного среднего в виде
где первое слагаемое — это отклонение значения зависимой переменной в i-ом наблюдении от прогноза ее среднего значения, второе слагаемое — отклонение прогноза среднего значения зависимой переменной от ее выборочного среднего. Возводя обе части последнего равенства в квадрат и суммируя левые и правые части полученного выражения, запишем:
Рассмотрим последнее слагаемое в правой части этого выражения. Имеем:
Далее, вспоминая доказанные в п. 2.3.2 свойства остатков (соотношения ( 2.20 ), ( 2.21 ))
и, таким образом, окончательно можем записать
Здесь мы использовали следующие соотношения:
(это следует из первого уравнения системы нормальных уравнений ( 2.11 ), ( 2.12 ), (здесь использовано свойство ( 2.20 ) остатков). Из ( 2.26 ) следует, что полную вариацию переменной y можно разложить на две составляющие:
— это часть полной вариации, объясненная регрессией, и
— необъясненная часть полной вариации, которая обусловлена случайной составляющей модели. Разложения ( 2.25 ) и ( 2.26 ) используются для определения коэффициента детерминации.
Первое представление коэффициента детерминации
Определим коэффициент детерминации следующим соотношением
В знаменателе стоит полная сумма квадратов (total sum of squares) , для ее обозначения будем использовать аббревиатуру TSS , так что
Выражению ( 2.27 ) можно дать следующую интерпретацию: это доля общей вариации зависимой переменной, объясненная линейной регрессией.
Второе представление коэффициента детерминации
Используя разложение ( 2.25 ) , можно записать
Тогда можно записать соотношение
которое представляет собой разложение полной суммы квадратов на сумму квадратов, объясненную моделью, и остаточную сумму квадратов. Используя эти три суммы, можно записать также, что
Таким образом, значение коэффициента детерминации тем выше, чем больше доля объясненной моделью суммы квадратов ESS по отношению к полной сумме квадратов TSS.
Термины «полная» и «объясненная моделью» суммы квадратов имеют следующий смысл. Полная сумма квадратов TSS = RSS в ситуации, когда b = 0 и «наилучшая» прямая имеет вид , то есть линейная зависимость y от x отсутствует. Вследствие этого, наблюдения переменной x не дают новой информации для объяснения изменений значений y от наблюдения к наблюдению. В этом случае значение коэффициента детерминации равно нулю. Его максимальное значение равно единице. Это соответствует случаю, когда RSS = 0 или, что равноценно, Var(e) = 0, то есть влияние случайной составляющей полностью отсутствует и можно построить точную линейную зависимость между переменными.
Третье представление коэффициента детерминации
Введем понятие коэффициента корреляции между фактическим значением переменной y и ее прогнозом
Коэффициент корреляции является относительным показателем статистической (линейной) взаимосвязи между случайными переменными. Можно ожидать, что чем больше этот коэффициент, тем лучше регрессия аппроксимирует наблюдаемые данные.
Используя правила действий с выборочными вариациями и ковариациями (см. п. 2.3.2 ), нетрудно видеть, что
Здесь мы использовали также следующее соотношение: , которое следует из свойств ( 2.20 ) и ( 2.21 ) остатков регрессии.
Таким образом, мы получили третье выражение для коэффициента детерминации:
Отметим, что минимизация суммы квадратов остатков (МНК-критерий) эквивалентна максимизации коэффициента детерминации. Действительно,
и, таким образом, минимизация суммы квадратов остатков приводит к максимизации коэффициента R 2 в выражении ( 2.29 ).
При построении модели парной линейной регрессии следует добиваться, чтобы значение коэффициента детерминации было как можно ближе к единице. Для его вычисления проще и удобнее использовать формулу ( 2.28 ).
Вычисление коэффициента детерминации для модели примера 2.1 . Вычисления по формуле ( 2.28 ) дают следующее значение коэффициента детерминации для модели примера 2.1: R 2 = 0,9965. Таким образом, коэффициент детерминации близок к единице, что указывает на хорошее качество аппроксимации наблюдаемых данных построенной моделью.
Вычисление коэффициентов детерминации для моделей товарооборота филиалов примера 2.2 . Для первой регрессии примера 2.2., описывающей зависимость товарооборота от торговой площади, коэффициент детерминации R1 2 = 0,96886. Для второй регрессии, описывающей зависимость товарооборота от среднедневной интенсивности потока покупателей R2 2 = 0,42433.
Таким образом, полученные объективные показатели качества регрессионных моделей — коэффициенты детерминации, подтверждают сделанное ранее предположение (см. пример 2.2) о том, что первая регрессия лучше объясняет поведение зависимой переменной.
2.4.2. Построение доверительных интервалов для коэффициентов регрессии
Рассмотренный в предыдущем разделе показатель адекватности — коэффициент детерминации используется для оценки качества регрессионных моделей в целом, при сравнении альтернативных моделей. В данном разделе рассматриваются процедуры, позволяющие сделать вывод о качестве оценок истинных значений отдельных параметров уравнения.
Оценки дисперсий МНК-оценок коэффициентов
Одной из важных характеристик качества оценки является ее дисперсия, как мера отклонения относительно ожидаемого значения. Полученные ранее уравнения ( 2.22 ), ( 2.23 ) (или ( 2.24 )) для дисперсий оценок зависят от неизвестной дисперсии случайной составляющей регрессионной модели u. Для того, что бы эти уравнения можно было использовать в практических расчетах, необходимо определить оценку величины
. Это еще один параметр модели. Несмещенной оценкой дисперсии
случайного члена u является оценка вида
с вероятностью накрывают неизвестные истинные значения параметров регрессии
и
. Расположение и ширина доверительных интервалов меняются от выборки к выборке. Действительно, их расположение и ширина зависят как от оценок коэффициентов, которые являются переменными (случайными величинами), так и от случайных значений выборочных оценок среднеквадратичных отклонений sa и sb. При построении эконометрических регрессионных моделей доверительные интервалы обычно определяют для двух уровней значимости —
и
. Соответственно говорят о 5%-ом уровне значимости или об 1% — ом уровне значимости . Доверительные вероятности (уровни доверия) при этом будут равны
и
. Соответственно говорят о 95%-ом или о 99%-ом уровне доверия (надежности) . Подчеркнем, что чем меньше уровень значимости (больше уровень доверия), тем шире соответствующий доверительный интервал (при прочих равных условиях).
Можно сказать, что при 95% — ом уровне доверия доверительный интервал в среднем в 95 случаях из 100 накрывает истинное значение параметра, при 99% — ом — в 99 случаях из ста.
Определение доверительных интервалов для модели примера 2.1. Определим границы доверительных интервалов для коэффициентов модели примера 2.1. Будем предполагать, что регрессор x — не случайная величина. Тогда оценки дисперсий остатков и коэффициентов регрессии вычисляются по формулам ( 2.30 ), ( 2.31 ), ( 2.32 ). Они равны соответственно: ,
,
. Табличное значение t — статистики для 13 степеней свободы и уровня значимости
равно 2,160. Используя эти данные, легко вычислить границы доверительных интервалов для коэффициентов
и
:
;
. Таким образом, можно утверждать, что истинные значения коэффициентов с вероятностью 0,95 находятся в пределах указанных границ.
Доверительные интервалы для моделей примера 2.2. Аналогично предыдущему примеру, можно определить границы доверительных интервалов для двух регрессий примера 2.2. Критическое значение t — статистики при уровне значимости 0,05 и p = 12 — 2 = 10 степеней свободы равно 2,228. Оцененные среднеквадратичные отклонения оценок коэффициентов первой регрессии равны sa = 0,2887, sb = 0,2961. Доверительные интервалы для коэффициентов: ,
. Для второй регрессии sa = 2,7334, sb = 0,2516. Доверительные интервалы:
,
.
Постройте доверительные интервалы для моделей примеров 2.1, 2.2. при уровне значимости .
2.4.3. Точечный и интервальный прогноз зависимой переменной
Определим прогноз среднего значения зависимой переменной как оценку теоретической взаимосвязи с помощью эмпирической (оцененной) регрессионной функции
Таким образом, окончательно имеем
и его границы вычисляются по следующим формулам:
Доверительный интервал для отдельных значений зависимой переменной (значений в отдельных наблюдениях, индивидуальных значений)
Дисперсия отдельных наблюдений зависимой переменной и ее оценка
Определим дисперсию наблюдаемых значений зависимой переменной
Заменяя в ( 2.47 ) неизвестные теоретические значения дисперсий и
их оценками по формулам ( 2.46 ) и ( 2.30 ), получим оценку дисперсии индивидуального значения зависимой переменной
Границы интервала, с вероятностью накрывающего индивидуальное значение переменной y, определяются следующим образом:
где количество степеней свободы p = n-2.
Пример 2.8. Доверительные границы прогнозов среднего и индивидуального значений зависимой переменной в модели примера 2.1.
Определим прогноз доходности акций компании для момента t = 3, то есть для значения x = x3 = 0,07 и построим доверительные интервалы прогнозов среднего и индивидуального значений, предполагая, что регрессор x — не случайная величина.
Используя уравнение регрессии с оцененными коэффициентами (см. пример 1.1.), получим
Для определения доверительных интервалов необходимо предварительно вычислить оценки дисперсий прогноза среднего и индивидуального значений зависимой переменной. Используя формулы ( 2.46 ) и ( 2.47 ), соответственно получим: ,
. Границы для среднего значения равны:
Доверительные границы индивидуального значения:
Постройте интервальные прогнозы средних и индивидуальных значений зависимой переменной для регрессий примера 2.2.
2.4.4. Проверка статистических гипотез относительно коэффициентов регрессии
Двусторонний t-тест
(t — тест двусторонней пары гипотез)
Помимо определения доверительных интервалов для коэффициентов, при построении регрессионных моделей важным является вопрос о проверке гипотез относительно некоторых конкретных значений отдельных коэффициентов регрессии. Такой вопрос возникает, например, если необходимо проверить, статистически значимо ли влияние регрессора (независимой переменной) на регрессанд (зависимую переменную). В этом случае можно сформулировать и попытаться проверить две гипотезы:
В общем случае, если на основе анализа объекта моделирования можно заранее (то есть еще до проведения наблюдений) предположить (высказать гипотезу), что регрессионный коэффициент равен некоторому значению , то для проверки этого предположения гипотезы формулируются следующим образом:
Тесты для проверки гипотез строятся на основе t-статистики вида
Односторонний t-тест строится также, как двусторонний, однако область принятия решения, естественно, будет отличаться.
Области принятия и отклонения для первой пары гипотез: область принятия гипотезы H0
область отклонения гипотезы H0
Области принятия и отклонения для второй пары гипотез: область принятия гипотезы H0
область отклонения гипотезы H0
Интерпретация результатов тестирования
Если значения t-статистики попадают в область принятия нулевой гипотезы при заданном уровне значимости , то говорят, что параметр
с вероятностью
имеет значение большее, чем
.
Порядок проведения t-теста.
1. Сформулировать пару гипотез.
2. Определить табличное значение t-критерия для заданного уровня значимости.
3. Вычислить значение соответствующей t — статистики.
4. Сравнить величину t — статистики с табличным значением t — критерия.
5. Сделать вывод относительно возможности принятия гипотезы.
Нетрудно заметить, что двусторонний t — тест для пары гипотез (или аналогичных гипотез относительно коэффициента
) можно осуществить, построив двусторонний симметричный доверительный интервал для значения
. В этом случае правило проверки гипотезы формулируется следующим образом: гипотеза H0 отклоняется с уровнем значимости
, если доверительный интервал с вероятностью
не накрывает значение
.
Отметим, что аналогичные тесты строятся и для проверки гипотез относительно коэффициента .
2.4.5. Проверка значимости коэффициента детерминации: F — тест
В разделе 2.3.4. мы ввели понятие коэффициента детерминации R 2 как показателя адекватности линейной регрессионной модели (меры степени линейной связи между переменными). Чем выше значение этого показателя, тем более точно линейная регрессия соответствует наблюдаемым данным. Но этот коэффициент определяется по выборочным данным и является в силу этого случайной величиной. Поэтому, даже если линейная связь между переменными y и x в парной линейной регрессии отсутствует (объясненная часть общей вариации зависимой переменной равна нулю), коэффициент детерминации может случайно принять большое значение, либо наоборот, при наличии линейной связи коэффициент детерминации может случайно принять значение, близкое к нулю.
Таким образом, возникает вопрос: можно ли построить статистическую процедуру для проверки значимости коэффициента детерминации, подобно тому, как строились процедуры (тесты) для проверки гипотез о коэффициентах регрессии. Оказывается, что такую процедуру можно построить в рамках классической нормальной линейной модели регрессии, и она основана на использовании так называемой F-статистики , которая определяется следующим образом:
Процедура проверки состоит в следующем:
1. вычисляем коэффициент детерминации;
2. вычисляем значение F — критерия (статистики) по формуле ( 2.52 );
3. находим табличное (критическое) значение F — критерия при заданном уровне значимости
;
4. если , то нулевая гипотеза отклоняется на уровне значимости
.
Очевидно, результаты F — теста и t — теста для проверки значимости коэффициента должны совпадать.
Пример 2.9. Проверка значимости коэффициента детерминации.
Проверим гипотезу о значимости коэффициента детерминации в примере 2.1. Значение F-статистики, вычисленное по формуле ( 2.52 ), равно: F=3701,286. Критическое (табличное) значение F — статистики для уровня значимости 0,05 равно . Поскольку расчетное значение F больше табличного, то нулевая гипотеза отклоняется на уровне значимости 0,05.
Проверьте с помощью F — теста значимость коэффициентов детерминации для регрессий примера 1.2.
Источник