Интервал предсказания для линейной регрессии

Интервалы прогноза по линейному уравнению регрессии

Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х. Такой прогноз называетсяточечным. Он не является точным, поэтому дополняется расчетом стандартной ошибки ; получаетсяинтервальная оценка прогнозного значения :

(30)

Преобразуем уравнение регрессии:

ошибка зависит от ошибки и ошибки коэффициента регрессии b, т.е. .

Из теории выборки известно, что .

Используем в качестве оценки s 2 остаточную дисперсию на одну степень свободы S 2 , получаем: .

Ошибка коэффициента регрессии из формулы (15):

Таким образом, при х=хk получаем:

(31)

Как видно из формулы, величина достигает минимума при и возрастает по мере удаления от в любом направлении.

Для нашего примера эта величина составит:

При , При хk=4

Для прогнозируемого значения 95% — ные доверительные интервалы при заданном хk определены выражением:

, (32)

т.е. при хk=4 ±2,57-3,34 или ±8,58. При хк =4 прогнозное значение составит

уp =-5,79+36,84·4=141,57 — это точечный прогноз.

Прогноз линии регрессии лежит в интервале: 132,99 150,15.

Мы рассмотрели доверительные интервалы длясреднего значения у при заданном х. Однако фактические значения у варьируются около среднего значения , они могут отклоняться на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка прогноза отдельного значения у должна включать не только стандартную ошибку но и случайную ошибку S. Таким образом, средняя ошибка прогноза индивидуального значения y составит:

(33)

Доверительный интервал прогноза индивидуальных значений у при хк =4 с верностью 0,95 составит:. 141,57 ±2,57·8,01, или 120,98 ≤ ур162,16.

Пусть в примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики затраты на производство 8 тыс. ед. продукции не превысят 250 млн. руб. Означает ли это изменение найденной закономерности или затраты соответствуют регрессионной модели?

Точечный прогноз: = -5,79 + 36,84 • 8 = 288,93. Предполагаемое значение — 250. Средняя ошибка прогнозного индивидуального значения:

Сравним ее с предполагаемым снижением издержек производства, т.е. 250-288,93= -38,93:

Читайте также:  Восьмерка пентаклей таро предсказание

Поскольку оценивается только значимость уменьшения затрат, то используется односторонний t

критерий Стьюдента. При ошибке в 5 % с n-2=5 tтабл =2,015, поэтому предполагаемое уменьшение затрат значимо отличается от прогнозируемого значения при 95 % — ном уровне доверия. Однако, если увеличить вероятность до 99%, при ошибке 1 % фактическое значение t-критерия оказывается ниже табличного 3,365, и различие в затратах статистически не значимо, т.е. затраты соответствуют предложенной регрессионной модели.

Нелинейная регрессия

До сих пор мы рассматривали лишьлинейную модель регрессионной зависимости у от х (3). В то же время многие важные связи в экономике являютсянелинейными. Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства — трудом, капиталом и т.п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары — с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

(34)

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

(35)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т.е. трем:

Читайте также:  Когда же будет конец света предсказания библии

(36)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

.

Если b>0, с 0 парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, не являющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

(37)

Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля. Другим примером зависимости (37) являются кривые Энгеля, формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае b — x .

Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:

(53)

Здесь — общая дисперсия результативного признака у, остаточная дисперсия, определяемая по уравнению нелинейной регрессии . Следует обратить внимание на то, что разности в соответствующих суммах и берутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. По-другому (53) можно записать так:

(54)

Величина R находится в границах 0 ≤ R ≤ 1, и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессией, а также с равносторонней гиперболой (37). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, н пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.

Читайте также:  Лотерея с предсказаниями для детей

Иначе обстоит дело в случае, когда преобразование проводится также с величиной у, например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (54) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (54), вычисленным по исходному нелинейному уравнению.

Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R 2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R 2 для нелинейных связей называют индексом детерминации.

Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.

Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:

(55)

где n-число наблюдений, m-число параметров при переменных х. Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m=1, для полиномов (34) m=k, т.е. степени полинома. Величина т характеризует число степеней свободы для факторной СКО, а (п-т-1) — число степеней свободы для остаточной СКО.

Индекс детерминации R 2 можно сравнивать с коэффициентом детерминации r 2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R 2 и r 2 . Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R 2 -r 2 ) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t-критерий Стьюдента:

(56)

Здесь в знаменателе находится ошибка разности (R 2 -r 2 ), определяемая по формуле:

(57)

Если t >tтабл(α;n-m-1), то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.

В заключение приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии:

Источник

Оцените статью