- Важность гомоскедастичности
- Гомоскедастичность против гетероскедастичности
- Тесты на гомоскедастичность
- Стандартизированные переменные
- Неграфические тесты гомоскедастичности
- Ссылки
Гомоскедастичность в прогнозирующей статистической модели имеет место , если все группы данных одного или нескольких наблюдений, дисперсии (или независимого) модель с относительно объясняющих переменных остаются постоянными.
Модель регрессии может быть гомоскедастической или нет, и в этом случае мы говорим о гетероскедастичности.

Рисунок 1. Пять наборов данных и регрессионная аппроксимация набора. Отклонение от прогнозируемого значения одинаково в каждой группе. (Upav-biblioteca.org)
Модель статистической регрессии нескольких независимых переменных называется гомоскедастической, только если дисперсия ошибки прогнозируемой переменной (или стандартное отклонение зависимой переменной) остается одинаковой для разных групп значений объясняющих или независимых переменных.
В пяти группах данных на рисунке 1 была рассчитана дисперсия в каждой группе по отношению к значению, оцененному с помощью регрессии, которое оказалось одинаковым в каждой группе. Далее предполагается, что данные подчиняются нормальному распределению.
На графическом уровне это означает, что точки одинаково разбросаны или разбросаны вокруг значения, предсказанного с помощью регрессионного соответствия, и что регрессионная модель имеет такую же ошибку и достоверность для диапазона независимой переменной.
Важность гомоскедастичности
Чтобы проиллюстрировать важность гомоскедастичности в статистике прогнозирования, необходимо противопоставить противоположное явление - гетероскедастичность.
Гомоскедастичность против гетероскедастичности
В случае рисунка 1, где присутствует гомоскедастичность, верно, что:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Где Var ((yi-Yi); Xi) представляет собой дисперсию, пара (xi, yi) представляет данные из группы i, а Yi - значение, предсказанное регрессией для среднего значения Xi группы. Дисперсия n данных из группы i рассчитывается следующим образом:
Вар ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Напротив, когда имеет место гетероскедастичность, регрессионная модель может быть недействительной для всего региона, в котором она была рассчитана. На рисунке 2 показан пример такой ситуации.

Рисунок 2. Группа данных, показывающих гетероскедастичность. (Собственная разработка)
На рисунке 2 представлены три группы данных и соответствие набора с использованием линейной регрессии. Следует отметить, что данные во второй и третьей группах более рассредоточены, чем в первой группе. График на рисунке 2 также показывает среднее значение для каждой группы и ее полосу ошибок ± σ со стандартным отклонением σ для каждой группы данных. Следует помнить, что стандартное отклонение σ - это квадратный корень из дисперсии.
Понятно, что в случае гетероскедастичности ошибка оценки регрессии изменяется в диапазоне значений объясняющей или независимой переменной, а в интервалах, где эта ошибка очень велика, предсказание регрессии ненадежно или непригодный.
В регрессионной модели ошибки или остатки (и -Y) должны распределяться с равной дисперсией (σ ^ 2) по всему интервалу значений независимой переменной. Именно по этой причине хорошая модель регрессии (линейная или нелинейная) должна пройти тест на гомоскедастичность.
Тесты на гомоскедастичность
Точки, показанные на рисунке 3, соответствуют данным исследования, в котором проводится поиск взаимосвязи между ценами (в долларах) домов в зависимости от размера или площади в квадратных метрах.
Первая модель, которую нужно протестировать, - это модель линейной регрессии. Прежде всего, следует отметить, что коэффициент детерминации R ^ 2 подгонки довольно высок (91%), поэтому можно считать, что подгонка удовлетворительная.
Однако на графике настройки можно четко выделить две области. Один из них, заключенный в овал справа, выполняет гомоскедастичность, а область слева не имеет гомоскедастичности.
Это означает, что прогноз регрессионной модели является адекватным и надежным в диапазоне от 1800 м ^ 2 до 4800 м ^ 2, но очень неадекватным за пределами этого региона. В гетероскедастической зоне не только очень велика ошибка, но и данные, похоже, следуют иной тенденции, чем та, которую предлагает модель линейной регрессии.

Рисунок 3. Цены на жилье в зависимости от площади и прогнозная модель по линейной регрессии, показывающая зоны гомоскедастичности и гетероскедастичности. (Собственная разработка)
Диаграмма разброса данных является самым простым и наиболее наглядным тестом их гомоскедастичности, однако в тех случаях, когда это не так очевидно, как в примере, показанном на рисунке 3, необходимо прибегать к графикам со вспомогательными переменными.
Стандартизированные переменные
Чтобы разделить области, где гомоскедастичность выполняется, и где ее нет, вводятся стандартизованные переменные ZRes и ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Следует отметить, что эти переменные зависят от применяемой регрессионной модели, поскольку Y - значение прогноза регрессии. Ниже приведен график рассеивания ZRes vs ZPred для того же примера:

Рисунок 4. Следует отметить, что в зоне гомоскедастичности ZRes остается однородным и небольшим в области прогноза (собственная разработка).
На графике на рисунке 4 со стандартизованными переменными область, где остаточная ошибка мала и однородна, четко отделена от области, где ее нет. В первой зоне выполняется гомоскедастичность, а в области, где остаточная ошибка сильно изменчива и велика, выполняется гетероскедастичность.
Регрессионная корректировка применяется к той же группе данных на рисунке 3, в этом случае корректировка является нелинейной, поскольку используемая модель включает потенциальную функцию. Результат показан на следующем рисунке:

Рис. 5. Новые зоны гомоскедастичности и гетероскедастичности при подборе данных с помощью модели нелинейной регрессии. (Собственная разработка).
На графике рисунка 5 следует четко выделить гомоскедастические и гетероскедастические области. Следует также отметить, что эти зоны поменялись местами по сравнению с теми, которые были сформированы в модели линейной подгонки.
На графике рисунка 5 видно, что даже при достаточно высоком коэффициенте детерминации соответствия (93,5%) модель неадекватна для всего интервала объясняющей переменной, поскольку данные для значений более 2000 м ^ 2 представляют гетероскедастичность.
Неграфические тесты гомоскедастичности
Одним из неграфических тестов, которые чаще всего используются для проверки соответствия гомоскедастичности, является тест Бреуша-Пагана.
Не все подробности этого теста будут приведены в этой статье, но его основные характеристики и этапы этого теста в общих чертах описаны:
- Модель регрессии применяется к n данным, и ее дисперсия вычисляется по отношению к значению, оцененному моделью σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Определяется новая переменная ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Та же модель регрессии применяется к новой переменной, и рассчитываются ее новые параметры регрессии.
- Определяется критическое значение хи-квадрат (χ ^ 2), которое составляет половину суммы квадратов новых остатков по переменной ε.
- Таблица распределения хи-квадрат используется с учетом уровня значимости (обычно 5%) и числа степеней свободы (количество регрессионных переменных минус единица измерения) на оси x таблицы, чтобы получить значение доска.
- Критическое значение, полученное на шаге 3, сравнивается со значением, найденным в таблице (χ ^ 2).
- Если критическое значение ниже, чем указано в таблице, у нас есть нулевая гипотеза: имеется гомоскедастичность.
- Если критическое значение выше, чем указано в таблице, у нас есть альтернативная гипотеза: гомоскедастичности нет.
Большинство пакетов статистического программного обеспечения, таких как: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic и некоторые другие, включают тест гомоскедастичности Бреуша-Пагана. Другой тест для проверки однородности дисперсии - это тест Левена.
Ссылки
- Коробка, Охотник и Охотник. (1988) Статистика для исследователей. Я поменял редакторов.
- Джонстон, Дж (1989). Методы эконометрики, Vicens -Vives editores.
- Мурильо и Гонсалес (2000). Руководство по эконометрике. Университет Лас-Пальмас-де-Гран-Канария. Получено с: ulpgc.es.
- Wikipedia. Гомоскедастичность. Получено с: es.wikipedia.com
- Wikipedia. Гомоскедастичность. Получено с: en.wikipedia.com
