- Как рассчитать коэффициент детерминации?
- Иллюстративный случай
- интерпретация
- Примеры
- - Пример 1
- Решение
- - Пример 2
- Решение
- - Пример 3
- Решение
- Сравнение пригодности
- Выводы
- Ссылки
Коэффициент детерминации представляет собой число в диапазоне от 0 до 1 , которое представляет собой часть точек (X, Y) , которые следуют за линией регрессии подгонки набора данных с двумя переменными.
Он также известен как степень соответствия и обозначается R 2 . Для его вычисления берется частное между дисперсией данных Ŷi, оцененных с помощью регрессионной модели, и дисперсией данных Yi, соответствующих каждому Xi данных.
R 2 = Sŷ / Sy

Рисунок 1. Коэффициент корреляции для четырех пар данных. Источник: Ф. Сапата.
Если 100% данных находятся на линии функции регрессии, то коэффициент детерминации будет равен 1.
Напротив, если для набора данных и некоторой функции настройки коэффициент R 2 оказывается равным 0,5, то можно сказать, что настройка является удовлетворительной или хорошей на 50%.
Точно так же, когда регрессионная модель дает значения R 2 ниже 0,5, это указывает на то, что выбранная функция настройки не адаптируется удовлетворительно к данным, поэтому необходимо искать другую функцию настройки.
И когда ковариация или коэффициент корреляции стремится к нулю, тогда переменные X и Y в данных не связаны, и, следовательно, R 2 также будет стремиться к нулю.
Как рассчитать коэффициент детерминации?
В предыдущем разделе было сказано, что коэффициент детерминации рассчитывается путем нахождения частного между дисперсиями:
-Оценено функцией регрессии переменной Y
-То переменной Yi, соответствующей каждой переменной Xi из N пар данных.
С математической точки зрения это выглядит так:
R 2 = Sŷ / Sy
Из этой формулы следует , что R 2 представляет собой долю дисперсии объясняется регрессионной модели. В качестве альтернативы, R 2 можно рассчитать по следующей формуле, полностью эквивалентной предыдущей:
R 2 = 1 - (Sε / Sy)
Где Sε представляет собой дисперсию остатков εi = Ŷi - Yi, а Sy представляет собой дисперсию набора значений Yi данных. Для определения Ŷi применяется функция регрессии, что означает утверждение, что i = f (Xi).
Дисперсия набора данных Yi, где i от 1 до N, рассчитывается следующим образом:
Sy =
А затем поступаем аналогичным образом для Sŷ или Sε.
Иллюстративный случай
Чтобы показать подробности того, как производится расчет коэффициента детерминации, мы возьмем следующий набор из четырех пар данных:
(X, Y): {(1, 1); (2. 3); (3, 6) и (4, 7)}.
Для этого набора данных предлагается линейная регрессия, полученная с помощью метода наименьших квадратов:
f (х) = 2,1 х - 1
Применяя эту функцию регулировки, крутящие моменты получаются:
(X, Ŷ): {(1, 1.1); (2, 3.2); (3, 5.3) и (4, 7.4)}.
Затем мы вычисляем среднее арифметическое для X и Y:
Дисперсия Sy
Sy = / (4-1) =
= = 7 583
Дисперсия Sŷ
Sŷ = / (4-1) =
= = 7,35
Коэффициент детерминации R 2
R 2 = Sŷ / Sy = 7,35 / 7,58 = 0,97
интерпретация
Коэффициент детерминации для иллюстративного случая, рассмотренного в предыдущем сегменте, оказался равным 0,98. Другими словами, линейная регулировка через функцию:
f (x) = 2,1x - 1
Он на 98% надежен в объяснении данных, с которыми он был получен с помощью метода наименьших квадратов.
В дополнение к коэффициенту детерминации существует коэффициент линейной корреляции, также известный как коэффициент Пирсона. Этот коэффициент, обозначаемый как r, рассчитывается по следующей зависимости:
г = Sxy / (Sx Sy)
Здесь числитель представляет собой ковариацию между переменными X и Y, а знаменатель - это произведение стандартного отклонения для переменной X и стандартного отклонения для переменной Y.
Коэффициент Пирсона может принимать значения от -1 до +1. Когда этот коэффициент стремится к +1, существует прямая линейная корреляция между X и Y. Если вместо этого он стремится к -1, существует линейная корреляция, но когда X растет, Y уменьшается. Наконец, он близок к нулю, между двумя переменными нет корреляции.
Следует отметить, что коэффициент детерминации совпадает с квадратом коэффициента Пирсона только тогда, когда первый был рассчитан на основе линейной аппроксимации, но это равенство недействительно для других нелинейных аппроксимаций.
Примеры
- Пример 1
Группа старшеклассников задалась целью определить эмпирический закон для периода маятника в зависимости от его длины. Для достижения этой цели они проводят серию измерений, в ходе которых измеряют время колебания маятника на разной длине, получая следующие значения:
| Длина (м) | Период (ы) |
|---|---|
| 0,1 | 0.6 |
| 0,4 | 1,31 |
| 0.7 | 1,78 |
| один | 1,93 |
| 1,3 | 2,19 |
| 1,6 | 2,66 |
| 1,9 | 2,77 |
| 3 | 3,62 |
Требуется построить диаграмму рассеяния данных и выполнить линейную аппроксимацию через регрессию. Также покажите уравнение регрессии и его коэффициент детерминации.
Решение

Рисунок 2. График решения для упражнения 1. Источник: Ф. Сапата.
Наблюдается довольно высокий коэффициент детерминации (95%), поэтому можно подумать, что линейная аппроксимация является оптимальной. Однако, если рассматривать точки вместе, кажется, что они имеют тенденцию изгибаться вниз. Эта деталь не рассматривается в линейной модели.
- Пример 2
Для тех же данных в Примере 1 создайте диаграмму рассеяния данных. В этом случае, в отличие от примера 1, требуется корректировка регрессии с использованием потенциальной функции.

Рисунок 3. График решения для упражнения 2. Источник: Ф. Сапата.
Также покажите функцию соответствия и ее коэффициент детерминации R 2 .
Решение
Потенциальная функция имеет вид f (x) = Ax B , где A и B - константы, определяемые методом наименьших квадратов.
На предыдущем рисунке показана потенциальная функция и ее параметры, а также коэффициент детерминации с очень высоким значением 99%. Обратите внимание на то, что данные соответствуют кривизне линии тренда.
- Пример 3
Используя те же данные из Примера 1 и Примера 2, выполните подгонку полиномом второй степени. Покажите график, аппроксимирующий полином и соответствующий коэффициент детерминации R 2 .
Решение

Рисунок 4. График решения для упражнения 3. Источник: Ф. Сапата.
С помощью полинома второй степени вы можете увидеть линию тренда, которая хорошо соответствует кривизне данных. Кроме того, коэффициент детерминации выше линейного соответствия и ниже потенциального соответствия.
Сравнение пригодности
Из трех показанных подгонок тот, у которого самый высокий коэффициент детерминации, является потенциальным подгонкой (пример 2).
Подгонка потенциала совпадает с физической теорией маятника, которая, как известно, устанавливает, что период маятника пропорционален квадратному корню из его длины, при этом коэффициент пропорциональности равен 2π / √g, где g - ускорение свободного падения.
Этот тип потенциального соответствия не только имеет самый высокий коэффициент детерминации, но и показатель степени и константа пропорциональности соответствуют физической модели.
Выводы
- Регулировка регрессии определяет параметры функции, которая направлена на объяснение данных с использованием метода наименьших квадратов. Этот метод состоит в минимизации суммы квадратичной разницы между значением Y корректировки и значением Yi данных для значений Xi данных. Это определяет параметры функции настройки.
-Как мы видели, наиболее распространенной функцией настройки является линия, но она не единственная, поскольку настройки также могут быть полиномиальными, потенциальными, экспоненциальными, логарифмическими и другими.
-В любом случае коэффициент детерминации зависит от данных и типа корректировки и является показателем качества примененной корректировки.
- Наконец, коэффициент детерминации указывает процент общей изменчивости между значением Y данных по отношению к значению Ŷ корректировки для данного X.
Ссылки
- Гонсалес К. Общая статистика. Получено с: tarwi.lamolina.edu.pe
- МАКО. Арагонский институт медицинских наук. Получено с: ics-aragon.com
- Салазар К. и Кастильо С. Основные принципы статистики. (2018). Получено с: dspace.uce.edu.ec
- Superprof. Коэффициент детерминации. Получено с: superprof.es
- УСК. Руководство по описательной статистике. (2011). Получено с: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Коэффициент детерминации. Получено с: es.wikipedia.com.
