- Как рассчитать коэффициент корреляции?
- Ковариация и дисперсия
- Иллюстративный случай
- Ковариация Sxy
- Стандартное отклонение Sx
- Стандартное отклонение Sy
- Коэффициент корреляции r
- интерпретация
- Линейная регрессия
- пример
- Ссылки
Коэффициент корреляции в статистике - это показатель, который измеряет тенденцию двух количественных переменных X и Y иметь линейную или пропорциональную связь между ними.
Как правило, пары переменных X и Y являются двумя характеристиками одной и той же совокупности. Например, X может быть ростом человека, а Y - его весом.

Рисунок 1. Коэффициент корреляции для четырех пар данных (X, Y). Источник: Ф. Сапата.
В этом случае коэффициент корреляции будет указывать на наличие или отсутствие тенденции к пропорциональной зависимости между ростом и весом в данной популяции.
Коэффициент линейной корреляции Пирсона обозначается строчной буквой r, а его минимальное и максимальное значения равны -1 и +1 соответственно.
Значение r = +1 будет указывать на то, что набор пар (X, Y) идеально выровнен и что когда X растет, Y будет расти в той же пропорции. С другой стороны, если бы случилось, что r = -1, набор пар также был бы идеально выровнен, но в этом случае, когда X увеличивается, Y уменьшается в той же пропорции.

Рисунок 2. Различные значения коэффициента линейной корреляции. Источник: Wikimedia Commons.
С другой стороны, значение r = 0 будет указывать на отсутствие линейной корреляции между переменными X и Y. В то время как значение r = +0,8 указывает на то, что пары (X, Y) имеют тенденцию группироваться на одной стороне и другой из определенной линии.
Формула для расчета коэффициента корреляции r выглядит следующим образом:

Как рассчитать коэффициент корреляции?
Коэффициент линейной корреляции - это статистическая величина, которая встроена в научные калькуляторы, большинство электронных таблиц и статистических программ.
Однако удобно знать, как применяется формула, которая ее определяет, и для этого будет показан подробный расчет, выполненный на небольшом наборе данных.
И, как указано в предыдущем разделе, коэффициент корреляции - это ковариация Sxy, деленная на произведение стандартного отклонения Sx для переменных X и Sy для переменной Y.
Ковариация и дисперсия
Ковариация Sxy:
Sxy = / (N-1)
Где сумма идет от 1 до N пар данных (Xi, Yi).
Со своей стороны, стандартное отклонение для переменной X - это квадратный корень из дисперсии набора данных Xi, где i от 1 до N:
Sx = √
Точно так же стандартное отклонение для переменной Y - это квадратный корень из дисперсии набора данных Yi, где i от 1 до N:
Sy = √
Иллюстративный случай
Чтобы подробно показать, как рассчитать коэффициент корреляции, возьмем следующий набор из четырех пар данных.
(X, Y): {(1, 1); (2. 3); (3, 6) и (4, 7)}.
Сначала мы вычисляем среднее арифметическое для X и Y следующим образом:
Затем рассчитываются остальные параметры:
Ковариация Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Стандартное отклонение Sx
Sx = √ = √ = 1,29
Стандартное отклонение Sy
Sx = √ =
√ = 2,75
Коэффициент корреляции r
г = 3,5 / (1,29 * 2,75) = 0,98
интерпретация
В наборе данных предыдущего случая наблюдается сильная линейная корреляция между переменными X и Y, которая проявляется как на диаграмме разброса (показанной на рисунке 1), так и в коэффициенте корреляции, который дал значение довольно близко к единице.
Чем ближе коэффициент корреляции к 1 или -1, тем больше смысла умещать данные в линию, являющуюся результатом линейной регрессии.
Линейная регрессия
Линия линейной регрессии получается методом наименьших квадратов. в котором параметры линии регрессии получаются путем минимизации суммы квадрата разницы между оцененным значением Y и Yi для N данных.
С другой стороны, параметры a и b линии регрессии y = a + bx, полученные методом наименьших квадратов, равны:
* b = Sxy / (Sx 2 ) для наклона
* а =
Напомним, что Sxy - это ковариация, определенная выше, а Sx 2 - это дисперсия или квадрат стандартного отклонения, определенного выше.
пример
Коэффициент корреляции используется для определения наличия линейной корреляции между двумя переменными. Это применимо, когда исследуемые переменные являются количественными и, кроме того, предполагается, что они подчиняются нормальному типу распределения.
Ниже приводится иллюстративный пример: мерой степени ожирения является индекс массы тела, который получается путем деления веса человека в килограммах на его рост в квадрате в единицах квадратных метров.
Вы хотите знать, существует ли сильная корреляция между индексом массы тела и концентрацией холестерина ЛПВП в крови, измеряемой в миллимолях на литр. С этой целью было проведено исследование с участием 533 человек, которое суммировано на следующем графике, где каждая точка представляет данные одного человека.

Рисунок 3. Исследование ИМТ и холестерина ЛПВП у 533 пациентов. Источник: Арагонский институт медицинских наук (IACS).
Внимательное наблюдение за графиком показывает, что существует определенная линейная тенденция (не очень выраженная) между концентрацией холестерина ЛПВП и индексом массы тела. Количественным показателем данной тенденции является коэффициент корреляции, который в данном случае оказался равным r = -0,276.
Ссылки
- Гонсалес К. Общая статистика. Получено с: tarwi.lamolina.edu.pe
- МАКО. Арагонский институт медицинских наук. Получено с: ics-aragon.com
- Салазар К. и Кастильо С. Основные принципы статистики. (2018). Получено с: dspace.uce.edu.ec
- Superprof. Коэффициент корреляции. Получено с: superprof.es
- УСК. Руководство по описательной статистике. (2011). Получено с: statistics.ingenieria.usac.edu.gt
- Wikipedia. Коэффициент корреляции Пирсона. Получено с: es.wikipedia.com.
