- Типы степеней свободы
- В механическом корпусе
- В наборе случайных значений
- Примеры
- Дисперсия и степени свободы
- В распределении хи-квадрат
- В проверке гипотез (с решенным примером)
- Ссылки
В степени свободы в статистике является числом независимых компонент случайного вектора. Если вектор имеет n компонентов и существует p линейных уравнений, связывающих его компоненты, то степень свободы равна np.
Концепция степеней свободы также появляется в теоретической механике, где они примерно равны измерению пространства, в котором движется частица, за вычетом количества связей.
Рисунок 1. Маятник движется в двух измерениях, но он имеет только одну степень свободы, потому что он вынужден двигаться по дуге радиуса L. Источник: Ф. Сапата.
В этой статье будет обсуждаться концепция степеней свободы, применяемая к статистике, но механический пример легче визуализировать в геометрической форме.
Типы степеней свободы
В зависимости от контекста, в котором он применяется, способ вычисления количества степеней свободы может варьироваться, но основная идея всегда одна и та же: общие размеры минус количество ограничений.
В механическом корпусе
Давайте рассмотрим колеблющуюся частицу, привязанную к веревке (маятник), которая движется в вертикальной плоскости xy (2 измерения). Однако частица вынуждена двигаться по окружности с радиусом, равным длине хорды.
Поскольку частица может двигаться только по этой кривой, число степеней свободы равно 1. Это видно на рисунке 1.
Чтобы рассчитать количество степеней свободы, нужно взять разность количества измерений за вычетом количества ограничений:
степени свободы: = 2 (размеры) - 1 (лигатура) = 1
Еще одно объяснение, которое позволяет нам прийти к результату, заключается в следующем:
-Мы знаем, что положение в двух измерениях представлено точкой с координатами (x, y).
-Но поскольку точка должна соответствовать уравнению окружности (x 2 + y 2 = L 2 ) для данного значения переменной x, переменная y определяется указанным уравнением или ограничением.
Таким образом, только одна из переменных является независимой, и система имеет одну (1) степень свободы.
В наборе случайных значений
Чтобы проиллюстрировать, что означает эта концепция, предположим, что вектор
x = (x 1 , x 2 ,…, x n )
Представляет выборку из n нормально распределенных случайных значений. В этом случае случайный вектор x имеет n независимых компонентов, и поэтому говорят, что x имеет n степеней свободы.
Построим теперь вектор r невязок
г = (х 1 -
куда
Итак, сумма
(х 1 -
Это уравнение представляет собой ограничение (или связывание) в элементах вектора r остатков, поскольку, если известны n-1 компоненты вектора r , уравнение ограничения определяет неизвестный компонент.
Следовательно, вектор r размерности n с ограничением:
∑ (х я -
Он имеет (n - 1) степени свободы.
Снова применяется, что вычисление числа степеней свободы:
степени свободы: = n (размеры) - 1 (ограничения) = n-1
Примеры
Дисперсия и степени свободы
Дисперсия s 2 определяется как среднее значение квадрата отклонений (или остатков) выборки из n данных:
s 2 = ( r • r ) / (n-1)
где r - вектор невязок r = (x1 -
s 2 = ∑ (x i -
В любом случае следует отметить, что при вычислении среднего квадрата остатков оно делится на (n-1), а не на n, поскольку, как обсуждалось в предыдущем разделе, количество степеней свободы вектора r равно ( н-1).
Если для вычисления дисперсии разделить на n вместо (n-1), результат будет иметь смещение, которое очень важно для значений n меньше 50.
В литературе формула дисперсии также встречается с делителем n вместо (n-1), когда речь идет о дисперсии генеральной совокупности.
Но набор случайной величины остатков, представленный вектором r , хотя и имеет размерность n, имеет только (n-1) степеней свободы. Однако, если количество данных достаточно велико (n> 500), обе формулы сходятся к одному и тому же результату.
Калькуляторы и электронные таблицы предоставляют обе версии дисперсии и стандартного отклонения (которое является квадратным корнем из дисперсии).
Наша рекомендация с учетом представленного здесь анализа - всегда выбирать версию с (n-1) каждый раз, когда требуется вычислить дисперсию или стандартное отклонение, чтобы избежать смещения результатов.
В распределении хи-квадрат
Некоторые распределения вероятностей в непрерывной случайной величине зависят от параметра, называемого степенью свободы, это случай распределения хи-квадрат (χ 2 ).
Название этого параметра происходит именно от степеней свободы базового случайного вектора, к которому применяется это распределение.
Предположим, у нас есть g популяций, из которых взяты образцы размера n:
X 1 = (x1 1 , x1 2 ,… ..x1 n )
X2 = (x2 1 , x2 2 ,… ..x2 n )
….
X j = (xj 1 , xj 2 ,… ..xj n )
….
Xg = (xg 1 , xg 2 ,… ..xg n )
Популяция j, имеющая среднее
Стандартизированная или нормализованная переменная zj i определяется как:
zj i = (xj i -
А вектор Zj определяется так:
Zj = ( zj 1 , zj 2 ,…, zj i ,…, zj n ) и следует стандартизованному нормальному распределению N (0,1).
Итак, переменная:
Q = ((z1 1 ^ 2 + z2 1 ^ 2 +…. + Zg 1 ^ 2),…., (Z1 n ^ 2 + z2 n ^ 2 +…. + Zg n ^ 2))
следует распределению χ 2 (g), называемому распределением хи-квадрат со степенью свободы g.
В проверке гипотез (с решенным примером)
Если вы хотите проверить гипотезы на основе определенного набора случайных данных, вам необходимо знать количество степеней свободы g, чтобы применить критерий хи-квадрат.
Рисунок 2. Есть ли связь между предпочтением Вкус мороженого и ГЕНДЕРОМ покупателя? Источник: Ф. Сапата.
В качестве примера будут проанализированы собранные данные о предпочтениях мужчин и женщин в отношении шоколадного или клубничного мороженого в определенном кафе-мороженом. Частота, с которой мужчины и женщины выбирают клубнику или шоколад, представлена на Рисунке 2.
Сначала вычисляется таблица ожидаемых частот, которая составляется путем умножения общего количества строк на общее количество столбцов, разделенное на общее количество данных. Результат показан на следующем рисунке:
Рисунок 3. Расчет ожидаемых частот на основе наблюдаемых частот (значения выделены синим цветом на рисунке 2). Источник: Ф. Сапата.
Затем рассчитывается хи-квадрат (на основе данных) по следующей формуле:
χ 2 = ∑ (F o - F e ) 2 / F e
Где F o - наблюдаемые частоты (Рисунок 2), а F e - ожидаемые частоты (Рисунок 3). Суммирование проводится по всем строкам и столбцам, которые в нашем примере дают четыре члена.
После выполнения операций вы получаете:
χ 2 = 0,2043.
Теперь необходимо сравнить с теоретическим Хи-квадрат, который зависит от числа степеней свободы g.
В нашем случае это число определяется следующим образом:
g = (# строк - 1) (# столбцов - 1) = (2 - 1) (2 - 1) = 1 * 1 = 1.
Оказывается, число степеней свободы g в этом примере равно 1.
Если вы хотите проверить или отклонить нулевую гипотезу (H0: нет корреляции между ВКУСОМ и ПОЛОМ) с уровнем значимости 1%, теоретическое значение хи-квадрат рассчитывается со степенью свободы g = 1.
Ищется значение, при котором накопленная частота (1 - 0,01) = 0,99, то есть 99%. Это значение (которое можно получить из таблиц) составляет 6 636.
Когда теоретическая Чи превышает расчетную, нулевая гипотеза проверяется.
Другими словами, при собранных данных не наблюдается никакой связи между переменными ВКУС и ПОЛ.
Ссылки
- Minitab. Какие есть степени свободы? Получено с: support.minitab.com.
- Мур, Дэвид. (2009) Базовая прикладная статистика. Редактор Антони Боша.
- Ли, Дженнифер. Как рассчитывать степени свободы в статистических моделях. Получено с: geniolandia.com
- Wikipedia. Степень свободы (статистика). Получено с: es.wikipedia.com
- Wikipedia. Степень свободы (физическая). Получено с: es.wikipedia.com