Правило Sturges является критерием для определения числа классов или диапазонов , которые необходимы для построения набора статистических данных. Это правило было сформулировано в 1926 году немецким математиком Гербертом Стёрджесом.
Стерджес предложил простой метод, основанный на количестве выборок x, который позволил бы нам найти количество классов и ширину их диапазона. Правило Стерджеса широко используется, особенно в области статистики, особенно для построения частотных гистограмм.
объяснение
Правило Стерджеса - это эмпирический метод, широко используемый в описательной статистике для определения количества классов, которые должны присутствовать на частотной гистограмме, чтобы классифицировать набор данных, представляющих выборку или популяцию.
По сути, это правило определяет ширину графических контейнеров, частотных гистограмм.
Чтобы установить свое правило, Герберт Стерджес рассмотрел идеальную частотную диаграмму, состоящую из K интервалов, где i-й интервал содержит определенное количество выборок (i = 0,… k - 1), представленных как:
Это количество выборок определяется количеством способов, которыми может быть извлечено подмножество набора; то есть биномиальным коэффициентом, выраженным следующим образом:
Чтобы упростить выражение, он применил свойства логарифмов к обеим частям уравнения:
Таким образом, Стерджес установил, что оптимальное количество интервалов k определяется выражением:
Это также может быть выражено как:
В этом выражении:
- k - количество классов.
- N - общее количество наблюдений в выборке.
- Log - десятичный логарифм.
Например, для построения частотной гистограммы, которая выражает случайную выборку роста 142 детей, количество интервалов или классов, которые будет иметь распределение, будет:
k = 1 + 3,322 * журнал 10 (N)
k = 1 + 3,322 * журнал (142)
к = 1 + 3,322 * 2,1523
к = 8,14 ≈ 8
Таким образом, раздача будет через 8 интервалов.
Количество интервалов всегда должно быть представлено целыми числами. В случаях, когда значение является десятичным, необходимо приближение к ближайшему целому числу.
Приложения
Правило Стерджеса применяется в основном в статистике, поскольку оно позволяет получить частотное распределение путем вычисления количества классов (k), а также длины каждого из них, также известной как амплитуда.
Амплитуда - это разница верхнего и нижнего предела класса, деленная на количество классов, и выражается:
Существует множество практических правил, позволяющих получить частотное распределение. Однако обычно используется правило Стерджеса, поскольку оно приблизительно соответствует количеству классов, которое обычно составляет от 5 до 15.
Таким образом, он рассматривает значение, которое адекватно представляет выборку или генеральную совокупность; то есть аппроксимация не представляет крайних группировок и не работает с чрезмерным числом классов, которые не позволяют суммировать выборку.
пример
Гистограмма частот должна быть построена в соответствии с приведенными данными, которые соответствуют возрасту, полученному при опросе мужчин, которые занимаются в местном тренажерном зале.
Для определения интервалов необходимо знать размер выборки или количество наблюдений; в данном случае их 30.
Тогда применяется правило Стерджеса:
k = 1 + 3,322 * журнал 10 (N)
k = 1 + 3,322 * журнал (30)
к = 1 + 3,322 * 1,4771
k = 5,90 ≈ 6 интервалов.
По количеству интервалов можно вычислить их амплитуду; то есть ширина каждой полосы, представленной на гистограмме частот:
Нижний предел считается наименьшим значением данных, а верхний предел - наибольшим значением. Разница между верхним и нижним пределами называется диапазоном или диапазоном переменной (R).
Из таблицы видно, что верхний предел равен 46, а нижний предел - 13; таким образом, амплитуда каждого класса будет:
Интервалы будут состоять из верхнего и нижнего пределов. Чтобы определить эти интервалы, мы начинаем отсчет от нижнего предела, добавляя к нему амплитуду, определенную правилом (6), следующим образом:
Затем вычисляется абсолютная частота для определения количества мужчин, соответствующих каждому интервалу; в данном случае это:
- Интервал 1:13 - 18 = 9
- Интервал 2:19 - 24 = 9
- Интервал 3:25 - 30 = 5
- Интервал 4:31 - 36 = 2
- Интервал 5: 37 - 42 = 2
- Интервал 6: 43 - 48 = 3
При добавлении абсолютной частоты каждого класса она должна быть равна общему количеству выборки; в данном случае 30.
Впоследствии, относительная частота каждого интервала вычисляется, деля его абсолютную частоту на общее количество наблюдений:
- Интервал 1: fi = 9 ÷ 30 = 0,30
- Интервал 2: fi = 9 ÷ 30 = 0,30
- Интервал 3: fi = 5 ÷ 30 = 0,1666
- Интервал 4: fi = 2 ÷ 30 = 0,0666
- Интервал 5: fi = 2 ÷ 30 = 0,0666
- Интервал 4: fi = 3 ÷ 30 = 0,10
Затем вы можете составить таблицу, отражающую данные, а также диаграмму относительной частоты по отношению к полученным интервалам, как это видно на следующих изображениях:
Таким образом, правило Стерджеса позволяет определить количество классов или интервалов, на которые может быть разделена выборка, чтобы суммировать выборку данных посредством разработки таблиц и графиков.
Ссылки
- Альфонсо Уркиа, М.В. (2013). Моделирование и имитация дискретных событий. UNED,.
- Альтман Наоми, МК (2015). «Простая линейная регрессия». Природные методы.
- Антунес, RJ (2014). Статистика в образовании. Цифровой БЛОК.
- Фокс, Дж. (1997). Прикладной регрессионный анализ, линейные модели и родственные методы. Публикации SAGE.
- Умберто Ллинас Солано, CR (2005). Описательная статистика и вероятностные распределения. Северный университет.
- Пантелеева, О.В. (2005). Основы теории вероятностей и статистики.
- О. Кюль, МО (2001). Дизайн экспериментов: статистические принципы дизайна и анализа исследований. Редакторы Томсона.