- Преимущества и недостатки
- Недостатки дальности как меры дисперсии
- Межквартильный размах, квартили и рабочий пример
- - Расчет квартилей
- Первый квартиль
- Второй квартиль или медиана
- Третий квартиль
- Пример работы
- Решение для
- Решение б
- Решение c
- Ссылки
Диапазон , диапазон или амплитуды, в статистике, разница (вычитание) между максимальным значением и минимальным значением набора данных из образца или популяции. Если диапазон представлен буквой R, а данные представлены буквой x, формула для диапазона будет простой:
R = х макс - х мин
Где x max - максимальное значение данных, а x min - минимальное.
Рисунок 1. Диапазон данных, соответствующих населению Кадиса за последние два столетия. Источник: Wikimedia Commons.
Эта концепция очень полезна в качестве простой меры дисперсии, позволяющей быстро оценить изменчивость данных, поскольку она указывает на расширение или длину интервала, в котором они обнаружены.
Например, предположим, что измеряется рост группы из 25 студентов-первокурсников инженерного факультета мужского пола в университете. Самый высокий ученик в группе - 1,93 м, самый низкий - 1,67 м. Это крайние значения выборочных данных, поэтому их путь следующий:
R = 1,93 - 1,67 м = 0,26 м или 26 см.
Рост учеников в этой группе распределяется по этому диапазону.
Преимущества и недостатки
Как мы уже говорили, диапазон - это мера того, насколько разбросаны данные. Небольшой диапазон указывает на то, что данные более или менее близки, а разброс низкий. С другой стороны, больший диапазон указывает на то, что данные более разбросаны.
Преимущества расчета диапазона очевидны: его очень легко и быстро найти, так как это простая разница.
Он также имеет те же единицы измерения, что и данные, с которыми он работает, и эту концепцию очень легко интерпретировать для любого наблюдателя.
В примере с ростом студентов инженерных специальностей, если бы диапазон составлял 5 см, мы бы сказали, что все студенты примерно одного роста. Но с диапазоном 26 см мы сразу предполагаем, что в выборке есть ученики всех промежуточных высот. Всегда ли это предположение верно?
Недостатки дальности как меры дисперсии
Если присмотреться, может оказаться, что в нашей выборке из 25 студентов инженерных специальностей только один из них имеет рост 1,93, а остальные 24 имеют рост около 1,67 м.
И все же диапазон остается прежним, хотя вполне возможно обратное: рост большинства составляет около 1,90 м, а только один - 1,67 м.
В любом случае распределение данных совершенно иное.
Недостатки диапазона как меры дисперсии заключаются в том, что он использует только крайние значения и игнорирует все остальные. Поскольку большая часть информации потеряна, вы не знаете, как распределяются образцы данных.
Другой важной характеристикой является то, что диапазон выборки никогда не уменьшается. Если мы добавим больше информации, то есть рассмотрим больше данных, диапазон увеличится или останется прежним.
И в любом случае он полезен только при работе с небольшими образцами, его единственное использование в качестве меры дисперсии в больших образцах не рекомендуется.
Что необходимо сделать, так это дополнить его расчетом других мер дисперсии, которые действительно учитывают информацию, предоставляемую общими данными: межквартильный размах, дисперсия, стандартное отклонение и коэффициент вариации.
Межквартильный размах, квартили и рабочий пример
Мы поняли, что слабость диапазона как меры дисперсии состоит в том, что он использует только крайние значения распределения данных, опуская другие.
Чтобы избежать этого неудобства, используются квартили: три значения, известные как меры положения.
Они распределяют несгруппированные данные на четыре части (другими широко используемыми показателями положения являются децили и процентили). Вот его характеристики:
- Первый квартиль Q 1 - это значение данных, такое, что 25% всех из них меньше Q 1 .
-Второй квартиль Q 2 - это медиана распределения, что означает, что половина (50%) данных меньше этого значения.
- Наконец, третий квартиль Q 3 указывает, что 75% данных меньше Q 3 .
Затем межквартильный размах или межквартильный размах определяется как разница между третьим квартилем Q 3 и первым квартилем Q 1 данных:
Межквартильный размах = R Q = Q 3 - Q 1
Таким образом, на значение диапазона R Q не так сильно влияют экстремальные значения. По этой причине рекомендуется использовать его при работе с неравномерным распределением, например, для очень высоких или очень низких учеников, описанных выше.
- Расчет квартилей
Есть несколько способов их вычисления, здесь мы предложим один, но в любом случае необходимо знать порядковый номер «N o », то есть место, которое занимает соответствующий квартиль в распределении.
То есть, если, например, член, который соответствует Q 1, является вторым, третьим, четвертым и так далее в распределении.
Первый квартиль
N или (Q 1 ) = (N + 1) / 4
Второй квартиль или медиана
N или (Q 2 ) = (N + 1) / 2
Третий квартиль
N или (Q 3 ) = 3 (N + 1) / 4
Где N - количество данных.
Медиана - это значение, которое находится прямо в середине распределения. Если количество данных нечетное, найти его не составляет труда, но если оно четное, то два центральных значения усредняются и становятся одним.
После расчета номера заказа соблюдается одно из этих трех правил:
-Если десятичные дроби отсутствуют, выполняется поиск данных, указанных в распределении, и это будет квартиль.
-Когда номер заказа находится посередине между двумя, то данные, обозначенные целой частью, усредняются со следующими данными, и результатом является соответствующий квартиль.
-В любом другом случае оно округляется до ближайшего целого числа, и это будет позиция квартиля.
Пример работы
По шкале от 0 до 20 группа из 16 студентов математики I получила следующие оценки (баллы) на промежуточном экзамене:
16, 10, 12, 8, 9, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14
Найти:
а) Диапазон или диапазон данных.
б) Значения квартилей Q 1 и Q 3
в) Межквартильный размах.
Рис. 2. Так сильно ли изменчивы результаты этого математического теста? Источник: Pixabay.
Решение для
Первое, что нужно сделать, чтобы найти маршрут, - это упорядочить данные в порядке возрастания или убывания. Например, в порядке возрастания у вас есть:
1, 8, 9, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20
Используя формулу, приведенную в начале: R = x max - x min
R = 20 - 1 балл = 19 баллов.
По результату эти рейтинги имеют большой разброс.
Решение б
N = 16
N или (Q 1 ) = (N + 1) / 4 = (16 + 1) / 4 = 17/4 = 4,25
Это число с десятичными знаками, целая часть которого равна 4. Затем мы переходим к распределению, ищем данные, которые занимают четвертое место, и их значение усредняется с данными пятой позиции. Так как им обоим по 9, среднее значение также равно 9, поэтому:
Q 1 = 9
Теперь повторяем процедуру, чтобы найти Q 3 :
N или (Q 3 ) = 3 (N + 1) / 4 = 3 (16 +1) / 4 = 12,75
Опять же, это десятичная дробь, но поскольку она не наполовину, она округляется до 13. Искомый квартиль занимает тринадцатую позицию и равен:
Вопрос 3 = 16
Решение c
R Q = Q 3 - Q 1 = 16 - 9 = 7 баллов.
Что, как мы видим, намного меньше, чем диапазон данных, рассчитанных в разделе а), потому что минимальный балл составлял 1 балл, что намного дальше от остальных.
Ссылки
- Беренсон, М. 1985. Статистика для управления и экономики. Interamericana SA
- Канавос, Г. 1988. Вероятность и статистика: приложения и методы. Макгроу Хилл.
- Деворе, Дж. 2012. Вероятность и статистика для техники и науки. 8-е. Издание. Cengage.
- Примеры квартилей. Получено с: matematicas10.net.
- Левин, Р. 1988. Статистика для администраторов. 2-й. Издание. Прентис Холл.
- Уолпол, Р. 2007. Вероятность и статистика для инженерии и науки. Пирсон.