- Постановка задачи в U-тесте Манна-Уитни.
- Качественные переменные в сравнении с количественными переменными
- Нормальный случай
- Случай с ненормальным трендом
- Парные или непарные образцы
- Характеристики U-критерия Манна-Уитни
- Формула Манна-Уитни
- Шаги по применению теста
- Пример практического применения
- - Шаг 1
- - Шаг 2
- Регион А
- Регион B
- Шаг 3
- Шаг 4
- Критерии сравнения
- Онлайн-калькуляторы для теста Манна - Уитни U
- Ссылки
Манна - Уитни U тест применяется для сравнения двух независимых выборок , когда они имеют мало данных или не следуют нормальному распределению. Таким образом, он считается непараметрическим тестом, в отличие от его гомологичного t-критерия Стьюдента, который используется, когда выборка достаточно велика и следует нормальному распределению.
Фрэнк Уилкоксон впервые предложил его в 1945 году для образцов одинакового размера, но два года спустя Генри Манн и Д.Р. Уитни расширили его для образцов разных размеров.
Рисунок 1. U-критерий Манна-Уитни применяется для сравнения независимых выборок. Источник: Pixabay.
Тест часто применяется, чтобы проверить, существует ли связь между качественной и количественной переменной.
Наглядный пример - взять группу людей с гипертонией и выделить две группы, в которых записываются ежедневные данные об артериальном давлении в течение одного месяца.
Лечение A применяется к одной группе, а лечение B. - к другой. Здесь артериальное давление является количественной переменной, а тип лечения - качественным.
Мы хотим знать, является ли среднее, а не среднее значение измеренных значений статистически одинаковым или различным, чтобы установить, есть ли разница между обоими видами лечения. Для получения ответа применяется статистика Вилкоксона или U-критерий Манна-Уитни.
Постановка задачи в U-тесте Манна-Уитни.
Другой пример, в котором можно применить этот тест:
Предположим, вы хотите узнать, существенно ли различается потребление безалкогольных напитков в двух регионах страны.
Один из них называется регионом A, а другой - регионом B. Учет литров, потребляемых еженедельно, ведется в двух выборках: один из 10 человек для региона A и другой из 5 человек для региона B.
Данные следующие:
-Регион A : 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Регион B : 12,14, 11, 30, 10
Возникает следующий вопрос:
Качественные переменные в сравнении с количественными переменными
-Качественная переменная X : Регион
-Количественная переменная Y : потребление безалкогольных напитков
Если количество израсходованных литров одинаково в обоих регионах, вывод будет заключаться в отсутствии зависимости между двумя переменными. Чтобы узнать это, сравните среднюю или медианную тенденцию для двух регионов.
Нормальный случай
Если данные подчиняются нормальному распределению, предлагаются две гипотезы: нулевое значение H0 и альтернативное значение H1 путем сравнения средних значений:
- H0 : нет разницы между средним значением двух регионов.
- H1 : средства обоих регионов разные.
Случай с ненормальным трендом
Напротив, если данные не соответствуют нормальному распределению или выборка слишком мала, чтобы знать об этом, вместо сравнения среднего будет сравниваться медиана двух регионов.
- H0 : нет разницы между медианными значениями двух регионов.
- H1 : медианы обоих регионов разные.
Если медианы совпадают, то выполняется нулевая гипотеза: нет никакой связи между потреблением безалкогольных напитков и регионом.
А если произойдет обратное, верна альтернативная гипотеза: существует взаимосвязь между потреблением и регионом.
Именно для этих случаев показан U-критерий Манна - Уитни.
Парные или непарные образцы
Следующий важный вопрос при принятии решения о том, применять ли U-критерий Манна-Уитни, заключается в том, одинаково ли количество данных в обеих выборках, то есть они равны.
Если эти два образца объединены, будет применяться оригинальная версия Вилкоксона. Но если нет, как в примере, то применяется модифицированный критерий Вилкоксона, который является в точности U-критерием Манна-Уитни.
Характеристики U-критерия Манна-Уитни
U-критерий Манна-Уитни - это непараметрический тест, применимый к выборкам, которые не соответствуют нормальному распределению или имеют мало данных. Он имеет следующие характеристики:
1.- Сравните медианы
2.- Работает на заказанных диапазонах
3.- Он менее мощный, то есть сила - это вероятность отклонения нулевой гипотезы, когда она на самом деле ложна.
Принимая во внимание эти характеристики, U-критерий Манна-Уитни применяется, когда:
-Данные независимы
-Они не соответствуют нормальному распределению
-Нулевая гипотеза H0 принимается, если медианы двух выборок совпадают: Ma = Mb
-Альтернативная гипотеза H1 принимается, если медианы двух выборок различаются: Ma Mb
Формула Манна-Уитни
Переменная U - это статистика контрастности, используемая в тесте Манна-Уитни, и определяется следующим образом:
Это означает, что U - наименьшее из значений между Ua и Ub, применяемое к каждой группе. В нашем примере это будет для каждого региона: A или B.
Переменные Ua и Ub определяются и вычисляются по следующей формуле:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Здесь значения Na и Nb - это размеры выборок, соответствующих областям A и B соответственно, и, со своей стороны, Ra и Rb - это суммы рангов, которые мы определим ниже.
Шаги по применению теста
1.- Закажите значения двух образцов.
2.- Назначьте порядковый номер каждому значению.
3.- Исправьте существующие связи в данных (повторяющиеся значения).
4.- Рассчитайте Ra = Сумма рангов образца A.
5.- Найдите Rb = сумма рангов образца B.
6.- Определите значения Ua и Ub в соответствии с формулами, приведенными в предыдущем разделе.
7.- Сравните Ua и Ub, и меньшее из двух присваивается экспериментальной статистике U (то есть данным), которая сравнивается с теоретической или нормальной статистикой U.
Пример практического применения
Теперь применим вышеупомянутое к проблеме безалкогольных напитков, поднятой ранее:
Область A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Регион B: 12,14, 11, 30, 10
В зависимости от того, являются ли средние значения обеих выборок статистически одинаковыми или разными, нулевая гипотеза принимается или отклоняется: нет связи между переменными Y и X, то есть потребление безалкогольных напитков не зависит от региона:
H0: Ma = Mb
H1: Ma ≠ Mb
Рисунок 2. Данные о потреблении безалкогольных напитков в регионах A и B. Источник: F. Zapata.
- Шаг 1
Мы переходим к совместному упорядочиванию данных для двух выборок, упорядочивая значения от наименьшего к наибольшему:
Обратите внимание, что значение 11 появляется 2 раза (по одному разу в каждой выборке). Первоначально он имеет позиции или диапазоны 3 и 4, но чтобы не переоценивать или недооценивать одно или другое, в качестве диапазона выбрано среднее значение, то есть 3,5.
Аналогичным образом поступаем со значением 12, которое повторяется трижды с диапазонами 5, 6 и 7.
Что ж, значению 12 соответствует средний диапазон 6 = (5 + 6 + 7) / 3. То же самое для значения 14, которое имеет лигатуру (присутствует в обоих образцах) в положениях 8 и 9, ему присваивается средний диапазон 8,5 = (8 + 9) / 2.
- Шаг 2
Затем данные для регионов A и B снова разделяются, но теперь их соответствующие диапазоны назначаются в другой строке:
Регион А
Регион B
Диапазоны Ra и Rb получаются из сумм элементов второй строки для каждого случая или региона.
Шаг 3
Рассчитываются соответствующие значения Ua и Ub:
Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2-34 = 31
Экспериментальное значение U = min (19, 31) = 19
Шаг 4
Предполагается, что теоретическое U следует нормальному распределению N с параметрами, определяемыми исключительно размером выборки:
N ((na⋅nb) / 2, √)
Чтобы сравнить переменную U, полученную экспериментально, с теоретической U необходимо произвести замену переменной. Мы переходим от экспериментальной переменной U к ее стандартизированному значению, которое будет называться Z, чтобы иметь возможность провести сравнение со стандартизированным нормальным распределением.
Изменение переменной происходит следующим образом:
Z = (U - na.nb / 2) / √
Следует отметить, что для изменения переменной использовались параметры теоретического распределения для U. Затем новая переменная Z, которая представляет собой гибрид между теоретическим U и экспериментальным U, противопоставляется стандартизованному нормальному распределению N (0,1 ).
Критерии сравнения
Если Z ≤ Zα ⇒ принимается нулевая гипотеза H0.
Если Z> Zα ⇒ отвергнуть нулевую гипотезу H0
Стандартизированные критические значения Zα зависят от требуемого уровня достоверности, например, для уровня достоверности α = 0,95 = 95%, который является наиболее обычным, получается критическое значение Zα = 1,96.
Для данных, показанных здесь:
Z = (U - na nb / 2) / √ = -0,73
Что ниже критического значения 1,96.
Итак, окончательный вывод состоит в том, что нулевая гипотеза H0 принимается:
Онлайн-калькуляторы для теста Манна - Уитни U
Существуют специальные программы для статистических расчетов, в том числе SPSS и MINITAB, но эти программы платные, и их использование не всегда просто. Это связано с тем, что они предоставляют так много вариантов, что их использование практически зарезервировано для экспертов по статистике.
К счастью, существует ряд очень точных, бесплатных и простых в использовании онлайн-программ, которые, в частности, позволяют запускать U-тест Манна-Уитни.
Эти программы:
- Статистика социальных наук (socscistatistics.com), в которой есть как критерий Манна-Уитни U, так и критерий Вилкоксона в случае сбалансированных или парных выборок.
-AI Therapy Statistics (ai-therapy.com), в котором есть несколько обычных тестов описательной статистики.
-Statistic to Use (Physics.csbsju.edu/stats), один из старейших, поэтому его интерфейс может выглядеть устаревшим, хотя это, тем не менее, очень эффективная бесплатная программа.
Ссылки
- Дитрихсон. Количественные методы: ранговый тест. Получено с: bookdown.org
- Марин Дж. П. Руководство по SPSS: Анализ и процедуры непараметрических тестов. Получено с: halweb.uc3m.es
- USAL MOOC. Непараметрические тесты: Mann-Whitney U. Получено с: youtube.com
- Wikipedia. U-критерий Манна-Уитни. Получено с: es.wikipedia.com
- XLSTAT. Центр помощи. Руководство по тесту Манна-Уитни в Excel. Получено с: help.xlsat.com