- Формулы и уравнения
- Важные статистические переменные
- Модель и свойства
- Основные свойства гипергеометрического распределения
- Аппроксимация с использованием биномиального распределения
- Пример 2
- Решенные упражнения
- Упражнение 1
- Решение
- Упражнение 2.
- Решение
- Упражнение 3.
- Решение для
- Решение c
- Ссылки
Гипергеометрическое распределение является дискретной статистической функцией, подходит для вычисления вероятности в рандомизированных экспериментах с двумя возможными результатами. Условие, которое требуется для его применения, состоит в том, что они представляют собой небольшие популяции, в которых изъятия не заменяются, а вероятности не являются постоянными.
Следовательно, когда элемент совокупности выбирается, чтобы знать результат (истинный или ложный) определенной характеристики, этот же элемент не может быть выбран снова.
Рис. 1. В такой группе болтов наверняка есть дефектные образцы. Источник: Pixabay.
Конечно, следующий выбранный элемент с большей вероятностью получит истинный результат, если предыдущий элемент дал отрицательный результат. Это означает, что вероятность меняется по мере извлечения элементов из выборки.
Основными приложениями гипергеометрического распределения являются: контроль качества в процессах с малой численностью населения и расчет вероятностей в азартных играх.
Что касается математической функции, определяющей гипергеометрическое распределение, она состоит из трех параметров, а именно:
- Количество элементов популяции (N)
- Размер выборки (м)
- Количество событий во всей популяции с благоприятным (или неблагоприятным) результатом исследуемой характеристики (n).
Формулы и уравнения
Формула гипергеометрического распределения дает вероятность P того, что произойдет x благоприятных случаев определенной характеристики. Математически это можно записать на основе комбинаторных чисел:
В предыдущем выражении N, n и m - параметры, а x - сама переменная.
- Общая численность населения N.
-Количество положительных результатов определенной бинарной характеристики по отношению ко всей совокупности равно n.
-Количество элементов в выборке m.
В этом случае X - это случайная величина, которая принимает значение x, а P (x) указывает вероятность возникновения x благоприятных случаев изучаемой характеристики.
Важные статистические переменные
Другие статистические переменные для гипергеометрического распределения:
- Среднее μ = m * n / N
- Дисперсия σ ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1)
- Стандартное отклонение σ, которое представляет собой квадратный корень из дисперсии.
Модель и свойства
Чтобы прийти к модели гипергеометрического распределения, мы начнем с вероятности получения x благоприятных случаев в выборке размера m. Этот образец содержит элементы, которые соответствуют исследуемому свойству, и элементы, которые не соответствуют.
Напомним, что n представляет собой количество благоприятных случаев в общей популяции из N элементов. Тогда вероятность будет рассчитываться так:
Выражая сказанное выше в виде комбинаторных чисел, получается следующая модель распределения вероятностей:
Основные свойства гипергеометрического распределения
Вот они:
- Выборка всегда должна быть небольшой, даже если популяция большая.
- Элементы выборки извлекаются один за другим без включения их обратно в генеральную совокупность.
- Исследуемое свойство является двоичным, то есть может принимать только два значения: 1 или 0, или истина или ложь.
На каждом шаге извлечения элемента вероятность изменяется в зависимости от предыдущих результатов.
Аппроксимация с использованием биномиального распределения
Другое свойство гипергеометрического распределения состоит в том, что оно может быть аппроксимировано биномиальным распределением, обозначенным Bi, при условии, что совокупность N велика и по крайней мере в 10 раз больше, чем выборка m. В этом случае это будет выглядеть так:
Вероятность того, что x = 3 винта в образце неисправны, составляет: P (500, 5, 60, 3) = 0,0129.
Со своей стороны, вероятность того, что x = 4 винта из шестидесяти образцов являются дефектными, составляет: P (500, 5, 60; 4) = 0,0008.
Наконец, вероятность того, что x = 5 винтов в этом образце неисправны, составляет: P (500, 5, 60; 5) = 0.
Но если вы хотите узнать вероятность того, что в этом образце более 3 дефектных винтов, вам нужно получить кумулятивную вероятность, добавив:
Этот пример проиллюстрирован на рисунке 2, полученном с помощью GeoGebra, бесплатного программного обеспечения, широко используемого в школах, институтах и университетах.
Рисунок 2. Пример гипергеометрического распределения. Подготовлено Ф. Сапатой совместно с GeoGebra.
Пример 2
Колода испанской колоды состоит из 40 карт, из которых 10 имеют золото, а остальные 30 - нет. Предположим, что из этой колоды случайным образом вытягиваются 7 карт, которые не включаются в колоду.
Если X - количество золотых, присутствующих в 7 вытянутых картах, то вероятность получить x золотых при розыгрыше 7 карт определяется гипергеометрическим распределением P (40,10,7; x).
Давайте посмотрим на это так: для расчета вероятности получения 4 золотых при розыгрыше 7 карт мы используем формулу гипергеометрического распределения со следующими значениями:
И результат: вероятность 4,57%.
Но если вы хотите узнать вероятность получения более 4 карт, вам необходимо добавить:
Решенные упражнения
Следующий набор упражнений предназначен для иллюстрации и усвоения концепций, представленных в этой статье. Важно, чтобы читатель попытался решить их самостоятельно, прежде чем смотреть на решение.
Упражнение 1
Завод по производству презервативов обнаружил, что из каждых 1000 презервативов, произведенных на определенной машине, 5 являются дефектными. Для контроля качества случайным образом отбирается 100 презервативов, и партия отклоняется, если есть хотя бы один или несколько дефектов. Ответ:
а) Какова вероятность того, что партия из 100 будет выброшена?
б) Эффективен ли этот критерий контроля качества?
Решение
В этом случае появятся очень большие комбинаторные числа. Расчет затруднен, если у вас нет подходящего программного обеспечения.
Но поскольку это большая совокупность, а выборка в десять раз меньше общей совокупности, можно использовать приближение гипергеометрического распределения биномиальным распределением:
В приведенном выше выражении C (100, x) - комбинаторное число. Тогда вероятность наличия более одного дефекта будет рассчитана следующим образом:
Это отличное приближение по сравнению со значением, полученным с помощью гипергеометрического распределения: 0,4102
Можно сказать, что с вероятностью 40% следует выбросить партию из 100 профилактических средств, что не очень эффективно.
Но, будучи немного менее требовательным в процессе контроля качества и отбрасывая партию 100 только при наличии двух или более дефектов, вероятность отбраковки партии упала бы всего до 8%.
Упражнение 2.
Машина для производства пластиковых блоков работает таким образом, что из каждых 10 штук одна выходит деформированной. Какова вероятность того, что в выборке из 5 штук неисправна только одна деталь?
Решение
Население: N = 10
Количество n дефектов на каждые N: n = 1
Размер выборки: m = 5
Следовательно, существует 50% вероятность того, что в выборке из 5 блоков будет деформироваться блок.
Упражнение 3.
На встрече молодых выпускников средней школы 7 женщин и 6 мужчин. Среди девочек 4 изучают гуманитарные науки и 3 естественные науки. В мужской группе 1 изучает гуманитарные науки и 5 естественных наук. Рассчитайте следующее:
а) Выбор трех девушек наугад: насколько вероятно, что все они изучают гуманитарные науки?
б) Если трое участников собрания друзей выбраны случайным образом: какова вероятность того, что трое из них, независимо от пола, будут изучать естественные науки все три или гуманитарные науки также все три?
c) Теперь выберите двух друзей наугад и назовите x случайной величиной «количество тех, кто изучает гуманитарные науки». Между двумя выбранными определите среднее или ожидаемое значение x и дисперсию σ ^ 2.
Решение для
Значения, которые следует использовать сейчас:
-Население: N = 14
-Количество изучаемых букв составляет: n = 6 и
-Размер образца: m = 3.
-Количество друзей, изучающих гуманитарные науки: x
Соответственно, x = 3 означает, что все трое изучают гуманитарные науки, а x = 0 означает, что никто не изучает гуманитарные науки. Вероятность того, что все трое изучат одно и то же, выражается суммой:
P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099
Тогда у нас есть 21% вероятность того, что трое случайно выбранных участников встречи изучат одно и то же.
Решение c
Здесь у нас есть следующие значения:
N = 14 общее количество друзей, n = 6 общее количество в популяции, изучающей гуманитарные науки, размер выборки m = 2.
Надежда:
E (x) = m * (n / N) = 2 * (6/14) = 0,8572
И дисперсия:
σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * ( 14-2) / (14-1) =
= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / ( 13) = 0,4521
Ссылки
- Дискретные распределения вероятностей. Получено с: biplot.usal.es
- Статистика и вероятность. Гипергеометрическое распределение. Получено с: projectdescartes.org
- CDPYE-УГР. Гипергеометрическое распределение. Восстановлено с: ugr.es
- GeoGebra. Классическая геогебра, исчисление вероятностей. Восстановлено с geogebra.org
- Попробуй легко. Решенные задачи гипергеометрического распределения. Получено с: probafacil.com
- Minitab. Гипергеометрическое распределение. Получено с: support.minitab.com
- Университет Виго. Основные дискретные распределения. Получено с: anapg.webs.uvigo.es
- Vitutor. Статистика и комбинаторика. Получено с: vitutor.net
- Вайсштейн, Эрик В. Гипергеометрическое распределение. Получено с: mathworld.wolfram.com
- Wikipedia. Гипергеометрическое распределение. Получено с: es.wikipedia.com