- Формула и уравнения
- Отличия от биномиального распределения
- Примеры
- Практическое применение
- Аппроксимация биномиального распределения распределением Пуассона
- Решенные упражнения
- Упражнение 1
- Решение c)
- Упражнение 2.
- Решение для)
- Ссылки
Распределение Пуассона - это дискретное распределение вероятностей, с помощью которого можно узнать вероятность того, что в пределах большого размера выборки и в течение определенного интервала произойдет событие, вероятность которого мала.
Часто вместо биномиального распределения можно использовать распределение Пуассона, если выполняются следующие условия: большая выборка и малая вероятность.
Рисунок 1. График распределения Пуассона для различных параметров. Источник: Wikimedia Commons.
Симеон-Дени Пуассон (1781-1840) создал этот дистрибутив, носящий его имя, очень полезный, когда дело доходит до непредсказуемых событий. Пуассон опубликовал свои результаты в 1837 году - исследование вероятности появления ошибочных уголовных приговоров.
Позже другие исследователи адаптировали распределение в других областях, например, количество звезд, которые можно найти в определенном объеме пространства, или вероятность того, что солдат умрет от удара лошади.
Формула и уравнения
Математическая форма распределения Пуассона следующая:
- μ (также иногда обозначается как λ) - среднее значение или параметр распределения
- Число Эйлера: e = 2,71828
- Вероятность получения y = k равна P
- k - количество успехов 0, 1,2,3 …
- n - количество тестов или событий (размер выборки)
Дискретные случайные величины, как следует из их названия, зависят от случая и принимают только дискретные значения: 0, 1, 2, 3, 4…, k.
Среднее значение распределения определяется как:
Дисперсия σ, которая измеряет разброс данных, является еще одним важным параметром. Для распределения Пуассона это:
σ = μ
Пуассон определил, что при n → ∞ и p → 0 среднее значение μ - также называемое ожидаемым значением - стремится к константе:
- Рассматриваемые события или события не зависят друг от друга и происходят случайным образом.
-Вероятность P определенного события, происходящего в течение определенного периода времени, очень мала: P → 0.
-Вероятность более одного события, произошедшего во временном интервале, равна 0.
-Среднее значение приближается к константе, определяемой следующим образом: μ = np (n - размер выборки)
-Поскольку дисперсия σ равна μ, по мере того, как она принимает большие значения, изменчивость также становится больше.
-События должны быть равномерно распределены в используемом временном интервале.
-Множество возможных значений события y: 0,1,2,3,4….
-Сумма i переменных, которые следуют распределению Пуассона, также является другой переменной Пуассона. Его среднее значение - это сумма средних значений этих переменных.
Отличия от биномиального распределения
Распределение Пуассона отличается от биномиального распределения следующими важными способами:
-Биномиальное распределение зависит как от размера выборки n, так и от вероятности P, но на распределение Пуассона влияет только среднее значение μ.
-В биномиальном распределении возможные значения случайной величины y равны 0,1,2,…, N, тогда как в распределении Пуассона для этих значений нет верхнего предела.
Примеры
Первоначально Пуассон применил свой знаменитый дистрибутив к судебным делам, но на промышленном уровне одним из первых его применений было пивоварение. В этом процессе для брожения используются дрожжевые культуры.
Дрожжи состоят из живых клеток, популяция которых меняется во времени. При изготовлении пива необходимо добавлять необходимое количество, поэтому необходимо знать количество ячеек, которые есть на единицу объема.
Во время Второй мировой войны распределение Пуассона использовалось, чтобы выяснить, действительно ли немцы целятся в Лондон из Кале или стреляют наугад. Для союзников было важно определить, насколько хороши технологии, доступные нацистам.
Практическое применение
Приложения распределения Пуассона всегда относятся к счетам во времени или счетам в пространстве. А поскольку вероятность возникновения невелика, его еще называют «законом редких событий».
Вот список событий, которые попадают в одну из этих категорий:
-Регистрация частиц в радиоактивном распаде, который, как и рост дрожжевых клеток, является экспоненциальной функцией.
-Количество посещений определенного сайта.
-Прибытие людей в очередь для оплаты или присутствия (теория очереди).
-Количество автомобилей, которые проезжают определенную точку дороги в течение заданного промежутка времени.
Рисунок 2. Число автомобилей, проезжающих через точку, примерно соответствует распределению Пуассона. Источник: Pixabay.
- Мутации, произошедшие в определенной цепи ДНК после облучения.
-Количество метеоритов диаметром более 1 м, выпавших за год.
-Дефекты на квадратный метр ткани.
-Количество кровяных телец в 1 кубическом сантиметре.
-Звонков поминутно на АТС.
-Шоколадные чипсы присутствуют в 1 кг теста для торта.
-Количество деревьев, зараженных определенным паразитом, на 1 га леса.
Обратите внимание, что эти случайные переменные представляют количество раз, когда событие происходит в течение фиксированного периода времени (звонков в минуту на телефонную станцию) или в данной области пространства (дефекты ткани на квадратный метр).
Эти события, как уже было установлено, не зависят от времени, прошедшего с момента последнего события.
Аппроксимация биномиального распределения распределением Пуассона
Распределение Пуассона является хорошим приближением к биномиальному распределению, если:
-Размер выборки большой: n ≥ 100
-Вероятность p мала: p ≤ 0,1
- μ имеет порядок: np ≤ 10
В таких случаях распределение Пуассона является отличным инструментом, поскольку в этих случаях может быть трудно применить биномиальное распределение.
Решенные упражнения
Упражнение 1
Сейсмологическое исследование показало, что за последние 100 лет в мире произошло 93 сильных землетрясения, по крайней мере, 6,0 балла по логарифмической шкале Рихтера. Предположим, что распределение Пуассона является подходящей моделью в этом случае. Найти:
а) Среднее количество сильных землетрясений в год.
б) Если P (y) - это вероятность землетрясений, произошедших в течение случайно выбранного года, найдите следующие вероятности:
Это намного меньше, чем P (2).
Результаты перечислены ниже:
P (0) = 0,395, P (1) = 0,367, P (2) = 0,171, P (3) = 0,0529, P (4) = 0,0123, P (5) = 0,00229, P (6) = 0,000355, P (7) = 0,0000471.
Например, мы могли бы сказать, что существует вероятность 39,5%, что в данном году не произойдет сильного землетрясения. Или что в этом году произошло 5,29% из 3 крупных землетрясений.
Решение c)
в) Частоты анализируются, умножая на n = 100 лет:
39,5; 36,7; 17,1; 5,29; 1,23; 0,229; 0,0355 и 0,00471.
Например:
- Частота 39,5 указывает на то, что за 39,5 лет из 100 происходит 0 сильных землетрясений, мы можем сказать, что это довольно близко к фактическому результату за 47 лет без каких-либо крупных землетрясений.
Давайте сравним другой результат Пуассона с реальными результатами:
- Полученное значение 36,7 означает, что за 37 лет произошло 1 сильное землетрясение. Фактический результат состоит в том, что за 31 год произошло 1 сильное землетрясение, что хорошо соответствует модели.
- Ожидается 17,1 года с 2 сильными землетрясениями, и известно, что за 13 лет, что является близкой величиной, действительно было 2 сильных землетрясения.
Поэтому модель Пуассона для этого случая приемлема.
Упражнение 2.
По оценке одной компании, количество компонентов, которые выходят из строя до достижения 100 часов работы, следует распределению Пуассона. Если за это время среднее количество отказов равно 8, найдите следующие вероятности:
а) Что компонент выходит из строя через 25 часов.
б) Отказ менее двух компонентов за 50 часов.
c) По крайней мере, три компонента выходят из строя за 125 часов.
Решение для)
а) Известно, что в среднем за 100 часов отказов 8, поэтому за 25 часов ожидается четверть отказов, то есть 2 отказа. Это будет параметр μ.
Требуется вероятность отказа 1 компонента, случайная величина - «компоненты, которые выходят из строя до 25 часов», а ее значение - y = 1. Подставив в функцию вероятности:
Однако вопрос заключается в вероятности того, что за 50 часов выйдет из строя менее двух компонентов, а не ровно 2 компонента за 50 часов, поэтому мы должны добавить вероятности того, что:
-Ни один провал
- Только отказ 1
Параметр μ распределения в этом случае равен:
μ = 8 + 2 = 10 отказов за 125 часов.
P (3 или более компонентов выходят из строя) = 1- P (0) - P (1) - P (2) =
Ссылки
- MathWorks. Распределение Пуассона. Получено с: es.mathworks.com
- Менденхолл, В. 1981. Статистика для управления и экономики. Третий. издание. Grupo Редакционное Ибероамерика.
- Stat Trek. Изучите статистику. Распределение Пуассона. Получено с: stattrek.com,
- Триола, м. 2012. Элементарная статистика. 11. Издание Pearson Education.
- Wikipedia. Распределение Пуассона. Получено с: en.wikipedia.org