Непрерывные распределения и плотность вероятности
В случае непрерывного распределения случайная величина может принимать любые значения из интервала, в котором она определена. Т.к. количество таких значений бесконечно велико, то мы не можем, как в случае дискретной величины, сопоставить каждому значению случайной величины ненулевую вероятность (т.е. вероятность попадания в любую точку (заданную до опыта) для непрерывной случайной величины равна нулю). Т.к. в противном случае сумма вероятностей всех возможных значений случайной величины будет равна бесконечности, а не 1. Выходом из этой ситуации является введение так называемой функции плотности распределения p(x) . Чтобы найти вероятность того, что непрерывная случайная величина Х примет значение, заключенное в интервале (а; b), необходимо найти приращение функции распределения на этом интервале:
Как видно из формулы выше плотность распределения р(х) представляет собой производную функции распределения F(x), т.е. р(х) = F’(x).
Типичный график функции плотности распределения для непрерывной случайно величины приведен на картинке ниже (зеленая кривая):
Примечание : В MS EXCEL имеется несколько функций, позволяющих вычислить вероятности непрерывных случайных величин. Перечень этих функций приведен в статье Распределения случайной величины в MS EXCEL .
В литературе Функция плотности распределения непрерывной случайной величины может называться: Плотность вероятности, Плотность распределения, англ. Probability Density Function (PDF) .
Чтобы все усложнить, термин Распределение (в литературе на английском языке — Probability Distribution Function или просто Distribution ) в зависимости от контекста может относиться как Интегральной функции распределения, так и кее Плотности распределения.
Из определения функции плотности распределения следует, что p(х)>=0. Следовательно, плотность вероятности для непрерывной величины может быть, в отличие от Функции распределения, больше 1. Например, для непрерывной равномерной величины , распределенной на интервале плотность вероятности равна 1/(0,5-0)=2. А для экспоненциального распределения с параметром лямбда =5, значение плотности вероятности в точке х=0,05 равно 3,894. Но, при этом можно убедиться, что вероятность на любом интервале будет, как обычно, от 0 до 1.
Напомним, что плотность распределения является производной от функции распределения , т.е. «скоростью» ее изменения: p(x)=(F(x2)-F(x1))/Dx при Dx стремящемся к 0, где Dx=x2-x1. Т.е. тот факт, что плотность распределения >1 означает лишь, что функция распределения растет достаточно быстро (это очевидно на примере экспоненциального распределения ).
Примечание : Площадь, целиком заключенная под всей кривой, изображающей плотность распределения , равна 1.
Примечание : Напомним, что функцию распределения F(x) называют в функциях MS EXCEL интегральной функцией распределения . Этот термин присутствует в параметрах функций, например в НОРМ.РАСП (x; среднее; стандартное_откл; интегральная ). Если функция MS EXCEL должна вернуть Функцию распределения, то параметр интегральная , д.б. установлен ИСТИНА. Если требуется вычислить плотность вероятности , то параметр интегральная , д.б. ЛОЖЬ.
Примечание : Для дискретного распределения вероятность случайной величине принять некое значение также часто называется плотностью вероятности (англ. probability mass function (pmf)). В справке MS EXCEL плотность вероятности может называть даже «функция вероятностной меры» (см. функцию БИНОМ.РАСП() ).
Замечания
Если x, alpha или beta не является числом, функция ГАММАРАСП возвращает #VALUE! (значение ошибки).
Если альфа ≤ 0 или бета-версия ≤ 0, функция ГАММАРАСП возвращает #NUM! (значение ошибки).
Уравнение для гамма-функции плотности распределения вероятности имеет следующий вид:
Стандартная гамма-функция плотности распределения вероятности имеет следующий вид:
Если альфа = 1, функция ГАММАРАСП возвращает экспоненциальное распределение:
Для целого положительного n, если альфа = n/2, бета = 2 и значение «интегральная» = ИСТИНА, функция ГАММАРАСП возвращает (1 — ХИ2РАСП(x)) с n степенями свободы.
Если значение аргумента «альфа» является положительным числом, функция ГАММАРАСП называется также распределением Эрланга.
Распределение Фишера (F-распределение). Распределения математической статистики в EXCEL
history 12 ноября 2016 г.
Распределения вероятностей
Рассмотрим распределение Фишера (F-распределение). С помощью функции MS EXCEL F .РАСП() построим графики функции распределения и плотности вероятности, поясним применение этого распределения для целей математической статистики.
F-распределение (англ. F-distribution) применяется для целей дисперсионного анализа (ANOVA), при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) и др.
Определение : Если U 1 и U 2 независимые случайные величины, имеющие ХИ2-распределение с k 1 и k 2степенями свободы соответственно, то распределение случайной величины:
носит название F -распределения с параметрами k 1 и k 2 .
Плотность F -распределения выражается формулой:
где Г(…) – гамма-функция:
если альфа – положительное целое, то Г( альфа )=( альфа -1)!
Приведем пример случайной величины, имеющей F -распределение.
Пусть имеется 2 нормальных распределения N(μ 1 ;σ 1 ) и N(μ 2 ; σ 2 ), из которых сделаны выборки размером n 1 и n 2 . Если s 1 2 и s 2 2 – дисперсии этих выборок , то отношение
имеет F -распределение. Это соотношение нам потребуется при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) .
Графики функций
В файле примера на листе График приведены графики плотности распределения вероятности и интегральной функции распределения .
Примечание : Для построения функции распределения и плотности вероятности можно использовать диаграмму типа График или Точечная (со сглаженными линиями и без точек). Подробнее о построении диаграмм читайте статью Основные типы диаграмм .
F-распределение в MS EXCEL
В MS EXCEL, начиная с версии 2010, для F-распределения имеется специальная функция F.РАСП() , английское название – F.DIST(), которая позволяет вычислить плотность вероятности (см. формулу выше) и интегральную функцию распределения (вероятность, что случайная величина Х, имеющая F — распределение , примет значение меньше или равное х, P(X Примечание Плотность вероятности можно также вычислить впрямую, с помощью формул (см. файл примера ).
До MS EXCEL 2010 в EXCEL была функция FРАСП() , которая позволяет вычислить функцию распределения (точнее — правостороннюю вероятность, т.е. P(X>x)). Функция FРАСП() оставлена в MS EXCEL 2010 для совместимости. Аналогом FРАСП() является функция F.РАСП.ПХ() , появившаяся в MS EXCEL 2010.
Примеры расчетов приведены в файле примера на листе Функции .
В MS EXCEL имеется еще одна функция, использующая для расчетов F-распределение – это F.ТЕСТ(массив1;массив2) . Эта функция возвращает результат F-теста : двухстороннюю вероятность того, что разница между дисперсиями выборок «массив1» и «массив2» несущественна. Предполагается, что выборки делаются из нормального распределения .
Обратная функция F-распределения
Обратная функция используется для вычисления альфа — квантилей , т.е. для вычисления значений x при заданной вероятности альфа , причем х должен удовлетворять выражению P
Функция F.ОБР.ПХ() используется для вычисления верхнего квантиля . Т.е. если в качестве аргумента функции указан уровень значимости, например 0,05, то функция вернет такое значение случайной величины х, для которого P(X>x)=0,05. В качестве сравнения: функция F.ОБР() вернет такое значение случайной величины х, для которого P(X F.ОБР.ПХ() использовалась функция FРАСПОБР() .
Вышеуказанные функции можно взаимозаменять, т.к. следующие формулы возвращают одинаковый результат: =F.ОБР(0,05;k1;k2) =F.ОБР.ПХ(1-0,05;k1;k2) = FРАСПОБР (1-0,05;k1;k2)
СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .
Шаг № 3: Установите значения оси X для кривой.
По сути, диаграмма представляет собой огромное количество интервалов (представьте их как шаги), соединенных линией, чтобы создать плавную кривую.
В нашем случае значения оси X будут использоваться для иллюстрации конкретной оценки экзамена, а значения оси Y будут указывать нам вероятность того, что студент получит этот результат на экзамене.
Технически вы можете включить столько интервалов, сколько захотите — вы можете легко стереть избыточные данные позже, изменив масштаб горизонтальной оси. Просто убедитесь, что вы выбрали диапазон, включающий три стандартных отклонения.
Давайте начнем подсчет с одного (так как студент не может получить отрицательный результат на экзамене) и дойдем до 150 — неважно, 150 это или 1500 — чтобы создать еще одну вспомогательную таблицу
- Выберите любую пустую ячейку под данными диаграммы (например, E4) и введите “1,” значение, определяющее первый интервал.
- Перейдите к Дом таб.
- в Редактирование группа, выберите «Наполнять.”
- Под «Серия в,» Выбрать «Столбец.”
- Для «Значение шага,» тип “1.” Это значение определяет приращения, которые будут автоматически добавляться, пока Excel не достигнет последнего интервала.
- Для «Стоп-значение,» тип «150,” значение, которое соответствует последнему интервалу, и нажмите «OK.”
Чудом 149 ячеек в столбце E (E5: E153) были заполнены значениями от 2 до 150.
ПРИМЕЧАНИЕ. Не скрывайте исходные ячейки данных, как показано на снимках экрана.. В противном случае методика не сработает.
Приближенный метод проверки нормальности распределения
Приближенный метод проверки нормальности распределения значений выборки основан на
следующем свойстве нормального распределения: коэффициент асимметрии
и коэффициент эксцесса равны нулю.
Коэффициент асимметрии
численно характеризует симметрию эмпирического распределения относительно среднего. Если коэффициент
асимметрии равен нулю, то среднее арифметрического значение, медиана и мода равны:
и кривая плотности
распределения симметрична относительно среднего. Если коэффициент асимметрии меньше нуля (),
то среднее арифметическое меньше медианы, а медиана, в свою очередь, меньше моды
() и кривая сдвинута
вправо (по сравнению с нормальным распределением). Если коэффициент асимметрии больше нуля (),
то среднее арифметическое больше медианы, а медиана, в свою очередь, больше моды
() и кривая сдвинута
влево (по сравнению с нормальным распределением).
Коэффициент эксцесса
характеризует концентрацию эмпирического распределения вокруг арифметического среднего в направлении
оси и степень островершинности кривой плотности распределения.
Если коэффициент эксцесса больше нуля, то кривая более вытянута (по сравнению с нормальным распределением)
вдоль оси (график более островершинный). Если коэффициент
эксцесса меньше нуля, то кривая более сплющена (по сравнению с нормальным распределением)
вдоль оси (график более туповершинный).
Коэффициент асимметрии можно вычислить с помощью функции MS Excel СКОС. Если вы
проверяете один массив данных, то требуется ввести диапазон данных в одно окошко «Число».
Коэффициент эксцесса можно вычислить с помощью функции MS Excel ЭКСЦЕСС. При проверке
одного массива данных также достаточно ввести диапазон данных в одно окошко «Число».
Итак, как мы уже знаем, при нормальном распределении коэффициенты асимметрии и эксцесса
равны нулю. Но что, если мы получили коэффициенты асимметрии, равные -0,14, 0,22, 0,43, а коэффициенты
эксцесса, равные 0,17, -0,31, 0,55? Вопрос вполне справедливый, так как практически мы имеем дело лишь с
приближенными, выборочными значениями асимметрии и эксцесса, которые подвержены некоторому неизбежному,
неконтролируемому разбросу. Поэтому нельзя требовать строгого равенства этих коэффициентов нулю, они
должны лишь быть достаточно близкими к нулю. Но что значит — достаточно?
Требуется сравнить полученные эмпирические значения с
допустимыми значениями. Для этого нужно проверить следующие неравенства (сравнить значения коэффициентов
по модулю с критическими значениями — границами области проверки гипотезы).
Для коэффициента асимметрии :
,
где
—
квантиль стандартного нормального распределения уровня ,
—
среднеквадратическое отклонение для выборки с числом наблюдений .
Для коэффициента эксцесса :
,
где
—
квантиль стандартного нормального распределения уровня ,
—
среднеквадратическое отклонение для выборки с числом наблюдений .
Так как коэффициенты асимметрии и эксцесса могут оказаться и положительными, и отрицательными,
то в приближенном методе проверки нормальности распределения используется двусторонний квантиль
стандартного нормального распределения; он задаёт интервал, в который случайная величина попадает
с определённой вероятностью. Приведём значения двусторонних квантилей стандартного нормального
распределения определённых уровней
(слева — уровень, справа — значение квантиля):
- 0,90: 1,645
- 0,95: 1,960
- 0,975: 2,241
- 0,98: 2,326
- 0,99: 2,576
- 0,995: 2,807
- 0,999: 3,291
- 0,9995: 3,481
- 0,9999: 3,891
Например, для выборки с числом наблюдений и
,
пользуясь этими значениями и ранее приведёнными формулами, можно получить границу области принятия гипотезы для
коэффициента асимметрии 0,62 и для коэффициента эксцесса 1,15. Поэтому приведённые ранее примеры эмпирических
значений коэффициента асимметрии -0,14, 0,22, 0,43 попадают в область принятия гипотезы. То же самое
относится к значениям коэффициента эксцесса 0,17, -0,31, 0,55. Следовательно, если получены такие
эмпирические значения, то с вероятностью 95% данные выборки подчиняются нормальному закону распределения.
Нормальное распределение в статистике
История закона насчитывает 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал аппроксимацию биномиального распределения еще 1733 году. Через много лет Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.) вывели математические функции.
Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение.
Нормальный закон не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. Конкретная форма распределения задается специальными параметрами. Например, у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами.
Кривая нормального распределения Гаусса имеет следующий вид.
График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая. У графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.
На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.
Формула нормального распределения (плотности) следующая.
Формула состоит из двух математических констант:
π – число пи 3,142;
е – основание натурального логарифма 2,718;
двух изменяемых параметров, которые задают форму конкретной кривой:
m – математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);
ну и сама переменная x, для которой высчитывается плотность вероятности.
Конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии (σ 2 ). Кратко обозначается N(m, σ 2 ) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ 2 характеризует размах вариации, то есть «размазанность» данных.
Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности.
А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса концентрируется у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.
Плотность распределения не имеет прямого практического применения. Для расчета вероятностей нужно проинтегрировать функцию плотности.
Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:
Используя математические свойства любого непрерывного распределения, несложно рассчитать и любые другие вероятности, так как
P(a ≤ X 0 =1 и остается рассчитать только соотношение 1 на корень из 2 пи.
Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные. Последнее свойство широко известно под названием правило трех сигм для нормального распределения.
Функция стандартного нормального распределения позволяет рассчитывать вероятности.
Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.
Примеры использования функции вероятность для расчетов в Excel
Стоит отметить, что используются часто в Excel и другие статистические функции, к примеру:
Функция выполняет вычисление вероятности того, что значения с интервала находятся в заданных пределах. В случае, если верхний предел не будет задан, то будет возвращена вероятность того, что значения аргумента x_интервал будет равно значению аргумента под названием нижний_предел.
Вычисление процента вероятности события в Excel
Пример 1. Дана таблица диапазона числовых значений, а также вероятностей, которые им соответствуют:
Необходимо при использовании данной статистической функции вычислить вероятность события, что значение с указанного интервала входит в интервал .
Для этого введем функцию со следующими аргументами:
- х_интервал – это начальные данные (0, …, 4);
- интервал вероятностей является множеством вероятностей для начальных данных (0,15; 0,1; 0,15; 0,2; 0,4);
- нижний предел равен значению 1;
- верхний предел равен 4.
В результате выполненных вычислений получим:
Пример 2. В условии предыдущего примера нужно вычислить вероятность события «значение х равно 4».
Введем в ячейку С3 введем функцию с такими аргументами:
- х_интервал – начальные параметры (0, …, 4);
- интервал вероятностей – совокупность вероятностей для параметров (0,1; 0,15; 0,2; 0,15; 0,4);
- нижний предел – 4;
В данном примере верхний предел не указан, поскольку необходимо конкретное значение вероятности, а именно для значения 4.
Нормальное распределение: теория и практика
Примерами случайных величин, распределённых по нормальному закону, являются рост человека,
масса вылавливаемой рыбы одного вида. Нормальность распределения означает следующее: существуют значения
роста человека, массы рыбы одного вида, которые на интуитивном уровне воспринимаются как «нормальные»
(а по сути — усреднённые), и они-то в достаточно большой выборке встречаются гораздо чаще, чем
отличающиеся в бОльшую или меньшую сторону.
Нормальное распределение вероятностей непрерывной случайной величины (иногда —
распределение Гаусса) можно назвать колоколообразным из-за того, что симметричная относительно среднего
функция плотности этого распределения очень похожа на разрез колокола (красная кривая на рисунке выше).
Вероятность встретить в выборке те или иные значение равна
площади фигуры под кривой (на сайте рассказано более подробно о непрерывной случайной величине и функции ее распределения) и в случае нормального распределения мы видим, что под верхом «колокола»,
которому соответствуют значения, стремящиеся к среднему, площадь, а значит, вероятность, больше, чем под
краями. Таким образом, получаем то же, что уже сказано: вероятность встретить человека «нормального» роста,
поймать рыбу «нормальной» массы выше, чем для значений, отличающихся в бОльшую или меньшую сторону.
В очень многих случаях практики ошибки измерения распределяются по закону, близкому к нормальному.
Если копнуть глубже, то нормальное распределение можно найти в распределении многих
показателях в системах связи (сигналы, шумы, помехи и другие), под нормальное распределение подгоняют
многие финансовые показатели. Хотя следует подчеркнуть, что именно подгоняют, поскольку признаки нормальности
в этих случаях часто бывают смещены.
Остановимся ещё раз на рисунке в начале урока, на котором представлена функция плотности нормального распределения.
График этой функции получен при рассчёте некоторой выборки данных в пакете программных средств STATISTICA. На ней
столбцы гистограммы представляют собой интервалы значений выборки, распределение которых близко (или, как принято говорить в
статистике, незначимо отличаются от) к собственно графику функции плотности нормального распределения, который
представляет собой кривую красного цвета. На графике видно, что эта кривая действительно колоколообразная.
Нормальное распределение во многом ценно благодаря тому, что зная только математическое
ожидание непрерывной случайной величины и стандартное отклонение, можно вычислить любую вероятность, связанную
с этой величиной.
Нормальное распределение имеет ещё и то преимущество, что один из наиболее простых
в использовании статистических критериев, используемых для проверки статистических гипотез — критерий
Стьюдента — может быть использован только в том случае, когда данные выборки подчиняются нормальному
закону распределения.
Связанные распределения
Общие
- Пусть X 1, X 2… X n {\ displaystyle X_ {1}, X_ {2} \ ldots X_ {n}}быть n {\ displaystyle n}независимыми и одинаково распределенными случайными величинами, соответствующими экспоненциальному распределению с параметром скорости λ, тогда ∑ i X i {\ displaystyle \ sum _ {i} X_ {i}}~ Gamma (n, 1 / λ), где n — параметр формы, а 1 / λ — масштаб.
- Если X ~ Gamma (1, 1 / λ) (параметризация формы – масштаба), то X имеет экспоненциальное распределение с параметром скорости λ.
- Если X ~ Gamma (ν / 2, 2) (форма – масштаб параметризация), то X идентично χ (ν), распределению хи-квадрат с ν степенями свободы. Наоборот, если Q ~ χ (ν) и c — положительная константа, то cQ ~ Gamma (ν / 2, 2c).
- Если k является целым числом, гамма-распределение будет распределение Эрланга и представляет собой распределение вероятностей времени ожидания до k-го «прибытия» в одномерном пуассоновском процессе с интенсивностью 1 / θ. Если
-
- Икс ∼ Γ (k ∈ Z, θ), Y ∼ P ois (x θ), {\ displaystyle X \ sim \ Gamma (k \ in \ mathbf {Z}, \ theta), \ qquad Y \ sim \ mathrm {Pois} \ left ({\ frac {x} {\ theta}} \ right),}
- , затем
- P (X>x) = P (Y x) = P ( Y
Если X имеет распределение Максвелла – Больцмана с параметром a, то
-
- X 2 ∼ Γ (3 2, 2 a 2) {\ displaystyle X ^ {2} \ sim \ Gamma \ left ({\ frac {3} {2}}, 2a ^ {2} \ right)}.
- Если X ~ Gamma (k, θ), то log X {\ displaystyle \ log {X}}следует экспоненциально-гамма-распределению (сокращенно exp-gammma). Его иногда называют распределением log-гамма. Формулы для его среднего и дисперсия находится в разделе # Логарифмическое ожидание и дисперсия.
- Если X ~ Gamma (k, θ), то X {\ displaystyle {\ sqrt {X}}}следует за обобщенное гамма-распределение с параметрами p = 2, d = 2k и a = θ {\ displaystyle a = {\ sqrt {\ theta}}}.
- В более общем случае, если X ~ Gamma (k, θ), тогда X q {\ displaystyle X ^ {q}}для q>0 {\ displaystyle q>0}следует обобщенному гамма-распределению с параметрами p = 1 / q, d = k / q и a = θ q {\ displaystyle a = \ theta ^ {q}}.
- Если X ~ Gamma (k, θ), то 1 / X ~ Inv-Gamma (k, θ) (см. Обратное гамма-распределение для вывода).
- Параметризация 1: Если X k ∼ Γ (α k, θ k) {\ displaystyle X_ {k} \ sim \ Gamma (\ alpha _ {k}, \ theta _ {k}) \,}независимы, тогда α 2 θ 2 X 1 α 1 θ 1 X 2 ∼ F (2 α 1, 2 α 2) {\ displaystyle {\ frac {\ alpha _ {2} \ theta _ {2} X_ {1}} {\ alpha _ {1} \ theta _ {1} X_ {2}}} \ sim \ mathrm {F} (2 \ alpha _ {1}, 2 \ alpha _ {2})}, или, что эквивалентно, X 1 X 2 ∼ β ′ (α 1, α 2, 1, θ 1 θ 2) {\ displaystyle {\ frac {X_ {1}} {X_ {2}}} \ sim \ beta ‘\ left (\ alpha _ {1}, \ alpha _ {2}, 1, {\ frac {\ theta _ {1}} {\ theta _ {2}}} \ right)}
- Параметризация 2: Если X k ∼ Γ (α K, β K) {\ Displaystyle X_ {k} \ sim \ Gamma (\ alpha _ {k}, \ beta _ {k}) \,}независимы, тогда α 2 β 1 Икс 1 α 1 β 2 Икс 2 ∼ F (2 α 1, 2 α 2) {\ Displaystyle {\ frac {\ alpha _ {2} \ beta _ {1} X_ {1}} {\ alpha _ {1} \ beta _ {2} X_ {2}}} \ sim \ mathrm {F} (2 \ alpha _ {1}, 2 \ alpha _ {2})}или эквивалентно, Икс 1 Икс 2 ∼ β ′ (α 1, α 2, 1, β 2 β 1) {\ displaystyle {\ frac {X_ {1}} {X_ {2}}} \ sim \ beta ‘ \ left (\ alpha _ {1}, \ alpha _ {2}, 1, {\ frac {\ beta _ {2}} {\ beta _ {1}}} \ right)}
- Если X ~ Gamma (α, θ) и Y ~ Gamma (β, θ) распределены независимо, тогда X / (X + Y) имеет бета-распределение с параметрами α и β, а X / (X + Y) не зависит от X + Y, что является гамма (α + β, θ) -распределенным.
- Если X i ~ Gamma (α i, 1) являются независимо распределены, то вектор (X 1 / S,…, X n / S), где S = X 1 +… + X n следует распределению Дирихле с параметрами α 1,…, α n.
- Для больших k гамма-распределение Функция сходится к нормальному распределению со средним μ = kθ и дисперсией σ = kθ.
- Гамма-распределение является сопряженным предшествующим для точности нормального распределение с известным средним.
- Распределение Уишарта является многомерным обобщением гамма-распределения (выборки представляют собой положительно определенные матрицы, а не положительные действительные числа).
- Гамма-распределение является частным случаем обобщенного гамма-распределения, обобщенного целочисленного гамма-распределения и обобщенного обратного гауссовского распределения.
- Среди дискретных распределений отрицательное биномиальное распределение иногда считается дискретным аналогом гамма-распределения.
- Распределение Твиди — гамма-распределение является членом семейства моделей экспоненциальной дисперсии Твиди .
Составная гамма
Если известен параметр формы гамма-распределения, но обратный масштаб pa Если размер неизвестен, то гамма-распределение для обратной шкалы образует сопряженное априорное значение. Составное распределение , которое получается в результате интегрирования обратной шкалы, имеет решение в замкнутой форме, известное как составное гамма-распределение.
Если вместо этого параметр формы известен, но неизвестно среднее значение, с априорным значением среднего, заданным другим гамма-распределением, то это приводит к K-распределению.
Нормальное распределение. Построение графика в Excel. Концепция шести сигм
Наверное, не все знают, что в Excel есть встроенная функция для построения нормального распределения. Графики нормального распределения часто используются для демонстрации идей статистической обработки данных.
Функция НОРМРАСП имеет следующий синтаксис:
НОРМРАСП (Х; среднее; стандартное_откл; интегральная)
Х — аргумент функции; фактически НОРМРАСП можно трактовать как y=f(x); при этом функция возвращает вероятность реализации события Х
Среднее (µ) — среднее арифметическое распределения; чем дальше Х от среднего, тем ниже вероятность реализации такого события
Стандартное_откл (σ) — стандартное отклонение распределения; мера кучности; чем меньше σ, тем выше вероятность у тех Х, которые расположены ближе к среднему
Интегральная — логическое значение, определяющее форму функции. Если «интегральная» имеет значение ИСТИНА, функция НОРМРАСП возвращает интегральную функцию распределения, тот есть суммарную вероятность всех событий для аргументов от -∞ до Х; если «интегральная» имеет значение ЛОЖЬ, возвращается вероятность реализации события Х, точнее говоря, вероятность событий находящихся в некотором диапазоне вокруг Х
Например, для µ=0 имеем:
Скачать заметку в формате Word, пример в формате Excel
Здесь по оси абсцисс единица измерения – σ, или (что то же самое), можно сказать, что график построен для σ = 1. То есть, «-2» на графике означает -2σ. По оси ординат шкала убрана умышленно, так как она лишена смысла. Точнее говоря, высота кривой зависит от плотности точек на оси абсцисс, по которым мы строим график. Например, если на интервал от 0 до 1σ приходится 10 точек, то высота в максимуме составит 4%, а если 20 точек – 2%. Здесь проценты означают вероятность попадания случайной величины в узкий диапазон окрестности точки на оси абсцисс. Зато имеет смысл площадь под кривой на определенном интервале. И эта площадь не зависит от плотности точек. Так, например, площадь под кривой на интервале от 0 до 1σ составляет 34,13%. Это значение можно интерпретировать следующим образом: с вероятностью 68,26% случайная величина Х попадет в диапазон µ ± σ.
Теперь, наверное, вам будет лучше понятен смысл выражения «качество шести сигм». Оно означает, что производство налажено таким образом, что случайная величина Х (например, диаметр вала) находясь в диапазон µ ± 6σ, всё еще удовлетворяет техническим условиям (допускам). Это достигается за счет значительного уменьшения сигмы, то есть случайная величина Х очень близка к нормативному значению µ. На графике ниже представлено три ситуации, когда границы допуска остаются неизменными, а благодаря повышению качества (уменьшению вариабельности, сужению сигма) доля брака сокращается:
На первом рисунке только 1,5σ попадают в границы допуска, то есть только 86,6% деталей являются годными. На втором рисунке уже 3σ попадают в границы допуска, то есть 99,75% являются годными. Но всё еще 25 деталей из каждых 10 000 произведенных являются браком. На третьем рисунке целых 6σ попадают в границы допуска, то есть в брак попадут только две детали на миллиард изготовленных!
Вообще-то говоря, измерение качества в терминах сигм использует не совсем нормальное распределение. Вот что пишет на эту тему Википедия:
Опыт показывает, что показатели процессов имеют тенденцию изменяться с течением времени. В результате со временем в промежуток между границами поля допуска будет входить меньше, чем было установлено первоначально. Опытным путём было установлено, что изменение параметров во времени можно учесть с помощью смещения в 1,5 сигма. Другими словами, с течением времени длина промежутка между границами поля допуска под кривой нормального распределения уменьшается до 4,5 сигма вследствие того, что среднее процесса с течением времени смещается и/или среднеквадратическое отклонение увеличивается.
Широко распространённое представление о «процессе шесть сигма» заключается в том, что такой процесс позволяет получить уровень качества 3,4 дефектных единиц на миллион готовых изделий при условии, что длина под кривой слева или справа от среднего будет соответствовать 4,5 сигма (без учёта левого или правого конца кривой за границей поля допуска). Таким образом, уровень качества 3,4 дефектных единиц на миллион готовых изделий соответствует длине промежутка 4,5 сигма, получаемых разницей между 6 сигма и сдвигом в 1,5 сигма, которое было введено, чтобы учесть изменение показателей с течением времени. Такая поправка создана для того, чтобы предупредить неправильною оценку уровня дефектности, встречающееся в реальных условиях.
С моей точки зрения, не вполне внятное объяснение. Тем не менее, во всем мире принята следующая таблица соответствия числа дефектов и уровня качества в сигмах: