Поиск функций хи-квадрат в excel

Как найти хи квадрат критическое в excel. дальнейшее чтение | 📂все о программе word

Ваше мнение, вопросы и комментарии очень важны для нас. Мы ждем с нетерпением вестей от Вас !

Ник 26 апреля 2019 г .:

Я не уверен, как вы пришли к нижнему и верхнему диапазонам корзины. Для меня было бы больше смысла, если бы самый низкий диапазон ячеек начинался с большого отрицательного числа, а самый верхний номер ящика заканчивался большим положительным числом (например, -10 ^ (- 7) и 10 ^ 7). Затем фактические номера ячеек будут использоваться для построения промежуточных диапазонов ячеек. Например, BR_1 будет читать , BR_2 будет читать и так далее, пока в последней строке BR_13 не будет . Почему это не так? Мне кажется, что предписанный метод немного искажает нормальную площадь, которую, как ожидается, будет содержать каждая корзина.

2.1.2. Эмпирическая функция распределения

Это статистический аналог функции распределения из теорвера. Данная функция определяется, как отношение: , где – количество вариант СТРОГО МЕНЬШИХ, чем , при этом «икс» «пробегает» все значения от «минус» до «плюс» бесконечности.

Построим эмпирическую функцию распределения для нашей задачи. Чтобы было нагляднее, отложу варианты и их количество на числовой оси: На интервале – по той причине, что левее ЛЮБОЙ точки этого интервала вариант нет. Кроме того, функция равна нулю ещё и в точке . Почему? Потому, что значение определяет количество вариант (см. определение), которые СТРОГО меньше двух, а это количество равно нулю.

На промежутке – и опять обратите внимание, что значение не учитывает рабочих 3-го разряда, т.к. речь идёт о вариантах, которые СТРОГО меньше трёх (по определению)

На промежутке – и далее процесс продолжается по принципу накопления частот: – если , то ; – если , то ; – и, наконец, если , то – и в самом деле, для ЛЮБОГО «икс» из интервала ВСЕ частоты расположены СТРОГО левее этого значения «икс (см. чертёж выше).

Накопленные относительные частоты удобно заносить в отдельный столбец таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева частоту (красная стрелка), и каждое следующее значение получаем как сумму предыдущего и относительной частоты из текущего левого столбца (зелёные обозначения): Вот ещё, кстати, один довод за вертикальную ориентацию данных – справа по надобности можно приписывать дополнительные столбцы.

Построенную функцию принято записывать в кусочном виде:

а её график представляет собой ступенчатую фигуру: Эмпирическая функция распределения не убывает и принимает значения лишь из промежутка , и если у вас вдруг получится что-то не так, то ищите ошибку.

Теперь смотрим видео, о том, как построить эту функцию в Экселе (Ютуб).

И, конечно, вспомним основной метод математической статистики. Эмпирическая функция распределения строится по выборке и приближает теоретическую функцию распределения . Легко догадаться, что последняя появляется в результате исследования всей генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то звёзды на небе – уже вряд ли. Вот поэтому и важнА функция эмпирическая, и ещё важнее, чтобы выборка была репрезентативна, дабы приближение было хорошим.

Миниатюрное задание для закрепления материала:

Пример 5

Дано статистическое распределение совокупности:

Составить эмпирическую функцию распределения, выполнить чертёж

Решаем самостоятельно – все числа уже в Экселе! Свериться с образцом можно в конце книги. По поводу красоты чертежа сильно не запаривайтесь, главное, чтобы было правильно – этого обычно достаточно для зачёта.

Значение критерия пирсона. Проверка простых гипотез критерием хи-квадрат Пирсона в MS EXCEL

​ Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ 2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном(1857-1936).

2. Для чего используется критерий χ 2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности, содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженностивыглядит следующим образом:

Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

https://youtube.com/watch?v=6mvCE_4xtN8

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых – в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую – 80 некурящих такого же возраста.

В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй – артериальная гипертония наблюдалась у 32 человек.

Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 – 40 = 30) а в группе некурящих – у 48 (80 – 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы – показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

Что такое нормальное распределение?

А Нормальное распределение также известен как Гауссовое распределение или отлично Кривая колокола Отказ Люди используют оба слова взаимозаменяемо, но это означает то же самое. Это непрерывное распределение вероятностей.

Функция плотности вероятности (PDF) для нормального распределения:

Где, отклонение, ценность.

Терминология:

  • Среднее – Среднее это обычное среднее. Сумма общих точек, разделенных на общее количество точек.
  • Стандартное отклонение – Стандартное отклонение Рассказывает нам, как «распространяется» данные. Это мера того, как далеко каждая наблюдаемая стоимость из среднего.

Выглядит непростой, не так ли? Но это очень просто.

1. Пример реализации нормального распределения

Давайте посмотрим на код ниже. Мы будем использовать numpy и matplotlib для этой демонстрации:

# Importing required libraries

import numpy as np
import matplotlib.pyplot as plt

# Creating a series of data of in range of 1-50.
x = np.linspace(1,50,200)

#Creating a Function.
def normal_dist(x , mean , sd):
    prob_density = (np.pi*sd) * np.exp(-0.5*((x-mean)/sd)**2)
    return prob_density

#Calculate mean and Standard deviation.
mean = np.mean(x)
sd = np.std(x)

#Apply function to the data.
pdf = normal_dist(x,mean,sd)

#Plotting the Results
plt.plot(x,pdf , color = 'red')
plt.xlabel('Data points')
plt.ylabel('Probability Density')

2. Свойства нормального распределения

Обычная функция плотности распределения просто принимает точку данных, а также среднее значение и стандартное отклонение и выбрасывает значение, которое мы называем плотность вероятности Отказ

Мы можем изменить форму кривой колоколов, изменив среднее и стандартное отклонение.

Изменение среднего смещения изменится к тому, что означает среднее значение, это означает, что мы можем изменить положение кривой, изменяя среднее значение, в то время как форма кривой остается неповрежденной.

Форма кривой может контролироваться значением стандартного отклонения. Меньшее стандартное отклонение приведет к тесному ограниченному кривой, в то время как высокое значение приведет к более широкому распределению кривой.

Некоторые отличные свойства нормального распределения:

  • Среднее, режим и медиана все равно.
  • Общая площадь под кривой равна 1.
  • Кривая симметрична вокруг среднего.

Эмпирическое правило говорит нам, что:

  • 68% данных падают в течение одного стандартного отклонения среднего.
  • 95% данных падают в течение двух стандартных отклонений среднего.
  • 99,7% данных падают в течение трех стандартных отклонений среднего.

Это безусловно, одно из самых важных распределений во всей статистике. Нормальное распределение волшебное, потому что большая часть явления встречающегося в природе следует нормальному распределению. Например, артериальное давление, баллы IQ, высота следуют нормальному распределению.

Как рассчитывается статистика хи-квадрат?

Статистика хи-квадрат рассчитывается следующим образом:

Суммирование ведется от первого класса i = 1 к последнему, то есть i = k.

В дальнейшем:

–Fили — наблюдаемая частота (взято из полученных данных).

–Fа также это ожидаемая или теоретическая частота (необходимо рассчитать на основе данных).

Чтобы принять или отвергнуть нулевую гипотезу, вычисляем χ2 для наблюдаемых данных и сравнивается со значением, называемым критический квадрат хи, который зависит от степеней свободы k и уровень значимости α:

χ2критический =χ2k, α

Если, например, мы хотим провести тест с уровнем значимости 1%, тогда α = 0,01, если будет 5%, то α = 0,05 и так далее. Мы определяем p, параметр распределения, как:

р = 1 — α

Эти критические значения хи-квадрат определяются по таблицам, содержащим совокупное значение площади. Например, для k = 1, что соответствует 1 степени свободы, и α = 0,05, что эквивалентно p = 1 — 0,05 = 0,95, значение χ2 составляет 3,841.

Проверка статистических гипотез о виде распределения

Задание 1. Дана выборка числа посетителей Интернет – сайта за 30 дней. Проверить по критерию Пирсона на уровне значимости ? = 0,02 статистическую гипотезу о том, что генеральная совокупность, представленная выборкой, имеет нормальный закон распределения.

15 31 26 34 31 30 28 36 35 33 25 35 33 30 27
19 23 28 25 25 41 29 24 17 18 28 30 31 31 31

Решение:
Составим интервальный вариационный ряд.
Построим интервальный статистический ряд. Оптимальное число интервалов определим по формуле Стерджесса: округляем до 6
Ширину интервала разбиения рассчитываем по формуле:
Записываем интервальный статистический ряд:

Интервал

15-19,3

19,3-23,7

23,7-28

28-32,3

32,3-36,7

36,7-41

Частота

4

1

9

9

6

1

По исходным данным выборки с помощью встроенных функций «СРЗНАЧ» и «СТАНДОТКЛОН» рассчитаем выборочную среднюю и среднее квадратическое отклонение:
Произведем проверку статистической гипотезу о том, что генеральная совокупность, представленная выборкой, имеет нормальный закон распределения с помощью критерия согласия Пирсона (уровень значимости .
Вычислим наблюдаемое значение критерия Пирсона:
n=30
Значения функции Лапласа вычислим, используя встроенную функцию MS Excel «НОРМРАСП» с помощью формулы:
Оформим расчеты в таблице.
Таблица 5.1

хi

xi+1

Ф(zi)

Ф(zi+1)

Pi

n/i

ni

15

19,3

-2,247

-1,520

-0,4877

-0,4358

0,0519

1,56

4

3,835

19,3

23,7

-1,520

-0,777

-0,4358

-0,2814

0,1543

4,63

1

2,846

23,7

28

-0,777

-0,051

-0,2814

-0,0202

0,2612

7,84

9

0,173

28

32,3

-0,051

0,676

-0,0202

0,2504

0,2706

8,12

9

0,096

32,3

36,7

0,676

1,419

0,2504

0,4220

0,1717

5,15

6

0,140

36,7

41

1,419

2,145

0,4220

0,4840

0,0620

1,86

1

0,397

Сумма

7,488

Рассчитываем в MS Excel критическое значение  для уровня значимости  и числа степеней свободы k=s-3=6-3=3 (s — число интервалов) находим .
Так как , то гипотезу о нормальном распределении принимаем.
Ответ: на 2% уровне значимости статистическая гипотеза о том, что генеральная совокупность, представленная выборкой, имеет нормальный закон распределения, подтверждается.

Задание 2. При производстве микросхем процессоров используются кристаллы кварца. Стандартом предусмотрено, чтобы у 50 % образцов не было обнаружено ни одного дефекта кристаллической структуры, у 15% — один дефект, у 13 % — 2 дефекта, у 12 % — 3 дефекта, у 10 % более 3 дефектов.
При анализе выборочной партии оказалось, что из 1000 экземпляров распределение по дефектам имеет распределение, указанное в таблице:

0 дефектов

1 дефект

2 дефекта

3 дефекта

более 3

471

159

135

127

108

Можно ли с вероятностью 0,99 (при ? = 0,01) считать, что партия соответствует стандарту?
Решение:
Вычислим наблюдаемое значение критерия Пирсона:
ni – теоретические частоты (в случаях, предусмотренных стандартом); — эмпирические частоты.
Таблица 5.2

№ п/п

ni

n/i

1

500

471

1,786

2

150

159

0,509

3

130

135

0,185

4

120

127

0,386

5

100

108

0,593

Сумма

3,459

Рассчитываем в MS Excel критическое значение  для уровня значимости  и числа степеней свободы k=s-1=5-1=4 (s — число групп) находим .
Так как , то гипотеза о соответствии СТАНДАРТУ проверенной партии образцов микросхем подтверждается.
Ответ: с вероятностью 0,99 можно считать, что партия соответствует стандарту.

Работа с матрицами. Балансовые модели

Задание. Межотраслевой баланс производства и распределения продукции для 4 отраслей имеет вид:

Производящие отрасли

Потребляющие отрасли

Валовой продукт (Х)

1

2

3

4

1

80

45

85

95

475

2

25

35

20

30

825

3

15

15

55

75

650

4

95

5

5

95

820

1. Найти конечный продукт каждой отрасли, чистую продукцию каждой отрасли, матрицу коэффициентов прямых затрат.
2. Какой будет конечный продукт каждой отрасли, если валовой продукт первой отрасли увеличится в 2 раза, у второй увеличится на половину, у третьей не изменится, у четвертой – уменьшится на 10 процентов.
3. Найти валовой продукт, если конечный станет равен 700, 500, 850 и 700.
Решение:
1. Составим матрицу коэффициентов прямых затрат А={aij}, где , j=1,2,…,n.
Зная величины валовой продукции (Xi) для каждой отрасли, можно определить объёмы конечной продукции каждой отрасли (Yi) по формуле:
Y = (E – A)X.
Для нахождения Y будем использовать функцию MS Excel, выполняющую умножение матриц «МУМНОЖ».
Чистую продукцию каждой отрасли (Zj) найдем по формуле:

Таблица 1.1
Полная балансовая таблица для четырех отраслей, полученная на основе исходных данных

Производящие отрасли

Потребляющие отрасли

Конечный продукт (Y)

Валовой продукт (Х)

1

2

3

4

1

80

45

85

95

170

475

2

25

35

20

30

715

825

3

15

15

55

75

490

650

4

95

5

5

95

620

820

Чистая продукция (Z)

260

725

485

525

Валовой продукт (Х)

475

825

650

820

Проверка:  
2. Определим, какой будет конечный продукт каждой отрасли, если валовой продукт первой отрасли увеличится в 2 раза, у второй увеличится на половину, у третьей не изменится, у четвертой – уменьшится на 10 процентов, т.е. если :
Рассчитаем дополнительно величину чистой продукции по каждой отрасли и запишем полную балансовую таблицу, соответствующую данной ситуации.

Таблица 1.2

Производящие отрасли

Потребляющие отрасли

Конечный продукт (Y)

Валовой продукт (Х)

1

2

3

4

1

80

45

85

95

645

950

2

25

35

20

30

1127,5

1237,5

3

15

15

55

75

490

650

4

95

5

5

95

538

738

Чистая продукция (Z)

735

1137,5

485

443

Валовой продукт (Х)

950

1237,5

650

738

Проверка: .
3. Найдем валовой продукт, если конечный станет равен 700, 500, 850 и 700, т.е. Для этого используем формулу:,
где  — матрица коэффициентов полных материальных затрат.
На основе матрицы (Е-А) рассчитаем матрицу , используя функцию «МОБР» MS Excel.
После расчета вектора валового продукта , элементы хij (объём продукции отрасли i, расходуемой в отрасли j) рассчитаем по формуле:.
Рассчитаем дополнительно величину чистой продукции по каждой отрасли и запишем полную балансовую таблицу, соответствующую данной ситуации.

Таблица 1.3

Производящие отрасли

Потребляющие отрасли

Конечный продукт (Y)

Валовой продукт (Х)

1

2

3

4

1

203,33

36,26

142,70

124,99

700

1207,28

2

63,54

28,20

33,58

39,47

500

664,79

3

38,12

12,09

92,33

98,68

850

1091,22

4

241,46

4,03

8,39

124,99

700

1078,87

Чистая продукция (Z)

660,83

584,21

814,22

690,74

Валовой продукт (Х)

1207,28

664,79

1091,22

1078,87

Проверка: .

Проверка распределения на нормальность в EXCEL

history 22 ноября 2016 г.

Описательная статистика

Построение графика проверки распределения на нормальность ( Normal Probability Plot ) является графическим методом определения соответствия значений выборки нормальному распределению.

Предположим, что имеется некий набор данных. Требуется оценить, соответствует ли данная выборка нормальному распределению .

Рассмотренный ниже графический метод основан на субъективной визуальной оценке данных. Объективным же подходом является, например, анализ степени согласия гипотетического распределения с наблюдаемыми данными (goodness-of-fit test), который рассмотрен в статье Проверка простых гипотез критерием Пирсона ХИ-квадрат .

Из-за наличия неустранимой статистической ошибки выборки, присущей случайной величине, невозможно однозначно ответить на вопрос «Взята ли данная выборка из нормального распределения или нет». Поэтому, рассмотренный графический метод, скорее, дает ответ на вопрос «Разумно ли предположение, что оцениваемая выборка взята из нормального распределения »?

Рассмотрим алгоритм построения графика проверки распределения на нормальность ( Normal Probability Plot ) :

  • Отсортируйте значения выборки по возрастанию (значения выборки x j будут отложены по горизонтальной оси Х);
  • Каждому значению x jвыборки поставьте в соответствие значения (j-0,5)/n, где n – количество значений в выборке , j – порядковый номер значения от 1 до n. Этот массив будет содержать значения от 0,5/n до (n-0,5)/n. Таким образом, диапазон от 0 до 1 будет разбит на равномерные отрезки. Этот диапазон соответствует вероятности наблюдения значений случайной величины Z НОРМ.СТ.ОБР() и отложим их по вертикальной оси Y.

Если значения выборки , откладываемые по оси Х, взяты из стандартного нормального распределения , то на графике мы получим приблизительно прямую линию, проходящую примерно через 0 и под углом 45 градусов к оси х (если масштабы осей совпадают).

Расчеты и графики приведены в файле примера на листе Нормальное . О построении диаграмм см. статью Основные типы диаграмм в MS EXCEL .

Примечание : Значения выборки в файле примера сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) . При перерасчете листа или нажатии клавиши F9 происходит обновление данных в выборке . О генерации чисел, распределенных по нормальному закону см. статью Нормальное распределение. Непрерывные распределения в MS EXCEL . Таже значения выборки могут быть сгенерированы с помощью надстройки Пакет анализа .

Если значения выборки взяты из нормального распределения (μ не обязательно равно 0, σ не обязательно равно 1), то угол наклона кривой даст оценку стандартного отклонения σ, а ордината точки пересечения оси Y – оценку среднего значения μ.

Данные оценки несколько отличаются от оценок параметров, полученных с помощью функций СРЗНАЧ() и СТАНДОТКЛОН.В() , т.к. они получены методом наименьших квадратов , рассмотренного в статье про регрессионный анализ.

Примечание : Рассмотренный выше метод в отечественной литературе имеет название Метод номограмм . Номограмма – это листы бумаги, разлинованные определенным образом. Номограмма используется в различных областях знаний. В математической статистике номограмма называется вероятностной бумагой. Такую «вероятностную бумагу» мы практически построили самостоятельно, когда нелинейно изменили масштаб шкалы ординат: =НОРМ.СТ.ОБР((j-0,5)/n)

Интересно посмотреть, как будут выглядеть на диаграмме данные, полученные из выборок из других распределений (не из нормального ). В файле примера на листе Равномерное приведен график, построенный на основе выборки из непрерывного равномерного распределения.

Очевидно, что значения выборки совсем не ложатся на прямую линию и предположение о нормальности выборки должно быть отвергнуто.

Подобная визуальная проверка выборки на соответствие другим распределениям может быть сделана при наличии соответствующих обратных функций . В статье Статистики, их выборочные распределения и точечные оценки параметров распределений в MS EXCEL приведены графики для следующих распределений: Стьюдента , ХИ-квадрат распределения , F-распределения . Подобный график также приведен в статье про распределение Вейбулла .

НОРМСТРАСП функция стандартного нормального распределения в Excel

Функция НОРМСТРАСП в Excel используется для нахождения значения статистической функции стандартного нормального распределения. Рассмотрим примеры использования данной функции и самостоятельно составим таблицу нормального закона.

Алгоритм функции нормального стандартного распределения чисел в Excel

В новых версиях Microsoft Office была введена более универсальная функция =НОРМ.СТ.РАСП(), содержащая дополнительный аргумент, который принимает два возможных значения:

  • ИСТИНА – для получения интегральной функции распределения;
  • ЛОЖЬ – для получения весовой функции распределения.

Стандартное нормальное распределение (СНР) – специальная форма распределения, используемая в качестве эталона для оценки данных любого вида. Данный тип распределения по причине неудобства использования формулы общего нормального распределения на практике.

Главные особенности функции:

  1. Площадь участка, ограниченного кривой и осью абсцисс принята за 1.
  2. Стандартное отклонение считается равным 1.
  3. Среднее арифметическое значение принято равным 0.
  4. В функцию f(x) общего теоретического нормального распределения введена переменная z (стандартная нормальная).

Переменная z рассчитывается по формуле:

  • X – значение некоторой случайной величины;
  • µ — среднее значение;
  • ó — значение стандартного отклонения.

Смысл переменной z – число стандартных отклонений, на которые отличается значение случайной величины от среднего значения.

Функция НОРМСТРАСП возвращает результат, рассчитанный на основе следующей формулы:

Именно так и выглядит алгоритм вычисления функции НОРМСТРАСП в Excel

Таблица стандартного нормального распределения в Excel

Пример 1. Найти стандартные нормальные распределения для числовых данных, указанных в таблице.

Вид таблицы данных:

Для расчетов используем следующую формулу:

A2:A11 – диапазон ячеек, содержащих значения переменной z.

С принципом действия функции мы ознакомились. Теперь ничто нам не мешает составить свою таблицу стандартного распределения в Excel. Для этого построим шаблон таблицы нормального закона и заполним ее ячейки формулой со смешанными ссылками:

Таким образом мы самостоятельно составили таблицу стандартного нормального распределения в Excel.

Расчет вероятности стандартным нормальным распределением в Excel

Пример 2. На заводе изготавливают лампочки. Средний период бесперебойной работы каждой лампы составляет 1000 ч. Стандартное отклонение от срока службы составляет 50 ч. Определить вероятность для каждого из указанных случаев:

  1. Купленная лампа будет работать не более 1200 ч.
  2. Срок службы составит менее 800 ч.
  3. Количество ламп в партии из 500 шт., которые проработают от 900 до 1100 часов.

Вид таблицы данных:

Для расчета вероятности срока службы менее 1200 ч используем следующую формулу:

(1200-B2)/B3 – выражение для расчета переменной z.

В результате вычислений получим следующее значение вероятности:

Аналогично рассчитаем вероятность того, что срок службы составит менее 800 часов:

Результат вычислений (получена слишком маленькая вероятность, поэтому для наглядности был установлен формат Проценты):

Нормальное распределение является симметричным относительно оси ординат, поэтому функция НОРМСТРАСП может вычислить значение даже для отрицательного z.

Для определения числа ламп, которые проработают 900-1100 часов, используем формулу:

То есть, была вычислена разность вероятностей двух событий: есть лампы, которые проработают менее 1100 часов, а также лампы, которые проработают менее 900 часов. Результат произведения полученной вероятности и общего числа ламп в партии является искомым значением.

Медиана и квартили

Квантили нормального распределения

Основная статья: Медиана (статистика)

  • 0,25-квантиль называется первым (или нижним) квартилем (от лат. quarta — четверть);
  • 0,5-квантиль называется медианой (от лат. mediāna — середина) или вторым квартилем>;
  • 0,75-квантиль называется третьим (или верхним) квартилем.

Интерквартильным размахом (англ. Interquartile range) называется разность между третьим и первым квартилями. Интерквартильный размах является характеристикой разброса распределения величины и является робастным аналогом дисперсии. Вместе, медиана и интерквартильный размах могут быть использованы вместо математического ожидания и дисперсии в случае распределений с большими выбросами, либо при невозможности вычисления последних.

Распределение Фишера (F-распределение). Распределения математической статистики в EXCEL

history 12 ноября 2016 г.

Распределения вероятностей

Рассмотрим распределение Фишера (F-распределение). С помощью функции MS EXCEL F .РАСП() построим графики функции распределения и плотности вероятности, поясним применение этого распределения для целей математической статистики.

F-распределение (англ. F-distribution) применяется для целей дисперсионного анализа (ANOVA), при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) и др.

Определение : Если U 1 и U 2 независимые случайные величины, имеющие ХИ2-распределение с k 1 и k 2степенями свободы соответственно, то распределение случайной величины:

носит название F -распределения с параметрами k 1 и k 2 .

Плотность F -распределения выражается формулой:

где Г(…) – гамма-функция:

если альфа – положительное целое, то Г( альфа )=( альфа -1)!

Приведем пример случайной величины, имеющей F -распределение.

Пусть имеется 2 нормальных распределения N(μ 11 ) и N(μ 2 ; σ 2 ), из которых сделаны выборки размером n 1 и n 2 . Если s 1 2 и s 2 2 – дисперсии этих выборок , то отношение

имеет F -распределение. Это соотношение нам потребуется при проверке гипотезы о равенстве дисперсий двух нормальных распределений (F-тест) .

Графики функций

В файле примера на листе График приведены графики плотности распределения вероятности и интегральной функции распределения .

Примечание : Для построения функции распределения и плотности вероятности можно использовать диаграмму типа График или Точечная (со сглаженными линиями и без точек). Подробнее о построении диаграмм читайте статью Основные типы диаграмм .

F-распределение в MS EXCEL

В MS EXCEL, начиная с версии 2010, для F-распределения имеется специальная функция F.РАСП() , английское название – F.DIST(), которая позволяет вычислить плотность вероятности (см. формулу выше) и интегральную функцию распределения (вероятность, что случайная величина Х, имеющая F — распределение , примет значение меньше или равное х, P(X Примечание Плотность вероятности можно также вычислить впрямую, с помощью формул (см. файл примера ).

До MS EXCEL 2010 в EXCEL была функция FРАСП() , которая позволяет вычислить функцию распределения (точнее — правостороннюю вероятность, т.е. P(X>x)). Функция FРАСП() оставлена в MS EXCEL 2010 для совместимости. Аналогом FРАСП() является функция F.РАСП.ПХ() , появившаяся в MS EXCEL 2010.

Примеры расчетов приведены в файле примера на листе Функции .

В MS EXCEL имеется еще одна функция, использующая для расчетов F-распределение – это F.ТЕСТ(массив1;массив2) . Эта функция возвращает результат F-теста : двухстороннюю вероятность того, что разница между дисперсиями выборок «массив1» и «массив2» несущественна. Предполагается, что выборки делаются из нормального распределения .

Обратная функция F-распределения

Обратная функция используется для вычисления альфа — квантилей , т.е. для вычисления значений x при заданной вероятности альфа , причем х должен удовлетворять выражению P

Функция F.ОБР.ПХ() используется для вычисления верхнего квантиля . Т.е. если в качестве аргумента функции указан уровень значимости, например 0,05, то функция вернет такое значение случайной величины х, для которого P(X>x)=0,05. В качестве сравнения: функция F.ОБР() вернет такое значение случайной величины х, для которого P(X F.ОБР.ПХ() использовалась функция FРАСПОБР() .

Вышеуказанные функции можно взаимозаменять, т.к. следующие формулы возвращают одинаковый результат: =F.ОБР(0,05;k1;k2) =F.ОБР.ПХ(1-0,05;k1;k2) = FРАСПОБР (1-0,05;k1;k2)

СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .

Определение

Пусть дана случайная величина X .

Гипотеза : с. в. X подчиняется закону распределения .

Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X:
.
По выборке построим эмпирическое распределение с.в X. Сравнение эмпирического и теоретического распределения (предполагаемого в гипотезе) производится с помощью специально подобранной функции — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий ):

Гипотеза : Хn порождается функцией .

Разделим на k непересекающихся интервалов ;

Пусть — количество наблюдений в j-м интервале: ;

— вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы ;

— ожидаемое число попаданий в j-ый интервал;

Статистика: — Распределение хи-квадрат с k-1 степенью свободы.

Проверка распределения на нормальность в EXCEL

Предположим, что имеется некий набор данных. Требуется оценить, соответствует ли данная выборка нормальному распределению .

Рассмотренный ниже графический метод основан на субъективной визуальной оценке данных. Объективным же подходом является, например, анализ степени согласия гипотетического распределения с наблюдаемыми данными (goodness-of-fit test), который рассмотрен в статье Проверка простых гипотез критерием Пирсона ХИ-квадрат .

Из-за наличия неустранимой статистической ошибки выборки, присущей случайной величине, невозможно однозначно ответить на вопрос «Взята ли данная выборка из нормального распределения или нет». Поэтому, рассмотренный графический метод, скорее, дает ответ на вопрос «Разумно ли предположение, что оцениваемая выборка взята из нормального распределения »?

Рассмотрим алгоритм построения графика проверки распределения на нормальность ( Normal Probability Plot ) :

  • Отсортируйте значения выборки по возрастанию (значения выборки x j будут отложены по горизонтальной оси Х);
  • Каждому значению x jвыборки поставьте в соответствие значения (j-0,5)/n, где n – количество значений в выборке , j – порядковый номер значения от 1 до n. Этот массив будет содержать значения от 0,5/n до (n-0,5)/n. Таким образом, диапазон от 0 до 1 будет разбит на равномерные отрезки. Этот диапазон соответствует вероятности наблюдения значений случайной величины Z<=z j ;
  • Преобразуем значения массива, полученные на предыдущем шаге, с помощью обратной функциистандартного нормального распределения НОРМ.СТ.ОБР() и отложим их по вертикальной оси Y.

Если значения выборки , откладываемые по оси Х, взяты из стандартного нормального распределения , то на графике мы получим приблизительно прямую линию, проходящую примерно через 0 и под углом 45 градусов к оси х (если масштабы осей совпадают).

Расчеты и графики приведены в файле примера на листе Нормальное . О построении диаграмм см. статью Основные типы диаграмм в MS EXCEL .

Примечание : Значения выборки в файле примера сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) . При перерасчете листа или нажатии клавиши F9 происходит обновление данных в выборке . О генерации чисел, распределенных по нормальному закону см. статью Нормальное распределение. Непрерывные распределения в MS EXCEL . Таже значения выборки могут быть сгенерированы с помощью надстройки Пакет анализа .

Если значения выборки взяты из нормального распределения (μ не обязательно равно 0, σ не обязательно равно 1), то угол наклона кривой даст оценку стандартного отклонения σ, а ордината точки пересечения оси Y – оценку среднего значения μ.

Данные оценки несколько отличаются от оценок параметров, полученных с помощью функций СРЗНАЧ() и СТАНДОТКЛОН.В() , т.к. они получены методом наименьших квадратов , рассмотренного в статье про регрессионный анализ.

Примечание : Рассмотренный выше метод в отечественной литературе имеет название Метод номограмм . Номограмма – это листы бумаги, разлинованные определенным образом. Номограмма используется в различных областях знаний. В математической статистике номограмма называется вероятностной бумагой. Такую «вероятностную бумагу» мы практически построили самостоятельно, когда нелинейно изменили масштаб шкалы ординат: =НОРМ.СТ.ОБР((j-0,5)/n)

Интересно посмотреть, как будут выглядеть на диаграмме данные, полученные из выборок из других распределений (не из нормального ). В файле примера на листе Равномерное приведен график, построенный на основе выборки из непрерывного равномерного распределения.

Очевидно, что значения выборки совсем не ложатся на прямую линию и предположение о нормальности выборки должно быть отвергнуто.

Подобная визуальная проверка выборки на соответствие другим распределениям может быть сделана при наличии соответствующих обратных функций . В статье Статистики, их выборочные распределения и точечные оценки параметров распределений в MS EXCEL приведены графики для следующих распределений: Стьюдента , ХИ-квадрат распределения , F-распределения . Подобный график также приведен в статье про распределение Вейбулла .

Понравилась статья? Поделиться с друзьями:
Самоучитель Брин Гвелл
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: